Lo que se requiere para ser un gurú del Big Data

Tener la profesión de científico de datos significa que se tienen conocimientos de múltiples disciplinas técnicas, incluyendo ciencias de la computación, analítica, matemáticas, generación de modelos y estadística. Implica analizar cantidades masivas de información significativa y luego comunicar esa información al equipo de administración de una organización.

Así es como Anjul Bhambhri, vicepresidente de Productos Big Data de IBM, describe la profesión: “Un científico de datos es alguien inquisitivo, quien puede fijar la vista en datos y detectar tendencias. Es casi como un individuo del Renacimiento que realmente desea aprender y traer cambios a la empresa”.

Los científicos de datos reciben a menudo cómodos sueldos de seis cifras por su pericia, según informa Glassdoor.com, y no obstante los empleadores batallan para encontrar solicitantes calificados para analizar sus torrentes de Big Data. Según un estudio realizado en 2011 por McKinsey Global Institute, Estados Unidos podría enfrentar una escasez de hasta 190,000 científicos de datos para 2018. En México el país aún está en pañales en este tema.

Un mundo de modelación y visión

Para recabar información del mundo del científico de datos, la publicación hermana InformationWeek habló con un practicante real del arte: Jacob Spoelstra, director global de Investigación y Desarrollo de Opera Solutions, firma de analítica predictiva que emplea a más de 200 científicos de datos. Nativo de Sudáfrica, Spoelstra reside en San Diego, California (Estados Unidos). Tiene una licenciatura y maestría en ingeniería eléctrica de la Universidad de Pretoria, y un doctorado en ciencias de la computación de la Universidad del Sur de California.

¿Qué capacitación necesita un científico de datos? “El conjunto de habilidades que buscamos de manera específica son antecedentes en aprendizaje y modelado mecánico, que se obtiene de los campos de las ciencias de la computación, ingeniería eléctrica y estadística”, dijo Spoelstra. También es fundamental tener habilidades de programación. “A menudo hablamos acerca de esta combinación de arte y ciencia”, comentó.

Un científico de datos talentoso debe ser adepto para hallar el significado oculto en los GB, y a menudo TB, de datos. Es esencial que él o ella entienda el problema que los datos pueden resolver.

“¿Cuáles son las conductas que necesitamos buscar (de las cuales esperamos encontrar evidencia en los datos)? Por ejemplo, alguien que pierde interés [en un servicio] podría manifestarse pasando menos tiempo en el Web e iniciando sesiones con menor frecuencia”, señaló Spoelstra.

Los científicos de datos deben escribir programas que capturen los conceptos que desean. “Por ejemplo, quizá realice una transformación matemática donde observa una tendencia en el tiempo (el número de inicios de sesión o la cantidad de tiempo que una persona pasó en el sitio Web). Esas conductas se capturan utilizando fórmulas”, explicó el experto.

El entrevistado invitó a suponer, por ejemplo, que una compañía financiera desea saber quiénes de sus clientes tienen la mayor probabilidad de solicitar un préstamo de forma predeterminada en los próximos seis a 12 meses “Si analiza el archivo del buró de crédito de una persona –dijo–, podría haber miles de elementos sin procesar ahí. Lo que tiene que hacer el científico de datos es capturar esos conceptos, que a menudo no están codificados de manera explícita en los datos. Pero la información está ahí.” Y es ahí donde la información artística puede ayudar. El científico de datos “debe entender el problema desde la perspectiva de negocios y preguntar: ‘¿Cómo voy a encontrar eso en los datos?’”, señaló Spoelstra.

Ahora, bien, si la profesión paga bien, ¿por qué hay escasez de científicos de datos? Para el experto, “una de las razones es que existe una demanda muy alta en el campo del Big Data y la analítica predictiva. Otro problema es que las universidades no necesariamente aportan las habilidades que se necesitan para el puesto, aunque Spoelstra cree que eso puede estar cambiando.

La ciencia de los datos es una colaboración entre “hombre y máquina”, expuso.

El ser humano conoce el problema de los negocios, pero la máquina puede hacer el trabajo duro de generar cientos de miles de señales útiles potenciales a partir de los datos. Luego la máquina busca esas señales y saca a la superficie las que puedan ser de utilidad.

Como conclusión, Spoelstra comentó: “El ser humano está en el aro y la máquina mejora y agiliza el trabajo del ser humano”.

SÍGUENOS

Síganos en TwitterSíganos en FacebookSíganos en LinkedinSíganos en Youtube