Inicio Tecnología. El data scientist, de lo más solicitado en Silicon Valley

El data scientist, de lo más solicitado en Silicon Valley

big data

Ante la cantidad abrumadora y dispersa de datos que se generan en el entorno de las personas y las empresas, ingenieros del  Instituto Tecnológico de Massachusetts (MIT) han desarrollado un nuevo sistema denominado Data Science Machine o de DSM.

Este software tiene la capacidad de encontrar patrones y modelos de relaciones entre los datos, con el fin de generar predicciones de alta precisión y en menor tiempo. De hecho, se les considera como un complemento natural del inteligencia humana.

Kaliyan Veeramachaneni, investigador en el Laboratorio de Informática e Inteligencia Artificial del MIT, comenta que ‘a partir de nuestra experiencia realizando análisis de datos, uno de los pasos críticos es identificar las variables que se van extraer de la base de datos’.

Para detectar estas variables, el software busca las relaciones inherentes en el diseño de las bases de datos. En ellas normalmente se clasifican datos diferentes en tablas separadas, indicando la existencia de relaciones entre ellos con etiquetas numéricas. Este programa analiza dichas etiquetas y las emplea como guía para buscar correlaciones relevantes entre los datos.

Por ejemplo, una base de datos puede contener en una tabla una lista de productos y su costo, y en otra tabla, una lista de artículos que han sido adquiridos por ciertos clientes. El sistema comenzará por importar los costos de la primera tabla a la segunda, generando una serie de características a partir de ellas, tales como el total de las compras, el costo promedio, el costo mínimo, etc.

Mientras más tablas y más relaciones existan entre ellas, más variables se podrán estudiar. Si están disponibles, el programa también puede incluir en el análisis los denominados ‘datos categóricos’, que son aquellos cuyos valores están restringidos a un rango específico, como es el caso de nombres, marcas o días de la semana correspondientes. Con ellos se generan aún más características que pueden tener un valor predictivo.

Posteriormente, el software comienza ver qué relaciones numéricas existen entre el conjunto de características que ha generado previamente. Si existe una correlación, el programa probará una serie de operaciones que darán lugar a predicciones, que se recombinan de distintas maneras para aumentar su precisión.

Los autores precisan que ‘este sistema no se ha diseñado para reemplazar a los data scientist, el DSM puede producir un primer modelo que ellos mismos pueden refinar’. De cualquier manera, la presencia y funciones del data scientist resultan imprescindibles.

En el mundo real, lo primero que hace el analista es realizar un estudio preliminar para determinar si los datos tienen algún poder predictivo de cara a un resultado concreto. En estas circunstancias el DSM puede dar una respuesta de manera muy rápida.

Max Kanter, estudiante de master en el departamento antes citado, comenta que ‘hay muchísimos datos esperando ser analizados y ahora mismo no se hace nada con ellos’.