Los datos están tratando de viajar a diferentes lugares para descubrir eficiencias operativas y nuevas fuentes de ingresos que ayuden a reinventar los modelos de negocio. Pero hoy en día están atrapados dentro de un tráfico de datos, que los mantienen lejos de alcanzar su destino final.
Ya sea que estén enterrados dentro de un depósito de almacenamiento empresarial, en el despliegue de un prototipo de Hadoop, o en cualquier otro lugar, los datos ofrecen la oportunidad de proporcionar una nueva y emocionante perspectiva de negocios, sin embargo es necesario mejorar la infraestructura analítica para superar la brecha que existe actualmente entre los datos y la capacidad del cómputo. Hoy en día, la problemática con las plataformas de análisis radica en que éstas se basan en gran medida en tecnologías que almacenan los datos en almacenes o los amontonan en plataformas computacionales.
El mercado actual está lleno de plataformas computacionales que cuentan con información fragmentada y con productos especializados, los cuales sólo resuelven cierto tipo de problemas.
Anteriormente la ecuación tecnológica solía ser simple: sólo se necesitaba contar con un procesador más rápido que gestionara los datos en menor tiempo, o bien, una solución de software de código abierto que proporcionara más opciones de personalización; pero en la actualidad, esta ecuación tecnológica no se beneficiaría sin ambas soluciones. Por un lado, si se utiliza sólo el software Apache Hadoop, no se aprovechan las funciones y la potencia con la que cuenta la plataforma del hardware requerida para realizar análisis detallados y a profundidad, mientras que por otro lado, el hardware por sí sólo no puede determinar o analizar los estándares y tendencias de los diferentes datos obtenidos. Es por eso que Intel y Cloudera llevaron a cabo una asociación para unir el software Hadoop con un hardware avanzado, con el objetivo de crear una plataforma unificada que dé solución a la problemática computacional actual.
En esencia, la asociación entre ambas compañías está modernizando la carretera de dos carriles en la que los grandes volúmenes de datos y análisis viajan actualmente hacia una autopista completa de ocho carriles que permita un mayor número de conexiones, así como el robustecimiento de los enlaces entre los lugares donde residen los datos.
El siguiente paso en la evolución del análisis de datos está en la construcción de un sistema que tenga mayores carreteras conectadas a un Hub central de información. Asimismo, las arterias principales tendrán a su vez rutas más angostas, cuyo radio abarcará tanto el centro como los bordes de la red. Si bien hay cierta centralización en este modelo, también existe una red distribuida uniformemente para asegurar que todas las rutas estén abiertas y que los datos puedan moverse libremente en todo momento.
¿Cuál es el beneficio de esta reestructuración?: una perspectiva más profunda y de mayor alcance, ofrecida de acuerdo a las necesidades de cada cliente.
Tomemos como ejemplo la creación de un centro de atención sanitaria personalizada. La salud de un individuo depende de tipos de datos como: la composición genética; el comportamiento individual, los ejercicios y la dieta; y las relaciones, por ejemplo, la transmisión de enfermedades por proximidad. Para crear una solución de medicina personalizada, se tendría que hacer coincidir las cifras de las categorías anteriores y luego correlacionarlas con los datos obtenidos de los estudios clínicos, para así identificar los métodos de tratamiento más efectivos para cada paciente. Esto representa una enorme cantidad de datos para analizar, pero a su vez ofrece la promesa de un mejor diagnóstico, tratamiento y cura de cada padecimiento.
Con el fin de revisar todos estos datos de manera rápida y efectiva, es necesario que ambas soluciones, tanto los potentes procesadores de análisis de datos genómicos como el software perfeccionado para este tipo de tareas, sean capaces de encontrar correlaciones entre los indicadores de salud que arroja cada paciente, con los datos universales generados anteriormente por la población en general. En este ejemplo, llegar a una solución personalizada sólo es posible a través de una infraestructura conjunta de soluciones de hardware y de software, lo que podría asimilarse a optar por viajar por la nueva autopista de ocho carriles que lleve a los usuarios rápidamente al lugar que deseen, en lugar de recorrer la antigua ruta de dos carriles que ha existido durante décadas.
Por Ron Kasabian, Gerente General de Soluciones de Big Data para Datacenters de Intel Corporation y Charles Zedlewski, Vicepresidente de Productos de Cloudera