Hitachi Vantara, una subsidiaria propiedad de Hitachi, anunció capacidades adicionales para orquestación de aprendizaje de máquina, con el fin de ayudar a los científicos de datos a monitorear, probar, reacondicionar y volver a implementar modelos supervisados en producción.
«Una innovación de Hitachi Vantara Labs, conocida colectivamente como ‘gestión del modelo de aprendizaje de máquina’, puede utilizar estas nuevas herramientas en una fuente de datos incorporada en Pentaho para ayudar a mejorar los resultados de negocio y reducir el riesgo facilitando la actualización de los modelos en respuesta al cambio continuo. La mejora en la transparencia brinda a las personas dentro de las organizaciones mejores perspectivas y confianza en sus algoritmos. Hitachi Vantara Labs hace disponible la gestión de modelos de aprendizaje de máquina a través de un complemento en Pentaho Marketplace”, señaló John Magee, Vicepresidente de marketing de productos de Hitachi Vantara.
De acuerdo al ejecutivo, la nueva gestión de modelos de ciencias de los datos mejora el proceso de las implementaciones del aprendizaje de máquina en tres áreas:
Se logra que los modelos entren a producción más rápido: Los nuevos pasos de orquestación del aprendizaje de máquina soportan la ingeniería de datos y funciones. Estos pasos evalúan los modelos y mejoran su precisión utilizando datos reales de producción antes de comenzar a funcionar. «Para un mayor ajuste del modelo y para evitar el sobreajuste, los equipos de operaciones de datos pueden generalizar los modelos comparándolos con datos de prueba de producción utilizando una selección de técnicas de evaluación de validación cruzada y retención. Las tareas de limpieza y preparación de datos específicas del algoritmo, también conocidas como «preparación de datos de última milla”, ahora están automatizadas. Los equipos de operaciones pueden ajustar los parámetros del modelo utilizando una GUI simple en lugar de escribir y mantener el código, lo cual libera a los científicos de datos para que puedan desarrollar nuevos modelos”, asegura Magee.
Maximiza la precisión del modelo, mientras está en producción: Una vez que un modelo está en producción, su precisión generalmente se degrada a medida que los nuevos datos de producción pasan por él. Para evitar esto, un nuevo rango de estadísticas de evaluación ayuda a identificar los modelos degradados. «Las visualizaciones e informes enriquecidos facilitan el análisis del desempeño del modelo y descubren errores. Cuando se producen actualizaciones o cambios, los nuevos modelos ‘desafiantes’ pueden ser fácilmente pasados por una prueba tipo A/B en comparación con los modelos «campeones”actuales. Como los resultados de las pruebas se devuelven más rápido, el modelo se puede ajustar antes”, indicó el ejecutivo.
Colabora y gobierna las operaciones del modelo a escala: Más organizaciones exigen visibilidad sobre la forma en que los algoritmos toman las decisiones. La falta de transparencia a menudo conduce a una colaboración deficiente en los grupos que despliegan y mantienen modelos como los equipos de operaciones, científicos de datos, ingenieros de datos, desarrolladores y arquitectos de aplicaciones. «Estas nuevas capacidades de Hitachi Vantara promueven la colaboración, proporcionando un linaje de datos de los pasos del modelo y la visibilidad de las fuentes de datos y las características que alimentan el modelo. Esta mayor transparencia permite que los datos y las fuentes de datos se compartan, estandaricen y reutilicen fácilmente en todos los equipos, permitiendo crear más rápidamente nuevas aplicaciones de aprendizaje de máquina. Beneficiándose de una plataforma de nivel empresarial, los pasos del modelo del aprendizaje de máquina están incorporados en las fuentes de datos y pueden ejecutar grandes volúmenes de datos en un entorno altamente disponible y seguro”, indicó Magee.
Se puede acceder a las capacidades de gestión del modelo en el Pentaho Marketplace desde el 6 de marzo del 2018. Estos complementos no están siendo soportados actualmente y estarán disponibles para probarlos. En versiones futuras, podrán integrarse en Pentaho Data Integration (PDI).