Inicio Inteligencia Artificial Google DeepMind presenta nuevos modelos de IA para robots humanoides

Google DeepMind presenta nuevos modelos de IA para robots humanoides

Gemini Robotics y Gemini Robotics-ER amplían las capacidades de la robótica con visión-lenguaje-acción y razonamiento espacial avanzado

Google DeepMind presentó dos modelos de inteligencia artificial diseñados para impulsar una nueva generación de robots humanoides: Gemini Robotics y Gemini Robotics-ER.

Basados en Gemini 2.0, estos modelos amplían la capacidad de los robots para ejecutar tareas complejas en entornos reales.

Gemini Robotics es un modelo de visión-lenguaje-acción (VLA) que incorpora el control directo de acciones físicas. Con esta tecnología, los robots pueden realizar tareas de precisión que requieren múltiples pasos, como plegar origami o colocar un bocadillo en una bolsa con cierre hermético.

Para lograr una robótica más útil en el mundo real, Google identifica tres requisitos clave: versatilidad para adaptarse a distintos escenarios, capacidad de respuesta ante instrucciones y cambios en el entorno, y destreza en la manipulación de objetos.

Según la compañía, Gemini Robotics mejora significativamente en estos tres aspectos, acercándose a la visión de robots de propósito general.

Por otro lado, Gemini Robotics-ER es un modelo de visión-lenguaje (VLM) optimizado para el razonamiento espacial. Esta tecnología permite a los expertos en robótica desarrollar sus propios programas, mejorando habilidades como la detección 3D y la planificación de movimientos. Un ejemplo práctico es la capacidad del modelo para identificar el mejor punto de agarre de una taza y calcular una trayectoria segura para alcanzarla.

Google DeepMind colabora con Apptronik en el desarrollo de esta nueva generación de robots humanoides y trabaja con grupos selectos de prueba para perfeccionar Gemini Robotics-ER.

La compañía destaca que, aunque los modelos Gemini han demostrado razonamiento multimodal en texto, imágenes, audio y video, su aplicación se ha limitado al ámbito digital. Con estos nuevos avances, Google busca trasladar estas capacidades al mundo físico, permitiendo a la IA comprender mejor su entorno y ejecutar acciones de manera segura y efectiva.