OpenAI anunció esta semana una versión mejorada del modelo de inteligencia artificial que impulsa el popular chatbot, llamada ChatGPT-4o.
Al observar las demostraciones de la herramienta, destaca inmediatamente una cosa: la rapidez y el dinamismo con los que el bot responde con su propia voz generada por IA a las declaraciones de los humanos.
El evento de lanzamiento, organizado por la compañía y transmitido en vivo desde la oficina de OpenAI en San Francisco, contó con una voz femenina y alegre que respondía en tiempo real a consultas y comandos.
ChatGPT-4o rápidamente cumplió con las solicitudes de los líderes de investigación, Mark Chen y Barrett Zoph, realizando acciones como narrar un cuento antes de dormir o ayudar a resolver un problema matemático.
ChatGPT ya está presente en diversas aplicaciones de OpenAI, donde el chatbot puede responder a preguntas y comandos hablados con una de las cinco voces que los usuarios eligen. Sin embargo, existe un notable retraso entre hacer una pregunta.
Las nuevas capacidades de voz parecen más ágiles e imitan el habla humana de manera más natural, dando la sensación de un compañero de conversación real en lugar de un asistente de IA convencional, definitivamente más avanzado que las voces de ChatGPT existentes y a años luz de los primeros días de Alexa, de Amazon y Siri, de Apple.
OpenAI afirmó que esta nueva versión de su ‘modo de voz’ puede responder a una persona que le habla en un promedio de 320 milisegundos, lo que no está muy lejos de la rapidez con la que se respondería en una conversación.
Esta función se implementará en las próximas semanas. A diferencia de una serie de funciones de GPT-4 que cualquiera puede usar de forma gratuita, será exclusiva para los usuarios de pago de ChatGPT Plus, al menos por ahora.
Con la nueva función no solo se puede cambiar la voz, sino también el estado de ánimo. Chen mencionó que el modelo de IA puede generar voces en una variedad de estilos, y lo demostró ordenándole que cuente una historia en un tono más dramático que el feliz del comienzo.
Los asistentes de voz han evolucionado enormemente a lo largo de los años y es evidente que pueden hacer que sea más fácil realizar tareas como reproducir la canción correcta de Taylor Swift mientras se conduce, o permitir traducciones rápidas entre hablantes de dos idiomas diferentes.
A medida que estas voces se vuelven cada vez más humanas en tono, entrega y velocidad de reacción, también aumenta la posibilidad de que las cosas salgan mal. Es preocupante su capacidad para engañar a la gente. La tecnología que sustenta ChatGPT ya tiende a inventar cosas de manera que parezcan verídicas.
En una entrevista después de las demostraciones, se dijo que el modelo estaba programado para tener una personalidad divertida. No pretende ser coqueto, sino más bien divertido y alegre.