OpenAI ya tiene la capacidad de replicar voces humanas de manera emotiva y realista a través de su modelo Voice Engine, utilizando una muestra de sonido de 15 segundos.
Sin embargo, la empresa decidió no lanzar esta tecnología al público debido a sus riesgos asociados.
‘Somos conscientes de los serios riesgos implicados en la generación de discurso que se asemeje a las voces humanas, especialmente en un contexto electoral’, señalaron los desarrolladores de ChatGPT en un comunicado.
El Voice Engine es un innovador modelo de inteligencia artificial que convierte texto en voz, permitiendo la creación de voces sintéticas.
Esta tecnología podría facilitar la traducción de contenido manteniendo los acentos naturales y ayudar a personas con dificultades de comunicación verbal, como aquellas que necesitan utilizar su voz para hacer llamadas telefónicas.
Aunque se han dado ejemplos de traducciones de voces de angloparlantes a otros idiomas, conservando el acento original, OpenAI ha restringido el acceso a esta tecnología a empresas seleccionadas, como Age of Learning, HeyGen, Dimagi, Livox y Lifespan, debido a preocupaciones sobre un posible uso indebido.
La empresa ha optado por un enfoque prudente, implementando medidas de seguridad, como marcas de agua para rastrear el origen de cualquier audio generado por Voice Engine, y monitoreo activo de su uso.
Además, las empresas que utilizan esta tecnología deben adherirse a políticas que prohíben el uso de voces sin consentimiento y deben informar a los usuarios cuando interactúan con voces sintéticas.
El uso indebido de voces sintéticas generadas por IA plantea serias preocupaciones, como el riesgo de estafas para acceder a cuentas bancarias que utilizan autenticación de voz. Por lo tanto, OpenAI ha decidido ser cautelosa en su implementación más amplia.