Un equipo de científicos de la Universidad de California en Berkeley y San Francisco desarrolló un dispositivo capaz de traducir la actividad cerebral del habla en palabras audibles casi en tiempo real, permitiendo que una mujer de 47 años con tetraplejia hablara por primera vez en 18 años.
Este avance resuelve el problema de latencia en las neuroprótesis del habla, es decir, el tiempo que transcurre entre el intento de hablar y la producción del sonido.
Gracias a los últimos desarrollos en inteligencia artificial (IA), los investigadores crearon un método de transmisión que convierte las señales cerebrales en habla audible casi sin retraso. El estudio fue publicado en la revista Nature Neuroscience.
‘Nuestro enfoque de transmisión en tiempo real aplica la misma capacidad de decodificación rápida del habla que tienen dispositivos como Alexa y Siri a las neuroprótesis’, explica Gopala Anumanchipalli, co-investigador principal del estudio.
‘Usando un algoritmo similar, descubrimos que podíamos descodificar datos neuronales y, por primera vez, lograr una transmisión de voz prácticamente sin demora. El resultado es una síntesis del habla más natural y fluida’, detalla el investigador.
Para Edward Chang, otro de los científicos principales, esta tecnología tiene un gran potencial para mejorar la calidad de vida de personas con parálisis severas que afectan el habla. ‘Es emocionante ver cómo los avances en IA están acelerando el desarrollo de interfaces cerebro-computadora para su aplicación en el mundo real en un futuro cercano’.
Como parte de un ensayo clínico, los equipos de Chang y Anumanchipalli implantaron la interfaz cerebro-computadora en una mujer de 47 años con tetraplejia, quien no había podido hablar ni vocalizar desde hacía 18 años debido a un accidente cerebrovascular.
Para entrenar el algoritmo, los investigadores pidieron a la participante que mirara frases en una pantalla, como ‘hola, ¿cómo estás?’, e intentara pronunciarlas en silencio.
Luego, usaron una red neuronal de aprendizaje profundo para analizar la actividad cerebral de la participante mientras formulaba frases internamente. Los datos fueron registrados mediante electrodos implantados sobre la corteza sensomotora del habla, procesando un vocabulario de 1,024 palabras únicas.
El modelo resultante permitió descodificar el habla en tiempo real y generar audio con la voz de la participante, reconstruida a partir de grabaciones previas a su lesión.
Cheol Jun Cho, otro de los autores del estudio, explica que la neuroprótesis capta datos neuronales de la corteza motora, la región cerebral que controla la producción del habla, y luego usa IA para interpretar estas señales y convertirlas en voz.
‘Básicamente, interceptamos las señales que traducen el pensamiento en articulación. Es decir, desciframos la actividad neuronal que ocurre después de decidir qué decir y cómo mover los músculos del tracto vocal’, detalla Cho.
En estudios previos, los investigadores enfrentaban una latencia de descodificación de hasta 8 segundos por frase. Con este nuevo método de transmisión, la salida audible se genera casi al instante, al mismo tiempo que la persona intenta hablar, según un comunicado de la Facultad de Ingeniería de la Universidad de California en Berkeley.
Para validar el sistema, los investigadores probaron su capacidad de sintetizar palabras que no estaban en el vocabulario de entrenamiento. Seleccionaron 26 términos del alfabeto fonético de la OTAN, como ‘alpha’ y ‘bravo’.
‘Descubrimos que nuestro modelo lo hace bien, lo que confirma que realmente está aprendiendo los componentes básicos del sonido y la voz’, concluye Anumanchipalli.