Una mujer que sufrió un ictus hace casi 20 años recupera el habla gracias a un implante cerebral
Investigadores de la Universidad de California han conseguido que Ann pueda traducir sus pensamientos con una voz sintética, de una forma instantánea, natural y fluida gracias a la Inteligencia Artificial.

Madrid--Actualizado a
Una mujer que sufrió un ictus hace casi 20 años ha conseguido traducir sus pensamientos a voz de forma instantánea gracias a un implante cerebral que han desarrollado investigadores de las sedes de la Universidad de California en San Francisco y en Berkeley (EEUU).
Los científicos, que han publicado el descubrimiento en Nature Neuroscience, consiguieron mejorar este dispositivo, conocido como interfaz cerebro-ordenador (BCI, por sus siglas inglés), con algoritmos de inteligencia artificial (IA) que descodificaban las frases a medida que la mujer las pensaba y luego las pronunciaba en voz alta, utilizando una voz sintética.
Así, a diferencia de las iniciativas anteriores, que solo producían sonidos cuando el usuario terminaba de pronunciar una frase, el método actual puede detectar palabras y convertirlas simultáneamente en voz en menos de tres segundos.
La participante en el estudio, Ann, perdió la capacidad de hablar tras sufrir un derrame cerebral en el tronco del encéfalo en 2005. Unos 18 años después, se sometió a una intervención quirúrgica para la colocación de un rectángulo (delgado como un papel) con 253 electrodos en la superficie de la corteza cerebral. El implante puede registrar la actividad combinada de miles de neuronas al mismo tiempo.
Los investigadores personalizaron la voz sintética para que sonara como la voz de Ann antes de lesionarse, entrenando algoritmos de IA con grabaciones del vídeo de su boda.
Kaylo Littlejohn, coautor principal del estudio, ha explicado: "Adoptamos técnicas de transductor de flujo continuo, similares a las utilizadas por métodos ASR (siglas en inglés de Reconocimiento Automático del Hablar) populares como Siri o Alexa, y las reutilizamos para la síntesis personalizada cerebro-voz".
Littlejohn ha destacado: "Este enfoque dio lugar a mejoras significativas en la velocidad de descodificación de la neuroprótesis cerebro-voz, en comparación con enfoques anteriores con retardos más largos".
En el estudio, los científicos explican que la comunicación oral natural es instantánea, y que los retrasos en el habla superiores a unos segundos pueden interrumpir el flujo natural de la conversación. "Esto dificulta que las personas con parálisis participen en un diálogo significativo, lo que puede provocar sentimientos de aislamiento y frustración", afirman.
Por ello, los expertos diseñaron y utilizaron modelos transductores de redes neuronales recurrentes de aprendizaje profundo, para lograr una síntesis del habla fluida, inteligible y de vocabulario amplio en línea, personalizada según la voz de la participante. Los científicos señalan: "Nuestros hallazgos introducen un paradigma de habla-neuroprótesis para restaurar la comunicación hablada naturalista en personas con parálisis".
Frases de entrenamiento
Los investigadores han diseñado una neuroprótesis de síntesis del habla que permite a Ann expresarse a partir de señales neuronales adquiridas de una matriz de ECoG de 253 canales, implantada sobre la superficie de su corteza córtex sensoriomotor y una pequeña porción del lóbulo temporal.
Para entrenar el sistema, registraron los datos neuronales mientras Ann intentaba pronunciar frases sueltas. Se le presentó un texto en un monitor y se le pidió que empezara a intentar hablar en silencio una vez que apareciera un mensaje visual de GO.
Además, el habla sintetizada se transmitía a través de un altavoz analógico cercano, y el texto descodificado se mostraba en el monitor. Los descodificadores neuronales del sistema eran bimodales: se entrenaron conjuntamente no sólo para sintetizar el habla, sino también para descodificar el texto a la vez.
Asimismo, evaluaron el sistema utilizando un conjunto de frases de vocabulario reducido –de 50 frases– y un conjunto de frases de vocabulario extenso –con 1.024 palabras generales–. El primer conjunto se diseñó como un grupo de oraciones predefinidas para expresar las necesidades primarias de los cuidadores.
Por el contrario, el grupo de 1.024 palabras generales se diseñó como un conjunto de frases de gran vocabulario que contenía 12.379 frases únicas compuestas por 1.024 palabras únicas, extraídas de la red social X (antes Twitter) y de transcripciones de películas.
Comentarios de nuestros socias/os
¿Quieres comentar?Para ver los comentarios de nuestros socias y socios, primero tienes que iniciar sesión o registrarte.