Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Llama 3:
Resumen:
1.- La prótesis neural del habla tiene como objetivo restaurar la comunicación natural a personas con parálisis severa, beneficiando potencialmente a más de 3 millones en EE.UU.
2.- Las tecnologías asistivas actuales como el deletreo con movimientos de cabeza o seguimiento ocular son mucho más lentas que el habla natural (15 vs 120+ ppm).
3.- La prótesis neural del habla podría decodificar el habla intencionada del cerebro utilizando interfaces neuronales invasivas (ECoG, matrices de microelectrodos) o no invasivas (EEG).
4.- Más de un siglo de trabajo ha caracterizado el habla en el cerebro, con avances recientes en la decodificación del habla y texto en los últimos 15 años.
5.- Bouchard et al. 2013 mostró respuestas neuronales distintas para diferentes sonidos del habla y un mapa articulatorio en la corteza del habla durante la producción de sílabas.
6.- Anumanchipalli et al. decodificaron el habla de hablantes sanos mapeando la actividad cerebral a formas de onda del habla, pero requiere habilidad de habla residual.
7.- Makin et al. decodificaron la actividad cerebral en oraciones de texto usando una red neuronal convolucional-recurrente, pero también depende de la alineación del habla manifiesta.
8.- El ensayo clínico BRAVO tiene como objetivo decodificar y restaurar la comunicación y el movimiento a individuos paralizados usando varias interfaces de grabación neuronal.
9.- Usando un vocabulario de 50 palabras, decodificaron el habla de un participante paralizado con 25% WER a 15 ppm usando un RNN y modelo de lenguaje.
10.- Ampliar a BCI basado en deletreo permite decodificación de vocabulario abierto - se decodifican 26 clases de letras mientras el usuario intenta deletrear palabras.
11.- El enfoque basado en deletreo logra 11% WER y 6% CER en un vocabulario de 1000 palabras, impulsado por la decodificación neuronal con el modelo de lenguaje refinando la salida.
12.- Sin embargo, el deletreo es antinatural y más lento que el habla natural. Su nuevo enfoque puede sintetizar el habla de una persona paralizada sin requerir habla manifiesta.
13.- La participante Anne, que tuvo un derrame que causó pérdida del habla inteligible, fue implantada con una rejilla ECoG de alta densidad sobre su corteza del habla.
14.- Decodifican probabilidades sobre fonemas, características acústicas del habla y gestos articulatorios de la actividad neuronal de Anne mientras intenta hablar.
15.- El modelo de decodificación de texto utiliza pérdida CTC para mapear la actividad neuronal a probabilidades de fonemas sin alineación, permitiendo decodificación de vocabulario abierto a través del modelo de lenguaje.
16.- Lograron 25% WER a 78 ppm en 1000 palabras en pocas semanas, con la decodificación neuronal impulsando el rendimiento más que el modelo de lenguaje.
17.- Habla sintetizada decodificando probabilidades de unidades de habla y usando un sintetizador condicionado en la voz pre-derrame de Anne para una voz personalizada.
18.- La habla sintetizada logró hasta 90% de inteligibilidad en 50 frases, con un rendimiento menor pero prometedor en conjuntos de frases más grandes de 500-1000.
19.- Gestos articulatorios decodificados de la actividad neuronal para impulsar un avatar 3D en vivo en tiempo real, capturando movimientos faciales expresivos y del habla.
20.- La animación del avatar a partir de gestos decodificados fue tanto inteligible como bien correlacionada con los movimientos faciales de hablantes reales durante el mismo discurso.
21.- La decodificación combinada de audio del habla, texto y animación de avatar proporciona una neuroprótesis incorporada para una restauración de comunicación más completa.
22.- Anne sintió que la síntesis de voz personalizada y el avatar podrían permitirle asesorar a clientes nuevamente y tener una autoexpresión e interacción más completas.
23.- Las mismas representaciones articulatorias permanecen intactas en el cerebro incluso años después de la parálisis, permitiendo que la neuroprótesis del habla funcione.
24.- El trabajo futuro tiene como objetivo traducir estas pruebas de concepto en un dispositivo clínico completamente implantable adecuado para el uso diario en el hogar.
25.- Los desafíos incluyen la robustez entre usuarios, la miniaturización del sistema inalámbrico, mejorar métricas de rendimiento como precisión y latencia, y expandir los idiomas soportados.
26.- Los enfoques de deletreo de alto rendimiento permiten una precisión superior al 99%, pero son lentos. La síntesis en streaming podría permitir conversaciones más naturales de ida y vuelta.
27.- El enfoque de streaming continuo sintetiza audio y texto del habla en incrementos de 80 ms durante la decodificación, duplicando la tasa de habla frente a la síntesis retrasada.
28.- La síntesis en streaming con detección implícita de actividad de voz permite el uso ininterrumpido de varios minutos del decodificador sin ventanas de prueba explícitas.
29.- Las señales neuronales relacionadas con errores pueden ayudar a identificar errores y mejorar el rendimiento y la robustez del sistema de interfaz cerebro-computadora.
30.- Estos enfoques de neuroprótesis del habla funcionan en múltiples idiomas ya que se basan en la decodificación de la articulación del habla en lugar de características específicas del idioma.
Bóveda del Conocimiento construida porDavid Vivancos 2024