Conocimiento Bóveda 2/2 - ICLR 2014-2023
Hynek Hermansky ICLR 2014 - Charla Invitada - Representaciones del Habla: ¿Conocimiento o Datos?
<Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef speech fill:#f9d4d4, font-weight:bold, font-size:14px; classDef data fill:#d4f9d4, font-weight:bold, font-size:14px; classDef auditory fill:#d4d4f9, font-weight:bold, font-size:14px; classDef recognition fill:#f9f9d4, font-weight:bold, font-size:14px; classDef representations fill:#f9d4f9, font-weight:bold, font-size:14px; classDef learning fill:#d4f9f9, font-weight:bold, font-size:14px; A[Hynek Hermansky ICLR 2014] --> B[El habla de alta tasa se reduce
a sonidos de baja tasa. 1] A --> C[Los enfoques basados en datos dominan
desde los años 70. 2] C --> D[Regla de Bayes: probabilidades
de datos acústicos. 3] A --> E[Arquitectura, características claves
en el diseño. 4] A --> F[Filtrado, suavizado de espectros
usando audición humana. 5] F --> G[Estimación de parámetros auditivos
de datos del habla. 6] F --> H[Eliminar variaciones espectrales lentas
reduce diferencias. 7] F --> I[Análisis basado en datos reveló
resolución de frecuencia. 8] A --> J[Redes neuronales derivan
conjuntos de características eficientes. 9] J --> K[Probabilidades posteriores usadas
en reconocimiento híbrido. 10] J --> L[Redes convolucionales aprenden
características auditivas generales. 11] A --> M[Campos receptivos corticales
selectivos a frecuencias. 12] M --> N[Componentes principales hacen
filtrado, abarcan bandas. 13] A --> O[El sistema auditivo mantiene
la tasa de información. 14] O --> P[La audición deriva múltiples
representaciones variables. 15] P --> Q[Adaptarse monitoreando
acuerdo de representaciones prometedor. 16] A --> R[Derivar conocimiento reutilizable
evita aprendizaje redundante. 17] A --> S[Reconocedores necesitan representaciones
profundas, largas, paralelas. 18] S --> T[Redes recurrentes modelan
dependencias largas del habla. 19] S --> U[Representaciones corticales progresan
de acústico a palabras. 20] U --> V[Éxito reconstruyendo respuestas neuronales
de representaciones. 21] A --> W[Métodos no lineales pueden
ajustarse mejor al sistema auditivo. 22] A --> X[Manejo de palabras/idiomas/entornos desconocidos
es un problema abierto. 23] X --> Y[Detectar palabras fuera del vocabulario
sería útil. 24] A --> Z[Sistemas sensoriales usan representaciones
paralelas para adaptarse. 25] Z --> AA[Aprender abstracciones de alto nivel
ayuda en entornos cambiantes. 26] Z --> AB[Representaciones paralelas compitiendo
parecen prometedoras, consistentes. 27] A --> AC[Datos futuros que coinciden con el pasado
es una suposición preocupante. 28] AC --> AD[Detectar cambios en datos/entornos
es un problema importante. 29] AD --> AE[Maneras fundamentadas de manejar
datos desconocidos necesarias. 30] class B,G,H,T,U speech; class C,D,I data; class F,L,M,N,O,W auditory; class J,K,S,V,X,Y recognition; class P,Q,Z,AA,AB representations; class R,AC,AD,AE learning;

Resumen:

1.-El reconocimiento del habla implica reducir la señal de habla de alta tasa a sonidos de baja tasa, requiriendo conocimiento de datos y libros de texto.

2.-Los primeros reconocedores usaban reglas basadas en conocimiento o plantillas basadas en datos, con enfoques basados en datos dominando desde los años 70.

3.-El enfoque estocástico utiliza la regla de Bayes con probabilidades entrenadas en datos acústicos y probabilidades previas de datos de lenguaje.

4.-La arquitectura y la representación de características son elecciones clave de diseño. Se consideran modelos auditivos inspirados biológicamente frente al habla en bruto.

5.-El filtrado y suavizado de espectros usando aspectos de la audición humana como bandas críticas y compresión de sonoridad ayuda a normalizar diferencias de hablante.

6.-Estimar parámetros del procesamiento auditivo a partir de datos del habla, no solo de libros de texto, es importante. El habla puede haber evolucionado para coincidir con la audición.

7.-Eliminar variaciones espectrales lentas, similar al procesamiento cortical, ayuda a reducir los efectos de diferentes respuestas de frecuencia.

8.-El análisis discriminativo basado en datos usando análisis discriminante lineal reveló una disminución de la resolución de frecuencia con el aumento de la frecuencia, coincidiendo con la audición humana.

9.-Las redes neuronales son útiles para derivar conjuntos de características pequeños y eficientes como probabilidades posteriores de sonidos del habla.

10.-Las probabilidades posteriores pueden usarse directamente en reconocimiento híbrido o convertirse en características normalmente distribuidas para reconocedores convencionales.

11.-Las redes convolucionales con pesos compartidos en capas iniciales aprenden características generales de bancos de filtros auditivos a partir de datos.

12.-Las grabaciones fisiológicas muestran campos receptivos corticales selectivos a diferentes frecuencias, resoluciones temporales y resoluciones espectrales.

13.-Los componentes principales de los campos receptivos realizan filtrado de paso de banda y abarcan 3 bandas críticas espectralmente, como se ve en características diseñadas.

14.-El sistema auditivo mantiene la tasa de información aumentando el número de neuronas a medida que las tasas de disparo disminuyen en áreas superiores.

15.-La audición puede derivar múltiples representaciones de variada escasez y escala temporal para elegir la más útil para una situación.

16.-Adaptarse a situaciones desconocidas monitoreando el acuerdo entre múltiples representaciones y eligiendo las confiables es prometedor.

17.-Derivar conocimiento reutilizable, no solo límites de clasificación, a partir de datos de entrenamiento es importante para evitar el aprendizaje redundante del sentido común.

18.-Los reconocedores del habla deben usar representaciones profundas, de largo plazo y múltiples amplias paralelas para manejar la complejidad del mundo real.

19.-Las redes recurrentes son una forma natural de modelar dependencias de largo plazo en el habla que abarcan al menos una longitud de segmento.

20.-Las representaciones corticales progresan de características acústicas a características fonéticas, a fonemas, a sílabas y palabras en diferentes niveles.

21.-Éxito en la reconstrucción de respuestas neuronales auditivas a partir de representaciones escasas aprendidas, similar a la investigación en visión.

22.-PCA es una aproximación lineal, mientras que ICA no lineal y codificación escasa pueden ajustarse mejor al sistema auditivo.

23.-Tratar con palabras/idiomas/entornos desconocidos no vistos en el entrenamiento es un problema abierto clave en el reconocimiento del habla.

24.-Detectar con éxito palabras fuera del vocabulario sería muy útil para que los reconocedores del habla manejen lo desconocido.

25.-Los sistemas sensoriales parecen usar múltiples representaciones paralelas para extraer características útiles del estímulo y adaptarse a nuevas situaciones.

26.-Aprender abstracciones de alto nivel aplicables a muchos problemas de predicción puede ayudar a los sistemas a lidiar con entornos cambiantes.

27.-Investigar experimentalmente representaciones paralelas compitiendo para proporcionar características útiles parece prometedor y consistente con la neurociencia.

28.-El aprendizaje automático a menudo asume que los datos futuros coincidirán con los datos de entrenamiento pasados, pero esto es una limitación preocupante.

29.-Tener sistemas que detecten cuando los datos/entornos han cambiado respecto a las condiciones de entrenamiento es un problema importante de aprendizaje automático a abordar.

30.-El orador espera que la comunidad de ML trabaje en formas fundamentadas de manejar datos desconocidos que no coincidan con los conjuntos de entrenamiento.

Bóveda de Conocimiento construida porDavid Vivancos 2024