Conocimiento Bóveda 6 /56 - ICML 2020
Aprendizaje de representación en datos secuenciales con priors latentes
Jan Chorowski
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4f9, font-weight:bold, font-size:14px classDef basics fill:#f9d4d4, font-weight:bold, font-size:14px classDef models fill:#d4f9d4, font-weight:bold, font-size:14px classDef techniques fill:#d4d4f9, font-weight:bold, font-size:14px classDef challenges fill:#f9f9d4, font-weight:bold, font-size:14px classDef applications fill:#d4f9f9, font-weight:bold, font-size:14px Main["Aprendizaje de representación en
datos secuenciales con
priors latentes"] --> A["Conceptos Fundamentales"] Main --> B["Modelos y Arquitecturas"] Main --> C["Técnicas de Aprendizaje"] Main --> D["Desafíos y Soluciones"] Main --> E["Aplicaciones y Extensiones"] A --> A1["Aprendizaje no supervisado: representar datos secuenciales
no etiquetados 1"] A --> A2["Descubrir unidades en el habla y
la escritura 2"] A --> A3["Representación latente: forma de datos compacta y
útil 3"] A --> A4["Cuello de botella fuerza representaciones eficientes 7"] A --> A5["Filtrado de información retiene lo relevante, descarta
lo irrelevante 10"] A --> A6["Aprendizaje sin ejemplos: realizar en datos no
vistos 11"] B --> B1["Autoencoder: codificar, luego reconstruir la entrada 4"] B --> B2["VAE: codificar datos como distribuciones de
probabilidad 5"] B --> B3["VQVAE: representaciones latentes discretas mediante
agrupamiento 6"] B --> B4["Modelos autorregresivos predicen a partir de valores
pasados 8"] B --> B5["Modelo Markoviano: transiciones de estado probabilísticas 19"] B --> B6["Modelo de Markov Profundo Convolucional: CNNs
con dinámica Markoviana 20"] C --> C1["Clasificadores de prueba analizan representaciones no supervisadas 9"] C --> C2["Prior de suavidad: representaciones latentes cambian
suavemente 12"] C --> C3["Jittering temporal impone suavidad sin
colapso 14"] C --> C4["Optimización restringida impone propiedades deseadas 16"] C --> C5["Relajación Lagrangiana convierte restringido a
no restringido 17"] C --> C6["Algoritmo codicioso fusiona vectores latentes 18"] D --> D1["Colapso latente ignora representaciones latentes 13"] D --> D2["Representación constante por partes dentro de unidades 15"] D --> D3["Inferencia variacional aproxima distribuciones complejas 21"] D --> D4["Prior lingüístico incorpora conocimiento de estructura
del lenguaje 22"] D --> D5["Codificación contrastiva contrasta muestras relacionadas y no
relacionadas 23"] D --> D6["Maximizar información mutua entre entradas y
latentes 24"] E --> E1["Wave2Vec: técnica de reconocimiento de habla auto-supervisada 25"] E --> E2["MIME-CPC: información mutua y codificación
contrastiva 26"] E --> E3["Pixel CNN genera imágenes píxel a píxel 27"] E --> E4["WaveNet genera formas de onda de audio crudo 28"] E --> E5["Reconstrucción de banco de filtros mide la reconstrucción
del espectrograma 29"] E --> E6["Información tonal: patrones de tono llevan
significado 30"] class Main main class A,A1,A2,A3,A4,A5,A6 basics class B,B1,B2,B3,B4,B5,B6 models class C,C1,C2,C3,C4,C5,C6 techniques class D,D1,D2,D3,D4,D5,D6 challenges class E,E1,E2,E3,E4,E5,E6 applications

Resumen:

1.- Aprendizaje no supervisado: Técnica para aprender representaciones de datos secuenciales sin datos etiquetados, útil para entender la estructura en documentos como el manuscrito Voynich.

2.- Descubrimiento de unidades no supervisado: Encontrar límites y agrupar datos en el habla y la escritura para identificar caracteres o fonemas.

3.- Representación latente: Capturar información esencial de los datos de entrada en una forma más compacta y útil.

4.- Autoencoder: Red neuronal que codifica datos de entrada, luego los decodifica para reconstruir la entrada original.

5.- Autoencoder Variacional (VAE): Modelo generativo que aprende a codificar datos como distribuciones de probabilidad en el espacio latente.

6.- VAE Cuantizado Vectorial (VQVAE): Variante de VAE que utiliza representaciones latentes discretas mediante el agrupamiento de salidas del codificador.

7.- Cuello de botella: Restringir el flujo de información en un modelo para forzarlo a aprender representaciones eficientes.

8.- Modelos autorregresivos: Modelos que predicen valores futuros basándose en valores pasados, utilizados para reconstruir datos de representaciones latentes.

9.- Clasificadores de prueba: Pequeños clasificadores supervisados utilizados para analizar el contenido de información en representaciones de modelos no supervisados.

10.- Filtrado de información: Retener selectivamente información relevante (por ejemplo, fonemas) mientras se descarta información irrelevante (por ejemplo, identidad del hablante).

11.- Aprendizaje sin ejemplos: Capacidad del modelo para realizar tareas en datos no vistos o en nuevos contextos.

12.- Prior de suavidad: Suposición de que las representaciones latentes deben cambiar suavemente con el tiempo para datos secuenciales.

13.- Colapso latente: Cuando un modelo ignora las representaciones latentes y se basa únicamente en la decodificación autorregresiva.

14.- Jittering temporal: Copiar aleatoriamente vectores latentes para imponer suavidad sin causar colapso latente.

15.- Representación constante por partes: Representación latente que permanece constante dentro de unidades (por ejemplo, fonemas) y cambia abruptamente en los límites.

16.- Optimización restringida: Formular el problema de aprendizaje con restricciones para imponer propiedades deseadas en las representaciones latentes.

17.- Relajación Lagrangiana: Convertir problemas de optimización restringida en problemas no restringidos con términos de penalización.

18.- Algoritmo codicioso: Enfoque para resolver el problema de optimización restringida fusionando vectores latentes.

19.- Modelo dinámico Markoviano: Modelo probabilístico para transiciones entre estados latentes a lo largo del tiempo.

20.- Modelo de Markov Profundo Convolucional: Modelo que combina redes neuronales convolucionales con dinámica Markoviana para representaciones latentes.

21.- Inferencia variacional: Técnica para aproximar distribuciones de probabilidad complejas, utilizada en VAEs y modelos relacionados.

22.- Prior lingüístico: Incorporar conocimiento sobre la estructura del lenguaje en el aprendizaje de representaciones latentes.

23.- Codificación contrastiva: Técnica de aprendizaje que contrasta muestras relacionadas y no relacionadas para mejorar las representaciones.

24.- Maximización de Información Mutua: Enfoque para aprender representaciones maximizando la información mutua entre entradas y latentes.

25.- Wave2Vec: Técnica de aprendizaje auto-supervisado para el reconocimiento de habla.

26.- MIME-CPC: Maximización de Información Mutua y Codificación Predictiva Contrastiva, técnicas para el aprendizaje de representaciones.

27.- Pixel CNN: Modelo autorregresivo para generar imágenes píxel a píxel, utilizado en el ejemplo de generación de escritura.

28.- WaveNet: Red neuronal para generar formas de onda de audio crudo, utilizada como decodificador en modelos de habla.

29.- Reconstrucción de banco de filtros: Medida de cuán bien un modelo puede reconstruir espectrogramas de habla a partir de representaciones latentes.

30.- Información tonal: Patrones de tono en idiomas como el mandarín que llevan significado, potencialmente perdidos en algunos modelos no supervisados.

Bóveda del Conocimiento construida porDavid Vivancos 2024