Conocimiento Bóveda 2/19 - ICLR 2014-2023
Jorg Bornschein y Yoshua Bengio ICLR 2015 - Reweighted Wake-Sleep
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef helmholtz fill:#f9d4d4, font-weight:bold, font-size:14px; classDef inference fill:#d4f9d4, font-weight:bold, font-size:14px; classDef sampling fill:#d4d4f9, font-weight:bold, font-size:14px; classDef training fill:#f9f9d4, font-weight:bold, font-size:14px; classDef results fill:#f9d4f9, font-weight:bold, font-size:14px; A[Bornschein, Bengio
ICLR 2015] --> B[Máquinas de Helmholtz: generativo dirigido,
inferencia intratable. 1] B --> C[Red de inferencia Q aproxima
variables latentes. 2] B --> D[Modelos recientes de Helmholtz: VAEs,
DARN, etc. 3] D --> E[Objetivo conjunto, redes de inferencia y
generativas. 4] E --> F[Muestreo ingenuo de Q: estimadores de
alta varianza. 5] A --> G[Muestreo de importancia, no aproximaciones
variacionales. 6] G --> H[Q como distribución de propuesta
para modelos entrenados. 7] G --> I[Estimador de verosimilitud imparcial,
varianza dependiente de Q. 8] I --> J[Varianza mínima: Q aproxima
P H X . 9] G --> K[Muestreo de importancia para actualizaciones
de parámetros del modelo. 10] K --> L[Gradiente de P: K muestras de Q,
pesos de importancia. 11] L --> M[Promedio ponderado de gradientes,
sin retropropagación de P. 12] L --> N[Objetivos por capa, pesos de importancia
normalizados. 13] G --> O[No hay señal clara de entrenamiento de Q. 14] O --> P[Q propone, afecta solo
la varianza del estimador. 15] P --> Q[Entrenar Q para minimizar
la varianza del estimador. 16] Q --> R[Q entrena en datos reales
o datos del modelo en sueño. 17] G --> S[Fase de vigilia y sueño
actualizaciones de gradiente. 18] S --> T[Vigilia: gradientes de Q como
estimador de P. 19] S --> U[Actualizaciones de P y Q: propuestas,
pesos, promedios. 20] U --> V[Actualizaciones de Q minimizan KL P Q . 21] V --> W[Métodos variacionales suelen
minimizar KL Q P . 22] R --> X[K=1, solo sueño recupera
vigilia-sueño clásico. 23] A --> Y[5-10 muestras mejoran
vigilia-sueño, cerca de SOTA. 24] Y --> Z[Actualizaciones de vigilia y sueño
entrenan mejor Q. 25] Y --> AA[Entrena redes profundas en
MNIST competitivamente. 26] Y --> AB[Más experimentos: sensibilidad al
número de muestras. 27] A --> AC[Objetivo: inferencia feedforward rápida,
red generativa. 28] AC --> AD[Competitivo con VAEs,
5-10x más lento. 29] AC --> AE[2x más lento que NVIL
binario base MLP. 30] class A,B,D helmholtz; class C,E,F,O,P,Q,R,S,T,U,V,W inference; class G,H,I,J,K,L,M,N sampling; class X,AC,AD,AE training; class Y,Z,AA,AB results;

Resumen:

1.-Las máquinas de Helmholtz ajustan un modelo generativo dirigido a los datos usando máxima verosimilitud, lo cual es generalmente intratable para modelos con muchas variables latentes.

2.-Una red de inferencia Q se entrena para ayudar a hacer inferencia aproximada, corriendo desde datos observados a variables latentes.

3.-El trabajo reciente en el entrenamiento de máquinas de Helmholtz incluye autoencoders variacionales, retropropagación estocástica, inferencia variacional neural y modelos DARN.

4.-Estos modelos dependen de una aproximación variacional para obtener una función objetivo conjunta que contiene tanto las redes de inferencia como las generativas.

5.-El objetivo conjunto no puede ser entrenado ingenuamente usando muestras de Q ya que resulta en estimadores de alta varianza.

6.-Este trabajo deriva ecuaciones de actualización de parámetros usando solo muestreo de importancia, no aproximaciones variacionales.

7.-El muestreo de importancia se ha usado antes para evaluar modelos ya entrenados interpretando Q como una distribución de propuesta.

8.-El estimador de verosimilitud obtenido es imparcial. Su varianza depende de la calidad de la distribución de propuesta Q.

9.-La varianza se minimiza cuando Q aproxima el verdadero posterior intratable P(H|X). La igualdad da un estimador de varianza cero.

10.-El mismo mecanismo de muestreo de importancia se usa para derivar reglas de actualización de parámetros para el modelo.

11.-El estimador de gradiente para el modelo generativo P involucra dibujar K muestras de Q y calcular pesos de importancia.

12.-Se toma un promedio ponderado de gradientes para cada muestra usando los pesos de importancia. No se necesita retropropagación a través de P.

13.-Los objetivos por capa permiten que cada capa de P obtenga un gradiente local. Los pesos de importancia se normalizan automáticamente.

14.-No existe una señal obvia sobre cómo entrenar la red de propuesta feedforward Q usando este enfoque.

15.-Q actúa solo como una propuesta y no influye en los valores esperados de los estimadores, verosimilitud o gradientes, solo su varianza.

16.-Q se entrena para minimizar la varianza de los estimadores, lo que significa aproximar el posterior intratable P(H|X).

17.-Q puede ser entrenado en datos reales (fase de vigilia) o datos imaginarios del modelo generativo (fase de sueño).

18.-Se derivan actualizaciones de gradiente simples para ambas fases de vigilia y sueño. La fase de sueño usa una sola muestra como objetivo de Q.

19.-La fase de VIGILIA usa el mismo mecanismo de muestreo de importancia para derivar gradientes de Q, con la misma estructura que el estimador de gradiente de P.

20.-Para entrenar tanto P como Q, se dibujan propuestas usando Q, se calculan pesos de importancia y se usan para promediar actualizaciones de P y Q.

21.-Las actualizaciones de Q son equivalentes a minimizar la divergencia KL entre el verdadero posterior P(H|X) y la propuesta Q.

22.-Las aproximaciones variacionales suelen dar actualizaciones que minimizan KL(Q||P) en su lugar. Justificar con muestreo de importancia da el KL inverso (P||Q).

23.-Usar K=1 muestras y solo actualizaciones de fase de sueño recupera el algoritmo de vigilia-sueño clásico de los 90s.

24.-Los resultados empíricos en varios conjuntos de datos muestran que 5-10 muestras mejoran significativamente sobre vigilia-sueño clásico y se acercan al estado del arte.

25.-Los mejores resultados provienen de usar tanto actualizaciones de fase de vigilia como de sueño para entrenar la red de inferencia.

26.-El enfoque puede entrenar redes relativamente profundas en conjuntos de datos del mundo real como MNIST binario, logrando una verosimilitud de prueba competitiva.

27.-Más experimentos mostraron sensibilidad al número de muestras, pero no se cubrieron en profundidad debido a limitaciones de tiempo.

28.-La motivación era combinar inferencia feedforward rápida con una red generativa, una idea antigua que tiene sentido.

29.-Comparado con métodos variacionales como VAEs, esto es competitivo pero 5-10x más lento debido a las múltiples muestras necesarias.

30.-Comparado con métodos para variables binarias como NVIL, esto puede ser ~2x más lento ya que NVIL necesita un segundo paso MLP para estimar bases.

Bóveda de Conocimiento construida porDavid Vivancos 2024