Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-Las máquinas de Helmholtz ajustan un modelo generativo dirigido a los datos usando máxima verosimilitud, lo cual es generalmente intratable para modelos con muchas variables latentes.
2.-Una red de inferencia Q se entrena para ayudar a hacer inferencia aproximada, corriendo desde datos observados a variables latentes.
3.-El trabajo reciente en el entrenamiento de máquinas de Helmholtz incluye autoencoders variacionales, retropropagación estocástica, inferencia variacional neural y modelos DARN.
4.-Estos modelos dependen de una aproximación variacional para obtener una función objetivo conjunta que contiene tanto las redes de inferencia como las generativas.
5.-El objetivo conjunto no puede ser entrenado ingenuamente usando muestras de Q ya que resulta en estimadores de alta varianza.
6.-Este trabajo deriva ecuaciones de actualización de parámetros usando solo muestreo de importancia, no aproximaciones variacionales.
7.-El muestreo de importancia se ha usado antes para evaluar modelos ya entrenados interpretando Q como una distribución de propuesta.
8.-El estimador de verosimilitud obtenido es imparcial. Su varianza depende de la calidad de la distribución de propuesta Q.
9.-La varianza se minimiza cuando Q aproxima el verdadero posterior intratable P(H|X). La igualdad da un estimador de varianza cero.
10.-El mismo mecanismo de muestreo de importancia se usa para derivar reglas de actualización de parámetros para el modelo.
11.-El estimador de gradiente para el modelo generativo P involucra dibujar K muestras de Q y calcular pesos de importancia.
12.-Se toma un promedio ponderado de gradientes para cada muestra usando los pesos de importancia. No se necesita retropropagación a través de P.
13.-Los objetivos por capa permiten que cada capa de P obtenga un gradiente local. Los pesos de importancia se normalizan automáticamente.
14.-No existe una señal obvia sobre cómo entrenar la red de propuesta feedforward Q usando este enfoque.
15.-Q actúa solo como una propuesta y no influye en los valores esperados de los estimadores, verosimilitud o gradientes, solo su varianza.
16.-Q se entrena para minimizar la varianza de los estimadores, lo que significa aproximar el posterior intratable P(H|X).
17.-Q puede ser entrenado en datos reales (fase de vigilia) o datos imaginarios del modelo generativo (fase de sueño).
18.-Se derivan actualizaciones de gradiente simples para ambas fases de vigilia y sueño. La fase de sueño usa una sola muestra como objetivo de Q.
19.-La fase de VIGILIA usa el mismo mecanismo de muestreo de importancia para derivar gradientes de Q, con la misma estructura que el estimador de gradiente de P.
20.-Para entrenar tanto P como Q, se dibujan propuestas usando Q, se calculan pesos de importancia y se usan para promediar actualizaciones de P y Q.
21.-Las actualizaciones de Q son equivalentes a minimizar la divergencia KL entre el verdadero posterior P(H|X) y la propuesta Q.
22.-Las aproximaciones variacionales suelen dar actualizaciones que minimizan KL(Q||P) en su lugar. Justificar con muestreo de importancia da el KL inverso (P||Q).
23.-Usar K=1 muestras y solo actualizaciones de fase de sueño recupera el algoritmo de vigilia-sueño clásico de los 90s.
24.-Los resultados empíricos en varios conjuntos de datos muestran que 5-10 muestras mejoran significativamente sobre vigilia-sueño clásico y se acercan al estado del arte.
25.-Los mejores resultados provienen de usar tanto actualizaciones de fase de vigilia como de sueño para entrenar la red de inferencia.
26.-El enfoque puede entrenar redes relativamente profundas en conjuntos de datos del mundo real como MNIST binario, logrando una verosimilitud de prueba competitiva.
27.-Más experimentos mostraron sensibilidad al número de muestras, pero no se cubrieron en profundidad debido a limitaciones de tiempo.
28.-La motivación era combinar inferencia feedforward rápida con una red generativa, una idea antigua que tiene sentido.
29.-Comparado con métodos variacionales como VAEs, esto es competitivo pero 5-10x más lento debido a las múltiples muestras necesarias.
30.-Comparado con métodos para variables binarias como NVIL, esto puede ser ~2x más lento ya que NVIL necesita un segundo paso MLP para estimar bases.
Bóveda de Conocimiento construida porDavid Vivancos 2024