Conocimiento Bóveda 6 /66 - ICML 2021
Aprendizaje Bayesiano a través de Dinámica de Langevin de Gradiente Estocástico
Yee Teh & Max Welling
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef sgld fill:#f9d4d4, font-weight:bold, font-size:14px classDef theory fill:#d4f9d4, font-weight:bold, font-size:14px classDef applications fill:#d4d4f9, font-weight:bold, font-size:14px classDef challenges fill:#f9f9d4, font-weight:bold, font-size:14px A["Aprendizaje Bayesiano a través de
Dinámica de Langevin de Gradiente
Estocástico"] --> B["Algoritmo
SGLD"] A --> C["Desarrollos
Teóricos"] A --> D["Aplicaciones
y
Extensiones"] A --> E["Desafíos
y
Consideraciones"] B --> B1["Descenso de gradiente
estocástico + dinámica
de Langevin. 1"] B --> B2["Combina SGD
con ruido
gaussiano. 6"] B --> B3["Requiere tamaño de paso
decreciente. 7"] B --> B4["Cambia de
optimización a
muestreo. 9"] B --> B5["Usa puntuación de Fisher
o geometría
riemanniana. 11"] B --> B6["SGLD adaptado
a Hamiltonian
Monte Carlo. 12"] C --> C1["Convergencia,
compensaciones de
sesgo-varianza. 10"] C --> C2["Estudios sobre la
convergencia de SGLD. 14"] C --> C3["SGLD converge
más lento que
MCMC. 15"] C --> C4["Límites no asintóticos
para configuraciones
no convexas. 18"] C --> C5["Límites basados en
información
mutua. 19"] C --> C6["Mejor rendimiento
con posteriors de
baja temperatura. 20"] D --> D1["Receta general
para gradiente estocástico
MCMC. 13"] D --> D2["Descenso de Gradiente
Variacional de Stein. 27"] D --> D3["Manejo de cambios en
distribuciones de
datos. 28"] D --> D4["Aprendizaje de transferencia para
múltiples
conjuntos de datos. 29"] D --> D5["Importancia de ML
probabilístico. 30"] D --> D6["Características del posterior,
muestreo
eficiente. 21"] E --> E1["Desarrollado durante
el auge de ML
Bayesiano. 2"] E --> E2["MCMC ineficiente
para grandes
conjuntos de datos. 3"] E --> E3["Fase inicial de MCMC
como
optimización. 4"] E --> E4["El ruido mejora la
generalización de
redes neuronales. 5"] E --> E5["Compensaciones de
sesgo-varianza. 16"] E --> E6["Desafío en la incorporación
de conocimiento
de dominio. 22"] class A,B,B1,B2,B3,B4,B5,B6 sgld class C,C1,C2,C3,C4,C5,C6 theory class D,D1,D2,D3,D4,D5,D6 applications class E,E1,E2,E3,E4,E5,E6 challenges

Resumen:

1.- SGLD (Dinámica de Langevin de Gradiente Estocástico): Algoritmo que combina el descenso de gradiente estocástico con la dinámica de Langevin para inferencia bayesiana escalable.

2.- Contexto histórico: SGLD desarrollado durante el auge del aprendizaje automático bayesiano, cuando el aprendizaje profundo estaba emergiendo.

3.- Desafío de big data: Métodos tradicionales de MCMC ineficientes para grandes conjuntos de datos, mientras que SGD escala bien.

4.- Burn-in como optimización: La fase inicial de MCMC es esencialmente optimización, desperdiciando recursos en actualizaciones precisas.

5.- Ruido para generalización: Añadir ruido (por ejemplo, dropout) mejora la generalización en redes neuronales.

6.- Algoritmo SGLD: Combina SGD con ruido gaussiano inyectado, pasando de la optimización al muestreo.

7.- Tamaño de paso de recocido: SGLD requiere un tamaño de paso decreciente con el tiempo para converger a la distribución correcta.

8.- Paso de Metropolis-Hastings: A medida que el tamaño de paso disminuye, la probabilidad de aceptación se acerca a 1, permitiendo omitir el paso de aceptar-rechazar.

9.- Transición automática: SGLD cambia naturalmente de la optimización al muestreo a medida que el ruido inyectado domina el ruido del gradiente.

10.- Desarrollos teóricos: Trabajos posteriores analizaron la convergencia de SGLD, las compensaciones de sesgo-varianza y las relaciones con procesos en tiempo continuo.

11.- SGLD preacondicionado: Extensiones usando puntuación de Fisher o geometría riemanniana para mejorar la eficiencia del muestreo.

12.- Monte Carlo Hamiltoniano de Gradiente Estocástico: Adaptación de SGLD a Monte Carlo Hamiltoniano para una mejor exploración.

13.- Marco unificado: Ma et al. proporcionaron una receta general para algoritmos de MCMC de gradiente estocástico.

14.- Análisis de convergencia: Estudios sobre convergencia débil vs. fuerte, consistencia y teoremas del límite central para SGLD.

15.- Tasa de convergencia: SGLD converge a una tasa de m^(-1/3), más lenta que la tasa de m^(-1/2) de MCMC estándar.

16.- Análisis de tamaño de paso fijo: Investigación de compensaciones entre sesgo y varianza con tamaño de paso constante.

17.- Distancia de Wasserstein: Utilizada para limitar la convergencia de SGLD al límite de difusión y riesgo excesivo.

18.- Límites de riesgo excesivo: Límites no asintóticos derivados para SGLD en configuraciones no convexas.

19.- Error de generalización: Límites basados en la información mutua entre el conjunto de datos y las iteraciones de SGLD.

20.- Posteriors fríos: Evidencia teórica y práctica que sugiere mejor rendimiento con posteriors de baja temperatura.

21.- Aprendizaje profundo bayesiano: Área de investigación en crecimiento con preguntas abiertas sobre características del posterior y métodos de muestreo eficientes.

22.- Especificación previa: Desafío de incorporar conocimiento de dominio significativo como priors en el aprendizaje profundo bayesiano.

23.- Simplicidad y generalizabilidad: Éxito de SGLD atribuido a su implementación simple y espacio para extensiones.

24.- Análisis teórico por otros: La comunidad matemática proporcionó un análisis riguroso después de la publicación.

25.- Límites dependientes de datos: Trabajos recientes producen límites que dependen de las características específicas del conjunto de datos.

26.- Algoritmos de datos altos: Desarrollos en MCMC para conjuntos de datos con muchas muestras pero baja dimensionalidad.

27.- Descenso de Gradiente Variacional de Stein: Método alternativo que utiliza interacciones de partículas deterministas para la aproximación del posterior.

28.- SGLD en línea y adaptativo: Posibles extensiones para manejar cambios en las distribuciones de datos a lo largo del tiempo.

29.- Modelado bayesiano jerárquico: Enfoque para el aprendizaje de transferencia y la relación de múltiples conjuntos de datos o tareas.

30.- Importancia de los algoritmos de inferencia: Crucial para el aprendizaje automático probabilístico, especialmente con modelos de variables latentes.

Bóveda del Conocimiento construida por David Vivancos 2024