Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- SGLD (Dinámica de Langevin de Gradiente Estocástico): Algoritmo que combina el descenso de gradiente estocástico con la dinámica de Langevin para inferencia bayesiana escalable.
2.- Contexto histórico: SGLD desarrollado durante el auge del aprendizaje automático bayesiano, cuando el aprendizaje profundo estaba emergiendo.
3.- Desafío de big data: Métodos tradicionales de MCMC ineficientes para grandes conjuntos de datos, mientras que SGD escala bien.
4.- Burn-in como optimización: La fase inicial de MCMC es esencialmente optimización, desperdiciando recursos en actualizaciones precisas.
5.- Ruido para generalización: Añadir ruido (por ejemplo, dropout) mejora la generalización en redes neuronales.
6.- Algoritmo SGLD: Combina SGD con ruido gaussiano inyectado, pasando de la optimización al muestreo.
7.- Tamaño de paso de recocido: SGLD requiere un tamaño de paso decreciente con el tiempo para converger a la distribución correcta.
8.- Paso de Metropolis-Hastings: A medida que el tamaño de paso disminuye, la probabilidad de aceptación se acerca a 1, permitiendo omitir el paso de aceptar-rechazar.
9.- Transición automática: SGLD cambia naturalmente de la optimización al muestreo a medida que el ruido inyectado domina el ruido del gradiente.
10.- Desarrollos teóricos: Trabajos posteriores analizaron la convergencia de SGLD, las compensaciones de sesgo-varianza y las relaciones con procesos en tiempo continuo.
11.- SGLD preacondicionado: Extensiones usando puntuación de Fisher o geometría riemanniana para mejorar la eficiencia del muestreo.
12.- Monte Carlo Hamiltoniano de Gradiente Estocástico: Adaptación de SGLD a Monte Carlo Hamiltoniano para una mejor exploración.
13.- Marco unificado: Ma et al. proporcionaron una receta general para algoritmos de MCMC de gradiente estocástico.
14.- Análisis de convergencia: Estudios sobre convergencia débil vs. fuerte, consistencia y teoremas del límite central para SGLD.
15.- Tasa de convergencia: SGLD converge a una tasa de m^(-1/3), más lenta que la tasa de m^(-1/2) de MCMC estándar.
16.- Análisis de tamaño de paso fijo: Investigación de compensaciones entre sesgo y varianza con tamaño de paso constante.
17.- Distancia de Wasserstein: Utilizada para limitar la convergencia de SGLD al límite de difusión y riesgo excesivo.
18.- Límites de riesgo excesivo: Límites no asintóticos derivados para SGLD en configuraciones no convexas.
19.- Error de generalización: Límites basados en la información mutua entre el conjunto de datos y las iteraciones de SGLD.
20.- Posteriors fríos: Evidencia teórica y práctica que sugiere mejor rendimiento con posteriors de baja temperatura.
21.- Aprendizaje profundo bayesiano: Área de investigación en crecimiento con preguntas abiertas sobre características del posterior y métodos de muestreo eficientes.
22.- Especificación previa: Desafío de incorporar conocimiento de dominio significativo como priors en el aprendizaje profundo bayesiano.
23.- Simplicidad y generalizabilidad: Éxito de SGLD atribuido a su implementación simple y espacio para extensiones.
24.- Análisis teórico por otros: La comunidad matemática proporcionó un análisis riguroso después de la publicación.
25.- Límites dependientes de datos: Trabajos recientes producen límites que dependen de las características específicas del conjunto de datos.
26.- Algoritmos de datos altos: Desarrollos en MCMC para conjuntos de datos con muchas muestras pero baja dimensionalidad.
27.- Descenso de Gradiente Variacional de Stein: Método alternativo que utiliza interacciones de partículas deterministas para la aproximación del posterior.
28.- SGLD en línea y adaptativo: Posibles extensiones para manejar cambios en las distribuciones de datos a lo largo del tiempo.
29.- Modelado bayesiano jerárquico: Enfoque para el aprendizaje de transferencia y la relación de múltiples conjuntos de datos o tareas.
30.- Importancia de los algoritmos de inferencia: Crucial para el aprendizaje automático probabilístico, especialmente con modelos de variables latentes.
Bóveda del Conocimiento construida por David Vivancos 2024