Conocimiento Bóveda 6 /86 - ICML 2023
Aprendizaje Sin Tasa de Aprendizaje mediante D-Adaptación
Aaron Defazio · Konstantin Mishchenko
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR %% Define classes for color coding classDef adaptation fill:#d4f9d4, font-weight:bold, font-size:14px classDef optimization fill:#f9d4d4, font-weight:bold, font-size:14px classDef application fill:#d4d4f9, font-weight:bold, font-size:14px classDef evaluation fill:#f9f9d4, font-weight:bold, font-size:14px %% Main concept and first level connections A["Aprendizaje Sin Tasa de Aprendizaje mediante
D-Adaptación"] --> B["D-Adaptación:
auto-ajuste de
tasas de aprendizaje. 1"] A --> C["Lipschitz Convexo:
tasas de convergencia
óptimas. 2"] A --> D["Método de Subgradiente:
minimiza funciones
convexas. 3"] A --> E["Tasa de aprendizaje:
parámetro que controla
las actualizaciones. 4"] A --> F["AdaGrad-Norm:
método adaptativo de
tasa de aprendizaje. 5"] A --> G["Promedio dual:
marco de
optimización. 6"] %% B branch B --> H["Cota inferior:
mantiene la distancia
óptima de solución. 7"] H --> I["Convergencia
asintótica:
tasa óptima
en el infinito. 8"] I --> J["No asintótico:
rendimiento fijo
por iteración. 9"] I --> K["Por coordenadas:
tasas diferentes
por dimensión. 10"] H --> L["Optimización
estocástica:
para gradientes
ruidosos. 11"] B --> M["SGD:
modificado con
D-Adaptación. 12"] M --> N["Adam:
integra
D-Adaptación. 13"] N --> O["Momentum:
acelera la
convergencia. 14"] O --> P["Programas de tasa
de aprendizaje:
patrones de ajuste
predefinidos. 15"] %% C branch and applications C --> Q["Problemas
convexos:
evaluaciones
experimentales. 16"] Q --> R["Clasificación de
imágenes:
entrenamiento de
redes neuronales. 17"] R --> S["LSTM:
entrenamiento de
modelos de secuencia. 18"] S --> T["Lenguaje enmascarado:
entrenar modelos
BERT. 19"] T --> U["Auto-regresivo:
entrenar modelos
GPT. 20"] U --> V["Detección de objetos:
entrenar modelos de
identificación. 21"] %% Additional branches A --> W["Transformadores de visión:
entrenar tareas de
visión. 22"] W --> X["fastMRI:
aceleración de la
reconstrucción de MRI. 23"] X --> Y["Sistemas de
recomendación:
entrenar modelos
personalizados. 24"] Y --> Z["Análisis de
sensibilidad:
variaciones de
rendimiento. 25"] Z --> AA["Tasas observadas:
comparadas con
ajustes manuales. 26"] AA --> AB["Descenso de gradiente:
variante de
D-Adaptación. 27"] %% Evaluation branch A --> AC["EMA:
técnica en
variante Adam. 28"] AC --> AD["Garantías
teóricas:
pruebas de
convergencia. 29"] AD --> AE["Resultados
experimentales:
evaluación en
tareas. 30"] %% Apply classes to nodes class B,C,D,E,F,G adaptation class H,I,J,K,L,M,N,O,P optimization class Q,R,S,T,U,V,W,X,Y,Z,AA,AB application class AC,AD,AE evaluation

Resumen:

1.- D-Adaptación: Una técnica para ajustar automáticamente las tasas de aprendizaje en algoritmos de optimización sin necesidad de ajuste de hiperparámetros.

2.- Funciones Lipschitz convexas: Una clase de funciones matemáticas para las cuales se ha demostrado que D-Adaptación logra tasas de convergencia óptimas.

3.- Método de subgradiente: Un algoritmo de optimización que utiliza subgradientes para minimizar funciones convexas.

4.- Tasa de aprendizaje/tamaño de paso: Un parámetro que controla cuánto actualiza un algoritmo de optimización los parámetros en cada paso.

5.- AdaGrad-Norm: Un método adaptativo de tasa de aprendizaje sobre el cual se basa D-Adaptación.

6.- Promedio dual: Un marco de optimización que D-Adaptación utiliza como su base.

7.- Estimación de cota inferior: D-Adaptación mantiene y actualiza una cota inferior sobre la distancia a la solución óptima.

8.- Convergencia asintótica: D-Adaptación logra la tasa de convergencia óptima a medida que el número de iteraciones se acerca al infinito.

9.- Análisis no asintótico: Examen del rendimiento de D-Adaptación para un número fijo de iteraciones.

10.- Escalado por coordenadas: Una extensión de D-Adaptación para manejar diferentes tasas de aprendizaje para cada dimensión de parámetro.

11.- Optimización estocástica: Aplicación de D-Adaptación a problemas con gradientes ruidosos o muestreados.

12.- SGD con D-Adaptación: Modificación del Descenso de Gradiente Estocástico para incorporar D-Adaptación.

13.- Adam con D-Adaptación: Integración de D-Adaptación en el optimizador Adam.

14.- Momentum: Una técnica incorporada en D-Adaptación para acelerar la convergencia en ciertos escenarios.

15.- Programas de tasa de aprendizaje: Patrones predefinidos para ajustar tasas de aprendizaje, que pueden combinarse con D-Adaptación.

16.- Problemas convexos: Evaluación experimental de D-Adaptación en varias tareas de optimización convexa.

17.- Clasificación de imágenes por convolución: Aplicación de D-Adaptación al entrenamiento de redes neuronales para reconocimiento de imágenes.

18.- Redes Neuronales Recurrentes LSTM: Uso de D-Adaptación para entrenar modelos de secuencia en traducción automática.

19.- Modelado de Lenguaje enmascarado: Aplicación de D-Adaptación para entrenar modelos tipo BERT para procesamiento de lenguaje natural.

20.- Modelado de Lenguaje Auto-regresivo: Uso de D-Adaptación para entrenar modelos tipo GPT para generación de texto.

21.- Detección de Objetos: Aplicación de D-Adaptación para entrenar modelos para identificar objetos en imágenes.

22.- Transformadores de visión: Uso de D-Adaptación para entrenar modelos basados en transformadores para tareas de visión por computadora.

23.- fastMRI: Aplicación de D-Adaptación para entrenar modelos que aceleren la reconstrucción de imágenes de MRI.

24.- Sistemas de Recomendación: Uso de D-Adaptación para entrenar modelos para recomendaciones de contenido personalizadas.

25.- Análisis de sensibilidad: Examen de cómo varía el rendimiento de D-Adaptación con diferentes configuraciones iniciales de parámetros.

26.- Tasas de aprendizaje observadas: Comparación de las tasas de aprendizaje elegidas automáticamente por D-Adaptación con valores ajustados manualmente.

27.- Variante de Descenso de Gradiente: Una versión de D-Adaptación aplicada a la optimización por descenso de gradiente estándar.

28.- Media Móvil Exponencial (EMA): Una técnica utilizada en la variante Adam de D-Adaptación.

29.- Garantías teóricas: Pruebas matemáticas de las propiedades de convergencia y los límites de rendimiento de D-Adaptación.

30.- Resultados experimentales: Evaluación exhaustiva de D-Adaptación en varias tareas de aprendizaje automático y arquitecturas de modelos.

Bóveda de Conocimiento construida por David Vivancos 2024