Conocimiento Bóveda 2/94 - ICLR 2014-2023
Jascha Sohl-Dickstein ICLR 2023 - Charla Invitada - Optimizadores aprendidos: por qué son el futuro, por qué son difíciles, y qué pueden hacer ahora
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef research fill:#f9d4d4, font-weight:bold, font-size:14px; classDef themes fill:#d4f9d4, font-weight:bold, font-size:14px; classDef impact fill:#d4d4f9, font-weight:bold, font-size:14px; classDef optimizers fill:#f9f9d4, font-weight:bold, font-size:14px; classDef challenges fill:#f9d4f9, font-weight:bold, font-size:14px; classDef architecture fill:#d4f9f9, font-weight:bold, font-size:14px; classDef sota fill:#f9d4f9, font-weight:bold, font-size:14px; classDef approaches fill:#d4f9d4, font-weight:bold, font-size:14px; classDef future fill:#f9d4d4, font-weight:bold, font-size:14px; A[Jascha Sohl-Dickstein
ICLR 2023] --> B[Antecedentes de Jascha: física, NASA,
neurociencia 1] A --> C[Temas de la charla: optimizadores funcionando,
transformadores, necesitan investigación 2] A --> D[IA transformando el mundo, decisiones
tempranas tienen consecuencias 3] D --> E[Pequeñas elecciones pueden tener
grandes impactos 4] D --> F[Insta intencionalidad en investigación en IA 5] A --> G[Optimizadores aprendidos: aprender
regla de actualización de parámetros 6] G --> H[Redes por parámetro reducen a
variantes de descenso de gradiente 7] G --> I[Desafíos clave: caos, costo, generalización 8] I --> J[Caos de sistemas dinámicos anidados 9] I --> K[Difíciles paisajes de pérdida caóticos 10] I --> L[Suavizar pérdida promediando perturbaciones 11] L --> M[Estrategias evolutivas para gradientes,
muestreo antitético reduce varianza 12] I --> N[Entrenamiento externo costoso, desenrollados
parciales ayudan 13] I --> O[Generalización necesita meta-entrenamiento diverso,
aumento de datos 14] G --> P[Temas de arquitectura: características, sobrecarga
vs rendimiento, normalizar, estabilidad 15] P --> Q[Arquitectura ideal sigue siendo problema abierto 16] A --> R[Velo: optimizador SOTA, gran cómputo 17] R --> S[Velo igualó/superó bases ajustadas
en tareas no vistas 18] R --> T[Velo supera en velocidad vs tareas 19] R --> U[Velo eficiente con tamaño de lote,
se adapta al entrenamiento 20] R --> V[Velo falla en tareas fuera de distribución 21] A --> W[Otros enfoques: desacoplar objetivos,
especializar, RL, hiperparámetros 22] A --> X[Aumento de cómputo y datos:
se espera revolución de meta-aprendizaje 23] A --> Y[Código disponible, desafíos de escalado permanecen 24] A --> Z[Optimizadores aprendidos descubren técnicas diseñadas
a mano, necesitan pruebas de generalización 25] A --> AA[Curvatura prometedora para optimizadores
de segundo orden frágiles 26] A --> AB[Optimizadores simples entrenables en
minutos, eficiencia clave 27] A --> AC[IA progresando rápidamente, decisiones
de investigadores dan forma a trayectoria 28] A --> AD[Optimizadores aprendidos superando diseñados a mano,
transformarán entrenamiento 29] A --> AE[Quedan muchos desafíos: estabilidad,
generalización, eficiencia, arquitecturas 30] class A,B,E,F,Y,AB research; class C,W approaches; class D,AC impact; class G,H,Z,AA,AD optimizers; class I,J,K,L,M,N,O challenges; class P,Q architecture; class R,S,T,U,V sota; class X,AE future;

Resumen:

1.-La trayectoria de investigación de Jascha incluyó física en Cornell, trabajo en rovers de Marte en NASA JPL, y neurociencia computacional en Berkeley.

2.-La charla cubrirá tres temas principales: los optimizadores aprendidos están comenzando a funcionar bien, transformarán el entrenamiento de modelos, y necesitan más investigación fundamental.

3.-A pesar de la incertidumbre, la IA está transformando el mundo rápidamente y las decisiones tempranas de individuos pueden tener grandes consecuencias, para bien o para mal.

4.-Se dan ejemplos de pequeñas decisiones individuales que tuvieron grandes impactos, como los protocolos de correo electrónico estandarizados y compartir libremente la línea celular HeLa.

5.-Jascha insta a la intencionalidad y reflexión en las elecciones de investigación en IA, ya que los individuos tienen un inmenso poder para dar forma al futuro de la IA.

6.-Se introducen los optimizadores aprendidos: aprender la regla de actualización de parámetros usando un bucle externo para optimizar el proceso de optimización interno.

7.-Las redes neuronales por parámetro son una elección simple de arquitectura para optimizadores aprendidos, con capas lineales que se reducen a variantes de descenso de gradiente.

8.-Se describen los desafíos clave de investigación para optimizadores aprendidos: caos/instabilidad, costo computacional, generalización a nuevas tareas.

9.-El caos resulta de los sistemas dinámicos anidados. Los parámetros ideales del optimizador están al borde de la inestabilidad del entrenamiento del bucle interno.

10.-Los paisajes de pérdida para la aplicación de optimizadores de múltiples pasos se vuelven extremadamente caóticos, cambiando a una escala menor que un píxel, dificultando la optimización externa.

11.-Suavizar el paisaje de pérdida externo promediando sobre perturbaciones aleatorias de los parámetros del optimizador ayuda a domar el caos.

12.-Las estrategias evolutivas permiten calcular gradientes de la pérdida suavizada. El muestreo antitético reduce drásticamente la varianza. Los gradientes de reparametrización tienen una varianza prohibitiva.

13.-El entrenamiento externo es muy costoso debido a muchos pasos internos por paso externo y a la alta varianza de los gradientes ES. Los desenrollados internos parciales ayudan.

14.-La generalización a nuevas tareas requiere grandes conjuntos de meta-entrenamiento diversos y aumento de datos. Generalizar a través de la escala del problema es un desafío abierto.

15.-Temas de arquitectura útiles: proporcionar a los optimizadores muchas características, equilibrar sobrecarga vs rendimiento, usar cómputo jerárquico, normalizar características, construir estabilidad.

16.-La arquitectura ideal del optimizador aprendido aún está por determinarse y es un problema de investigación abierto.

17.-Velo, el optimizador aprendido SOTA actual, se propuso trabajar en todo el entrenamiento de redes neuronales sin ajuste de hiperparámetros, usando gran cómputo.

18.-En tareas de referencia de ML no vistas, Velo igualó o superó las bases ajustadas en 5/6 tareas sin ajuste. Tuvo dificultades en la tarea GNN fuera de distribución.

19.-Velo supera a los optimizadores estándar bien ajustados en métricas de aceleración vs % de tareas. El comportamiento en el peor de los casos es razonable, no catastrófico.

20.-Velo hace un uso más eficiente de grandes tamaños de lote que otros métodos de primer orden. Se adapta a la longitud del entrenamiento y al tipo de parámetro.

21.-Velo falla en modelos muy grandes fuera de distribución, largas ejecuciones de entrenamiento y tareas de RL no vistas durante el meta-entrenamiento.

22.-Se describen muchos otros enfoques para optimizadores aprendidos: desacoplar objetivos meta e internos, especializarse en tareas estrechas, RL, control de hiperparámetros, etc.

23.-A medida que aumentan el cómputo y los datos de tareas, se espera que los optimizadores aprendidos, las pérdidas y las arquitecturas superen a los diseñados a mano, causando una "revolución de meta-aprendizaje".

24.-El código y los ejemplos están disponibles para entrenar optimizadores aprendidos simples. El escalado sigue siendo un desafío mejor adecuado para laboratorios bien financiados actualmente.

25.-Los optimizadores aprendidos descubren implícitamente técnicas utilizadas en optimizadores diseñados a mano. Se necesitan experimentos de generalización más rigurosos a través de tipos de problemas.

26.-Integrar información de curvatura es una dirección prometedora para que los optimizadores aprendidos mejoren los optimizadores de segundo orden históricamente frágiles.

27.-Los optimizadores aprendidos simples pueden entrenarse en un colab en minutos. Hacer los métodos más eficientes es un problema clave de investigación.

28.-La IA está progresando rápidamente y los investigadores individuales tienen un inmenso poder para dar forma a su trayectoria para bien o para mal a través de sus elecciones.

29.-Los optimizadores aprendidos están comenzando a superar a los diseñados a mano y probablemente transformarán cómo se entrenan los modelos a medida que aumentan el cómputo y los datos.

30.-Quedan muchos desafíos abiertos en los optimizadores aprendidos, incluyendo estabilidad, generalización, eficiencia computacional y arquitecturas ideales, lo que lo convierte en un área de investigación fascinante.

Bóveda de Conocimiento construida porDavid Vivancos 2024