Conocimiento Bóveda 2/97 - ICLR 2014-2023
Ananya Kumar • Tengyu Ma • Tiffany Vlaar • Aditi Raghunathan • Hanie Sedghi • Yamini Bansal • Sang Michael Xie • Percy Liang • Mathilde Caron ICLR 2023 - Taller Comprensión Matemática y Empírica de Modelos Fundamentales (ME-FoMo)
<Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef foundation fill:#f9d4d4, font-weight:bold, font-size:14px; classDef scaling fill:#d4f9d4, font-weight:bold, font-size:14px; classDef overparametrization fill:#d4d4f9, font-weight:bold, font-size:14px; classDef regularization fill:#f9f9d4, font-weight:bold, font-size:14px; classDef diffusion fill:#f9d4f9, font-weight:bold, font-size:14px; classDef learning fill:#d4f9f9, font-weight:bold, font-size:14px; classDef language fill:#f9d4d4, font-weight:bold, font-size:14px; A[Taller ME-FoMo
ICLR 2023] --> B[Taller de modelos fundamentales:
pre-entrenamiento, adaptación, emergencia. 1] A --> C[El escalado causa transiciones de fase,
cambios agudos de rendimiento. 2] C --> D[Mayor ancho impacta más
en el escalado de generalización. 22] A --> E[Sobreparametrización: subproducto de algoritmos de
entrenamiento subóptimos. 3] E --> F[El paso de mensaje aproximado
evita la sobreparametrización. 3] E --> G[Principios bayesianos sugieren que
la sobreparametrización es innecesaria. 27] A --> H[La regularización óptima mitiga
la sobreconfianza y sobreparametrización. 4] H --> I[Redes neuronales bayesianas
bien calibradas desde el principio. 4] A --> J[El espectro de valores propios del kernel
dependiente de datos explica la generalización. 5] J --> K[Decaimiento de ley de potencia de
valores propios del kernel. 21] A --> L[Modelos de difusión: clasificadores efectivos
de cero disparos. 6] L --> M[Modelos de difusión permiten
aprendizaje de pocos disparos. 7] L --> N[Modelos de difusión: estimadores de distribución
no paramétricos minimax óptimos. 11] A --> O[El ensamblaje de demostraciones mejora
el aprendizaje de pocos disparos en contexto. 8] A --> P[El ajuste fino localiza habilidades,
permite aprendizaje continuo. 9] A --> Q[El objetivo SSL impacta
las representaciones del Transformer de Visión. 10] A --> R[El aprendizaje invertido mejora
la generalización de cero disparos, robustez. 12] A --> S[El ajuste fino basado en indicaciones es más
similar a un kernel que el estándar. 13] A --> T[Mayores tasas de enmascaramiento pueden
mejorar el pre-entrenamiento. 14] T --> U[La tasa óptima de enmascaramiento depende
del tamaño del modelo, estrategia. 25] A --> V[Los modelos de lenguaje aprenden conceptos
secuencialmente, reducen la perplejidad. 15] V --> W[La perplejidad de validación se alinea con
el rendimiento posterior. 15] V --> X[La perplejidad no siempre predice
el rendimiento posterior. 16] A --> Y[El pre-entrenamiento y la adaptación
deberían estudiarse conjuntamente. 16] A --> Z[Modelos de escala media frontera
para la investigación empírica y teórica. 17] A --> AA[No hay evidencia clara de
habilidades 'emergentes' en LLMs. 18] A --> AB[El ajuste fino basado en indicaciones induce
comportamiento similar a un kernel. 26] A --> AC[Los objetivos SSL impactan las representaciones
más que la arquitectura. 28] A --> AD[Los modelos de lenguaje aprenden conceptos
de manera similar independientemente del tamaño. 29] A --> AE[Modelos de escala media con
ajuste de instrucciones, retroalimentación humana importante. 30] class A,B foundation; class C,D,J,K scaling; class E,F,G,H,I overparametrization; class H,I regularization; class L,M,N diffusion; class O,P,Q,R,S,T,U,AB,AC learning; class V,W,X,Y,Z,AA,AD,AE language;

Resumen:

1.-Taller sobre comprensión matemática y empírica de modelos fundamentales, centrado en pre-entrenamiento, adaptación y fenómenos emergentes.

2.-Las transiciones de fase y cambios agudos de rendimiento pueden emerger en redes neuronales a medida que se escalan los datos, el tamaño del modelo y los parámetros de complejidad.

3.-La sobreparametrización puede ser un subproducto de usar algoritmos de entrenamiento subóptimos como el descenso de gradiente. El paso de mensaje aproximado evita la necesidad de sobreparametrización.

4.-La regularización óptima mitiga la sobreconfianza en redes neuronales sobreparametrizadas. Las redes neuronales bayesianas están bien calibradas desde el principio.

5.-Los exponentes de escalado de ley de potencia para el error de generalización pueden explicarse por el espectro de valores propios de kernels dependientes de datos.

6.-Modelos de difusión de texto a imagen como Imagen sirven como clasificadores efectivos de cero disparos, superando a CLIP, especialmente en tareas desafiantes que requieren generalización composicional.

7.-La ampliación de datos con modelos de difusión y la inversión de texto permite el aprendizaje de pocos disparos que supera las ampliaciones estándar.

8.-El ensamblaje de demostraciones, ponderando demostraciones por similitud con la entrada de prueba, mejora el aprendizaje en contexto sobre la concatenación en configuraciones de pocos disparos.

9.-El ajuste fino localiza habilidades específicas de tareas en subredes pequeñas. El entrenamiento simultáneo en múltiples tareas incrusta habilidades no superpuestas. Permite el aprendizaje continuo mediante injertos.

10.-El objetivo de Aprendizaje Auto-supervisado (SSL) impacta fuertemente las representaciones aprendidas en Transformers de Visión, más que la arquitectura.

11.-Los modelos de difusión son estimadores de distribución no paramétricos minimax óptimos. El muestreo y la evaluación de la probabilidad tienen brechas computacionales-estadísticas. La estructura del colector ayuda a evitar la maldición de la dimensionalidad.

12.-El aprendizaje invertido, prediciendo instrucciones a partir de la entrada y la etiqueta, mejora la generalización de cero disparos y la robustez a las etiquetas en la sintonización de instrucciones.

13.-Un análisis basado en kernels muestra que el ajuste fino basado en indicaciones exhibe un comportamiento más similar a un kernel que el ajuste fino estándar, explicando su mejor rendimiento.

14.-Las tasas de enmascaramiento de hasta 40-50% pueden producir un mejor pre-entrenamiento que el enmascaramiento del 15% de BERT. La tasa de enmascaramiento óptima depende del tamaño del modelo y la estrategia de enmascaramiento.

15.-Los modelos de lenguaje grandes primero aprenden los mismos conceptos que los modelos más pequeños, luego reducen aún más la perplejidad. La perplejidad de validación se alinea con el rendimiento posterior.

16.-El pre-entrenamiento y la adaptación (por ejemplo, ajuste fino, indicaciones) deben estudiarse conjuntamente para informar un mejor pre-entrenamiento. La perplejidad no siempre predice el rendimiento posterior.

17.-La "zona de aburrimiento" (modelos de escala media) es la nueva frontera para la investigación empírica y teórica en ML, especialmente con la sintonización de instrucciones y la retroalimentación humana.

18.-El estudio no encontró evidencia clara de habilidades "emergentes" en modelos de lenguaje grandes al examinar trayectorias de entrenamiento completas.

19.-La regularización óptima mitiga la sobreconfianza en redes neuronales sobreparametrizadas entrenadas con SGD. Las redes neuronales bayesianas están bien calibradas desde el principio.

20.-El Paso de Mensaje Aproximado evita la necesidad de sobreparametrización en ciertos entornos donde SGD lo requiere para un buen rendimiento.

21.-Las tendencias de escalado para el error de generalización pueden explicarse teóricamente por el decaimiento de ley de potencia de los espectros de valores propios de kernels dependientes de datos.

22.-Un mayor ancho (no profundidad) en redes neuronales tiene un mayor impacto en cambiar el exponente de ley de potencia del escalado de generalización.

23.-Los modelos de difusión con ruido/desruido de datos reales permiten una ampliación de datos flexible que mejora significativamente el aprendizaje de pocos disparos sobre las ampliaciones estándar.

24.-El rendimiento de aprendizaje en contexto de modelos de lenguaje grandes se alinea mucho más estrechamente con la perplejidad de validación que con el cómputo o los parámetros.

25.-Aumentar la tasa de enmascaramiento hasta un 40-50% produce mejores representaciones que el enmascaramiento estándar del 15% en el pre-entrenamiento al estilo BERT. La tasa óptima depende del tamaño del modelo.

26.-El ajuste fino basado en indicaciones induce un comportamiento más similar a un kernel en las capas finales en comparación con el ajuste fino estándar, posiblemente explicando su mejor rendimiento.

27.-Los principios bayesianos sugieren que la sobreparametrización no debería ser necesaria, pero puede surgir como un apoyo debido a algoritmos de optimización subóptimos como SGD.

28.-Los objetivos SSL tienen un mayor impacto en las representaciones aprendidas que la arquitectura del modelo en Transformers de Visión. El incrustamiento conjunto y la reconstrucción aprenden características muy diferentes.

29.-Los modelos de lenguaje grandes aprenden conceptos en un orden similar independientemente del tamaño, con niveles de perplejidad alineándose entre modelos.

30.-Los modelos de escala media con ajuste de instrucciones y retroalimentación humana son una nueva frontera importante para la investigación empírica y teórica en ML.

Bóveda del Conocimiento construida porDavid Vivancos 2024