Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-Taller sobre comprensión matemática y empírica de modelos fundamentales, centrado en pre-entrenamiento, adaptación y fenómenos emergentes.
2.-Las transiciones de fase y cambios agudos de rendimiento pueden emerger en redes neuronales a medida que se escalan los datos, el tamaño del modelo y los parámetros de complejidad.
3.-La sobreparametrización puede ser un subproducto de usar algoritmos de entrenamiento subóptimos como el descenso de gradiente. El paso de mensaje aproximado evita la necesidad de sobreparametrización.
4.-La regularización óptima mitiga la sobreconfianza en redes neuronales sobreparametrizadas. Las redes neuronales bayesianas están bien calibradas desde el principio.
5.-Los exponentes de escalado de ley de potencia para el error de generalización pueden explicarse por el espectro de valores propios de kernels dependientes de datos.
6.-Modelos de difusión de texto a imagen como Imagen sirven como clasificadores efectivos de cero disparos, superando a CLIP, especialmente en tareas desafiantes que requieren generalización composicional.
7.-La ampliación de datos con modelos de difusión y la inversión de texto permite el aprendizaje de pocos disparos que supera las ampliaciones estándar.
8.-El ensamblaje de demostraciones, ponderando demostraciones por similitud con la entrada de prueba, mejora el aprendizaje en contexto sobre la concatenación en configuraciones de pocos disparos.
9.-El ajuste fino localiza habilidades específicas de tareas en subredes pequeñas. El entrenamiento simultáneo en múltiples tareas incrusta habilidades no superpuestas. Permite el aprendizaje continuo mediante injertos.
10.-El objetivo de Aprendizaje Auto-supervisado (SSL) impacta fuertemente las representaciones aprendidas en Transformers de Visión, más que la arquitectura.
11.-Los modelos de difusión son estimadores de distribución no paramétricos minimax óptimos. El muestreo y la evaluación de la probabilidad tienen brechas computacionales-estadísticas. La estructura del colector ayuda a evitar la maldición de la dimensionalidad.
12.-El aprendizaje invertido, prediciendo instrucciones a partir de la entrada y la etiqueta, mejora la generalización de cero disparos y la robustez a las etiquetas en la sintonización de instrucciones.
13.-Un análisis basado en kernels muestra que el ajuste fino basado en indicaciones exhibe un comportamiento más similar a un kernel que el ajuste fino estándar, explicando su mejor rendimiento.
14.-Las tasas de enmascaramiento de hasta 40-50% pueden producir un mejor pre-entrenamiento que el enmascaramiento del 15% de BERT. La tasa de enmascaramiento óptima depende del tamaño del modelo y la estrategia de enmascaramiento.
15.-Los modelos de lenguaje grandes primero aprenden los mismos conceptos que los modelos más pequeños, luego reducen aún más la perplejidad. La perplejidad de validación se alinea con el rendimiento posterior.
16.-El pre-entrenamiento y la adaptación (por ejemplo, ajuste fino, indicaciones) deben estudiarse conjuntamente para informar un mejor pre-entrenamiento. La perplejidad no siempre predice el rendimiento posterior.
17.-La "zona de aburrimiento" (modelos de escala media) es la nueva frontera para la investigación empírica y teórica en ML, especialmente con la sintonización de instrucciones y la retroalimentación humana.
18.-El estudio no encontró evidencia clara de habilidades "emergentes" en modelos de lenguaje grandes al examinar trayectorias de entrenamiento completas.
19.-La regularización óptima mitiga la sobreconfianza en redes neuronales sobreparametrizadas entrenadas con SGD. Las redes neuronales bayesianas están bien calibradas desde el principio.
20.-El Paso de Mensaje Aproximado evita la necesidad de sobreparametrización en ciertos entornos donde SGD lo requiere para un buen rendimiento.
21.-Las tendencias de escalado para el error de generalización pueden explicarse teóricamente por el decaimiento de ley de potencia de los espectros de valores propios de kernels dependientes de datos.
22.-Un mayor ancho (no profundidad) en redes neuronales tiene un mayor impacto en cambiar el exponente de ley de potencia del escalado de generalización.
23.-Los modelos de difusión con ruido/desruido de datos reales permiten una ampliación de datos flexible que mejora significativamente el aprendizaje de pocos disparos sobre las ampliaciones estándar.
24.-El rendimiento de aprendizaje en contexto de modelos de lenguaje grandes se alinea mucho más estrechamente con la perplejidad de validación que con el cómputo o los parámetros.
25.-Aumentar la tasa de enmascaramiento hasta un 40-50% produce mejores representaciones que el enmascaramiento estándar del 15% en el pre-entrenamiento al estilo BERT. La tasa óptima depende del tamaño del modelo.
26.-El ajuste fino basado en indicaciones induce un comportamiento más similar a un kernel en las capas finales en comparación con el ajuste fino estándar, posiblemente explicando su mejor rendimiento.
27.-Los principios bayesianos sugieren que la sobreparametrización no debería ser necesaria, pero puede surgir como un apoyo debido a algoritmos de optimización subóptimos como SGD.
28.-Los objetivos SSL tienen un mayor impacto en las representaciones aprendidas que la arquitectura del modelo en Transformers de Visión. El incrustamiento conjunto y la reconstrucción aprenden características muy diferentes.
29.-Los modelos de lenguaje grandes aprenden conceptos en un orden similar independientemente del tamaño, con niveles de perplejidad alineándose entre modelos.
30.-Los modelos de escala media con ajuste de instrucciones y retroalimentación humana son una nueva frontera importante para la investigación empírica y teórica en ML.
Bóveda del Conocimiento construida porDavid Vivancos 2024