Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-El aprendizaje profundo ha tenido muchos éxitos recientes, pero la teoría es difícil debido a la composición de no linealidades.
2.-Esta charla toma una perspectiva teórica para ganar intuición sobre cómo el tiempo de entrenamiento, las tasas de aprendizaje y las inicializaciones impactan el aprendizaje.
3.-Las redes lineales profundas eliminan las no linealidades para hacer posible el análisis, mientras que aún exhiben algunos fenómenos de aprendizaje interesantes.
4.-Las redes lineales profundas pueden mostrar largos mesetas seguidas de caídas en el error de entrenamiento y una convergencia más rápida desde inicializaciones preentrenadas.
5.-Enfocarse en una red lineal simple de 3 capas entrenada en pares de entrada-salida revela ecuaciones diferenciales no lineales acopladas que gobiernan la dinámica del aprendizaje.
6.-En la convergencia, los pesos convergen al SVD de la matriz de correlación entrada-salida.
7.-Se pueden encontrar soluciones exactas para condiciones iniciales especiales que describen toda la trayectoria de aprendizaje como el aprendizaje de los valores singulares a lo largo del tiempo.
8.-El tiempo de aprendizaje para cada modo es inversamente proporcional al tamaño del valor singular correspondiente: las correlaciones más fuertes se aprenden más rápido.
9.-Las soluciones se desacoplan rápidamente incluso desde condiciones iniciales aleatorias, por lo que las soluciones analíticas son buenas aproximaciones en general.
10.-El mismo enfoque se extiende a redes lineales más profundas, con cada valor singular efectivo evolucionando según una ecuación diferencial más compleja.
11.-El gradiente combinado a través de todas las capas es del orden del número de capas.
12.-La tasa de aprendizaje óptima escala como 1/m donde m es el número de capas, basado en limitar el valor propio máximo.
13.-A pesar de la tasa de aprendizaje 1/m, la diferencia de tiempo entre redes profundas y poco profundas sigue siendo finita si se utilizan las condiciones iniciales especiales.
14.-Esto se debe a que la norma del gradiente es del orden m mientras que la tasa de aprendizaje es 1/m, por lo que el tiempo de aprendizaje es aproximadamente independiente de la profundidad.
15.-Experimentos en redes lineales profundas de hasta 100 capas muestran saturación en el tiempo de aprendizaje a medida que aumenta la profundidad, confirmando la predicción de desaceleración finita.
16.-En resumen, las redes lineales profundas tienen dinámicas de aprendizaje no triviales y el tiempo de aprendizaje de cada modo depende del tamaño de su valor singular.
17.-La tasa de aprendizaje óptima escala como 1/profundidad, pero las redes pueden aprender rápidamente si se inicializan con condiciones desacopladas.
18.-El preentrenamiento es una forma de encontrar buenas condiciones iniciales desacopladas, análogo a ayudar a la optimización en el caso no lineal.
19.-El preentrenamiento en una red lineal profunda simplemente establece cada matriz de peso como ortogonal, sugiriendo que las inicializaciones ortogonales aleatorias podrían funcionar también.
20.-Las inicializaciones ortogonales aleatorias rinden de manera similar al preentrenamiento y permiten tiempos de aprendizaje rápidos independientes de la profundidad, superando a las inicializaciones gaussianas aleatorias cuidadosamente escaladas.
21.-Las matrices aleatorias cuidadosamente escaladas preservan las normas de los vectores solo en promedio, amplificando algunas direcciones mientras atenúan otras, mientras que las matrices ortogonales preservan las normas exactamente.
22.-Para redes no lineales, una buena inicialización puede ser una cuasi-isometría en el subespacio más grande posible para permitir la propagación del gradiente.
23.-Escalar matrices de peso ortogonales aleatorias por una ganancia ligeramente mayor que 1 ayuda a contrarrestar las no linealidades contractivas para lograr muchos valores singulares cercanos a 1.
24.-Las redes no lineales de 30 capas entrenadas en MNIST mostraron un entrenamiento más rápido y un error de prueba ligeramente mejor usando inicializaciones ortogonales escaladas justo por encima de 1.
25.-Incluso mayores ganancias (por ejemplo, 2-10x) permiten que redes muy profundas aprendan en solo unas pocas iteraciones, pero con un compromiso de precisión.
26.-La caída de precisión con altas ganancias sugiere que los pesos iniciales pequeños son importantes para la regularización y el aprendizaje de funciones suaves.
27.-La capacidad de entrenar rápidamente con pesos iniciales grandes sugiere que las dificultades de entrenamiento pueden surgir más de puntos de silla que de mínimos locales.
28.-La teoría se extiende a matrices de peso no cuadradas utilizando SVDs con unos y ceros.
29.-El problema de los gradientes desaparecidos se manifiesta en redes lineales profundas como lo hace en las no lineales.
30.-Los LSTMs ayudan con los gradientes desaparecidos al preservar la norma para los bucles propios, pero no logran completamente una cuasi-isometría.
Bóveda del Conocimiento construida porDavid Vivancos 2024