Conocimiento Bóveda 2/7 - ICLR 2014-2023
Andrew M. Saxe; James L. McClelland; Surya Ganguli ICLR 2014 - Soluciones exactas a la dinámica no lineal del aprendizaje en redes neuronales profundas lineales
<Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef deeplearning fill:#f9d4d4, font-weight:bold, font-size:14px; classDef deeplinear fill:#d4f9d4, font-weight:bold, font-size:14px; classDef initialization fill:#f9f9d4, font-weight:bold, font-size:14px; classDef nonlinear fill:#f9d4f9, font-weight:bold, font-size:14px; A[Andrew M. Saxe et al.] --> B[Éxitos en aprendizaje profundo,
teoría difícil. 1] A --> C[Perspectiva teórica sobre
entrenamiento, tasas, inicializaciones. 2] A --> D[Redes lineales profundas:
análisis sin no linealidades. 3] D --> E[Largos mesetas, caídas en error,
convergencia más rápida preentrenada. 4] D --> F[Red de 3 capas revela
ecuaciones diferenciales acopladas. 5] F --> G[Pesos convergen a
SVD entrada-salida. 6] F --> H[Soluciones especiales describen
toda la trayectoria de aprendizaje. 7] D --> I[Tiempo de aprendizaje inversamente
proporcional al valor singular. 8] D --> J[Soluciones se desacoplan, buenas
aproximaciones generalmente. 9] D --> K[Enfoque se extiende a
redes lineales más profundas. 10] K --> L[Gradiente combinado en
orden de capas. 11] K --> M[Tasa óptima escala
como 1/capas. 12] M --> N[Desaceleración finita con
condiciones iniciales especiales. 13] M --> O[Tiempo de aprendizaje aproximadamente
independiente de la profundidad. 14] D --> P[Experimentos confirman predicción
de desaceleración finita. 15] D --> Q[Tiempo de aprendizaje del modo depende
del tamaño del valor singular. 16] Q --> R[Tasa 1/profundidad, aprendizaje rápido
con condiciones desacopladas. 17] R --> S[Preentrenamiento encuentra buenas
condiciones desacopladas. 18] Q --> T[Inicializaciones ortogonales aleatorias
rinden similarmente. 19] T --> U[Ortogonal supera inicializaciones
gaussianas escaladas. 20] T --> V[Matrices ortogonales
preservan normas exactamente. 21] A --> W[Inicialización casi isométrica
para propagación de gradiente. 22] W --> X[Ortogonal escalado contrarresta
no linealidades contractivas. 23] X --> Y[Entrenamiento más rápido, mejor error
en MNIST. 24] X --> Z[Grandes ganancias permiten
aprendizaje profundo en pocas iteraciones. 25] Z --> AA[Caída de precisión sugiere
pesos pequeños regularizan. 26] Z --> AB[Entrenamiento rápido con pesos grandes
sugiere puntos de silla. 27] D --> AC[Teoría se extiende a
matrices de peso no cuadradas. 28] A --> AD[Gradientes desaparecidos se manifiestan
en redes lineales profundas. 29] A --> AE[LSTMs ayudan a gradientes desaparecidos,
no logran isometría completa. 30] class A,B,C deeplearning; class D,E,F,G,H,I,J,K,L,M,N,O,P,Q,R,AC,AD deeplinear; class S,T,U,V,W,X initialization; class Y,Z,AA,AB,AE nonlinear;

Resumen:

1.-El aprendizaje profundo ha tenido muchos éxitos recientes, pero la teoría es difícil debido a la composición de no linealidades.

2.-Esta charla toma una perspectiva teórica para ganar intuición sobre cómo el tiempo de entrenamiento, las tasas de aprendizaje y las inicializaciones impactan el aprendizaje.

3.-Las redes lineales profundas eliminan las no linealidades para hacer posible el análisis, mientras que aún exhiben algunos fenómenos de aprendizaje interesantes.

4.-Las redes lineales profundas pueden mostrar largos mesetas seguidas de caídas en el error de entrenamiento y una convergencia más rápida desde inicializaciones preentrenadas.

5.-Enfocarse en una red lineal simple de 3 capas entrenada en pares de entrada-salida revela ecuaciones diferenciales no lineales acopladas que gobiernan la dinámica del aprendizaje.

6.-En la convergencia, los pesos convergen al SVD de la matriz de correlación entrada-salida.

7.-Se pueden encontrar soluciones exactas para condiciones iniciales especiales que describen toda la trayectoria de aprendizaje como el aprendizaje de los valores singulares a lo largo del tiempo.

8.-El tiempo de aprendizaje para cada modo es inversamente proporcional al tamaño del valor singular correspondiente: las correlaciones más fuertes se aprenden más rápido.

9.-Las soluciones se desacoplan rápidamente incluso desde condiciones iniciales aleatorias, por lo que las soluciones analíticas son buenas aproximaciones en general.

10.-El mismo enfoque se extiende a redes lineales más profundas, con cada valor singular efectivo evolucionando según una ecuación diferencial más compleja.

11.-El gradiente combinado a través de todas las capas es del orden del número de capas.

12.-La tasa de aprendizaje óptima escala como 1/m donde m es el número de capas, basado en limitar el valor propio máximo.

13.-A pesar de la tasa de aprendizaje 1/m, la diferencia de tiempo entre redes profundas y poco profundas sigue siendo finita si se utilizan las condiciones iniciales especiales.

14.-Esto se debe a que la norma del gradiente es del orden m mientras que la tasa de aprendizaje es 1/m, por lo que el tiempo de aprendizaje es aproximadamente independiente de la profundidad.

15.-Experimentos en redes lineales profundas de hasta 100 capas muestran saturación en el tiempo de aprendizaje a medida que aumenta la profundidad, confirmando la predicción de desaceleración finita.

16.-En resumen, las redes lineales profundas tienen dinámicas de aprendizaje no triviales y el tiempo de aprendizaje de cada modo depende del tamaño de su valor singular.

17.-La tasa de aprendizaje óptima escala como 1/profundidad, pero las redes pueden aprender rápidamente si se inicializan con condiciones desacopladas.

18.-El preentrenamiento es una forma de encontrar buenas condiciones iniciales desacopladas, análogo a ayudar a la optimización en el caso no lineal.

19.-El preentrenamiento en una red lineal profunda simplemente establece cada matriz de peso como ortogonal, sugiriendo que las inicializaciones ortogonales aleatorias podrían funcionar también.

20.-Las inicializaciones ortogonales aleatorias rinden de manera similar al preentrenamiento y permiten tiempos de aprendizaje rápidos independientes de la profundidad, superando a las inicializaciones gaussianas aleatorias cuidadosamente escaladas.

21.-Las matrices aleatorias cuidadosamente escaladas preservan las normas de los vectores solo en promedio, amplificando algunas direcciones mientras atenúan otras, mientras que las matrices ortogonales preservan las normas exactamente.

22.-Para redes no lineales, una buena inicialización puede ser una cuasi-isometría en el subespacio más grande posible para permitir la propagación del gradiente.

23.-Escalar matrices de peso ortogonales aleatorias por una ganancia ligeramente mayor que 1 ayuda a contrarrestar las no linealidades contractivas para lograr muchos valores singulares cercanos a 1.

24.-Las redes no lineales de 30 capas entrenadas en MNIST mostraron un entrenamiento más rápido y un error de prueba ligeramente mejor usando inicializaciones ortogonales escaladas justo por encima de 1.

25.-Incluso mayores ganancias (por ejemplo, 2-10x) permiten que redes muy profundas aprendan en solo unas pocas iteraciones, pero con un compromiso de precisión.

26.-La caída de precisión con altas ganancias sugiere que los pesos iniciales pequeños son importantes para la regularización y el aprendizaje de funciones suaves.

27.-La capacidad de entrenar rápidamente con pesos iniciales grandes sugiere que las dificultades de entrenamiento pueden surgir más de puntos de silla que de mínimos locales.

28.-La teoría se extiende a matrices de peso no cuadradas utilizando SVDs con unos y ceros.

29.-El problema de los gradientes desaparecidos se manifiesta en redes lineales profundas como lo hace en las no lineales.

30.-Los LSTMs ayudan con los gradientes desaparecidos al preservar la norma para los bucles propios, pero no logran completamente una cuasi-isometría.

Bóveda del Conocimiento construida porDavid Vivancos 2024