Conocimiento Bóveda 2/32 - ICLR 2014-2023
Benjamin Recht ICLR 2017 - Charla Invitada - ¿qué puede aprender el aprendizaje profundo de la regresión lineal?.
<Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef deeplearning fill:#f9d4d4, font-weight:bold, font-size:14px; classDef theory fill:#d4f9d4, font-weight:bold, font-size:14px; classDef optimization fill:#d4d4f9, font-weight:bold, font-size:14px; classDef generalization fill:#f9f9d4, font-weight:bold, font-size:14px; classDef kernels fill:#f9d4f9, font-weight:bold, font-size:14px; A[Benjamin Recht
ICLR 2017] --> B[Aprendizaje profundo: avances
notables, capacidades. 1] A --> C[Se necesitan modelos confiables,
predecibles y seguros. 2] A --> D[No hay consenso sobre las causas
de la dificultad de optimización. 3] A --> I[Riesgo poblacional = error de entrenamiento
+ brecha de generalización. 8] A --> K[Compensación sesgo-varianza: la complejidad reduce
el sesgo, aumenta la varianza. 9] A --> S[El truco del kernel permite el cálculo exacto
del mínimo de norma. 16] D --> E[Los buenos mínimos locales tienen
principalmente valores propios cercanos a cero. 4] D --> F[Los puntos de silla son difíciles de
converger aleatoriamente. 5] D --> G[El error de entrenamiento cero se logra fácilmente
sin regularización. 6] G --> H[La divergencia del error de prueba indica sobreajuste. 7] I --> J[El error de entrenamiento cero no
necesariamente significa sobreajuste. 8] K --> L[Las redes grandes sin regularizar pueden
ajustar etiquetas arbitrarias. 10] L --> M[La capacidad es muy alta. 10] K --> N[La regularización, la detención temprana ayudan
a la generalización, no son necesarias. 11] K --> O[Problema de sobreajuste incluso para
modelos simples sobreparametrizados. 12] O --> P[Infinitos mínimos globales
con valores propios cero. 13] S --> T[La regresión de kernel funciona bien
en MNIST, CIFAR-10. 17, 18] S --> Q[SGD converge a la solución de
mínima norma. 14] Q --> R[La mínima norma aprovecha la estructura
útil/regularidad de los parámetros. 15] K --> U[Modelos poco profundos 19] K --> V[El margen es el inverso de
la norma del parámetro. 20] V --> W[Las soluciones de mínima norma cambian
poco con perturbaciones. 21] K --> X[La teoría limita el error de prueba
en términos de margen. 22] K --> Y[Analizar la optimización sin regularización
proporciona claridad. 23] K --> Z[Los puntos de silla pueden no
ser un problema importante. 24] K --> AA[La interpolación no necesariamente lleva
a una mala generalización. 25] C --> AB[La clasificación de gran margen es prometedora
para la generalización del aprendizaje profundo. 26] C --> AC[La estabilidad algorítmica lleva a
la estabilidad del modelo, generalización. 27] C --> AD[La teoría del aprendizaje estadístico proporciona
perspectiva, desmitifica observaciones. 28] C --> AE[La comprensión teórica permite un despliegue
seguro y confiable. 29] C --> AF[Modelos predecibles, robustos y confiables
críticos a medida que crece el impacto. 30] class A,B deeplearning; class C,I,J,K,L,M,N,O,P,U,V,W,X,Y,Z,AA,AB,AC,AD,AE,AF theory; class D,E,F,G,H,Q,R optimization; class S,T kernels;

Resumen:

1.-El aprendizaje profundo ha logrado avances notables en los últimos 5 años, permitiendo capacidades mucho más allá de lo que se imaginaba en 2011.

2.-Para llevar el aprendizaje profundo a productos que afectan vidas, necesitamos una comprensión teórica para asegurar que los modelos sean confiables, predecibles y se comporten de manera segura.

3.-No hay consenso sobre qué hace que la optimización de modelos profundos sea difícil. Las hipótesis incluyen la dificultad para encontrar mínimos globales a medida que aumenta el tamaño de la red.

4.-Otra hipótesis es que los buenos mínimos locales tienen principalmente valores propios cercanos a cero en el Hessiano, con muy pocos positivos o negativos.

5.-La sabiduría convencional es que los puntos de silla dificultan la convergencia, pero en realidad son muy difíciles de converger si se inicializan aleatoriamente.

6.-Optimizar modelos profundos no es difícil: el error de entrenamiento cero se puede lograr fácilmente en MNIST y CIFAR-10 sin regularización.

7.-La divergencia del error de prueba del error de entrenamiento cercano a cero indica sobreajuste. Pero el error de clasificación puede estabilizarse a un nivel razonable sin divergir.

8.-Teoría fundamental del ML: Riesgo poblacional = Error de entrenamiento + Brecha de generalización. El error de entrenamiento cero no necesariamente significa sobreajuste.

9.-Compensación sesgo-varianza: Aumentar la complejidad del modelo reduce el sesgo pero aumenta la varianza. El aprendizaje profundo opera en el régimen de "alta varianza".

10.-Los modelos profundos con muchos más parámetros que puntos de datos pueden ajustar patrones de etiquetas arbitrarios, incluso ruido aleatorio. La capacidad es muy alta.

11.-La regularización, la detención temprana, la ampliación de datos, etc., ayudan a la generalización, pero no son condiciones necesarias. Las redes grandes sin regularizar superan a las redes más superficiales regularizadas.

12.-El sobreajuste es un problema incluso para modelos simples como la regresión lineal cuando el número de parámetros supera el número de puntos de datos.

13.-Con más parámetros que puntos de datos, hay infinitos mínimos globales, todos con el mismo Hessiano con muchos valores propios cero.

14.-SGD converge a la solución de mínima norma de todos los mínimos globales para problemas de regresión lineal.

15.-La mínima norma es razonable para la generalización porque elige una solución que aprovecha la estructura/regularidad útil en los parámetros.

16.-El truco del kernel permite calcular la solución de mínima norma exacta para la regresión de kernel en conjuntos de datos como MNIST en pocos minutos.

17.-La regresión de kernel sin regularización ni preprocesamiento obtiene un 1.2% de error de prueba en MNIST, 0.6% de error con una transformada wavelet.

18.-En CIFAR-10, la regresión de kernel sobre características convolucionales aleatorias obtiene un 16% de error de prueba, o 14% con algo de regularización.

19.-Modelos poco profundos como las máquinas de kernel pueden funcionar sorprendentemente bien simplemente interpolando los datos de entrenamiento, cuestionando la necesidad de profundidad.

20.-Para modelos lineales, el margen es el inverso de la norma del parámetro. El margen máximo significa estar lo más lejos posible de los datos.

21.-Las soluciones de mínima norma (máximo margen) cambian muy poco con pequeñas perturbaciones, correspondiendo a óptimos "planos". Los óptimos agudos cambian mucho.

22.-Algunas teorías limitan el error de prueba en términos de margen. El desafío es obtener límites prácticos de margen para redes profundas.

23.-La regularización hace que la conexión entre optimización y generalización no sea clara. Analizar la optimización sin regularización puede proporcionar claridad.

24.-Los puntos de silla pueden no ser realmente un problema importante para la optimización, a pesar de ser un enfoque de investigación activo recientemente.

25.-Interpolar los datos de entrenamiento no necesariamente lleva a sobreajuste y mala generalización.

26.-La clasificación de gran margen es un marco prometedor para pensar en la generalización en el aprendizaje profundo.

27.-La estabilidad algorítmica probablemente lleva a la estabilidad del modelo y la generalización. Los algoritmos de entrenamiento estables tienden a resultar en modelos que generalizan.

28.-Las ideas bien establecidas en la teoría del aprendizaje estadístico pueden proporcionar perspectivas sobre el aprendizaje profundo y ayudar a desmitificar observaciones empíricas recientes.

29.-La comunidad teórica espera que una mejor comprensión formal del aprendizaje profundo permita su despliegue seguro y confiable.

30.-A medida que el aprendizaje profundo impacta cada vez más a toda la sociedad, es crítico que los modelos sean predecibles, robustos y confiables.

Bóveda de Conocimiento construida por David Vivancos 2024