Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-El aprendizaje profundo ha logrado avances notables en los últimos 5 años, permitiendo capacidades mucho más allá de lo que se imaginaba en 2011.
2.-Para llevar el aprendizaje profundo a productos que afectan vidas, necesitamos una comprensión teórica para asegurar que los modelos sean confiables, predecibles y se comporten de manera segura.
3.-No hay consenso sobre qué hace que la optimización de modelos profundos sea difícil. Las hipótesis incluyen la dificultad para encontrar mínimos globales a medida que aumenta el tamaño de la red.
4.-Otra hipótesis es que los buenos mínimos locales tienen principalmente valores propios cercanos a cero en el Hessiano, con muy pocos positivos o negativos.
5.-La sabiduría convencional es que los puntos de silla dificultan la convergencia, pero en realidad son muy difíciles de converger si se inicializan aleatoriamente.
6.-Optimizar modelos profundos no es difícil: el error de entrenamiento cero se puede lograr fácilmente en MNIST y CIFAR-10 sin regularización.
7.-La divergencia del error de prueba del error de entrenamiento cercano a cero indica sobreajuste. Pero el error de clasificación puede estabilizarse a un nivel razonable sin divergir.
8.-Teoría fundamental del ML: Riesgo poblacional = Error de entrenamiento + Brecha de generalización. El error de entrenamiento cero no necesariamente significa sobreajuste.
9.-Compensación sesgo-varianza: Aumentar la complejidad del modelo reduce el sesgo pero aumenta la varianza. El aprendizaje profundo opera en el régimen de "alta varianza".
10.-Los modelos profundos con muchos más parámetros que puntos de datos pueden ajustar patrones de etiquetas arbitrarios, incluso ruido aleatorio. La capacidad es muy alta.
11.-La regularización, la detención temprana, la ampliación de datos, etc., ayudan a la generalización, pero no son condiciones necesarias. Las redes grandes sin regularizar superan a las redes más superficiales regularizadas.
12.-El sobreajuste es un problema incluso para modelos simples como la regresión lineal cuando el número de parámetros supera el número de puntos de datos.
13.-Con más parámetros que puntos de datos, hay infinitos mínimos globales, todos con el mismo Hessiano con muchos valores propios cero.
14.-SGD converge a la solución de mínima norma de todos los mínimos globales para problemas de regresión lineal.
15.-La mínima norma es razonable para la generalización porque elige una solución que aprovecha la estructura/regularidad útil en los parámetros.
16.-El truco del kernel permite calcular la solución de mínima norma exacta para la regresión de kernel en conjuntos de datos como MNIST en pocos minutos.
17.-La regresión de kernel sin regularización ni preprocesamiento obtiene un 1.2% de error de prueba en MNIST, 0.6% de error con una transformada wavelet.
18.-En CIFAR-10, la regresión de kernel sobre características convolucionales aleatorias obtiene un 16% de error de prueba, o 14% con algo de regularización.
19.-Modelos poco profundos como las máquinas de kernel pueden funcionar sorprendentemente bien simplemente interpolando los datos de entrenamiento, cuestionando la necesidad de profundidad.
20.-Para modelos lineales, el margen es el inverso de la norma del parámetro. El margen máximo significa estar lo más lejos posible de los datos.
21.-Las soluciones de mínima norma (máximo margen) cambian muy poco con pequeñas perturbaciones, correspondiendo a óptimos "planos". Los óptimos agudos cambian mucho.
22.-Algunas teorías limitan el error de prueba en términos de margen. El desafío es obtener límites prácticos de margen para redes profundas.
23.-La regularización hace que la conexión entre optimización y generalización no sea clara. Analizar la optimización sin regularización puede proporcionar claridad.
24.-Los puntos de silla pueden no ser realmente un problema importante para la optimización, a pesar de ser un enfoque de investigación activo recientemente.
25.-Interpolar los datos de entrenamiento no necesariamente lleva a sobreajuste y mala generalización.
26.-La clasificación de gran margen es un marco prometedor para pensar en la generalización en el aprendizaje profundo.
27.-La estabilidad algorítmica probablemente lleva a la estabilidad del modelo y la generalización. Los algoritmos de entrenamiento estables tienden a resultar en modelos que generalizan.
28.-Las ideas bien establecidas en la teoría del aprendizaje estadístico pueden proporcionar perspectivas sobre el aprendizaje profundo y ayudar a desmitificar observaciones empíricas recientes.
29.-La comunidad teórica espera que una mejor comprensión formal del aprendizaje profundo permita su despliegue seguro y confiable.
30.-A medida que el aprendizaje profundo impacta cada vez más a toda la sociedad, es crítico que los modelos sean predecibles, robustos y confiables.
Bóveda de Conocimiento construida por David Vivancos 2024