Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-La hipótesis del boleto de lotería propone que las redes neuronales densas contienen subredes escasas que pueden entrenarse de forma aislada para alcanzar la precisión completa.
2.-La poda iterativa implica entrenar, podar y reiniciar una red durante varias rondas, escaseándola gradualmente mientras se intenta mantener la precisión.
3.-Los boletos ganadores son subredes escasas que entrenan más rápido y alcanzan mayor precisión que la red original cuando se reinician y entrenan de forma aislada.
4.-Reinicializar aleatoriamente los boletos ganadores degrada su rendimiento, mostrando la importancia de una inicialización afortunada para permitir el entrenamiento efectivo de redes escasas.
5.-La poda de un solo golpe, donde una red se poda solo una vez después del entrenamiento, puede encontrar boletos ganadores pero no tan pequeños como la poda iterativa.
6.-En redes convolucionales, la poda iterativa encuentra boletos ganadores del 10-20% del tamaño de la red original, mostrando una mejora dramática en la precisión y velocidad de entrenamiento.
7.-Entrenar las redes podadas con abandono lleva a mejoras de precisión aún mayores, sugiriendo que la poda y el abandono tienen efectos regularizadores complementarios.
8.-En redes más profundas como VGG-19 y ResNet-18, la poda iterativa requiere tasas de aprendizaje más bajas o calentamiento de la tasa de aprendizaje para encontrar boletos ganadores.
9.-Los boletos ganadores alcanzan mayor precisión en pruebas a tamaños más pequeños y aprenden más rápido que las redes originales en arquitecturas completamente conectadas y convolucionales.
10.-Los boletos ganadores encontrados mediante poda iterativa igualan la precisión de la red original al 10-20% del tamaño en las arquitecturas probadas.
11.-Los boletos ganadores que se reinicializan aleatoriamente rinden significativamente peor, indicando la importancia de la inicialización original más que solo la arquitectura.
12.-La brecha entre la precisión de entrenamiento y prueba es menor para los boletos ganadores, sugiriendo que generalizan mejor que las redes sobreparametrizadas originales.
13.-Se evaluaron diferentes estrategias de poda iterativa, siendo el reinicio de los pesos de la red cada ronda más efectivo que continuar el entrenamiento sin reiniciar los pesos.
14.-La iteración en la que ocurre la parada temprana en el conjunto de validación se utiliza como métrica proxy para la velocidad de aprendizaje.
15.-Se probaron los optimizadores Adam, SGD y SGD con momentum a varias tasas de aprendizaje, todos produciendo boletos ganadores con poda iterativa.
16.-Las tasas de poda más lentas (por ejemplo, eliminar el 20% por iteración frente al 60%) llevan a encontrar boletos ganadores más pequeños que mantienen el rendimiento.
17.-Se compararon diferentes tasas de poda por capa para redes convolucionales, con capas completamente conectadas podadas más rápido que las capas convolucionales para obtener los mejores resultados.
18.-Se probaron inicializaciones gaussianas con diferentes desviaciones estándar; se encontraron boletos ganadores en todos los casos con poda iterativa.
19.-Las redes Lenet más grandes produjeron boletos ganadores que alcanzaron mayor precisión, pero el rendimiento relativo fue similar en diferentes tamaños de Lenets.
20.-Se encontraron boletos ganadores al entrenar con y sin abandono, aunque la presencia de abandono afectó la velocidad de aprendizaje en las redes no podadas.
21.-Podar solo capas convolucionales o completamente conectadas fue menos efectivo que podar ambas para alcanzar tamaños pequeños de boletos ganadores.
22.-Las inicializaciones de boletos ganadores forman distribuciones bimodales desplazadas lejos de cero a medida que las redes se podan, a diferencia de las inicializaciones gaussianas originales.
23.-Las unidades en boletos ganadores tienen niveles similares de conectividad entrante después de la poda, mientras que algunas unidades retienen mucha más conectividad saliente.
24.-Agregar ruido gaussiano a las inicializaciones de boletos ganadores solo degrada gradualmente la precisión, mostrando robustez a las perturbaciones en sus valores de peso iniciales.
25.-Los pesos de boletos ganadores consistentemente se alejan más de sus inicializaciones en comparación con los pesos podados temprano, sugiriendo que la poda encuentra trayectorias de inicialización afortunadas.
26.-La poda global a través de todas las capas rinde mejor que la poda capa por capa para encontrar boletos ganadores pequeños en redes muy profundas (VGG-19, ResNet-18).
27.-El calentamiento de la tasa de aprendizaje permite encontrar boletos ganadores a tasas de aprendizaje más grandes en redes profundas cuando la poda iterativa estándar tiene dificultades.
28.-Evaluando diferentes duraciones de calentamiento, 5k-20k iteraciones de calentamiento mejoraron los resultados con 20k (ResNet-18) y 10k (VGG-19) funcionando mejor.
29.-La hipótesis del boleto de lotería puede proporcionar información sobre el papel de la sobreparametrización y la optimización de redes neuronales.
30.-El trabajo futuro tiene como objetivo aprovechar los boletos ganadores para mejorar el rendimiento del entrenamiento, diseñar mejores redes y avanzar en la comprensión teórica de las redes neuronales.
Vault de Conocimiento construido porDavid Vivancos 2024