Conocimiento Vault 2/60 - ICLR 2014-2023
Jonathan Frankle · Michael Carbin ICLR 2019 - La Hipótesis del Boleto de Lotería: Encontrando Redes Neuronales Escasas y Entrenables
<Imagen del Resumen>

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef lottery fill:#f9d4d4, font-weight:bold, font-size:14px; classDef pruning fill:#d4f9d4, font-weight:bold, font-size:14px; classDef tickets fill:#d4d4f9, font-weight:bold, font-size:14px; classDef initialization fill:#f9f9d4, font-weight:bold, font-size:14px; classDef networks fill:#f9d4f9, font-weight:bold, font-size:14px; classDef results fill:#d4f9f9, font-weight:bold, font-size:14px; classDef future fill:#f9d4d4, font-weight:bold, font-size:14px; A[J. Frankle & M. Carbin
ICLR 2019] --> B[Hipótesis del boleto de lotería:
subredes entrenables escasas 1] A --> C[Poda iterativa: entrenar,
podar, reiniciar, escasear 2] C --> D[La poda de un solo golpe encuentra boletos,
no tan pequeños 5] A --> E[Boletos ganadores: escasos, más rápidos,
más precisos subredes 3] E --> F[Reinicialización aleatoria degrada
rendimiento del boleto ganador 4] C --> G[Redes convolucionales: 10-20%
tamaño, más rápidas, más precisas 6] G --> H[Poda + abandono:
mejoras de precisión mayores 7] C --> I[Redes más profundas necesitan tasas de aprendizaje
más bajas, calentamiento 8] E --> J[Boletos ganadores: mayor precisión,
aprendizaje más rápido, mejor generalización 9] E --> K[Boletos ganadores igualan precisión
al 10-20% del tamaño 10] F --> L[Inicialización original crítica,
no solo arquitectura 11] E --> M[Boletos ganadores tienen
menor brecha de generalización 12] C --> N[Reiniciar pesos cada ronda
supera entrenamiento continuo 13] C --> O[Iteración de parada temprana proxys
velocidad de aprendizaje 14] C --> P[Adam, SGD, momentum funcionan
a varias tasas de aprendizaje 15] C --> Q[Poda más lenta 20% vs 60%
conduce a boletos más pequeños 16] C --> R[Redes convolucionales: podar capas FC
más rápido que conv 17] C --> S[Boletos ganadores encontrados a través de
escalas de inicialización gaussiana 18] C --> T[LeNets más grandes producen boletos ganadores
de mayor precisión 19] C --> U[Boletos ganadores encontrados con
y sin abandono 20] C --> V[Poda de capas conv y FC
juntas más efectiva 21] E --> W[Boletos ganadores tienen inicialización de peso bimodal,
desplazada 22] E --> X[Unidades de boletos ganadores tienen
entrada similar, salida variable 23] E --> Y[Boletos ganadores robustos a
ruido en inicializaciones 24] E --> Z[Pesos de boletos ganadores se mueven
más lejos de inicializaciones 25] C --> AA[Poda global supera capa por capa
en redes profundas 26] I --> AB[Calentamiento permite boletos ganadores
a tasas de aprendizaje más altas 27] AB --> AC[5-20k iteraciones de calentamiento funcionan
mejor para VGG, ResNet 28] A --> AD[Perspectivas sobre sobreparametrización,
optimización de redes neuronales 29] A --> AE[Trabajo futuro: mejorar entrenamiento,
redes, teoría con boletos 30] class A,AD,AE future; class B lottery; class C,D,N,O,P,Q,R,S,T,U,V,AA,I,AB,AC pruning; class E,F,J,K,L,M,W,X,Y,Z tickets; class G,H networks; class L,S initialization;

Resumen:

1.-La hipótesis del boleto de lotería propone que las redes neuronales densas contienen subredes escasas que pueden entrenarse de forma aislada para alcanzar la precisión completa.

2.-La poda iterativa implica entrenar, podar y reiniciar una red durante varias rondas, escaseándola gradualmente mientras se intenta mantener la precisión.

3.-Los boletos ganadores son subredes escasas que entrenan más rápido y alcanzan mayor precisión que la red original cuando se reinician y entrenan de forma aislada.

4.-Reinicializar aleatoriamente los boletos ganadores degrada su rendimiento, mostrando la importancia de una inicialización afortunada para permitir el entrenamiento efectivo de redes escasas.

5.-La poda de un solo golpe, donde una red se poda solo una vez después del entrenamiento, puede encontrar boletos ganadores pero no tan pequeños como la poda iterativa.

6.-En redes convolucionales, la poda iterativa encuentra boletos ganadores del 10-20% del tamaño de la red original, mostrando una mejora dramática en la precisión y velocidad de entrenamiento.

7.-Entrenar las redes podadas con abandono lleva a mejoras de precisión aún mayores, sugiriendo que la poda y el abandono tienen efectos regularizadores complementarios.

8.-En redes más profundas como VGG-19 y ResNet-18, la poda iterativa requiere tasas de aprendizaje más bajas o calentamiento de la tasa de aprendizaje para encontrar boletos ganadores.

9.-Los boletos ganadores alcanzan mayor precisión en pruebas a tamaños más pequeños y aprenden más rápido que las redes originales en arquitecturas completamente conectadas y convolucionales.

10.-Los boletos ganadores encontrados mediante poda iterativa igualan la precisión de la red original al 10-20% del tamaño en las arquitecturas probadas.

11.-Los boletos ganadores que se reinicializan aleatoriamente rinden significativamente peor, indicando la importancia de la inicialización original más que solo la arquitectura.

12.-La brecha entre la precisión de entrenamiento y prueba es menor para los boletos ganadores, sugiriendo que generalizan mejor que las redes sobreparametrizadas originales.

13.-Se evaluaron diferentes estrategias de poda iterativa, siendo el reinicio de los pesos de la red cada ronda más efectivo que continuar el entrenamiento sin reiniciar los pesos.

14.-La iteración en la que ocurre la parada temprana en el conjunto de validación se utiliza como métrica proxy para la velocidad de aprendizaje.

15.-Se probaron los optimizadores Adam, SGD y SGD con momentum a varias tasas de aprendizaje, todos produciendo boletos ganadores con poda iterativa.

16.-Las tasas de poda más lentas (por ejemplo, eliminar el 20% por iteración frente al 60%) llevan a encontrar boletos ganadores más pequeños que mantienen el rendimiento.

17.-Se compararon diferentes tasas de poda por capa para redes convolucionales, con capas completamente conectadas podadas más rápido que las capas convolucionales para obtener los mejores resultados.

18.-Se probaron inicializaciones gaussianas con diferentes desviaciones estándar; se encontraron boletos ganadores en todos los casos con poda iterativa.

19.-Las redes Lenet más grandes produjeron boletos ganadores que alcanzaron mayor precisión, pero el rendimiento relativo fue similar en diferentes tamaños de Lenets.

20.-Se encontraron boletos ganadores al entrenar con y sin abandono, aunque la presencia de abandono afectó la velocidad de aprendizaje en las redes no podadas.

21.-Podar solo capas convolucionales o completamente conectadas fue menos efectivo que podar ambas para alcanzar tamaños pequeños de boletos ganadores.

22.-Las inicializaciones de boletos ganadores forman distribuciones bimodales desplazadas lejos de cero a medida que las redes se podan, a diferencia de las inicializaciones gaussianas originales.

23.-Las unidades en boletos ganadores tienen niveles similares de conectividad entrante después de la poda, mientras que algunas unidades retienen mucha más conectividad saliente.

24.-Agregar ruido gaussiano a las inicializaciones de boletos ganadores solo degrada gradualmente la precisión, mostrando robustez a las perturbaciones en sus valores de peso iniciales.

25.-Los pesos de boletos ganadores consistentemente se alejan más de sus inicializaciones en comparación con los pesos podados temprano, sugiriendo que la poda encuentra trayectorias de inicialización afortunadas.

26.-La poda global a través de todas las capas rinde mejor que la poda capa por capa para encontrar boletos ganadores pequeños en redes muy profundas (VGG-19, ResNet-18).

27.-El calentamiento de la tasa de aprendizaje permite encontrar boletos ganadores a tasas de aprendizaje más grandes en redes profundas cuando la poda iterativa estándar tiene dificultades.

28.-Evaluando diferentes duraciones de calentamiento, 5k-20k iteraciones de calentamiento mejoraron los resultados con 20k (ResNet-18) y 10k (VGG-19) funcionando mejor.

29.-La hipótesis del boleto de lotería puede proporcionar información sobre el papel de la sobreparametrización y la optimización de redes neuronales.

30.-El trabajo futuro tiene como objetivo aprovechar los boletos ganadores para mejorar el rendimiento del entrenamiento, diseñar mejores redes y avanzar en la comprensión teórica de las redes neuronales.

Vault de Conocimiento construido porDavid Vivancos 2024