El Fin Del Conocimiento - Bóveda 2 - ICLR (2014-2023) - Tianqi Chen, Ian Goodfellow, Jon Shlens ICLR 2016

graph LR classDef biologicalArtificial fill:#f9d4d4, font-weight:bold, font-size:14px; classDef trainingApproaches fill:#d4f9d4, font-weight:bold, font-size:14px; classDef net2net fill:#d4d4f9, font-weight:bold, font-size:14px; classDef modelEvolution fill:#f9f9d4, font-weight:bold, font-size:14px; A["Tianqi Chen et al.
ICLR 2016"] --> B["Analogía entre redes
neuronales biológicas y artificiales 1"] A --> C["Aprendizaje profundo: diseño
iterativo de modelos 2"] C --> D["Crecer modelos con
datos es crucial 3"] A --> E["Forma 'tonta':
desechar, reentrenar 4"] A --> F["Enfoque maestro-estudiante
no converge 5"] A --> G["Net2Net: transformar,
continuar entrenando 6"] G --> H["Preservar el conocimiento
es importante 7"] G --> I["Ampliar redes:
duplicar, dividir canales 9"] G --> J["Profundizar redes:
factorizar capas 10"] G --> K["Experimentos con ImageNet
usando Inception 11"] K --> L["Ampliar acelera
la convergencia 3-4x 12"] K --> M["Profundizar mejora
la convergencia, precisión 13"] K --> N["Más ancha + más profunda
supera ligeramente 14"] K --> O["Net2Net acelera
la exploración de modelos 15"] A --> P["Necesidad de algo mejor que
desechar, reentrenar 16"] P --> Q["Reutilizar modelos para
acelerar el entrenamiento 17"] Q --> R["Transformaciones que preservan funciones
evitan la lenta convergencia 18"] A --> S["Entrenamiento continuo e incremental
más allá de una sola vez 19"] S --> T["Net2Net: paso hacia
el aprendizaje de por vida 20"] class B biologicalArtificial; class C,D,E,F trainingApproaches; class G,H,I,J,K,L,M,N,O net2net; class P,Q,R,S,T modelEvolution;

Resumen:

1.-El ponente hace una analogía entre redes neuronales biológicas y artificiales - más neuronas/datos conducen a más inteligencia pero tiempos de entrenamiento más largos.

2.-En realidad, el aprendizaje profundo implica iterar y experimentar con muchos diseños de redes neuronales hasta encontrar uno que funcione lo suficientemente bien.

3.-Este ciclo de experimentación de crecer modelos a medida que los datos aumentan ocurre en todo el aprendizaje automático y será crucial para construir sistemas de aprendizaje continuo.

4.-Los enfoques actuales para entrenar nuevos modelos descartan la red entrenada anterior y reentrenan desde cero - conocido como la forma "tonta".

5.-Otro enfoque es usar la red entrenada como maestro para supervisar una nueva red estudiante, pero esto no converge bien.

6.-El ponente propone "Net2Net" - transformar un modelo entrenado en un nuevo modelo equivalente y continuar entrenando, para permitir la evolución continua del modelo.

7.-Los experimentos muestran que reinicializar aleatoriamente más de la mitad de las capas de una red entrenada ralentiza significativamente la convergencia, por lo que preservar el conocimiento es importante.

8.-Net2Net utiliza transformaciones que preservan funciones para expandir la capacidad del modelo en anchura (más canales por capa) o profundidad (más capas).

9.-Para redes más anchas, los canales se duplican aleatoriamente y luego se dividen para mantener la equivalencia funcional, con algo de ruido añadido para romper la simetría.

10.-Para hacer las redes más profundas, las capas pueden factorizarse en dos capas, como añadir un mapeo de identidad, de una manera que se generalice.

11.-Se realizaron experimentos en ImageNet usando Inception para probar si Net2Net puede acelerar el ciclo de desarrollo/experimentación de modelos.

12.-Al ampliar un modelo Inception más pequeño, Net2Net permite alcanzar rápidamente el rendimiento del modelo más pequeño, luego mejorar, logrando una aceleración de 3-4x frente a comenzar desde cero.

13.-Se observa una convergencia más rápida y una precisión final similar al añadir capas convolucionales para profundizar un modelo Inception estándar.

14.-Al aplicar transformaciones Net2Net más anchas y más profundas a Inception, exploran rápidamente nuevas arquitecturas que superan ligeramente a la original.

15.-La convergencia teórica del entrenamiento desde cero de los modelos más grandes es incluso más lenta, confirmando la capacidad de Net2Net para acelerar la exploración y mejora de modelos.

16.-En conclusión, necesitamos mejores enfoques que desechar y reentrenar modelos desde cero a medida que los datos aumentan y los modelos evolucionan.

17.-Es posible reutilizar modelos entrenados para acelerar el entrenamiento de modelos más grandes para los nuevos datos, como demuestra Net2Net.

18.-La clave es usar transformaciones que preserven funciones para expandir modelos mientras se evitan componentes inicializados aleatoriamente que ralentizan la convergencia.

19.-Más ampliamente, deberíamos pensar en el entrenamiento continuo e incremental de modelos más allá del entrenamiento de una sola vez como una necesidad crucial.

20.-Net2Net es solo un pequeño paso en esta dirección de habilitar la evolución continua de modelos y sistemas de aprendizaje de por vida.

Bóveda del Conocimiento construida porDavid Vivancos 2024