Conocimiento Vault 2/1 - ICLR 2014-2023
Rich Sutton ICLR 2014 - Charla Invitada - Mitos del Aprendizaje de Representación
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef sutton fill:#f9d4d4, font-weight:bold, font-size:14px; classDef representation fill:#d4f9d4, font-weight:bold, font-size:14px; classDef jeff fill:#d4d4f9, font-weight:bold, font-size:14px; classDef learning fill:#f9f9d4, font-weight:bold, font-size:14px; classDef future fill:#f9d4f9, font-weight:bold, font-size:14px; A[Rich Sutton ICLR 2014] --> B[Sutton: experto renombrado en aprendizaje automático,
refuerzo. 1] A --> C[Aprendizaje de representación: problema clave de IA/ML. 2] C --> D[Sutton: la representación permite
aprendizaje subsecuente más rápido. 3] C --> E[Otros beneficios de la representación:
expresividad, generalización, interpretabilidad. 4] C --> F[Audiencia dividida sobre el beneficio
clave de la representación. 5] C --> G[La representación requiere aprendizaje inicial lento,
rápido después. 6] G --> H[Aprendizaje continuo no estacionario
necesario para la representación. 7] A --> I[El desafío JEFF prueba
representación para aprendizaje rápido. 8] I --> J[JEFF: regresión en línea,
red de dos capas objetivo. 9] J --> K[Características ocultas permiten
aprendizaje rápido de salida. 10] I --> L[JEFF: prueba simple y directa de aprendizaje rápido. 11] I --> M[Sutton: búsqueda de características supera
baseline aleatorio. 12] M --> N[Búsqueda de características + descenso de gradiente
supera a cualquiera. 13] I --> O[Backprop tiene dificultades con
problemas no estacionarios, interferencia. 14] I --> P[Tasas adaptativas por característica
pueden preservar características útiles. 15] C --> Q[Aprendizaje de representación se desvió
de habilitar aprendizaje rápido. 16] Q --> R[Aprendizaje continuo en línea requerido,
JEFF bien controlado. 17] I --> S[Sutton: resultados preliminares de JEFF,
recomienda seguir. 18] I --> T[El aprendizaje secuencial puede llevar
a aprendizaje más rápido. 19] I --> U[La tasa de no estacionariedad de JEFF podría variar. 20] U --> V[Sutton prefiere cambios repentinos,
considera graduales. 21] I --> W[La vida real: problemas repetitivos
pero cambiantes. 22] I --> X[Sutton prefiere cambio continuo sin interrupciones,
sin señales. 23] I --> Y[JEFF superficial primero, luego versiones
jerárquicas más profundas. 24] Y --> Z[Aprendizaje de características jerárquicas
dirección futura importante. 25] I --> AA[Características que cambian frecuentemente
deberían recibir más recursos. 26] C --> AB[Características de aprendizaje rápido: nuevo,
importante, problema no estudiado. 27] I --> AC[Sutton propone JEFF
sin resultados completos. 28] I --> AD[JEFF podría tener tasas de cambio
de características variables. 29] AD --> AE[Asignación de aprendizaje basada en
la tasa de cambio de la característica. 30] class A,B sutton; class C,D,E,F,G,H,Q,AB representation; class I,J,K,L,M,N,O,P,S,T,U,V,W,X,Y,AA,AC,AD,AE jeff; class Z future;

Resumen:

1.-Richard Sutton es un famoso contribuyente al aprendizaje automático, especialmente al aprendizaje por refuerzo. Escribió el conocido libro "Reinforcement Learning and Interaction".

2.-Sutton cree que el aprendizaje de representación es un problema clave en IA/ML que finalmente está recibiendo la atención y el trabajo arduo adecuados.

3.-Sutton quiere convencer a la audiencia de que el beneficio clave del aprendizaje de representación es permitir un aprendizaje subsecuente más rápido.

4.-Otros beneficios potenciales del aprendizaje de representación incluyen mayor poder expresivo, mejor generalización y producir representaciones intuitivamente agradables.

5.-Una muestra de manos revela opiniones mixtas sobre el beneficio clave: algunos coinciden en que es el aprendizaje más rápido, otros favorecen el poder expresivo o la generalización.

6.-Sutton argumenta que el aprendizaje de representación requiere un período inicial de aprendizaje lento para posteriormente permitir un aprendizaje rápido en nuevos problemas.

7.-Esto implica que el aprendizaje de representación requiere aprendizaje continuo no estacionario en lugar de aprendizaje por lotes único para demostrar un aprendizaje rápido posterior.

8.-Sutton propone un problema desafiante llamado "JEFF" (búsqueda genérica de características en línea) para probar directamente la capacidad de aprender representaciones que permitan un aprendizaje rápido.

9.-JEFF es un problema de regresión en línea con una red objetivo de dos capas donde el objetivo es encontrar las características de las unidades ocultas.

10.-Las características de las unidades ocultas se generan aleatoriamente cuando se crea cada instancia de JEFF. Encontrarlas permite un aprendizaje rápido del cambio de salida.

11.-JEFF evita la fuga de conjuntos de prueba, no tiene papel para el aprendizaje no supervisado, es simple de implementar y prueba directamente la capacidad de aprendizaje rápido.

12.-Sutton presenta resultados en JEFF demostrando los beneficios de buscar buenas características frente a una línea base de características aleatorias fijas.

13.-Combinar la búsqueda de características con el descenso de gradiente funciona mejor que cualquiera de los dos solos, mostrando que ambos contribuyen a encontrar características de manera eficiente.

14.-En problemas no estacionarios como una variante de MNIST con etiquetas rotativas, algoritmos como backprop tienden a funcionar mal y sufren interferencia catastrófica.

15.-Una clave para permitir un aprendizaje rápido y evitar la interferencia catastrófica parece ser tasas de aprendizaje adaptativas por característica que puedan preservar características útiles.

16.-Sutton argumenta que el campo del aprendizaje de representación se ha desviado del objetivo original de permitir un aprendizaje rápido, pero esto debería ser el enfoque.

17.-Lograr esto requiere pasar a configuraciones de aprendizaje continuo en línea. JEFF proporciona una forma bien controlada de estudiar esto sin problemas metodológicos.

18.-Sutton tiene resultados preliminares sobre partes de JEFF pero aún no sobre el problema completo de encontrar características no estacionarias. Recomienda seguir adelante con esto.

19.-Un miembro de la audiencia menciona que su propio trabajo encontró que el aprendizaje secuencial puede llevar a un aprendizaje más rápido, emergente de la consolidación durante el sueño simulado.-

20.-Sutton está de acuerdo en que la tasa de no estacionariedad en JEFF podría variar, como cambios más lentos en lugar de cambios repentinos.

21.-A Sutton le gusta la "prudente dirección" de los cambios repentinos que requieren una adaptación rápida, pero está de acuerdo en que los cambios graduales también valen la pena considerar.

22.-Cuando se le pregunta sobre tareas no sintéticas con las propiedades deseadas, Sutton argumenta que la vida real está llena de problemas de aprendizaje repetitivos pero cambiantes.

23.-Sutton resiste la idea de señalar explícitamente los cambios de tarea al aprendiz, prefiriendo la elegancia del cambio continuo sin interrupciones.

24.-La formulación superficial de dos capas de JEFF es un primer paso necesario antes de considerar versiones más profundas y jerárquicas con características construidas a partir de características.

25.-Sutton reconoce que JEFF, tal como se propuso inicialmente, no involucra el aprendizaje de características jerárquicas, pero ve eso como una dirección futura importante a seguir.

26.-Cuando las características cambian a diferentes tasas, el aprendiz de representación debería dedicar más recursos de aprendizaje a las características que cambian más a menudo.

27.-Sutton considera encontrar características que permitan un aprendizaje rápido como un problema nuevo y no estudiado de importancia clave que el campo debería seguir.

28.-Sutton se disculpa por proponer JEFF sin tener aún resultados completos, pero cree que es una nueva dirección de investigación importante.

29.-Un miembro de la audiencia sugiere que JEFF podría extenderse con una gama de tasas de cambio en diferentes características.

30.-Sutton está de acuerdo, señalando que esto ocurre en los resultados de adaptación del tamaño del paso, y que el aprendizaje debería asignarse en función de la tasa de cambio de la característica.

Vault de Conocimiento construido porDavid Vivancos 2024