Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-Richard Sutton es un famoso contribuyente al aprendizaje automático, especialmente al aprendizaje por refuerzo. Escribió el conocido libro "Reinforcement Learning and Interaction".
2.-Sutton cree que el aprendizaje de representación es un problema clave en IA/ML que finalmente está recibiendo la atención y el trabajo arduo adecuados.
3.-Sutton quiere convencer a la audiencia de que el beneficio clave del aprendizaje de representación es permitir un aprendizaje subsecuente más rápido.
4.-Otros beneficios potenciales del aprendizaje de representación incluyen mayor poder expresivo, mejor generalización y producir representaciones intuitivamente agradables.
5.-Una muestra de manos revela opiniones mixtas sobre el beneficio clave: algunos coinciden en que es el aprendizaje más rápido, otros favorecen el poder expresivo o la generalización.
6.-Sutton argumenta que el aprendizaje de representación requiere un período inicial de aprendizaje lento para posteriormente permitir un aprendizaje rápido en nuevos problemas.
7.-Esto implica que el aprendizaje de representación requiere aprendizaje continuo no estacionario en lugar de aprendizaje por lotes único para demostrar un aprendizaje rápido posterior.
8.-Sutton propone un problema desafiante llamado "JEFF" (búsqueda genérica de características en línea) para probar directamente la capacidad de aprender representaciones que permitan un aprendizaje rápido.
9.-JEFF es un problema de regresión en línea con una red objetivo de dos capas donde el objetivo es encontrar las características de las unidades ocultas.
10.-Las características de las unidades ocultas se generan aleatoriamente cuando se crea cada instancia de JEFF. Encontrarlas permite un aprendizaje rápido del cambio de salida.
11.-JEFF evita la fuga de conjuntos de prueba, no tiene papel para el aprendizaje no supervisado, es simple de implementar y prueba directamente la capacidad de aprendizaje rápido.
12.-Sutton presenta resultados en JEFF demostrando los beneficios de buscar buenas características frente a una línea base de características aleatorias fijas.
13.-Combinar la búsqueda de características con el descenso de gradiente funciona mejor que cualquiera de los dos solos, mostrando que ambos contribuyen a encontrar características de manera eficiente.
14.-En problemas no estacionarios como una variante de MNIST con etiquetas rotativas, algoritmos como backprop tienden a funcionar mal y sufren interferencia catastrófica.
15.-Una clave para permitir un aprendizaje rápido y evitar la interferencia catastrófica parece ser tasas de aprendizaje adaptativas por característica que puedan preservar características útiles.
16.-Sutton argumenta que el campo del aprendizaje de representación se ha desviado del objetivo original de permitir un aprendizaje rápido, pero esto debería ser el enfoque.
17.-Lograr esto requiere pasar a configuraciones de aprendizaje continuo en línea. JEFF proporciona una forma bien controlada de estudiar esto sin problemas metodológicos.
18.-Sutton tiene resultados preliminares sobre partes de JEFF pero aún no sobre el problema completo de encontrar características no estacionarias. Recomienda seguir adelante con esto.
19.-Un miembro de la audiencia menciona que su propio trabajo encontró que el aprendizaje secuencial puede llevar a un aprendizaje más rápido, emergente de la consolidación durante el sueño simulado.-
20.-Sutton está de acuerdo en que la tasa de no estacionariedad en JEFF podría variar, como cambios más lentos en lugar de cambios repentinos.
21.-A Sutton le gusta la "prudente dirección" de los cambios repentinos que requieren una adaptación rápida, pero está de acuerdo en que los cambios graduales también valen la pena considerar.
22.-Cuando se le pregunta sobre tareas no sintéticas con las propiedades deseadas, Sutton argumenta que la vida real está llena de problemas de aprendizaje repetitivos pero cambiantes.
23.-Sutton resiste la idea de señalar explícitamente los cambios de tarea al aprendiz, prefiriendo la elegancia del cambio continuo sin interrupciones.
24.-La formulación superficial de dos capas de JEFF es un primer paso necesario antes de considerar versiones más profundas y jerárquicas con características construidas a partir de características.
25.-Sutton reconoce que JEFF, tal como se propuso inicialmente, no involucra el aprendizaje de características jerárquicas, pero ve eso como una dirección futura importante a seguir.
26.-Cuando las características cambian a diferentes tasas, el aprendiz de representación debería dedicar más recursos de aprendizaje a las características que cambian más a menudo.
27.-Sutton considera encontrar características que permitan un aprendizaje rápido como un problema nuevo y no estudiado de importancia clave que el campo debería seguir.
28.-Sutton se disculpa por proponer JEFF sin tener aún resultados completos, pero cree que es una nueva dirección de investigación importante.
29.-Un miembro de la audiencia sugiere que JEFF podría extenderse con una gama de tasas de cambio en diferentes características.
30.-Sutton está de acuerdo, señalando que esto ocurre en los resultados de adaptación del tamaño del paso, y que el aprendizaje debería asignarse en función de la tasa de cambio de la característica.
Vault de Conocimiento construido porDavid Vivancos 2024