Conocimiento Vault 2/1 - ICLR 2014-2023
Rich Sutton ICLR 2014 - Charla Invitada - Mitos del Aprendizaje de Representación
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

Rich Sutton ICLR 2014
Sutton: experto renombrado en aprendizaje automático,
refuerzo. 1
Aprendizaje de representación: problema clave de IA/ML. 2
Sutton: la representación permite
aprendizaje subsecuente más rápido. 3
Otros beneficios de la representación:
expresividad, generalización, interpretabilidad. 4
Audiencia dividida sobre el beneficio
clave de la representación. 5
La representación requiere aprendizaje inicial lento,
rápido después. 6
Aprendizaje continuo no estacionario
necesario para la representación. 7
El desafío JEFF prueba
representación para aprendizaje rápido. 8
JEFF: regresión en línea,
red de dos capas objetivo. 9
Características ocultas permiten
aprendizaje rápido de salida. 10
JEFF: prueba simple y directa de aprendizaje rápido. 11
Sutton: búsqueda de características supera
baseline aleatorio. 12
Búsqueda de características + descenso de gradiente
supera a cualquiera. 13
Backprop tiene dificultades con
problemas no estacionarios, interferencia. 14
Tasas adaptativas por característica
pueden preservar características útiles. 15
Aprendizaje de representación se desvió
de habilitar aprendizaje rápido. 16
Aprendizaje continuo en línea requerido,
JEFF bien controlado. 17
Sutton: resultados preliminares de JEFF,
recomienda seguir. 18
El aprendizaje secuencial puede llevar
a aprendizaje más rápido. 19
La tasa de no estacionariedad de JEFF podría variar. 20
Sutton prefiere cambios repentinos,
considera graduales. 21
La vida real: problemas repetitivos
pero cambiantes. 22
Sutton prefiere cambio continuo sin interrupciones,
sin señales. 23
JEFF superficial primero, luego versiones
jerárquicas más profundas. 24
Aprendizaje de características jerárquicas
dirección futura importante. 25
Características que cambian frecuentemente
deberían recibir más recursos. 26
Características de aprendizaje rápido: nuevo,
importante, problema no estudiado. 27
Sutton propone JEFF
sin resultados completos. 28
Asignación de aprendizaje basada en
la tasa de cambio de la característica. 30

Resumen:

1.-Richard Sutton es un famoso contribuyente al aprendizaje automático, especialmente al aprendizaje por refuerzo. Escribió el conocido libro "Reinforcement Learning and Interaction".

2.-Sutton cree que el aprendizaje de representación es un problema clave en IA/ML que finalmente está recibiendo la atención y el trabajo arduo adecuados.

3.-Sutton quiere convencer a la audiencia de que el beneficio clave del aprendizaje de representación es permitir un aprendizaje subsecuente más rápido.

4.-Otros beneficios potenciales del aprendizaje de representación incluyen mayor poder expresivo, mejor generalización y producir representaciones intuitivamente agradables.

5.-Una muestra de manos revela opiniones mixtas sobre el beneficio clave: algunos coinciden en que es el aprendizaje más rápido, otros favorecen el poder expresivo o la generalización.

6.-Sutton argumenta que el aprendizaje de representación requiere un período inicial de aprendizaje lento para posteriormente permitir un aprendizaje rápido en nuevos problemas.

7.-Esto implica que el aprendizaje de representación requiere aprendizaje continuo no estacionario en lugar de aprendizaje por lotes único para demostrar un aprendizaje rápido posterior.

8.-Sutton propone un problema desafiante llamado "JEFF" (búsqueda genérica de características en línea) para probar directamente la capacidad de aprender representaciones que permitan un aprendizaje rápido.

9.-JEFF es un problema de regresión en línea con una red objetivo de dos capas donde el objetivo es encontrar las características de las unidades ocultas.

10.-Las características de las unidades ocultas se generan aleatoriamente cuando se crea cada instancia de JEFF. Encontrarlas permite un aprendizaje rápido del cambio de salida.

11.-JEFF evita la fuga de conjuntos de prueba, no tiene papel para el aprendizaje no supervisado, es simple de implementar y prueba directamente la capacidad de aprendizaje rápido.

12.-Sutton presenta resultados en JEFF demostrando los beneficios de buscar buenas características frente a una línea base de características aleatorias fijas.

13.-Combinar la búsqueda de características con el descenso de gradiente funciona mejor que cualquiera de los dos solos, mostrando que ambos contribuyen a encontrar características de manera eficiente.

14.-En problemas no estacionarios como una variante de MNIST con etiquetas rotativas, algoritmos como backprop tienden a funcionar mal y sufren interferencia catastrófica.

15.-Una clave para permitir un aprendizaje rápido y evitar la interferencia catastrófica parece ser tasas de aprendizaje adaptativas por característica que puedan preservar características útiles.

16.-Sutton argumenta que el campo del aprendizaje de representación se ha desviado del objetivo original de permitir un aprendizaje rápido, pero esto debería ser el enfoque.

17.-Lograr esto requiere pasar a configuraciones de aprendizaje continuo en línea. JEFF proporciona una forma bien controlada de estudiar esto sin problemas metodológicos.

18.-Sutton tiene resultados preliminares sobre partes de JEFF pero aún no sobre el problema completo de encontrar características no estacionarias. Recomienda seguir adelante con esto.

19.-Un miembro de la audiencia menciona que su propio trabajo encontró que el aprendizaje secuencial puede llevar a un aprendizaje más rápido, emergente de la consolidación durante el sueño simulado.-

20.-Sutton está de acuerdo en que la tasa de no estacionariedad en JEFF podría variar, como cambios más lentos en lugar de cambios repentinos.

21.-A Sutton le gusta la "prudente dirección" de los cambios repentinos que requieren una adaptación rápida, pero está de acuerdo en que los cambios graduales también valen la pena considerar.

22.-Cuando se le pregunta sobre tareas no sintéticas con las propiedades deseadas, Sutton argumenta que la vida real está llena de problemas de aprendizaje repetitivos pero cambiantes.

23.-Sutton resiste la idea de señalar explícitamente los cambios de tarea al aprendiz, prefiriendo la elegancia del cambio continuo sin interrupciones.

24.-La formulación superficial de dos capas de JEFF es un primer paso necesario antes de considerar versiones más profundas y jerárquicas con características construidas a partir de características.

25.-Sutton reconoce que JEFF, tal como se propuso inicialmente, no involucra el aprendizaje de características jerárquicas, pero ve eso como una dirección futura importante a seguir.

26.-Cuando las características cambian a diferentes tasas, el aprendiz de representación debería dedicar más recursos de aprendizaje a las características que cambian más a menudo.

27.-Sutton considera encontrar características que permitan un aprendizaje rápido como un problema nuevo y no estudiado de importancia clave que el campo debería seguir.

28.-Sutton se disculpa por proponer JEFF sin tener aún resultados completos, pero cree que es una nueva dirección de investigación importante.

29.-Un miembro de la audiencia sugiere que JEFF podría extenderse con una gama de tasas de cambio en diferentes características.

30.-Sutton está de acuerdo, señalando que esto ocurre en los resultados de adaptación del tamaño del paso, y que el aprendizaje debería asignarse en función de la tasa de cambio de la característica.

Vault de Conocimiento construido porDavid Vivancos 2024