Conocimiento Bóveda 6 /43 - ICML 2019
Agentes que establecen objetivos medibles para sí mismos
Chelsea Finn
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4f9, font-weight:bold, font-size:14px classDef robotics fill:#f9d4d4, font-weight:bold, font-size:14px classDef learning fill:#d4f9d4, font-weight:bold, font-size:14px classDef meta fill:#d4d4f9, font-weight:bold, font-size:14px classDef unsupervised fill:#f9f9d4, font-weight:bold, font-size:14px classDef applications fill:#d4f9f9, font-weight:bold, font-size:14px Main["Agentes que establecen
objetivos medibles para
sí mismos"] --> A["Robótica y
IA del mundo real"] Main --> B["Enfoques de Aprendizaje"] Main --> C["Meta-aprendizaje"] Main --> D["Aprendizaje No Supervisado"] Main --> E["Aplicaciones e
Implementaciones"] A --> A1["Los agentes aprenden habilidades
generalizables usando robots 1"] A --> A2["Los robots resuelven problemas de
generalización del mundo real 2"] A --> A3["Los robots estudian IA en
complejidades del mundo real 23"] A --> A4["Datos auto-supervisados clave
para la generalización 24"] A --> A5["Interacción autónoma prometedora
para la generalización 26"] A --> A6["Métodos combinados mejoran
el aprendizaje de robots reales 27"] B --> B1["Datos amplios mejoran
la generalización 3"] B --> B2["La escalabilidad de datos impacta
más en la generalización 4"] B --> B3["El aprendizaje auto-supervisado permite
proponer objetivos 5"] B --> B4["El aprendizaje auto-supervisado propone
y mide objetivos 18"] B --> B5["La combinación de métodos mejora
la generalización y el aprendizaje 20"] B --> B6["El pre-entrenamiento no supervisado acelera
el aprendizaje supervisado 28"] C --> C1["El meta-aprendizaje aprende representaciones
de aprendizaje rápido 6"] C --> C2["Distribuciones amplias de tareas
desafían el meta-aprendizaje 7"] C --> C3["El meta-aprendizaje no supervisado mejora
el aprendizaje de pocos disparos 8"] C --> C4["CACTUS supera al aprendizaje
no supervisado solo 9"] C --> C5["El meta-RL no supervisado acelera
el aprendizaje de nuevas tareas 10"] C --> C6["El meta-RL no supervisado mejorado
alterna modelos 11"] D --> D1["Cierra el ciclo entre
propuesta y meta-aprendizaje 12"] D --> D2["Enfoques no supervisados prometedores
para el aprendizaje auto-supervisado 19"] D --> D3["Los agentes construyen currículos
escalan el meta-aprendizaje 21"] D --> D4["Método alineado único supera
múltiples métodos 29"] D --> D5["Alcanzar objetivos visuales
lucha con representaciones 13"] D --> D6["DPN usa optimización de trayectorias
para métricas 14"] E --> E1["DPN tiene éxito en
varias tareas de manipulación 15"] E --> E2["La supervisión mejora las métricas
de objetivos aprendidos 16"] E --> E3["Permite el aprendizaje de políticas
del mundo real desde píxeles 17"] E --> E4["Funciones de recompensa aprendidas
para manipulación de objetos deformables 22"] E --> E5["Las métricas aprendidas superan
enfoques estándar 25"] E --> E6["La planificación de incrustaciones permite
comportamientos de mínima supervisión 30"] class Main main class A,A1,A2,A3,A4,A5,A6 robotics class B,B1,B2,B3,B4,B5,B6 learning class C,C1,C2,C3,C4,C5,C6 meta class D,D1,D2,D3,D4,D5,D6 unsupervised class E,E1,E2,E3,E4,E5,E6 applications

Resumen:

1.- Chelsea Finn discute la construcción de agentes que puedan aprender habilidades generalizables en entornos del mundo real usando robots.

2.- Los robots enfrentan complejidades del mundo real y construir robots inteligentes puede resolver problemas importantes como la generalización y el aprendizaje auto-supervisado.

3.- Entrenar agentes en datos amplios, incluidos datos auto-supervisados y débilmente supervisados, conduce a una mejor generalización que centrarse en conjuntos de datos específicos.

4.- La escalabilidad de los datos tiene un mayor impacto en la generalización que los cambios de algoritmo, por lo que debemos construir algoritmos que puedan manejar la recolección de datos escalable.

5.- El aprendizaje auto-supervisado es importante para permitir que los agentes propongan sus propias tareas y objetivos y midan el progreso hacia esos objetivos.

6.- El meta-aprendizaje tiene como objetivo aprender representaciones que permitan un aprendizaje rápido a partir de pequeños conjuntos de datos entrenando en muchas tareas de pequeños conjuntos de datos.

7.- Diseñar distribuciones amplias de tareas para el meta-aprendizaje es un desafío, por lo que permitir que los agentes propongan sus propias tareas a partir de datos no etiquetados es valioso.

8.- El meta-aprendizaje no supervisado propone tareas agrupando incrustaciones del aprendizaje no supervisado y meta-aprende en esas tareas para mejorar el aprendizaje de pocos disparos.

9.- Este enfoque de meta-aprendizaje no supervisado (CACTUS) mejora la precisión de clasificación de pocos disparos en mini-ImageNet en comparación con el aprendizaje no supervisado solo.

10.- El aprendizaje por refuerzo meta-no supervisado acelera el aprendizaje de nuevas tareas en un entorno proponiendo tareas a través de enfoques aleatorios o impulsados por la diversidad.

11.- Un enfoque mejorado de meta-RL no supervisado alterna entre ajustar un modelo generativo a habilidades y meta-entrenamiento para maximizar la información mutua.

12.- Esto cierra el ciclo entre la propuesta de tareas y el meta-aprendizaje, permite la exploración basada en densidad y escala a observaciones visuales.

13.- Para tareas de alcanzar objetivos visuales, la distancia de píxeles, la distancia VAE y los modelos inversos luchan por capturar la representación correcta.

14.- Un nuevo enfoque, redes de planificación distribucional (DPN), utiliza la optimización de trayectorias en una representación aprendida para adquirir métricas de objetivos a través de la interacción autónoma.

15.- DPN es capaz de aprender métricas de distancia de objetivos exitosas para tareas simuladas de alcance, manipulación de cuerdas, empuje y tareas del mundo real.

16.- Incorporar una pequeña cantidad de supervisión entrenando un clasificador y consultando activamente por etiquetas puede mejorar aún más la métrica aprendida.

17.- Esto permite aprender eficientemente políticas para tareas del mundo real de empuje y drapeado de telas desde píxeles crudos a través del aprendizaje por refuerzo.

18.- Dos elementos clave del aprendizaje auto-supervisado son permitir que los agentes propongan sus propias tareas/objetivos y medir el progreso hacia los objetivos.

19.- Las propuestas de tareas no supervisadas y las métricas de objetivos no supervisadas adquiridas a través de la interacción son enfoques prometedores para el aprendizaje auto-supervisado.

20.- Las combinaciones de aprendizaje no supervisado, propuestas de tareas y meta-aprendizaje pueden mejorar la generalización y el aprendizaje de pocos disparos.

21.- Permitir que los agentes construyan sus propios currículos de tareas ayuda a escalar el meta-aprendizaje a distribuciones de tareas más amplias sin diseño manual de tareas.

22.- Las funciones de recompensa pueden aprenderse a partir de píxeles crudos para tareas desafiantes de manipulación de objetos deformables.

23.- Los robots proporcionan una plataforma para estudiar la inteligencia artificial que debe manejar las complejidades del mundo real y generalizar ampliamente.

24.- Los datos auto-supervisados y débilmente supervisados son clave para entrenar agentes que puedan generalizar como requiere el mundo real.

25.- Las métricas de objetivos aprendidas superan los enfoques estándar como la distancia de píxeles, VAEs y modelos inversos para alcanzar objetivos visuales.

26.- Aprender a través de la interacción autónoma, con mínima supervisión humana, es un camino prometedor hacia agentes que puedan generalizar.

27.- Incorporar aprendizaje no supervisado, propuestas de currículos y meta-aprendizaje mejora la eficiencia de muestras para que los robots reales aprendan a partir de píxeles crudos.

28.- El pre-entrenamiento no supervisado puede no capturar siempre todos los aspectos semánticamente relevantes, pero aún puede acelerar en gran medida el aprendizaje supervisado posterior.

29.- La combinación de múltiples métodos de aprendizaje no supervisado no mostró beneficios sobre el uso del método único más alineado con las tareas posteriores.

30.- La planificación de incrustaciones y el aprendizaje por refuerzo en el aprendizaje de representaciones permite a los agentes adquirir comportamientos de alcance de objetivos con mínima supervisión.

Bóveda del Conocimiento construida porDavid Vivancos 2024