Conocimiento Vault 2/50 - ICLR 2014-2023
Maruan Al-Shedivat – Trapit Bansal – Yuri Burda – Ilya Sutskever – Igor Mordatch – Pieter Abbeel ICLR 2018 - Adaptación Continua a través de Meta-Aprendizaje en Entornos No Estacionarios y Competitivos
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef meta fill:#f9d4d4, font-weight:bold, font-size:14px; classDef nonstationarity fill:#d4f9d4, font-weight:bold, font-size:14px; classDef robosumo fill:#d4d4f9, font-weight:bold, font-size:14px; classDef adaptation fill:#f9f9d4, font-weight:bold, font-size:14px; classDef limitations fill:#f9d4f9, font-weight:bold, font-size:14px; A[Maruan Al-Shedivat et al
ICLR 2018] --> B[Algoritmo de meta-aprendizaje basado en gradiente. 1] A --> C[Aprender, adaptarse de experiencia limitada. 2] A --> D[Entornos no estacionarios: complejidad,
dinámicas cambiantes. 3] D --> E[Enfoques clásicos imprácticos
con RL moderno. 4] A --> F[No estacionariedad como aprendizaje de tareas múltiples. 5] B --> G[Anticipar cambios, actualizar políticas. 6] A --> H[Multi-agente: desafiante, complejidad emergente. 7] A --> I[RoboSumo: entorno competitivo 3D. 8] I --> J[Juegos de adaptación iterada. 9] I --> K[No estacionario, adversarial, currículo natural. 10] B --> L[Adaptación eficiente en pocas muestras. 11] I --> M[Meta-aprendices más aptos en población. 12] D --> N[Interacción limitada antes de cada cambio. 13] B --> O[No estacionariedad como secuencia de tareas estacionarias. 14] H --> P[Agentes aprendiendo y cambiando simultáneamente. 15] I --> Q[Rondas sucesivas, adaptando estrategias. 16] B --> R[Comparado con bases. 17] D --> S[Supera en locomoción no estacionaria. 18] I --> T[Se adapta a oponente cada vez más habilidoso. 19] B --> U[Experiencia necesaria para métodos de adaptación. 20] I --> V[Meta-aprendices clasificados más alto en
competiciones iteradas. 21] I --> W[Meta-aprendices dominaron a lo largo de generaciones. 22] B --> X[Optimizados mediante retropropagación. 23] B --> Y[Corrección de peso de importancia para
datos fuera de política. 24] B --> Z[Tareas diversas permiten
reglas generalizables. 25] B --> AA[Suposiciones, gasto computacional, inestabilidad. 26] B --> AB[Estructura de tarea consistente, interacción
para datos de adaptación. 27] B --> AC[Regla de actualización modificable para
diferentes estructuras de tarea. 28] B --> AD[Optimización fundamentada de la adaptación. 29] class A,B,F,O,X,Y,Z,AA,AB,AC,AD meta; class C,D,E,N nonstationarity; class G,L,R,S,U adaptation; class H,I,J,K,M,P,Q,T,V,W robosumo; class AA limitations;

Resumen:

1.-El documento presenta un algoritmo de meta-aprendizaje basado en gradientes para la adaptación continua en entornos no estacionarios y competitivos.

2.-La capacidad de aprender y adaptarse continuamente a partir de una experiencia limitada en entornos no estacionarios se considera un hito hacia la inteligencia general.

3.-Los entornos del mundo real son a menudo no estacionarios debido a la complejidad, dinámicas cambiantes u objetivos a lo largo del tiempo, o la presencia de otros agentes de aprendizaje.

4.-Los enfoques clásicos para la no estacionariedad como la detección de contexto y el seguimiento se vuelven imprácticos con los métodos modernos de RL profundo que requieren muchas muestras.

5.-El documento propone abordar los entornos no estacionarios como un problema de aprendizaje de tareas múltiples utilizando enfoques de aprendizaje para aprender o meta-aprendizaje.

6.-El algoritmo de meta-aprendizaje basado en gradientes permite a los agentes de RL aprender a anticipar cambios en el entorno y actualizar sus políticas en consecuencia.

7.-Los entornos multi-agente son particularmente desafiantes e interesantes debido a la complejidad emergente que surge de los agentes que aprenden y cambian simultáneamente.

8.-El documento introduce RoboSumo, un nuevo entorno basado en física 3D donde los agentes robóticos pueden competir entre sí.

9.-Se proponen juegos de adaptación iterada para probar la adaptación continua: los agentes compiten repetidamente mientras se les permite actualizar sus políticas entre rondas.

10.-El entorno competitivo hace que el entorno sea tanto no estacionario como adversarial, proporcionando un currículo natural y fomentando estrategias robustas.

11.-El meta-aprendizaje permite una adaptación significativamente más eficiente que las bases reactivas en el régimen de pocas muestras tanto en configuraciones de agente único como multi-agente.

12.-Los experimentos sugieren que los agentes que utilizan estrategias de adaptación meta-aprendidas tienden a ser los más aptos en una población que aprende y compite.

13.-Aprender bajo condiciones no estacionarias es desafiante ya que los cambios en el entorno permiten solo una interacción limitada antes de cada cambio.

14.-El enfoque de meta-aprendizaje plantea la no estacionariedad como una secuencia de tareas estacionarias y optimiza una regla para actualizar políticas a medida que cambian las tareas.

15.-Si bien muchos aspectos como la fisiología del agente pueden inducir no estacionariedad, los entornos con múltiples agentes de aprendizaje son especialmente desafiantes e interesantes.

16.-Desde la perspectiva de un agente individual, los entornos multi-agente son no estacionarios ya que otros agentes están aprendiendo y cambiando sus comportamientos simultáneamente.

17.-RoboSumo permite juegos iterados donde un par de agentes compiten en rondas sucesivas mientras se adaptan a las estrategias cambiantes de cada uno.

18.-Los agentes de meta-aprendizaje se comparan con bases que incluyen sin adaptación, adaptación implícita a través de RL2 y adaptación a través de seguimiento.

19.-En tareas de locomoción no estacionaria, las políticas meta-aprendidas superan a otros métodos en términos de mejora continua a lo largo de los cambios sucesivos del entorno.

20.-En RoboSumo, las estrategias meta-aprendidas muestran un rendimiento superior a las bases al adaptarse a un oponente que se vuelve cada vez más habilidoso a lo largo de las rondas.

21.-Los experimentos iluminan cuánta experiencia se necesita para que diferentes métodos de adaptación se adapten con éxito a los cambios.

22.-Con una población de agentes diversos, aquellos que utilizan estrategias meta-aprendidas clasificaron más alto según las puntuaciones de TrueSkill de competiciones iteradas.

23.-A lo largo de generaciones sucesivas de evolución de la población basada en el rendimiento de adaptación, los meta-aprendices llegaron a dominar el grupo.

24.-Las reglas de meta-aprendizaje se optimizan en el momento del entrenamiento a través de la retropropagación a través de los pasos de actualización de políticas para maximizar el rendimiento después de la adaptación.

25.-Se utiliza la corrección de peso de importancia para hacer que la meta-actualización sea imparcial al adaptarse en el momento de la ejecución con datos fuera de política.

26.-El entrenamiento simultáneo en tareas diversas (escenarios de locomoción no estacionaria o diferentes oponentes) permite el meta-aprendizaje de reglas de adaptación generalizables.

27.-Las limitaciones incluyen suposiciones sensibles sobre la estructura de la tarea, el gasto computacional de los gradientes de orden superior y la posible inestabilidad bajo cambios drásticos entre tareas.

28.-Aspectos clave que permiten este enfoque son la estructura de tarea consistente entre el entrenamiento y la prueba, y la capacidad de interactuar para recopilar datos para la adaptación.

29.-El marco es general en el sentido de que se pueden considerar diferentes nociones de estructura de tarea modificando la regla de actualización de meta-aprendizaje.

30.-El enfoque proporciona un marco fundamentado para optimizar la adaptación, ofreciendo un camino para crear aprendices más flexibles y robustos.

Vault de Conocimiento construido porDavid Vivancos 2024