Conocimiento Bóveda 6 /26 - ICML 2017
Aprendizaje Profundo por Refuerzo, Toma de Decisiones y Control
Sergey Levine & Chelsea Finn
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d9c9, font-weight:bold, font-size:14px classDef foundations fill:#d4f9d4, font-weight:bold, font-size:14px classDef methods fill:#d4d4f9, font-weight:bold, font-size:14px classDef applications fill:#f9f9d4, font-weight:bold, font-size:14px classDef challenges fill:#f9d4f9, font-weight:bold, font-size:14px Main["Aprendizaje Profundo por Refuerzo,
Toma de Decisiones y
Control"] Main --> A["Fundamentos"] Main --> B["Métodos de RL"] Main --> C["Conceptos Avanzados"] Main --> D["Aplicaciones"] Main --> E["Desafíos y Direcciones Futuras"] A --> A1["El tutorial cubre RL profundo,
toma de decisiones, control 1"] A --> A2["La toma de decisiones secuencial afecta
estados futuros 2"] A --> A3["RL profundo combina aprendizaje profundo,
aprendizaje por refuerzo 3"] A --> A4["RL: generar muestras, ajustar modelo,
mejorar política 4"] A --> A5["Gradiente de política: diferenciar política
para mejorar 5"] A --> A6["Reducción de varianza: causalidad, base,
gradientes naturales 6"] B --> B1["Actor-crítico: actor predice, crítico
evalúa acciones 7"] B --> B2["Q-learning: la política maximiza la
Q-función aprendida 8"] B --> B3["RL como inferencia probabilística:
modelo gráfico 9"] B --> B4["Optimalidad suave: maximizar entropía
y recompensa 10"] B --> B5["Soft Q-learning: soft max
para Q-función 11"] B --> B6["RL inversa: inferir recompensa
de demostraciones 12"] C --> C1["MaxEnt IRL: modelo probabilístico,
equivalente a GAN 13"] C --> C2["Algoritmos de RL inversa basados en muestreo 14"] C --> C3["RL basada en modelos: aprender dinámicas,
optimizar política 15"] C --> C4["Usar modelo aprendido: gradientes,
MPC, modelos locales 16"] C --> C5["Búsqueda de política guiada: modelos locales
a política global 17"] C --> C6["Observaciones de alta dimensión: aprender latente
o directo 18"] D --> D1["RL basada en modelos: eficiente pero
limitada por modelo 19"] D --> D2["Eficiencia de muestras: curiosidad, jerarquía,
políticas estocásticas 21"] D --> D3["Exploración segura: incertidumbre, off-policy,
supervisión humana 22"] D --> D4["Especificación de recompensa: preferencias, IRL,
objetivos, lenguaje 23"] D --> D5["Transferencia de tareas: construir sobre
conocimiento previo 24"] D --> D6["Generación automática de tareas y
currículos importante 25"] E --> E1["Desafíos abiertos: eficiencia, seguridad,
recompensas, transferencia 20"] E --> E2["Incertidumbre en políticas para
exploración segura 26"] E --> E3["Aprendizaje off-policy de demostraciones 27"] E --> E4["Intervención humana para límites
de aprendizaje seguro 28"] E --> E5["Transferencia simulación-real para despliegue
seguro de habilidades 29"] E --> E6["Supervisión mínima puede ayudar
en la búsqueda de IA a nivel humano 30"] class Main main class A,A1,A2,A3,A4,A5,A6 foundations class B,B1,B2,B3,B4,B5,B6 methods class C,C1,C2,C3,C4,C5,C6 methods class D,D1,D2,D3,D4,D5,D6 applications class E,E1,E2,E3,E4,E5,E6 challenges

Resumen:

1.- El tutorial cubre el aprendizaje profundo por refuerzo, la toma de decisiones y el control. Las diapositivas están disponibles en línea.

2.- La toma de decisiones secuencial es necesaria cuando las acciones de un agente afectan estados y decisiones futuras. Las aplicaciones incluyen robótica, conducción autónoma, finanzas.

3.- El aprendizaje profundo por refuerzo combina el aprendizaje profundo para entradas sensoriales ricas con el aprendizaje por refuerzo para acciones que afectan resultados.

4.- El aprendizaje por refuerzo implica generar muestras, ajustar un modelo/estimador para evaluar retornos y usarlo para mejorar la política en un ciclo.

5.- En el método de gradiente de política, la política se diferencia directamente para permitir el ascenso de gradiente, formalizando el aprendizaje por prueba y error.

6.- La varianza de los gradientes de política puede reducirse explotando la causalidad e introduciendo una base. Los gradientes naturales mejoran la convergencia.

7.- Los algoritmos actor-crítico tienen un actor que predice acciones y un crítico que evalúa acciones. El crítico se usa para estimar la ventaja.

8.- En métodos de función de valor directo como Q-learning, la política maximiza implícitamente la Q-función aprendida. Puede usarse con acciones continuas.

9.- El aprendizaje por refuerzo puede verse como inferencia probabilística. Las funciones de valor y Q-funciones emergen de la inferencia en un modelo gráfico.

10.- La optimalidad suave emerge de un modelo gráfico de trayectorias, valores y recompensas. La política maximiza la entropía junto con la recompensa esperada.

11.- Soft Q-learning utiliza un soft max en lugar de un hard max para la Q-función. Ayuda con la exploración y la composicionalidad.

12.- El aprendizaje por refuerzo inverso busca inferir la función de recompensa a partir de demostraciones de expertos. Es ambiguo y requiere resolver el problema directo.

13.- El aprendizaje por refuerzo inverso de máxima entropía maneja la ambigüedad con un modelo probabilístico. Es equivalente a GAN con un discriminador especial.

14.- El aprendizaje de costos guiado y el aprendizaje de imitación adversarial generativo son algoritmos de RL inversa basados en muestreo que funcionan sin resolver el problema directo.

15.- RL basada en modelos busca aprender el modelo de dinámicas y optimizar la política usando el modelo. Más eficiente que RL sin modelo.

16.- Las formas de usar un modelo aprendido incluyen retropropagación de gradientes a través de él, control predictivo de modelos, aprendizaje de modelos locales.

17.- La búsqueda de política guiada aprende modelos y políticas locales para múltiples estados iniciales y los destila en una política global.

18.- Con observaciones de alta dimensión, el modelo de dinámicas puede aprenderse en un espacio latente de baja dimensión o directamente en el espacio de observación.

19.- RL basada en modelos puede ser más eficiente y generalizable que RL sin modelo, pero está limitada por la precisión del modelo.

20.- Los desafíos abiertos en RL profunda incluyen mejorar la eficiencia de muestras, exploración segura, especificación de recompensas y aprendizaje por transferencia.

21.- La eficiencia de muestras puede potencialmente mejorarse a través de la curiosidad, la jerarquía, las políticas estocásticas y la transferencia entre tareas.

22.- La exploración segura puede involucrar la estimación de incertidumbre, el aprendizaje de datos off-policy, la supervisión humana o el aprendizaje primero en simulación.

23.- La especificación de recompensas puede aprovechar las preferencias humanas, RL inversa, imágenes de objetivos, movimientos de objetos o instrucciones de lenguaje.

24.- Los agentes deben aprender a resolver rápidamente nuevas tareas construyendo sobre el conocimiento de tareas previas, en lugar de aprender tabula rasa.

25.- La generación automática de tareas y currículos es un problema importante para construir agentes más capaces.

26.- Incorporar incertidumbre en las políticas puede ayudar a los agentes a explorar de manera segura evitando acciones con resultados altamente inciertos.

27.- Aprender de datos off-policy, como demostraciones humanas, puede permitir a los agentes aprender sin riesgos de prueba y error.

28.- La intervención humana cuando un agente está a punto de tomar una decisión insegura puede mantener al agente dentro de límites seguros durante el aprendizaje.

29.- La transferencia de simulación a la realidad permite a los agentes aprender en un entorno virtual seguro antes de desplegar esas habilidades en el mundo real.

30.- El paradigma de aprender de recompensas con supervisión mínima puede ayudar en la búsqueda de inteligencia artificial a nivel humano.

Bóveda del Conocimiento construida porDavid Vivancos 2024