Conocimiento Bóveda 6 /10 - ICML 2015
Búsqueda de Políticas: Métodos y Aplicaciones
Gerhard Neumann & Jan Peters
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4d4, font-weight:bold, font-size:14px classDef intro fill:#d4f9d4, font-weight:bold, font-size:14px classDef policysearch fill:#d4d4f9, font-weight:bold, font-size:14px classDef gradients fill:#f9f9d4, font-weight:bold, font-size:14px classDef em fill:#f9d4f9, font-weight:bold, font-size:14px classDef advanced fill:#d4f9f9, font-weight:bold, font-size:14px Main["Búsqueda de Políticas: Métodos
y Aplicaciones"] Main --> A["Introducción y Motivación"] A --> A1["Los robots autónomos necesitan
aprender habilidades complejas 1"] A --> A2["Desafíos: espacios de alta dimensión, costos
de datos, seguridad 2"] A --> A3["RL basado en valor: inestable, exploración
extensiva 3"] A --> A4["Búsqueda de políticas: parametrizada, correlacionada,
actualizaciones locales 4"] A --> A5["Taxonomía: métodos sin modelo vs con modelo
5"] A --> A6["Esquema: taxonomía, métodos, extensiones,
con modelo 6"] Main --> B["Fundamentos de la Búsqueda de Políticas"] B --> B1["Representaciones de políticas: trayectorias, controladores,
redes 7"] B --> B2["Sin modelo vs con modelo: muestras
vs aprendizaje 8"] B --> B3["Exploración basada en pasos vs episodios:
espacio de acción/parámetro 9"] B --> B4["Actualización de políticas: optimización directa
o EM 10"] B --> B5["Exploración: equilibrio entre suavidad y
variabilidad 11"] B --> B6["Exploración de parámetros correlacionados produce
trayectorias más suaves 12"] Main --> C["Métodos de Gradiente de Políticas"] C --> C1["Actualizaciones conservadoras vs codiciosas:
compensación exploración-explotación 13"] C --> C2["Gradientes de políticas: truco de log-verosimilitud
estima gradiente 14"] C --> C3["Sustracción de base reduce varianza
sin sesgo 15"] C --> C4["Gradientes basados en pasos usan función
de valor estado-acción 16"] C --> C5["Base dependiente del estado reduce aún más
la varianza 17"] C --> C6["Elección de métrica impacta tamaño del
paso de actualización 18"] Main --> D["Técnicas Avanzadas de Gradiente de Políticas"] D --> D1["Gradientes naturales: información de Fisher
normaliza gradiente 19"] D --> D2["Actor-crítico natural: gradientes con
aproximación de funciones 20"] D --> D3["Función de valor de estado reduce varianza
de función de ventaja 21"] D --> D4["Gradientes de políticas aprenden habilidades
motoras lentamente 22"] Main --> E["Métodos de Maximización de Expectativa"] E --> E1["Búsqueda basada en EM: máxima verosimilitud
ponderada por recompensa 23"] E --> E2["EM funciona para configuraciones basadas en pasos/episodios 24"] E --> E3["Ponderación de recompensas: sustracción de base,
reescalado 25"] E --> E4["Proyección de momentos: minimización de KL,
actualizaciones en forma cerrada 26"] Main --> F["Temas Avanzados y Aplicaciones"] F --> F1["Aplicaciones: habilidades complejas de robots
próximamente 27"] F --> F2["Búsqueda contextual aprende habilidades generalizables,
adaptables 28"] F --> F3["Búsqueda jerárquica: secuenciación de alto nivel,
primitivas de bajo nivel 29"] F --> F4["Búsqueda con modelo: PILCO, búsqueda
de políticas guiada 30"] class Main main class A,A1,A2,A3,A4,A5,A6 intro class B,B1,B2,B3,B4,B5,B6 policysearch class C,C1,C2,C3,C4,C5,C6,D,D1,D2,D3,D4 gradients class E,E1,E2,E3,E4 em class F,F1,F2,F3,F4 advanced

Resumen:

1.- Motivación: Los robots autónomos serán más comunes y requerirán métodos de aprendizaje para adquirir habilidades complejas.

2.- Desafíos: Espacios de estado/acción continuos de alta dimensión, costos de recolección de datos del mundo real, preocupaciones de seguridad durante la exploración.

3.- RL basado en valor: Estimar la función de valor globalmente, las actualizaciones pueden ser inestables con la aproximación de funciones, requiere exploración extensa.

4.- Principios de búsqueda de políticas: Políticas parametrizadas, exploración correlacionada, actualizaciones de políticas locales, menos suposiciones que RL basado en valor.

5.- Taxonomía de búsqueda de políticas: Sin modelo vs con modelo, diferentes métodos de exploración y actualización dentro de cada categoría.

6.- Esquema del tutorial: Taxonomía, métodos sin modelo (gradientes de políticas, EM), extensiones (contextual, jerárquica), métodos con modelo.

7.- Representaciones de políticas: Generadores de trayectorias (por ejemplo, DMPs), controladores lineales, redes RBF, redes neuronales.

8.- Sin modelo: Usar muestras de estado, acción, recompensa. Con modelo: Aprender un modelo, eficiente en muestras pero sensible a errores del modelo.

9.- Exploración basada en pasos vs episodios: Basada en pasos usa exploración en el espacio de acción, basada en episodios usa exploración en el espacio de parámetros correlacionados.

10.- Actualización de políticas: Optimización directa de políticas (basada en gradientes) o Maximización de Expectativa (máxima verosimilitud ponderada).

11.- La exploración debe equilibrar suavidad para la seguridad vs variabilidad para el aprendizaje. La métrica debe medir la divergencia KL.

12.- La exploración correlacionada en el espacio de parámetros produce trayectorias más suaves que la exploración independiente en cada paso.

13.- Las actualizaciones de políticas conservadoras vs codiciosas ilustran la compensación exploración-explotación. La divergencia KL equilibra suavidad y progreso.

14.- Los gradientes de políticas usan el truco de log-verosimilitud para estimar el gradiente del retorno esperado con respecto a los parámetros de la política.

15.- La sustracción de la base reduce la varianza de las estimaciones de gradiente de políticas sin introducir sesgo. La base óptima aproxima la función de valor.

16.- Los gradientes de políticas basados en pasos (REINFORCE) descomponen el retorno en cantidades por paso, permitiendo el uso de la función de valor estado-acción.

17.- Introducir una base dependiente del estado (por ejemplo, función de valor) puede reducir aún más la varianza de las estimaciones de gradiente de políticas.

18.- La elección de la métrica (por ejemplo, Euclidiana vs información de Fisher) impacta el tamaño del paso de actualización de políticas y el comportamiento de convergencia.

19.- Los gradientes de políticas naturales usan la matriz de información de Fisher para normalizar el gradiente, permitiendo invariancia a la reparametrización.

20.- El actor-crítico natural combina gradientes de políticas naturales con aproximación de funciones compatibles de la función de valor estado-acción.

21.- Incorporar una función de valor de estado reduce la varianza de la función de ventaja (Q-V) utilizada en métodos actor-crítico.

22.- Los gradientes de políticas pueden aprender efectivamente habilidades motoras como swings de béisbol pero la convergencia puede ser lenta.

23.- La búsqueda de políticas basada en EM (ML ponderada por recompensa) actualiza la política para coincidir con la política anterior reponderada por recompensa exponencial.

24.- La búsqueda de políticas EM funciona tanto para configuraciones basadas en pasos como en episodios, se relaciona con el control óptimo y métodos teóricos de información.

25.- Los esquemas de ponderación para recompensas incluyen la sustracción de una base y el reescalado para mejorar las actualizaciones de políticas.

26.- La proyección de momentos minimiza la divergencia KL entre políticas nuevas y reponderadas, produciendo actualizaciones en forma cerrada para Gaussianas.

27.- Aplicaciones de búsqueda de políticas a habilidades complejas de robots como bola-en-taza, tenis de mesa serán cubiertas próximamente.

28.- La búsqueda de políticas contextual aprende habilidades generalizables que se adaptan a diferentes situaciones (por ejemplo, ubicaciones de objetivos).

29.- La búsqueda de políticas jerárquica permite el aprendizaje de secuencias de habilidades de alto nivel sobre primitivas motoras de bajo nivel.

30.- La búsqueda de políticas con modelo será cubierta, incluyendo PILCO y búsqueda de políticas guiada a través de optimización de trayectorias.

Bóveda de Conocimiento construida porDavid Vivancos 2024