Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- Motivación: Los robots autónomos serán más comunes y requerirán métodos de aprendizaje para adquirir habilidades complejas.
2.- Desafíos: Espacios de estado/acción continuos de alta dimensión, costos de recolección de datos del mundo real, preocupaciones de seguridad durante la exploración.
3.- RL basado en valor: Estimar la función de valor globalmente, las actualizaciones pueden ser inestables con la aproximación de funciones, requiere exploración extensa.
4.- Principios de búsqueda de políticas: Políticas parametrizadas, exploración correlacionada, actualizaciones de políticas locales, menos suposiciones que RL basado en valor.
5.- Taxonomía de búsqueda de políticas: Sin modelo vs con modelo, diferentes métodos de exploración y actualización dentro de cada categoría.
6.- Esquema del tutorial: Taxonomía, métodos sin modelo (gradientes de políticas, EM), extensiones (contextual, jerárquica), métodos con modelo.
7.- Representaciones de políticas: Generadores de trayectorias (por ejemplo, DMPs), controladores lineales, redes RBF, redes neuronales.
8.- Sin modelo: Usar muestras de estado, acción, recompensa. Con modelo: Aprender un modelo, eficiente en muestras pero sensible a errores del modelo.
9.- Exploración basada en pasos vs episodios: Basada en pasos usa exploración en el espacio de acción, basada en episodios usa exploración en el espacio de parámetros correlacionados.
10.- Actualización de políticas: Optimización directa de políticas (basada en gradientes) o Maximización de Expectativa (máxima verosimilitud ponderada).
11.- La exploración debe equilibrar suavidad para la seguridad vs variabilidad para el aprendizaje. La métrica debe medir la divergencia KL.
12.- La exploración correlacionada en el espacio de parámetros produce trayectorias más suaves que la exploración independiente en cada paso.
13.- Las actualizaciones de políticas conservadoras vs codiciosas ilustran la compensación exploración-explotación. La divergencia KL equilibra suavidad y progreso.
14.- Los gradientes de políticas usan el truco de log-verosimilitud para estimar el gradiente del retorno esperado con respecto a los parámetros de la política.
15.- La sustracción de la base reduce la varianza de las estimaciones de gradiente de políticas sin introducir sesgo. La base óptima aproxima la función de valor.
16.- Los gradientes de políticas basados en pasos (REINFORCE) descomponen el retorno en cantidades por paso, permitiendo el uso de la función de valor estado-acción.
17.- Introducir una base dependiente del estado (por ejemplo, función de valor) puede reducir aún más la varianza de las estimaciones de gradiente de políticas.
18.- La elección de la métrica (por ejemplo, Euclidiana vs información de Fisher) impacta el tamaño del paso de actualización de políticas y el comportamiento de convergencia.
19.- Los gradientes de políticas naturales usan la matriz de información de Fisher para normalizar el gradiente, permitiendo invariancia a la reparametrización.
20.- El actor-crítico natural combina gradientes de políticas naturales con aproximación de funciones compatibles de la función de valor estado-acción.
21.- Incorporar una función de valor de estado reduce la varianza de la función de ventaja (Q-V) utilizada en métodos actor-crítico.
22.- Los gradientes de políticas pueden aprender efectivamente habilidades motoras como swings de béisbol pero la convergencia puede ser lenta.
23.- La búsqueda de políticas basada en EM (ML ponderada por recompensa) actualiza la política para coincidir con la política anterior reponderada por recompensa exponencial.
24.- La búsqueda de políticas EM funciona tanto para configuraciones basadas en pasos como en episodios, se relaciona con el control óptimo y métodos teóricos de información.
25.- Los esquemas de ponderación para recompensas incluyen la sustracción de una base y el reescalado para mejorar las actualizaciones de políticas.
26.- La proyección de momentos minimiza la divergencia KL entre políticas nuevas y reponderadas, produciendo actualizaciones en forma cerrada para Gaussianas.
27.- Aplicaciones de búsqueda de políticas a habilidades complejas de robots como bola-en-taza, tenis de mesa serán cubiertas próximamente.
28.- La búsqueda de políticas contextual aprende habilidades generalizables que se adaptan a diferentes situaciones (por ejemplo, ubicaciones de objetivos).
29.- La búsqueda de políticas jerárquica permite el aprendizaje de secuencias de habilidades de alto nivel sobre primitivas motoras de bajo nivel.
30.- La búsqueda de políticas con modelo será cubierta, incluyendo PILCO y búsqueda de políticas guiada a través de optimización de trayectorias.
Bóveda de Conocimiento construida porDavid Vivancos 2024