Conocimiento Bóveda 6 /46 - ICML 2019
Modelos Enfocados en el Valor
David Silver
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef value fill:#f9d4d4, font-weight:bold, font-size:14px classDef planning fill:#d4f9d4, font-weight:bold, font-size:14px classDef implementation fill:#d4d4f9, font-weight:bold, font-size:14px classDef challenges fill:#f9f9d4, font-weight:bold, font-size:14px classDef main fill:#f9d4f9, font-weight:bold, font-size:14px Main["Modelos Enfocados en el Valor"] --> A["Modelos Enfocados en el Valor"] Main --> B["Enfoques de Planificación"] Main --> C["Implementación del Modelo"] Main --> D["Desafíos y Limitaciones"] A --> A1["Modelos enfocados en el valor
predicen funciones de planificación
óptimas 1"] A --> A2["Ecuaciones de Bellman reales-hipotéticas
aseguran consistencia 2"] A --> A3["El telescopio extiende la consistencia
a lo largo del tiempo 3"] A --> A4["Múltiples funciones de valor
mejoran la generalización 4"] A --> A5["Predictron estima funciones de valor
consistentes 5"] A --> A6["Lambda Predictron combina
predictores de n-pasos 6"] B --> B1["Action Predictron maneja
tareas de control 10"] B --> B2["Imaginación vs realidad
flexibilidad de políticas 11"] B --> B3["Grounded Predictron coincide
con políticas del mundo real 12"] B --> B4["Tree Predictron optimiza
secuencias de acciones 13"] B --> B5["Red de Iteración de Valor
aplica redes convolucionales 17"] B --> B6["Aproximación de funciones algorítmicas
usa redes 18"] C --> C1["Entrenamiento sin modelo para
modelos enfocados en el valor 7"] C --> C2["Actualizaciones de consistencia mejoran
predicciones del modelo 8"] C --> C3["Alineación de recompensas
con predicciones intermedias 9"] C --> C4["Red de Predicción de Valor
implementa Grounded Predictron 14"] C --> C5["Tree QN mejora
rendimiento en Atari 15"] C --> C6["Redes de Búsqueda en Árbol de Monte Carlo
escalan 16"] D --> D1["Aproximadores universales aprenden
algoritmos de planificación 19"] D --> D2["AlphaGo demuestra comportamientos
de planificación implícita 20"] D --> D3["Combinando métodos de aprendizaje y
planificación 21"] D --> D4["Redes neuronales representan
modelos implícitamente 22"] D --> D5["Modelos enfocados en el valor mejoran
eficiencia de muestras 23"] D --> D6["Limitaciones de exploración en
estados no vistos 24"] class Main main class A,A1,A2,A3,A4,A5,A6 value class B,B1,B2,B3,B4,B5,B6 planning class C,C1,C2,C3,C4,C5,C6 implementation class D,D1,D2,D3,D4,D5,D6 challenges

Resumen:

1.- Modelos enfocados en el valor: Modelos que se centran exclusivamente en predecir funciones de valor, que son suficientes para la planificación óptima e ignoran detalles irrelevantes.

2.- Ecuaciones de Bellman reales vs. hipotéticas: La consistencia entre las funciones de valor del mundo real y las predicciones basadas en modelos es clave para una planificación efectiva.

3.- Ecuaciones de Bellman telescópicas: Extender los requisitos de consistencia a lo largo de múltiples pasos de tiempo en dimensiones tanto reales como hipotéticas.

4.- Muchos modelos enfocados en el valor: Aprender modelos consistentes con múltiples funciones de valor para mejorar la eficiencia de datos y la generalización.

5.- Predictron: Un modelo de múltiples pasos y muchos valores que despliega predicciones para estimar funciones de valor de manera consistente.

6.- Lambda Predictron: Combina diferentes predictores de n-pasos usando ponderación estilo TD(λ) para una estimación de valor más robusta.

7.- Entrenamiento sin modelo de sistemas basados en modelos: Entrenar modelos enfocados en el valor de extremo a extremo como si fueran aproximadores de funciones de valor sin modelo.

8.- Actualizaciones de consistencia: Mejorar las predicciones del modelo imponiendo consistencia entre diferentes estimaciones de valor de n-pasos, incluso sin nuevas experiencias.

9.- Alineación de recompensas: Alinear las predicciones intermedias del modelo con las recompensas reales del entorno para mejorar la consistencia temporal.

10.- Action Predictron: Extiende el Predictron para manejar acciones y políticas, permitiendo tareas de control.

11.- Políticas hipotéticas vs. reales: Permitir diferentes políticas en la imaginación vs. la realidad para una planificación más flexible.

12.- Grounded Predictron: Restringe las acciones imaginadas para que coincidan con las políticas del mundo real para mejorar la consistencia.

13.- Tree Predictron: Utiliza una estructura de árbol para optimizar sobre secuencias de acciones, similar a los enfoques de aprendizaje Q.

14.- Red de Predicción de Valor: Una implementación específica del concepto de Predictron fundamentado.

15.- Tree QN: Una implementación del concepto de Tree Predictron, mostrando un mejor rendimiento en juegos de Atari.

16.- Redes de Búsqueda en Árbol de Monte Carlo: Escalar eficientemente la búsqueda en árbol usando simulaciones incrementales en lugar de una expansión por fuerza bruta.

17.- Red de Iteración de Valor: Aplica la iteración de valor sobre un espacio de estados implícito completo usando redes neuronales convolucionales.

18.- Aproximación de funciones algorítmicas: Aproximar algoritmos de planificación directamente con redes neuronales en lugar de solo funciones de valor.

19.- Aproximadores universales de funciones algorítmicas: Usar poderosas redes neuronales recurrentes para aprender algoritmos de planificación desde cero.

20.- Planificación implícita en AlphaGo: Demostrar que las redes neuronales profundas pueden capturar implícitamente comportamientos complejos similares a la planificación.

21.- Combinando aprendizaje y planificación: Explorando métodos que aprovechan tanto el aprendizaje como la planificación para mejorar el rendimiento.

22.- Modelos implícitos y planificación: Usar redes neuronales para representar tanto modelos del mundo como algoritmos de planificación implícitamente.

23.- Eficiencia de datos en RL basado en modelos: Aprender sobre múltiples funciones de valor puede mejorar la eficiencia de muestras en comparación con métodos sin modelo.

24.- Limitaciones de exploración: Los modelos enfocados en el valor no pueden explorar estados no vistos de manera mágica, pero pueden usar los datos de manera más eficiente.

25.- Aprendizaje de representación de estados: Los modelos enfocados en el valor pueden aprender representaciones de estados que se centran en las características relevantes para la tarea.

26.- Iteración de políticas vs. iteración de valores: Diferentes enfoques para optimizar políticas, ya sea a través de mejoras iterativas o optimización directa.

27.- Políticas estocásticas vs. deterministas: Desafíos en el manejo de políticas estocásticas en la planificación basada en modelos.

28.- Escalabilidad de la búsqueda en árbol: Abordar los desafíos computacionales al planificar sobre horizontes largos o con grandes espacios de acción.

29.- Sesgos inductivos para la planificación: Explorando estructuras de redes neuronales apropiadas para capturar comportamientos similares a la planificación.

30.- Compromisos entre aproximadores estructurados y universales: Equilibrar arquitecturas de planificación especializadas con enfoques de redes neuronales más generales.

Bóveda del Conocimiento construida porDavid Vivancos 2024