Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- Modelos enfocados en el valor: Modelos que se centran exclusivamente en predecir funciones de valor, que son suficientes para la planificación óptima e ignoran detalles irrelevantes.
2.- Ecuaciones de Bellman reales vs. hipotéticas: La consistencia entre las funciones de valor del mundo real y las predicciones basadas en modelos es clave para una planificación efectiva.
3.- Ecuaciones de Bellman telescópicas: Extender los requisitos de consistencia a lo largo de múltiples pasos de tiempo en dimensiones tanto reales como hipotéticas.
4.- Muchos modelos enfocados en el valor: Aprender modelos consistentes con múltiples funciones de valor para mejorar la eficiencia de datos y la generalización.
5.- Predictron: Un modelo de múltiples pasos y muchos valores que despliega predicciones para estimar funciones de valor de manera consistente.
6.- Lambda Predictron: Combina diferentes predictores de n-pasos usando ponderación estilo TD(λ) para una estimación de valor más robusta.
7.- Entrenamiento sin modelo de sistemas basados en modelos: Entrenar modelos enfocados en el valor de extremo a extremo como si fueran aproximadores de funciones de valor sin modelo.
8.- Actualizaciones de consistencia: Mejorar las predicciones del modelo imponiendo consistencia entre diferentes estimaciones de valor de n-pasos, incluso sin nuevas experiencias.
9.- Alineación de recompensas: Alinear las predicciones intermedias del modelo con las recompensas reales del entorno para mejorar la consistencia temporal.
10.- Action Predictron: Extiende el Predictron para manejar acciones y políticas, permitiendo tareas de control.
11.- Políticas hipotéticas vs. reales: Permitir diferentes políticas en la imaginación vs. la realidad para una planificación más flexible.
12.- Grounded Predictron: Restringe las acciones imaginadas para que coincidan con las políticas del mundo real para mejorar la consistencia.
13.- Tree Predictron: Utiliza una estructura de árbol para optimizar sobre secuencias de acciones, similar a los enfoques de aprendizaje Q.
14.- Red de Predicción de Valor: Una implementación específica del concepto de Predictron fundamentado.
15.- Tree QN: Una implementación del concepto de Tree Predictron, mostrando un mejor rendimiento en juegos de Atari.
16.- Redes de Búsqueda en Árbol de Monte Carlo: Escalar eficientemente la búsqueda en árbol usando simulaciones incrementales en lugar de una expansión por fuerza bruta.
17.- Red de Iteración de Valor: Aplica la iteración de valor sobre un espacio de estados implícito completo usando redes neuronales convolucionales.
18.- Aproximación de funciones algorítmicas: Aproximar algoritmos de planificación directamente con redes neuronales en lugar de solo funciones de valor.
19.- Aproximadores universales de funciones algorítmicas: Usar poderosas redes neuronales recurrentes para aprender algoritmos de planificación desde cero.
20.- Planificación implícita en AlphaGo: Demostrar que las redes neuronales profundas pueden capturar implícitamente comportamientos complejos similares a la planificación.
21.- Combinando aprendizaje y planificación: Explorando métodos que aprovechan tanto el aprendizaje como la planificación para mejorar el rendimiento.
22.- Modelos implícitos y planificación: Usar redes neuronales para representar tanto modelos del mundo como algoritmos de planificación implícitamente.
23.- Eficiencia de datos en RL basado en modelos: Aprender sobre múltiples funciones de valor puede mejorar la eficiencia de muestras en comparación con métodos sin modelo.
24.- Limitaciones de exploración: Los modelos enfocados en el valor no pueden explorar estados no vistos de manera mágica, pero pueden usar los datos de manera más eficiente.
25.- Aprendizaje de representación de estados: Los modelos enfocados en el valor pueden aprender representaciones de estados que se centran en las características relevantes para la tarea.
26.- Iteración de políticas vs. iteración de valores: Diferentes enfoques para optimizar políticas, ya sea a través de mejoras iterativas o optimización directa.
27.- Políticas estocásticas vs. deterministas: Desafíos en el manejo de políticas estocásticas en la planificación basada en modelos.
28.- Escalabilidad de la búsqueda en árbol: Abordar los desafíos computacionales al planificar sobre horizontes largos o con grandes espacios de acción.
29.- Sesgos inductivos para la planificación: Explorando estructuras de redes neuronales apropiadas para capturar comportamientos similares a la planificación.
30.- Compromisos entre aproximadores estructurados y universales: Equilibrar arquitecturas de planificación especializadas con enfoques de redes neuronales más generales.
Bóveda del Conocimiento construida porDavid Vivancos 2024