Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- El tutorial cubre el aprendizaje profundo por refuerzo, la toma de decisiones y el control. Las diapositivas están disponibles en línea.
2.- La toma de decisiones secuencial es necesaria cuando las acciones de un agente afectan estados y decisiones futuras. Las aplicaciones incluyen robótica, conducción autónoma, finanzas.
3.- El aprendizaje profundo por refuerzo combina el aprendizaje profundo para entradas sensoriales ricas con el aprendizaje por refuerzo para acciones que afectan resultados.
4.- El aprendizaje por refuerzo implica generar muestras, ajustar un modelo/estimador para evaluar retornos y usarlo para mejorar la política en un ciclo.
5.- En el método de gradiente de política, la política se diferencia directamente para permitir el ascenso de gradiente, formalizando el aprendizaje por prueba y error.
6.- La varianza de los gradientes de política puede reducirse explotando la causalidad e introduciendo una base. Los gradientes naturales mejoran la convergencia.
7.- Los algoritmos actor-crítico tienen un actor que predice acciones y un crítico que evalúa acciones. El crítico se usa para estimar la ventaja.
8.- En métodos de función de valor directo como Q-learning, la política maximiza implícitamente la Q-función aprendida. Puede usarse con acciones continuas.
9.- El aprendizaje por refuerzo puede verse como inferencia probabilística. Las funciones de valor y Q-funciones emergen de la inferencia en un modelo gráfico.
10.- La optimalidad suave emerge de un modelo gráfico de trayectorias, valores y recompensas. La política maximiza la entropía junto con la recompensa esperada.
11.- Soft Q-learning utiliza un soft max en lugar de un hard max para la Q-función. Ayuda con la exploración y la composicionalidad.
12.- El aprendizaje por refuerzo inverso busca inferir la función de recompensa a partir de demostraciones de expertos. Es ambiguo y requiere resolver el problema directo.
13.- El aprendizaje por refuerzo inverso de máxima entropía maneja la ambigüedad con un modelo probabilístico. Es equivalente a GAN con un discriminador especial.
14.- El aprendizaje de costos guiado y el aprendizaje de imitación adversarial generativo son algoritmos de RL inversa basados en muestreo que funcionan sin resolver el problema directo.
15.- RL basada en modelos busca aprender el modelo de dinámicas y optimizar la política usando el modelo. Más eficiente que RL sin modelo.
16.- Las formas de usar un modelo aprendido incluyen retropropagación de gradientes a través de él, control predictivo de modelos, aprendizaje de modelos locales.
17.- La búsqueda de política guiada aprende modelos y políticas locales para múltiples estados iniciales y los destila en una política global.
18.- Con observaciones de alta dimensión, el modelo de dinámicas puede aprenderse en un espacio latente de baja dimensión o directamente en el espacio de observación.
19.- RL basada en modelos puede ser más eficiente y generalizable que RL sin modelo, pero está limitada por la precisión del modelo.
20.- Los desafíos abiertos en RL profunda incluyen mejorar la eficiencia de muestras, exploración segura, especificación de recompensas y aprendizaje por transferencia.
21.- La eficiencia de muestras puede potencialmente mejorarse a través de la curiosidad, la jerarquía, las políticas estocásticas y la transferencia entre tareas.
22.- La exploración segura puede involucrar la estimación de incertidumbre, el aprendizaje de datos off-policy, la supervisión humana o el aprendizaje primero en simulación.
23.- La especificación de recompensas puede aprovechar las preferencias humanas, RL inversa, imágenes de objetivos, movimientos de objetos o instrucciones de lenguaje.
24.- Los agentes deben aprender a resolver rápidamente nuevas tareas construyendo sobre el conocimiento de tareas previas, en lugar de aprender tabula rasa.
25.- La generación automática de tareas y currículos es un problema importante para construir agentes más capaces.
26.- Incorporar incertidumbre en las políticas puede ayudar a los agentes a explorar de manera segura evitando acciones con resultados altamente inciertos.
27.- Aprender de datos off-policy, como demostraciones humanas, puede permitir a los agentes aprender sin riesgos de prueba y error.
28.- La intervención humana cuando un agente está a punto de tomar una decisión insegura puede mantener al agente dentro de límites seguros durante el aprendizaje.
29.- La transferencia de simulación a la realidad permite a los agentes aprender en un entorno virtual seguro antes de desplegar esas habilidades en el mundo real.
30.- El paradigma de aprender de recompensas con supervisión mínima puede ayudar en la búsqueda de inteligencia artificial a nivel humano.
Bóveda del Conocimiento construida porDavid Vivancos 2024