Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-El aprendizaje por refuerzo (RL) es un marco general para construir agentes de IA que pueden actuar en el mundo para lograr objetivos.
2.-Los agentes de RL toman acciones que influyen en el mundo, cambian el estado y afectan las recompensas futuras que recibe el agente.
3.-El objetivo en RL es seleccionar acciones a lo largo del tiempo para maximizar la suma de recompensas futuras.
4.-Dos conceptos principales en RL son la política (cómo el agente selecciona acciones) y el valor (qué tan bueno es un estado/acción).
5.-RL basado en políticas busca directamente la política óptima que logra la máxima recompensa desde cada estado.
6.-RL basado en valores estima la función de valor óptima: la máxima recompensa alcanzable desde cada estado por cualquier política.
7.-Ejemplos de problemas de RL incluyen control de robots, optimización de interacción con usuarios, juegos y toma de decisiones secuenciales en aprendizaje automático.
8.-El problema de RL se formaliza como un agente interactuando con un entorno, recibiendo estados, tomando acciones y obteniendo recompensas.
9.-La política óptima es aquella que maximiza la recompensa futura desde cada estado. Encontrar esto resuelve el problema de RL.
10.-La función de valor óptima captura la máxima recompensa posible desde cada estado. Encontrar esto también resuelve el problema de RL.
11.-Los algoritmos de iteración de valor resuelven la función de valor óptima aplicando iterativamente la ecuación de optimalidad de Bellman.
12.-Los métodos de iteración de valor tabular no escalan a espacios de estado/acción grandes. Las redes neuronales pueden representar funciones de valor para permitir la generalización.
13.-Q-learning entrena una red neuronal para aproximar la función de valor-acción óptima minimizando el error de Bellman.
14.-Q-learning ingenuo con redes neuronales es inestable debido a datos correlacionados, sensibilidad a valores Q y escalas de recompensa variables.
15.-Las Redes Neuronales Profundas Q (DQN) proporcionan una solución estable usando repetición de experiencia, redes objetivo y recorte de recompensas.
16.-La repetición de experiencia almacena transiciones pasadas y las muestrea aleatoriamente para romper correlaciones y aprender de políticas pasadas variadas.
17.-Las redes objetivo se congelan por períodos para mantener estables los objetivos de Q-learning a medida que cambia la política.
18.-DQN se aplicó a juegos de Atari, aprendiendo a jugar desde píxeles crudos usando la misma arquitectura y solo la puntuación del juego.
19.-En muchos juegos de Atari, DQN logró un rendimiento a nivel humano o sobrehumano después de 2 semanas de entrenamiento.
20.-La repetición de experiencia y las redes objetivo fueron cruciales para estabilizar el aprendizaje y lograr un buen rendimiento con DQN.
21.-El recorte de recompensas en DQN se mejoró mediante una técnica de normalización para preservar la escala de recompensas mientras se limitan los gradientes.
22.-La arquitectura Gorila permite el entrenamiento masivamente paralelo de DQN separando la actuación del aprendizaje y usando componentes distribuidos.
23.-Gorila superó a DQN en la mayoría de los juegos de Atari y alcanzó el rendimiento de DQN aproximadamente 10 veces más rápido.
24.-Los métodos de gradiente de política optimizan directamente la política para maximizar recompensas, útil para espacios de acción continuos.
25.-El gradiente de política determinista proporciona un enfoque de extremo a extremo para ajustar los parámetros de una red de políticas para mejorar la recompensa esperada.
26.-Los métodos actor-crítico combinan gradientes de política con estimación de valor, usando un crítico para estimar valores Q y un actor para mejorar la política.
27.-El control de dominio continuo desde píxeles crudos se demostró usando gradientes de política determinista con una arquitectura actor-crítico.
28.-RL proporciona un marco de propósito general para IA. Muchos problemas pueden resolverse de extremo a extremo mediante RL profundo.
29.-Agentes de RL profundo únicos ahora pueden resolver una variedad de tareas desafiantes especificadas como problemas de maximización de recompensas.
30.-Persisten limitaciones para problemas complejos con recompensas escasas que requieren razonamiento a largo plazo. La investigación en curso busca abordar estos desafíos.
Bóveda del Conocimiento construida porDavid Vivancos 2024