Conocimiento Bóveda 2/12 - ICLR 2014-2023
David Silver ICLR 2015 - Conferencia - Aprendizaje por Refuerzo Profundo
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef rl fill:#f9d4d4, font-weight:bold, font-size:14px; classDef concepts fill:#d4f9d4, font-weight:bold, font-size:14px; classDef examples fill:#d4d4f9, font-weight:bold, font-size:14px; classDef problem fill:#f9f9d4, font-weight:bold, font-size:14px; classDef algorithms fill:#f9d4f9, font-weight:bold, font-size:14px; classDef implementations fill:#d4f9f9, font-weight:bold, font-size:14px; classDef future fill:#f9d4d4, font-weight:bold, font-size:14px; A[David Silver
ICLR 2015] --> B[RL: Agentes de IA logran objetivos 1] A --> C[Conceptos principales: política, valor 4] C --> D[Política: selección de acciones 5] C --> E[Valor: bondad de estado/acción 6] B --> F[Acciones influyen en el mundo, recompensas 2] B --> G[Objetivo: maximizar recompensas futuras 3] B --> H[Problemas de RL: control, optimización, juegos 7] B --> I[Interacción agente-entorno 8] I --> J[Política óptima maximiza recompensa 9] I --> K[Valor óptimo: recompensa máxima 10] A --> L[Iteración de valor: ecuación de Bellman 11] L --> M[Redes neuronales generalizan valor 12] A --> N[Q-learning: aproximación valor-acción 13] N --> O[Q-learning ingenuo inestable 14] N --> P[DQN: repetición, redes objetivo, recorte 15] P --> Q[Repetición rompe correlaciones 16] P --> R[Redes objetivo estabilizan aprendizaje 17] P --> S[DQN: rendimiento sobrehumano en Atari 18] S --> T[DQN entrenado desde píxeles crudos 19] S --> U[Repetición, objetivos cruciales para DQN 20] P --> V[Normalización de recompensas mejora DQN 21] A --> W[Gorila: DQN paralelo 22] W --> X[Gorila: más rápido, mejor que DQN 23] A --> Y[Gradientes de política optimizan política 24] Y --> Z[Gradiente de política determinista 25] Y --> AA[Actor-crítico: política + valor 26] Y --> AB[Control continuo desde píxeles 27] A --> AC[RL: marco general de IA 28] AC --> AD[Agente RL único, varias tareas 29] AC --> AE[Limitaciones: recompensas escasas, razonamiento 30] class A,B,F,G,H,I,J,K rl; class C,D,E concepts; class L,M,N,O,P,Q,R,S,T,U,V,W,X,Y,Z,AA,AB algorithms; class AC,AD,AE future;

Resumen:

1.-El aprendizaje por refuerzo (RL) es un marco general para construir agentes de IA que pueden actuar en el mundo para lograr objetivos.

2.-Los agentes de RL toman acciones que influyen en el mundo, cambian el estado y afectan las recompensas futuras que recibe el agente.

3.-El objetivo en RL es seleccionar acciones a lo largo del tiempo para maximizar la suma de recompensas futuras.

4.-Dos conceptos principales en RL son la política (cómo el agente selecciona acciones) y el valor (qué tan bueno es un estado/acción).

5.-RL basado en políticas busca directamente la política óptima que logra la máxima recompensa desde cada estado.

6.-RL basado en valores estima la función de valor óptima: la máxima recompensa alcanzable desde cada estado por cualquier política.

7.-Ejemplos de problemas de RL incluyen control de robots, optimización de interacción con usuarios, juegos y toma de decisiones secuenciales en aprendizaje automático.

8.-El problema de RL se formaliza como un agente interactuando con un entorno, recibiendo estados, tomando acciones y obteniendo recompensas.

9.-La política óptima es aquella que maximiza la recompensa futura desde cada estado. Encontrar esto resuelve el problema de RL.

10.-La función de valor óptima captura la máxima recompensa posible desde cada estado. Encontrar esto también resuelve el problema de RL.

11.-Los algoritmos de iteración de valor resuelven la función de valor óptima aplicando iterativamente la ecuación de optimalidad de Bellman.

12.-Los métodos de iteración de valor tabular no escalan a espacios de estado/acción grandes. Las redes neuronales pueden representar funciones de valor para permitir la generalización.

13.-Q-learning entrena una red neuronal para aproximar la función de valor-acción óptima minimizando el error de Bellman.

14.-Q-learning ingenuo con redes neuronales es inestable debido a datos correlacionados, sensibilidad a valores Q y escalas de recompensa variables.

15.-Las Redes Neuronales Profundas Q (DQN) proporcionan una solución estable usando repetición de experiencia, redes objetivo y recorte de recompensas.

16.-La repetición de experiencia almacena transiciones pasadas y las muestrea aleatoriamente para romper correlaciones y aprender de políticas pasadas variadas.

17.-Las redes objetivo se congelan por períodos para mantener estables los objetivos de Q-learning a medida que cambia la política.

18.-DQN se aplicó a juegos de Atari, aprendiendo a jugar desde píxeles crudos usando la misma arquitectura y solo la puntuación del juego.

19.-En muchos juegos de Atari, DQN logró un rendimiento a nivel humano o sobrehumano después de 2 semanas de entrenamiento.

20.-La repetición de experiencia y las redes objetivo fueron cruciales para estabilizar el aprendizaje y lograr un buen rendimiento con DQN.

21.-El recorte de recompensas en DQN se mejoró mediante una técnica de normalización para preservar la escala de recompensas mientras se limitan los gradientes.

22.-La arquitectura Gorila permite el entrenamiento masivamente paralelo de DQN separando la actuación del aprendizaje y usando componentes distribuidos.

23.-Gorila superó a DQN en la mayoría de los juegos de Atari y alcanzó el rendimiento de DQN aproximadamente 10 veces más rápido.

24.-Los métodos de gradiente de política optimizan directamente la política para maximizar recompensas, útil para espacios de acción continuos.

25.-El gradiente de política determinista proporciona un enfoque de extremo a extremo para ajustar los parámetros de una red de políticas para mejorar la recompensa esperada.

26.-Los métodos actor-crítico combinan gradientes de política con estimación de valor, usando un crítico para estimar valores Q y un actor para mejorar la política.

27.-El control de dominio continuo desde píxeles crudos se demostró usando gradientes de política determinista con una arquitectura actor-crítico.

28.-RL proporciona un marco de propósito general para IA. Muchos problemas pueden resolverse de extremo a extremo mediante RL profundo.

29.-Agentes de RL profundo únicos ahora pueden resolver una variedad de tareas desafiantes especificadas como problemas de maximización de recompensas.

30.-Persisten limitaciones para problemas complejos con recompensas escasas que requieren razonamiento a largo plazo. La investigación en curso busca abordar estos desafíos.

Bóveda del Conocimiento construida porDavid Vivancos 2024