Conocimiento Bóveda 6 /16 - ICML 2016
Aprendizaje Profundo de Refuerzo
David Silver
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d9c9, font-weight:bold, font-size:14px classDef rl fill:#d4f9d4, font-weight:bold, font-size:14px classDef dl fill:#d4d4f9, font-weight:bold, font-size:14px classDef methods fill:#f9f9d4, font-weight:bold, font-size:14px classDef applications fill:#f9d4f9, font-weight:bold, font-size:14px Main["Aprendizaje Profundo de Refuerzo"] Main --> A["Aprendizaje de Refuerzo"] Main --> B["Aprendizaje Profundo"] Main --> C["Métodos y Algoritmos"] Main --> D["Aplicaciones"] A --> A1["El aprendizaje de refuerzo optimiza decisiones,
maximiza recompensas futuras 1"] A --> A2["El aprendizaje de refuerzo formaliza la interacción agente-entorno
para recompensas 5"] A --> A3["El aprendizaje de refuerzo incluye política,
función de valor, modelo 6"] A --> A4["El aprendizaje de refuerzo: marco general
para la toma de decisiones 7"] A --> A5["El aprendizaje de refuerzo basado en valor estima
la función de valor óptima 8"] A --> A6["El valor óptimo obedece
la ecuación de Bellman recursiva 9"] B --> B1["El aprendizaje profundo compone
funciones parametrizadas 2"] B --> B2["Las redes neuronales combinan
transformaciones, parámetros optimizados 3"] B --> B3["El compartir pesos mejora
arquitecturas neuronales 4"] B --> B4["DQN utiliza redes neuronales
para la función Q 11"] B --> B5["Las redes neuronales representan
posiciones de Go, probabilidades 24"] B --> B6["Las redes de valor se entrenan
en juegos de autoaprendizaje 26"] C --> C1["Q-learning estima la función de valor-acción
Q s,a 10"] C --> C2["Mejoras de DQN: Double
DQN, Prioritized Replay 12"] C --> C3["DQN distribuido permite
entrenamiento paralelo más rápido 13"] C --> C4["A3C utiliza actores-aprendices paralelos
para estabilidad 14"] C --> C5["Los gradientes de política optimizan
la política usando gradientes 15"] C --> C6["Actor-crítico aprende política
y función de valor 17"] D --> D1["Control continuo posible
con variantes actor-crítico 19"] D --> D2["Variantes complejas resuelven
problemas de control desafiantes 20"] D --> D3["Juegos estratégicos combinan
aprendizaje de refuerzo, arrepentimiento contrafáctico 21"] D --> D4["El aprendizaje de refuerzo basado en modelos aprende
entorno para planificación 22"] D --> D5["AlphaGo combina aprendizaje profundo
de refuerzo, búsqueda, autoaprendizaje 28"] D --> D6["Futuro: salud, asistentes,
IA conversacional 30"] class Main main class A,A1,A2,A3,A4,A5,A6 rl class B,B1,B2,B3,B4,B5,B6 dl class C,C1,C2,C3,C4,C5,C6 methods class D,D1,D2,D3,D4,D5,D6 applications

Resumen:

1.- El aprendizaje de refuerzo optimiza decisiones para maximizar recompensas futuras. El aprendizaje profundo permite aprender representaciones a partir de entradas en bruto. Combinarlos permite resolver tareas complejas.

2.- El aprendizaje profundo compone funciones parametrizadas en una representación profunda. Los gradientes se pueden calcular mediante la regla de la cadena para optimizar la pérdida.

3.- Las redes neuronales profundas combinan transformaciones lineales, activaciones no lineales y funciones de pérdida. Los parámetros se optimizan usando descenso de gradiente estocástico.

4.- Compartir pesos a lo largo del tiempo (RNNs) y el espacio (ConvNets) lleva a arquitecturas de redes neuronales poderosas.

5.- El aprendizaje de refuerzo formaliza la interacción entre un agente y el entorno, con el objetivo de que el agente aprenda a maximizar recompensas.

6.- El aprendizaje de refuerzo puede incluir una política (comportamiento del agente), función de valor (estimación de recompensas futuras) y modelo (comprensión del entorno).

7.- ¿Por qué el aprendizaje de refuerzo? Es un marco general para la toma de decisiones, relevante donde sea necesario seleccionar acciones óptimas para lograr objetivos.

8.- El aprendizaje de refuerzo basado en valor estima la función de valor óptima (recompensas máximas alcanzables). Una vez conocida, una política óptima sigue seleccionando acciones que maximizan el valor.

9.- La función de valor óptima obedece una ecuación de Bellman recursiva debido a la naturaleza iterativa del proceso de maximización de recompensas.

10.- En Q-learning, se estima una función de valor-acción Q(s,a), que representa el valor de cada acción a en cada estado s.

11.- Las Redes Neuronales de Q Profundo (DQN) utilizan redes neuronales profundas para representar la función Q, entrenadas usando Q-learning con experiencia de repetición para estabilidad.

12.- Las mejoras a DQN incluyen Double DQN (reducción del sesgo de sobreestimación), Prioritized Experience Replay y Redes Dueling (separación de flujos de valor/ventaja).

13.- Las variantes de DQN distribuidas como Gorila permiten un entrenamiento más rápido al paralelizarse entre máquinas. Aceleraciones similares se pueden lograr usando múltiples hilos en una CPU.

14.- El algoritmo Asynchronous Advantage Actor-Critic (A3C) utiliza actores-aprendices paralelos, cada uno con su propia red, para des correlacionar y estabilizar el aprendizaje.

15.- Los métodos de gradiente de política optimizan directamente la política como una red neuronal usando una función objetivo y ascenso de gradiente.

16.- El teorema del gradiente de política expresa el gradiente del objetivo de aprendizaje de refuerzo en términos de gradientes de política ponderados por recompensa.

17.- Los métodos actor-crítico aprenden tanto una política (actor) como una función de valor (crítico). El crítico guía las actualizaciones de la política.

18.- Los gradientes de política determinística proporcionan una formulación eficiente de gradiente de política al explotar gradientes de la función de valor-acción, evitando la integración sobre acciones.

19.- El control continuo con aprendizaje profundo de refuerzo es posible usando variantes actor-crítico como DDPG, que intercalan el aprendizaje de una función Q y una política determinística.

20.- Las variantes complejas que usan paralelismo y RNNs pueden resolver problemas desafiantes como el control continuo desde píxeles (por ejemplo, DPPO).

21.- Los juegos estratégicos como el póker son abordables al combinar el aprendizaje de refuerzo con la minimización del arrepentimiento contrafáctico, usando aprendizaje profundo para la aproximación de funciones.

22.- El aprendizaje de refuerzo basado en modelos tiene como objetivo aprender un modelo del entorno y usarlo para la planificación. Los desafíos clave son las imprecisiones del modelo y los errores acumulativos.

23.- El Go es desafiante para la IA debido a su enorme espacio de búsqueda y la dificultad de evaluar posiciones en el tablero.

24.- Las redes neuronales profundas se pueden usar para representar posiciones en el tablero de Go y probabilidades de movimiento (política) o valores de posición (valor).

25.- El aprendizaje supervisado en juegos de expertos puede producir redes de política iniciales fuertes. El aprendizaje de refuerzo mediante autoaprendizaje puede mejorar aún más la política.

26.- Las redes de valor se pueden entrenar en juegos de autoaprendizaje para proporcionar estimaciones de valor de posición. La diversidad de datos es crítica para evitar el sobreajuste.

27.- Combinar políticas y valores de redes neuronales con Búsqueda de Árboles de Monte Carlo permite una búsqueda altamente selectiva en Go.

28.- AlphaGo derrotó a los jugadores de Go humanos más fuertes combinando aprendizaje profundo de refuerzo, búsqueda y entrenamiento de autoaprendizaje.

29.- El aprendizaje profundo de refuerzo ha visto progreso y aplicaciones más allá de solo DeepMind. Los enfoques clave son la innovación, la generalidad y el impacto en el mundo real.

30.- Áreas futuras prometedoras para el aprendizaje profundo de refuerzo incluyen mejoras algorítmicas continuas, salud, asistentes de teléfonos inteligentes e IA conversacional.

Bóveda de Conocimiento construida porDavid Vivancos 2024