Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- El aprendizaje de refuerzo optimiza decisiones para maximizar recompensas futuras. El aprendizaje profundo permite aprender representaciones a partir de entradas en bruto. Combinarlos permite resolver tareas complejas.
2.- El aprendizaje profundo compone funciones parametrizadas en una representación profunda. Los gradientes se pueden calcular mediante la regla de la cadena para optimizar la pérdida.
3.- Las redes neuronales profundas combinan transformaciones lineales, activaciones no lineales y funciones de pérdida. Los parámetros se optimizan usando descenso de gradiente estocástico.
4.- Compartir pesos a lo largo del tiempo (RNNs) y el espacio (ConvNets) lleva a arquitecturas de redes neuronales poderosas.
5.- El aprendizaje de refuerzo formaliza la interacción entre un agente y el entorno, con el objetivo de que el agente aprenda a maximizar recompensas.
6.- El aprendizaje de refuerzo puede incluir una política (comportamiento del agente), función de valor (estimación de recompensas futuras) y modelo (comprensión del entorno).
7.- ¿Por qué el aprendizaje de refuerzo? Es un marco general para la toma de decisiones, relevante donde sea necesario seleccionar acciones óptimas para lograr objetivos.
8.- El aprendizaje de refuerzo basado en valor estima la función de valor óptima (recompensas máximas alcanzables). Una vez conocida, una política óptima sigue seleccionando acciones que maximizan el valor.
9.- La función de valor óptima obedece una ecuación de Bellman recursiva debido a la naturaleza iterativa del proceso de maximización de recompensas.
10.- En Q-learning, se estima una función de valor-acción Q(s,a), que representa el valor de cada acción a en cada estado s.
11.- Las Redes Neuronales de Q Profundo (DQN) utilizan redes neuronales profundas para representar la función Q, entrenadas usando Q-learning con experiencia de repetición para estabilidad.
12.- Las mejoras a DQN incluyen Double DQN (reducción del sesgo de sobreestimación), Prioritized Experience Replay y Redes Dueling (separación de flujos de valor/ventaja).
13.- Las variantes de DQN distribuidas como Gorila permiten un entrenamiento más rápido al paralelizarse entre máquinas. Aceleraciones similares se pueden lograr usando múltiples hilos en una CPU.
14.- El algoritmo Asynchronous Advantage Actor-Critic (A3C) utiliza actores-aprendices paralelos, cada uno con su propia red, para des correlacionar y estabilizar el aprendizaje.
15.- Los métodos de gradiente de política optimizan directamente la política como una red neuronal usando una función objetivo y ascenso de gradiente.
16.- El teorema del gradiente de política expresa el gradiente del objetivo de aprendizaje de refuerzo en términos de gradientes de política ponderados por recompensa.
17.- Los métodos actor-crítico aprenden tanto una política (actor) como una función de valor (crítico). El crítico guía las actualizaciones de la política.
18.- Los gradientes de política determinística proporcionan una formulación eficiente de gradiente de política al explotar gradientes de la función de valor-acción, evitando la integración sobre acciones.
19.- El control continuo con aprendizaje profundo de refuerzo es posible usando variantes actor-crítico como DDPG, que intercalan el aprendizaje de una función Q y una política determinística.
20.- Las variantes complejas que usan paralelismo y RNNs pueden resolver problemas desafiantes como el control continuo desde píxeles (por ejemplo, DPPO).
21.- Los juegos estratégicos como el póker son abordables al combinar el aprendizaje de refuerzo con la minimización del arrepentimiento contrafáctico, usando aprendizaje profundo para la aproximación de funciones.
22.- El aprendizaje de refuerzo basado en modelos tiene como objetivo aprender un modelo del entorno y usarlo para la planificación. Los desafíos clave son las imprecisiones del modelo y los errores acumulativos.
23.- El Go es desafiante para la IA debido a su enorme espacio de búsqueda y la dificultad de evaluar posiciones en el tablero.
24.- Las redes neuronales profundas se pueden usar para representar posiciones en el tablero de Go y probabilidades de movimiento (política) o valores de posición (valor).
25.- El aprendizaje supervisado en juegos de expertos puede producir redes de política iniciales fuertes. El aprendizaje de refuerzo mediante autoaprendizaje puede mejorar aún más la política.
26.- Las redes de valor se pueden entrenar en juegos de autoaprendizaje para proporcionar estimaciones de valor de posición. La diversidad de datos es crítica para evitar el sobreajuste.
27.- Combinar políticas y valores de redes neuronales con Búsqueda de Árboles de Monte Carlo permite una búsqueda altamente selectiva en Go.
28.- AlphaGo derrotó a los jugadores de Go humanos más fuertes combinando aprendizaje profundo de refuerzo, búsqueda y entrenamiento de autoaprendizaje.
29.- El aprendizaje profundo de refuerzo ha visto progreso y aplicaciones más allá de solo DeepMind. Los enfoques clave son la innovación, la generalidad y el impacto en el mundo real.
30.- Áreas futuras prometedoras para el aprendizaje profundo de refuerzo incluyen mejoras algorítmicas continuas, salud, asistentes de teléfonos inteligentes e IA conversacional.
Bóveda de Conocimiento construida porDavid Vivancos 2024