Conocimiento Bóveda 6 /25 - ICML 2017
Una Mirada Más Cercana a la Memorización en Redes Profundas
David Krueger · Yoshua Bengio · Stanislaw Jastrzebski · Maxinder S. Kanwal · Nicolas Ballas · Asja Fischer · Emmanuel Bengio · Devansh Arpit · Tegan Maharaj · Aaron Courville · Simon Lacoste-Julien
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d9c9, font-weight:bold, font-size:14px classDef history fill:#d4f9d4, font-weight:bold, font-size:14px classDef techniques fill:#d4d4f9, font-weight:bold, font-size:14px classDef alphago fill:#f9f9d4, font-weight:bold, font-size:14px classDef future fill:#f9d4f9, font-weight:bold, font-size:14px Main["Una Mirada Más Cercana
a la Memorización en
Redes Profundas"] Main --> A["Contexto Histórico"] Main --> B["Técnicas Clave"] Main --> C["Avance de AlphaGo"] Main --> D["Direcciones Futuras"] A --> A1["2007: Programas de Go en
nivel principiante 1"] A --> A2["Monte Carlo, aprendizaje por refuerzo
mostraron potencial 2"] A --> A3["Go: reglas simples, vasto
espacio de búsqueda 3"] A --> A4["Mogo venció a profesional en
9x9 Go 17"] A --> A5["El artículo de 2007 impulsó el interés en MCTS
29"] B --> B1["Monte Carlo: juegos aleatorios
estiman posición 4"] B --> B2["MCTS mejora Monte Carlo
con el tiempo 5"] B --> B3["UCT equilibra exploración y
explotación 6"] B --> B4["RAVE generaliza posiciones para
estimaciones más rápidas 8"] B --> B5["Aprendizaje offline proporciona valor global,
política 9"] B --> B6["Mogo: aprendizaje por refuerzo con
búsqueda MCTS 10"] C --> C1["AlphaGo: CNNs profundas para
estimaciones de política/valor 13"] C --> C2["Las redes de AlphaGo reemplazaron rollouts,
búsqueda enfocada 14"] C --> C3["AlphaGo venció a los mejores
jugadores del mundo 15"] C --> C4["Aprendizaje profundo con MCTS
superó a los humanos 16"] C --> C5["AlphaGo maximiza la probabilidad de ganar
implícitamente 23"] C --> C6["Las CNNs de AlphaGo son difíciles de
interpretar 18"] D --> D1["Adaptación al estilo del oponente:
dirección futura 19"] D --> D2["Aprendizaje sin datos humanos
explota debilidades 24"] D --> D3["StarCraft más difícil: entradas complejas,
horizontes largos 25"] D --> D4["Se espera progreso, requiere grandes
datos de entrenamiento 26"] D --> D5["Transferencia a robótica prometedora pero
desafiante 27"] D --> D6["Menos datos, transferencia de simulación a realidad
importante 28"] class Main main class A,A1,A2,A3,A4,A5 history class B,B1,B2,B3,B4,B5,B6 techniques class C,C1,C2,C3,C4,C5,C6 alphago class D,D1,D2,D3,D4,D5,D6 future

Resumen:

1.- En 2007, los programas de Go en computadora estaban solo en nivel principiante usando técnicas de búsqueda tradicionales como la búsqueda alfa-beta.

2.- Las técnicas de búsqueda de Monte Carlo y aprendizaje por refuerzo no eran comunes en 2007 pero mostraron potencial para el Go en computadora.

3.- Go tiene reglas simples pero un vasto espacio de búsqueda, lo que lo hace desafiante para las técnicas de búsqueda de IA tradicionales.

4.- La búsqueda de Monte Carlo estima el valor de una posición jugando juegos aleatorios y promediando los resultados.

5.- La búsqueda de árboles de Monte Carlo (MCTS) construye un árbol de búsqueda para mejorar la evaluación de Monte Carlo con el tiempo.

6.- UCT (Límites de Confianza Superior para Árboles) equilibra la exploración y la explotación en el árbol de búsqueda MCTS.

7.- MCTS tiene limitaciones: no hay generalización entre posiciones, dependencia de juegos aleatorios para estimaciones de valor.

8.- La estimación rápida del valor de la acción (RAVE) generaliza entre posiciones para proporcionar estimaciones de valor de Monte Carlo más rápidas.

9.- El aprendizaje offline (supervisado o por refuerzo) puede proporcionar estimaciones de la función de valor global y de la política.

10.- Mogo en 2007 combinó el aprendizaje por refuerzo offline de una función de valor lineal con la búsqueda MCTS online.

11.- Usar una política fuerte para los juegos de MCTS sorprendentemente dio peores resultados que una política más débil y diversa.

12.- Crazy Stone y Zen usaron el aprendizaje supervisado offline de una política para sesgar la búsqueda MCTS.

13.- AlphaGo usó redes neuronales convolucionales profundas (CNNs) entrenadas por aprendizaje supervisado y aprendizaje por refuerzo para estimaciones de política/valor.

14.- La red de valor de AlphaGo reemplazó los rollouts, mientras que la red de política enfocó la búsqueda en movimientos prometedores.

15.- AlphaGo venció al campeón europeo, al campeón mundial y al jugador número 1 del mundo en 2015-2017.

16.- Agregar aprendizaje profundo a MCTS llevó a un rápido aumento de rendimiento, superando el nivel humano en Go.

17.- Mogo en 2007 venció a un profesional en 9x9 Go y alcanzó un nivel bajo de dan en 19x19 Go.

18.- Las CNNs de AlphaGo son difíciles de interpretar en comparación con los árboles de búsqueda y las características tradicionales.

19.- Adaptar la búsqueda al estilo del oponente es una dirección futura interesante aún no explorada.

20.- Las políticas de juegos más estratégicas a veces funcionan peor que las simples debido a la necesidad de diversidad para estimaciones precisas.

21.- El cálculo dedicado a estimaciones de valor más inteligentes a menudo proporciona más beneficios que juegos adicionales.

22.- Las políticas de juegos asimétricas para cada jugador necesitan adaptarse al estilo del oponente para ser efectivas.

23.- AlphaGo busca maximizar la probabilidad de ganar, con estrategias como sacrificios a corto plazo emergiendo implícitamente.

24.- Comenzar desde cero sin datos humanos podría permitir aprender estrategias novedosas para explotar debilidades humanas.

25.- Juegos como StarCraft son mucho más difíciles que Go debido a entradas complejas y largos horizontes de tiempo.

26.- Se espera progreso en juegos complejos, pero requiere grandes cantidades de datos de entrenamiento/autojuego.

27.- Transferir técnicas de aprendizaje a la robótica es prometedor pero desafiante debido a las limitaciones en el entrenamiento en el mundo real.

28.- Adaptar el aprendizaje para usar menos datos o transferir de simulación a realidad es una dirección importante.

29.- El artículo de 2007 impulsó el interés en MCTS y otras técnicas de búsqueda/aprendizaje para juegos y más allá.

30.- La combinación de aprendizaje profundo y MCTS ha llevado a un rápido progreso y rendimiento sobrehumano en Go.

Bóveda del Conocimiento construida porDavid Vivancos 2024