Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- En 2007, los programas de Go en computadora estaban solo en nivel principiante usando técnicas de búsqueda tradicionales como la búsqueda alfa-beta.
2.- Las técnicas de búsqueda de Monte Carlo y aprendizaje por refuerzo no eran comunes en 2007 pero mostraron potencial para el Go en computadora.
3.- Go tiene reglas simples pero un vasto espacio de búsqueda, lo que lo hace desafiante para las técnicas de búsqueda de IA tradicionales.
4.- La búsqueda de Monte Carlo estima el valor de una posición jugando juegos aleatorios y promediando los resultados.
5.- La búsqueda de árboles de Monte Carlo (MCTS) construye un árbol de búsqueda para mejorar la evaluación de Monte Carlo con el tiempo.
6.- UCT (Límites de Confianza Superior para Árboles) equilibra la exploración y la explotación en el árbol de búsqueda MCTS.
7.- MCTS tiene limitaciones: no hay generalización entre posiciones, dependencia de juegos aleatorios para estimaciones de valor.
8.- La estimación rápida del valor de la acción (RAVE) generaliza entre posiciones para proporcionar estimaciones de valor de Monte Carlo más rápidas.
9.- El aprendizaje offline (supervisado o por refuerzo) puede proporcionar estimaciones de la función de valor global y de la política.
10.- Mogo en 2007 combinó el aprendizaje por refuerzo offline de una función de valor lineal con la búsqueda MCTS online.
11.- Usar una política fuerte para los juegos de MCTS sorprendentemente dio peores resultados que una política más débil y diversa.
12.- Crazy Stone y Zen usaron el aprendizaje supervisado offline de una política para sesgar la búsqueda MCTS.
13.- AlphaGo usó redes neuronales convolucionales profundas (CNNs) entrenadas por aprendizaje supervisado y aprendizaje por refuerzo para estimaciones de política/valor.
14.- La red de valor de AlphaGo reemplazó los rollouts, mientras que la red de política enfocó la búsqueda en movimientos prometedores.
15.- AlphaGo venció al campeón europeo, al campeón mundial y al jugador número 1 del mundo en 2015-2017.
16.- Agregar aprendizaje profundo a MCTS llevó a un rápido aumento de rendimiento, superando el nivel humano en Go.
17.- Mogo en 2007 venció a un profesional en 9x9 Go y alcanzó un nivel bajo de dan en 19x19 Go.
18.- Las CNNs de AlphaGo son difíciles de interpretar en comparación con los árboles de búsqueda y las características tradicionales.
19.- Adaptar la búsqueda al estilo del oponente es una dirección futura interesante aún no explorada.
20.- Las políticas de juegos más estratégicas a veces funcionan peor que las simples debido a la necesidad de diversidad para estimaciones precisas.
21.- El cálculo dedicado a estimaciones de valor más inteligentes a menudo proporciona más beneficios que juegos adicionales.
22.- Las políticas de juegos asimétricas para cada jugador necesitan adaptarse al estilo del oponente para ser efectivas.
23.- AlphaGo busca maximizar la probabilidad de ganar, con estrategias como sacrificios a corto plazo emergiendo implícitamente.
24.- Comenzar desde cero sin datos humanos podría permitir aprender estrategias novedosas para explotar debilidades humanas.
25.- Juegos como StarCraft son mucho más difíciles que Go debido a entradas complejas y largos horizontes de tiempo.
26.- Se espera progreso en juegos complejos, pero requiere grandes cantidades de datos de entrenamiento/autojuego.
27.- Transferir técnicas de aprendizaje a la robótica es prometedor pero desafiante debido a las limitaciones en el entrenamiento en el mundo real.
28.- Adaptar el aprendizaje para usar menos datos o transferir de simulación a realidad es una dirección importante.
29.- El artículo de 2007 impulsó el interés en MCTS y otras técnicas de búsqueda/aprendizaje para juegos y más allá.
30.- La combinación de aprendizaje profundo y MCTS ha llevado a un rápido progreso y rendimiento sobrehumano en Go.
Bóveda del Conocimiento construida porDavid Vivancos 2024