Conocimiento Bóveda 7 /334 - xHubAI 14/07/2025
🚀El futuro de la IA: Robots, Videojuegos y Agentes.AI
< Imagen de Resumen >
Enlace a EntrevistaVideo original xHubAI

Gráfico Conceptual, Resumen & Ideas Clave usando Moonshot Kimi K2:

graph LR classDef keen fill:#ffd6a5, font-weight:bold, font-size:14px classDef agi fill:#fdffb6, font-weight:bold, font-size:14px classDef rl fill:#caffbf, font-weight:bold, font-size:14px classDef robot fill:#9bf6ff, font-weight:bold, font-size:14px classDef bench fill:#a0c4ff, font-weight:bold, font-size:14px classDef infra fill:#bdb2ff, font-weight:bold, font-size:14px classDef future fill:#ffc6ff, font-weight:bold, font-size:14px Main["Bóveda7-334"] Main --> K1["AGI Keen más allá de LLMs
mediante juegos y robótica 1"]:::keen K1 --> K2["Seis investigadores asesorados por
Sutton y el Plan Alberta 2"]:::keen Main --> A1["Los Transformers pierden dinámicas
centrales del aprendizaje animal 3"]:::agi A1 --> A2["El benchmark Atari 100K
fuerza aprendizaje en 2 horas 4"]:::agi Main --> R1["Multitarea secuencial evita
olvido catastrófico 5"]:::rl R1 --> R2["Latencia real de 150-200 ms
rompe RL de laboratorio 6"]:::rl R2 --> R3["Colas de latencia necesarias
en simuladores 15"]:::rl R1 --> R4["Aprendizaje continuo daña pesos
buffers no son suficientes 12"]:::rl R4 --> R5["RL offline arriesga
generalización fantasiosa 13"]:::rl R1 --> R6["Transferencia falla
tras entrenamiento extenso 14"]:::rl Main --> B1["Ciclo de ocho juegos Atari
sin etiquetas de tarea 8"]:::bench B1 --> B2["Acciones pegajosas y sets
completos para pruebas 9"]:::bench B1 --> B3["Recompensas escasas en Pitfall
necesitan curiosidad, no puntuaciones 10"]:::bench B3 --> B4["Reemplazar epsilon-greedy
con mejor exploración 11"]:::bench Main --> P1["Demo RoboTroller muestra
problemas de recompensa y durabilidad 7"]:::robot P1 --> P2["Latencia de joystick necesita
historial de acciones pasadas 16"]:::robot P1 --> P3["Puntuación por cámara
sufre deriva de iluminación 17"]:::robot P3 --> P4["Caja de desarrollo con
fiduciales antes de hardware 18"]:::robot Main --> T1["Gráficos CUDA y nube
reemplazan kernels ajustados manualmente 19"]:::infra T1 --> T2["Keen libera código abierto
RoboTroller y framework 25"]:::infra Main --> C1["Atari como fuente de desafíos
pre-ML sin sesgo 20"]:::bench C1 --> C2["Humanos enfocan campo de juego
no puntuación 21"]:::bench C1 --> C3["Salto de cuadro cuatro
causa movimiento zumbante 23"]:::bench C1 --> C4["Recurrencia no muestra
beneficio en Atari 24"]:::bench Main --> F1["Anfitrión contrasta RL centrado en recompensa
con emergencia de LLMs 26"]:::future F1 --> F2["Episodio 2 de Inversión Racional
300k vistas en agosto 27"]:::future F1 --> F3["Meetup en Alicante, crecimiento
en Discord, invitados destacados 28"]:::future F1 --> F4["App Apple TV y
monetización explorada 29"]:::future F1 --> F5["Feedback en Discord para
streams nocturnos, análisis de papers 30"]:::future

Resumen:

El anfitrión comienza con agradecimientos y saludos casuales, luego explica que la grabación de la segunda parte del programa Inversión Racional tuvo lugar en Madrid el viernes y se emitirá en agosto. Señala su agenda cargada, el evento del miércoles próximo y el placer que obtiene al producir contenido a pesar de la programación irregular. La temporada de verano se presenta como X-Hab ahí, la quinta, prometiendo continuidad durante julio, agosto y septiembre.
Transiciona al episodio InsideX del día, presentando a John Carmack, legendario desarrollador de Doom y Quake, ahora liderando Keen Technologies hacia la inteligencia artificial general. Después de una breve configuración técnica, el anfitrión reproduce la charla de cincuenta minutos de Carmack titulada "El futuro de la IA, Robots, Videojuegos y Agentes.AI".
Carmack relata su trayectoria desde pionero en shooters en primera persona y adopción de GPU hasta la optimización de latencia en VR en Oculus. Halagado por un temprano intento de reclutamiento de los fundadores de OpenAI, se dedicó por completo a la investigación en AGI, formando eventualmente Keen Technologies con seis investigadores y el asesor Richard Sutton. Posiciona los modelos de lenguaje grandes como poderosos pero insuficientes para la verdadera inteligencia, argumentando que las arquitecturas transformer pierden dinámicas fundamentales de aprendizaje presentes incluso en gatos y perros.
La charla profundiza en el aprendizaje por refuerzo dentro del benchmark Atari 100K, abogando por experimentación con pocos datos y alta velocidad. Carmack explica por qué el régimen clásico de 200 millones de cuadros es engañoso, cómo el aprendizaje multitarea secuencial olvida catastróficamente, y por qué la latencia del mundo real destruye puntuaciones perfectas de laboratorio. Una demostración física muestra un brazo robótico aprendiendo a jugar hardware Atari real mediante cámara y joystick, exponiendo desafíos de latencia, detección de recompensas y durabilidad que la comunidad rara vez confronta.
Propone un nuevo benchmark secuencial que recorre ocho juegos tres veces con reglas estrictas: sin IDs de tarea, acciones pegajosas, sets de acciones completos, sin evaluación separada, y límites explícitos de episodio. El objetivo es forzar a los agentes a acumular y transferir conocimiento como humanos, abordando escasez de recompensas, exploración y daño por aprendizaje continuo. Carmack planea liberar código abierto tanto de simulación como de robot físico, esperando cambiar la cultura de investigación hacia problemas más difíciles y realistas.
El anfitrión regresa para reflexionar que la apuesta de Carmack en aprendizaje por refuerzo basado solo en recompensas y juegos es audaz pero deja preguntas abiertas sobre cómo conectarlo con inteligencia más amplia. Contrasta este camino con LLMs, señala la alineación de Sutton con el Plan Alberta, y adelanta próximos invitados incluyendo a Emilio Soria Olivas y Héctor Moreno. Invita a feedback en Discord, insinúa un posible stream nocturno, y se despide recordando a los espectadores suscribirse y apoyar la comunidad.

30 Ideas Clave:

1.- La nueva empresa de Carmack, Keen, persigue AGI más allá de LLMs mediante juegos y robótica.

2.- Keen emplea seis investigadores asesorados por Sutton, creador del Plan Alberta.

3.- Carmack cree que los transformers pierden dinámicas centrales de aprendizaje presentes en animales.

4.- El benchmark Atari 100K fuerza a los agentes a aprender juegos en solo dos horas de juego.

5.- El aprendizaje multitarea secuencial debe prevenir olvido catastrófico entre juegos.

6.- La latencia del mundo real de 150-200 ms rompe muchos algoritmos RL perfectos en laboratorio.

7.- La demostración física de joystick robótico expone problemas de detección de recompensas y durabilidad.

8.- Nuevo benchmark recorre ocho títulos Atari tres veces sin etiquetas de tarea.

9.- Acciones pegajosas y sets de acciones completos aseguran pruebas robustas y reproducibles.

10.- Recompensas escasas como Pitfall demandan curiosidad intrínseca más que puntuaciones.

11.- Las estrategias de exploración deben reemplazar acciones aleatorias epsilon-greedy.

12.- El aprendizaje continuo daña pesos; buffers de replay pueden no resolver esto completamente.

13.- RL offline arriesga generalización fantasiosa sin feedback del entorno en vivo.

14.- El fallo en transferencia persiste incluso tras extenso entrenamiento previo en juegos.

15.- Deben añadirse colas de latencia a simuladores para igualar retrasos del mundo real.

16.- El agente necesita historial de acciones pasadas para manejar comandos fantasma de joystick.

17.- La detección de puntuación por cámara sufre de deriva por iluminación y mantel.

18.- Caja de desarrollo con fiduciales facilita lectura de recompensas antes de pruebas de hardware.

19.- Gráficos CUDA y entrenamiento en nube reemplazaron kernels CUDA ajustados manualmente.

20.- Los juegos Atari proporcionan desafíos sin sesgo porque preceden a la investigación en ML.

21.- Los humanos se enfocan en el campo de juego, no en la puntuación, guiando diseño de recompensas intrínsecas.

22.- El espacio de un millón de acciones de controles modernos eclipsa las 18 acciones discretas de Atari.

23.- El régimen de salto de cuadro cuatro causa movimiento zumbante a diferencia de objetivos humanos.

24.- La recurrencia no muestra beneficio en Atari; se necesitan tareas más ricas para RNNs.

25.- Keen libera código abierto del RoboTroller impreso en 3D y framework RL post-conferencia.

26.- El anfitrión contrasta el RL centrado en recompensas de Carmack con capacidades emergentes de LLMs.

27.- El próximo episodio dos de Inversión Racional promete 300k vistas en agosto.

28.- Eventos de verano incluyen meetup en Alicante, crecimiento en Discord e invitados de primer nivel.

29.- Se exploran independencia de plataforma y app Apple TV para futura monetización.

30.- Se solicita feedback de la comunidad en Discord para streams nocturnos y análisis profundos de papers.

Entrevistas por Plácido Doménech Espí & Invitados - Bóveda de Conocimiento construida porDavid Vivancos 2025