El Fin del Conocimiento - Bóveda 7/371 - xHubAI - 27/08/2025

graph LR classDef core fill:#ffe0cc,font-weight:bold,font-size:14px classDef learn fill:#ccf2ff,font-weight:bold,font-size:14px classDef plan fill:#e0ccff,font-weight:bold,font-size:14px classDef chall fill:#ffccff,font-weight:bold,font-size:14px classDef scale fill:#ffffcc,font-weight:bold,font-size:14px Main[OAK Core] Main --> C1["Pilares del conocimiento de opciones 1"] C1 -.-> G1[Core] Main --> C2["Inteligencia nace de la interacción en línea 2"] C2 -.-> G2[Learning] Main --> C3["Control más fin 3"] C3 -.-> G1 Main --> C4["Agentes crean subproblemas propios 4"] C4 -.-> G2 Main --> C5["Subproblema entrena opción 5"] C5 -.-> G2 Main --> C6["Modelos predicen resultados de opciones 6"] C6 -.-> G3[Planning] Main --> C7["Cadenas de opciones planificadas 7"] C7 -.-> G3 Main --> C8["Todo aprendizaje en línea 8"] C8 -.-> G2 Main --> C9["Mundo más grande que modelo 9"] C9 -.-> G1 Main --> C10["No olvidar es crítico 10"] C10 -.-> G4[Challenges] Main --> C11["Ciclo virtuoso de abstracción 11"] C11 -.-> G1 Main --> C12["Percepción construye características 12"] C12 -.-> G2 Main --> C13["Utilidad clasifica características 13"] C13 -.-> G2 Main --> C14["Subproblemas con respeto a recompensa 14"] C14 -.-> G2 Main --> C15["Opciones almacenan modelos de valor 15"] C15 -.-> G3 Main --> C16["Planificación actualiza mediante imaginación 16"] C16 -.-> G3 Main --> C17["Sin hechos específicos de dominio 17"] C17 -.-> G1 Main --> C18["Sin conocimiento en tiempo de diseño 18"] C18 -.-> G1 Main --> C19["Cálculo escala aprendizaje 19"] C19 -.-> G5[Scaling] Main --> C20["Aprendizaje meta mientras actúa 20"] C20 -.-> G2 Main --> C21["Hipótesis de recompensa: escalar es suficiente 21"] C21 -.-> G1 Main --> C22["Omitir objetivos y restricciones 22"] C22 -.-> G1 Main --> C23["Manejar mundos no estacionarios 23"] C23 -.-> G4 Main --> C24["Funciones aproximadas inevitables 24"] C24 -.-> G4 Main --> C25["Estados construidos en línea 25"] C25 -.-> G2 Main --> C26["U-box construye estado 26"] C26 -.-> G2 Main --> C27["Valores auxiliares por característica 27"] C27 -.-> G2 Main --> C28["Algoritmos fuera de política GTD aprenden 28"] C28 -.-> G2 Main --> C29["Modelos de opción planifican extendidos 29"] C29 -.-> G3 Main --> C30["Mismo plan alto y bajo 30"] C30 -.-> G3 Main --> C31["Utilidad cura abstracciones 31"] C31 -.-> G2 Main --> C32["Plasticidad y olvido catastrófico obstaculizan 32"] C32 -.-> G4 Main --> C33["IDBD adapta tasas 33"] C33 -.-> G4 Main --> C34["Juego genera habilidades por sí mismo 34"] C34 -.-> G2 Main --> C35["Animales inspiran creación de problemas 35"] C35 -.-> G2 Main --> C36["Pseudocódigo de cinco páginas objetivo 36"] C36 -.-> G5 Main --> C37["Contraste con modelos de lenguaje grandes 37"] C37 -.-> G5 Main --> C38["Unifica aprendizaje por refuerzo y planificación 38"] C38 -.-> G1 Main --> C39["Teoría mecanística objetivo 39"] C39 -.-> G5 Main --> C40["Escala a nivel humano 40"] C40 -.-> G5 Main --> C41["Sin etiquetas ni demostraciones 41"] C41 -.-> G2 Main --> C42["Descubre objetos y relaciones 42"] C42 -.-> G2 Main --> C43["Recursos computacionales limitan abstracción 43"] C43 -.-> G5 Main --> C44["Investigación no terminada 44"] C44 -.-> G5 Main --> C45["Camino de aprendizaje por refuerzo a la IA 45"] C45 -.-> G1 Main --> C46["Mentes de reglas simples 46"] C46 -.-> G1 G1[Core] --> C1 G1 --> C3 G1 --> C9 G1 --> C11 G1 --> C17 G1 --> C18 G1 --> C21 G1 --> C22 G1 --> C38 G1 --> C45 G1 --> C46 G2[Learning] --> C2 G2 --> C4 G2 --> C5 G2 --> C8 G2 --> C12 G2 --> C13 G2 --> C14 G2 --> C20 G2 --> C25 G2 --> C26 G2 --> C27 G2 --> C28 G2 --> C31 G2 --> C34 G2 --> C35 G2 --> C41 G2 --> C42 G3[Planning] --> C6 G3 --> C7 G3 --> C15 G3 --> C16 G3 --> C29 G3 --> C30 G4[Challenges] --> C10 G4 --> C23 G4 --> C24 G4 --> C32 G4 --> C33 G5[Scaling] --> C19 G5 --> C36 G5 --> C37 G5 --> C39 G5 --> C40 G5 --> C43 G5 --> C44 class C1,C3,C9,C11,C17,C18,C21,C22,C38,C45,C46 core class C2,C4,C5,C8,C12,C13,C14,C20,C25,C26,C27,C28,C31,C34,C35,C41,C42 learn class C6,C7,C15,C16,C29,C30 plan class C10,C23,C24,C32,C33 chall class C19,C36,C37,C39,C40,C43,C44 scale

Resumen:

Rich Sutton presentó OAK, una arquitectura que intenta generar superinteligencia a partir de experiencia bruta en lugar de datos curados. Está construida en torno a la idea de que un agente debe enfrentar el mundo sin hechos codificados, solo con la capacidad de crear opciones—comportamientos controlables que se puedan iniciar y detener bajo demanda. Cada opción se empareja con predicciones aprendidas de sus resultados probables, por lo que la planificación se convierte en un asunto de encadenar estos comportamientos de alto nivel en lugar de acciones primitivas. Debido a que el mundo es mucho más grande que cualquier modelo que el diseñador pueda incrustar, todo el aprendizaje, abstracción y revisión de modelos debe ocurrir en línea mientras el agente vive. El diseño por lo tanto empuja todo lo que los sistemas tradicionales hacen offline hacia el tiempo de ejecución, haciendo que el aprendizaje continuo sin olvidar sea el habilitador crítico.
El bucle principal es deliberadamente simple y sin dependencia de dominio. Un módulo perceptual convierte sensaciones en un conjunto creciente de características de estado. Cada característica que resulta útil se convierte en el objetivo de un subproblema auto-generado: aprender una opción que confiablemente alcance estados donde esa característica esté activa sin sacrificar la recompensa a largo plazo. Resolver el subproblema produce tanto una política como un modelo predictivo del comportamiento extendido. Estos modelos de opción se apilan en un planificador jerárquico que razona sobre transiciones abstractas en el tiempo, permitiendo que el agente mire muchos pasos adelante sin ahogarse en detalles de bajo nivel. Características, opciones y modelos por lo tanto se apoyan mutuamente: nuevas características sugieren nuevas opciones, cuyo dominio crea características aún más ricas, produciendo un ciclo abierto de abstracción que Sutton argumenta es necesario para el comportamiento inteligente.
OAK se presenta como un manifiesto de investigación más que como un producto terminado. De forma explícita deja sin resolver dos problemas difíciles: aprendizaje profundo continuo sin olvido catastrófico, y descubrimiento automático de características útiles a partir de entradas de alta dimensionalidad. Sutton afirma que una vez que estos componentes se estabilicen, la misma arquitectura compacta podría escalar desde mundos de juguete hasta la sociedad humana porque no contiene suposiciones incorporadas sobre el dominio. Al rechazar codificar conocimiento del diseñador, el agente debe descubrir por sí mismo objetos, relaciones, objetivos y habilidades, implementando así una ruta puramente experiencial hacia una inteligencia poderosa, y quizás superhumana.

Ideas Clave:

1.- OAK significa Opciones y Conocimiento, los dos pilares de la arquitectura.

2.- La inteligencia surge de la interacción en línea, no de datos de entrenamiento estáticos.

3.- Una opción es un comportamiento controlable más una condición de terminación aprendida.

4.- Los agentes crean sus propios subproblemas seleccionando características de estado relevantes.

5.- Cada subproblema entrena una opción que confiablemente alcanza su característica.

6.- Los modelos de opción predicen resultados a largo plazo de secuencias completas de comportamiento.

7.- La planificación encadena opciones en lugar de acciones primitivas para lookahead eficiente.

8.- Todo aprendizaje, modelado y abstracción ocurre durante la ejecución, nunca offline.

9.- Se asume que el mundo es mucho más grande que cualquier modelo que el diseñador pueda incrustar.

10.- El aprendizaje profundo continuo sin olvidar es la capacidad crítica faltante.

11.- Características, opciones y modelos forman un ciclo virtuoso de abstracción sin fin.

12.- La percepción convierte sensaciones brutas en un conjunto creciente de características de estado.

13.- Las características se clasifican según su utilidad para resolver tareas actuales y futuras.

14.- Los subproblemas respetan la recompensa: maximizan la obtención de características menos pérdida de recompensa.

15.- Las opciones se almacenan con sus funciones de valor y modelos de transición.

16.- La planificación actualiza estimados de valor mediante barridos sobre trayectorias de opción imaginadas.

17.- La arquitectura es deliberadamente general y no contiene hechos incorporados.

18.- Se rechaza el conocimiento en tiempo de diseño para mantener al agente conceptualmente simple.

19.- El aprendizaje en tiempo de ejecución escala con recursos computacionales disponibles, no con tiempo de experto humano.

20.- El aprendizaje meta mejora el algoritmo de aprendizaje mismo mientras el agente actúa.

21.- La hipótesis de recompensa afirma que la recompensa escalar es suficiente para todos los objetivos.

22.- Se omiten intencionalmente múltiples objetivos, restricciones o medidas de riesgo.

23.- El agente debe manejar mundos no estacionarios que parecen cambiar con el tiempo.

24.- Funciones de valor y políticas aproximadas son inevitables en mundos grandes.

25.- Las representaciones de estado se construyen en línea a partir de secuencias de acciones y observaciones.

26.- La U-box (ahora módulo de percepción) construye la estimación de estado a partir de entradas brutas.

27.- Funciones de valor auxiliares corresponden a cada característica descubierta.

28.- Algoritmos fuera de política como GTD aprenden funciones de valor para cada opción.

29.- Los modelos de opción permiten planificación con comportamientos extendidos en el tiempo.

30.- El mismo mecanismo de planificación funciona para opciones de bajo y alto nivel.

31.- La retroalimentación de utilidad de característica cura qué abstracciones mantiene el agente.

32.- El olvido catastrófico y la pérdida de plasticidad son obstáculos no resueltos.

33.- IDBD, el algoritmo de Sutton de 1992, podría ayudar a adaptar tasas de aprendizaje continuamente.

34.- El juego se ve como subproblemas auto-generados para adquisición de habilidades.

35.- Animales e infantes inspiran la idea de creación espontánea de problemas.

36.- La arquitectura busca una descripción concisa de cinco páginas de pseudocódigo.

37.- Oak contrasta con modelos de lenguaje grandes que dependen de datos offline masivos.

38.- El enfoque unifica aprendizaje por refuerzo, aprendizaje de representación y planificación.

39.- El éxito produciría una teoría mecanística de mente, razonamiento y formación de conceptos.

40.- El diseño está destinado a escalar desde mundos de rejilla hasta complejidad humana.

41.- No se requieren etiquetas externas ni demostraciones humanas para el aprendizaje.

42.- El agente debe descubrir objetos, relaciones y objetivos exclusivamente desde la experiencia.

43.- Los recursos computacionales son el único límite en la profundidad de abstracción alcanzable.

44.- La arquitectura se presenta como una dirección de investigación, no como un sistema terminado.

45.- Sutton afirma que el aprendizaje por refuerzo ofrece el camino más claro hacia la IA fuerte.

46.- La gran búsqueda es entender cómo las mentes pueden surgir de principios simples y generales.

Entrevistas por Plácido Doménech Espí & Invitados - Bóveda de Conocimiento construida porDavid Vivancos 2025