graph LR
classDef core fill:#ffe0cc,font-weight:bold,font-size:14px
classDef learn fill:#ccf2ff,font-weight:bold,font-size:14px
classDef plan fill:#e0ccff,font-weight:bold,font-size:14px
classDef chall fill:#ffccff,font-weight:bold,font-size:14px
classDef scale fill:#ffffcc,font-weight:bold,font-size:14px
Main[OAK Core]
Main --> C1["Pilares del conocimiento de opciones 1"]
C1 -.-> G1[Core]
Main --> C2["Inteligencia nace de la interacci贸n en l铆nea 2"]
C2 -.-> G2[Learning]
Main --> C3["Control m谩s fin 3"]
C3 -.-> G1
Main --> C4["Agentes crean subproblemas propios 4"]
C4 -.-> G2
Main --> C5["Subproblema entrena opci贸n 5"]
C5 -.-> G2
Main --> C6["Modelos predicen resultados de opciones 6"]
C6 -.-> G3[Planning]
Main --> C7["Cadenas de opciones planificadas 7"]
C7 -.-> G3
Main --> C8["Todo aprendizaje en l铆nea 8"]
C8 -.-> G2
Main --> C9["Mundo m谩s grande que modelo 9"]
C9 -.-> G1
Main --> C10["No olvidar es cr铆tico 10"]
C10 -.-> G4[Challenges]
Main --> C11["Ciclo virtuoso de abstracci贸n 11"]
C11 -.-> G1
Main --> C12["Percepci贸n construye caracter铆sticas 12"]
C12 -.-> G2
Main --> C13["Utilidad clasifica caracter铆sticas 13"]
C13 -.-> G2
Main --> C14["Subproblemas con respeto a recompensa 14"]
C14 -.-> G2
Main --> C15["Opciones almacenan modelos de valor 15"]
C15 -.-> G3
Main --> C16["Planificaci贸n actualiza mediante imaginaci贸n 16"]
C16 -.-> G3
Main --> C17["Sin hechos espec铆ficos de dominio 17"]
C17 -.-> G1
Main --> C18["Sin conocimiento en tiempo de dise帽o 18"]
C18 -.-> G1
Main --> C19["C谩lculo escala aprendizaje 19"]
C19 -.-> G5[Scaling]
Main --> C20["Aprendizaje meta mientras act煤a 20"]
C20 -.-> G2
Main --> C21["Hip贸tesis de recompensa: escalar es suficiente 21"]
C21 -.-> G1
Main --> C22["Omitir objetivos y restricciones 22"]
C22 -.-> G1
Main --> C23["Manejar mundos no estacionarios 23"]
C23 -.-> G4
Main --> C24["Funciones aproximadas inevitables 24"]
C24 -.-> G4
Main --> C25["Estados construidos en l铆nea 25"]
C25 -.-> G2
Main --> C26["U-box construye estado 26"]
C26 -.-> G2
Main --> C27["Valores auxiliares por caracter铆stica 27"]
C27 -.-> G2
Main --> C28["Algoritmos fuera de pol铆tica GTD aprenden 28"]
C28 -.-> G2
Main --> C29["Modelos de opci贸n planifican extendidos 29"]
C29 -.-> G3
Main --> C30["Mismo plan alto y bajo 30"]
C30 -.-> G3
Main --> C31["Utilidad cura abstracciones 31"]
C31 -.-> G2
Main --> C32["Plasticidad y olvido catastr贸fico obstaculizan 32"]
C32 -.-> G4
Main --> C33["IDBD adapta tasas 33"]
C33 -.-> G4
Main --> C34["Juego genera habilidades por s铆 mismo 34"]
C34 -.-> G2
Main --> C35["Animales inspiran creaci贸n de problemas 35"]
C35 -.-> G2
Main --> C36["Pseudoc贸digo de cinco p谩ginas objetivo 36"]
C36 -.-> G5
Main --> C37["Contraste con modelos de lenguaje grandes 37"]
C37 -.-> G5
Main --> C38["Unifica aprendizaje por refuerzo y planificaci贸n 38"]
C38 -.-> G1
Main --> C39["Teor铆a mecan铆stica objetivo 39"]
C39 -.-> G5
Main --> C40["Escala a nivel humano 40"]
C40 -.-> G5
Main --> C41["Sin etiquetas ni demostraciones 41"]
C41 -.-> G2
Main --> C42["Descubre objetos y relaciones 42"]
C42 -.-> G2
Main --> C43["Recursos computacionales limitan abstracci贸n 43"]
C43 -.-> G5
Main --> C44["Investigaci贸n no terminada 44"]
C44 -.-> G5
Main --> C45["Camino de aprendizaje por refuerzo a la IA 45"]
C45 -.-> G1
Main --> C46["Mentes de reglas simples 46"]
C46 -.-> G1
G1[Core] --> C1
G1 --> C3
G1 --> C9
G1 --> C11
G1 --> C17
G1 --> C18
G1 --> C21
G1 --> C22
G1 --> C38
G1 --> C45
G1 --> C46
G2[Learning] --> C2
G2 --> C4
G2 --> C5
G2 --> C8
G2 --> C12
G2 --> C13
G2 --> C14
G2 --> C20
G2 --> C25
G2 --> C26
G2 --> C27
G2 --> C28
G2 --> C31
G2 --> C34
G2 --> C35
G2 --> C41
G2 --> C42
G3[Planning] --> C6
G3 --> C7
G3 --> C15
G3 --> C16
G3 --> C29
G3 --> C30
G4[Challenges] --> C10
G4 --> C23
G4 --> C24
G4 --> C32
G4 --> C33
G5[Scaling] --> C19
G5 --> C36
G5 --> C37
G5 --> C39
G5 --> C40
G5 --> C43
G5 --> C44
class C1,C3,C9,C11,C17,C18,C21,C22,C38,C45,C46 core
class C2,C4,C5,C8,C12,C13,C14,C20,C25,C26,C27,C28,C31,C34,C35,C41,C42 learn
class C6,C7,C15,C16,C29,C30 plan
class C10,C23,C24,C32,C33 chall
class C19,C36,C37,C39,C40,C43,C44 scale
Resumen:
Rich Sutton present贸 OAK, una arquitectura que intenta generar superinteligencia a partir de experiencia bruta en lugar de datos curados. Est谩 construida en torno a la idea de que un agente debe enfrentar el mundo sin hechos codificados, solo con la capacidad de crear opciones鈥攃omportamientos controlables que se puedan iniciar y detener bajo demanda. Cada opci贸n se empareja con predicciones aprendidas de sus resultados probables, por lo que la planificaci贸n se convierte en un asunto de encadenar estos comportamientos de alto nivel en lugar de acciones primitivas. Debido a que el mundo es mucho m谩s grande que cualquier modelo que el dise帽ador pueda incrustar, todo el aprendizaje, abstracci贸n y revisi贸n de modelos debe ocurrir en l铆nea mientras el agente vive. El dise帽o por lo tanto empuja todo lo que los sistemas tradicionales hacen offline hacia el tiempo de ejecuci贸n, haciendo que el aprendizaje continuo sin olvidar sea el habilitador cr铆tico.
El bucle principal es deliberadamente simple y sin dependencia de dominio. Un m贸dulo perceptual convierte sensaciones en un conjunto creciente de caracter铆sticas de estado. Cada caracter铆stica que resulta 煤til se convierte en el objetivo de un subproblema auto-generado: aprender una opci贸n que confiablemente alcance estados donde esa caracter铆stica est茅 activa sin sacrificar la recompensa a largo plazo. Resolver el subproblema produce tanto una pol铆tica como un modelo predictivo del comportamiento extendido. Estos modelos de opci贸n se apilan en un planificador jer谩rquico que razona sobre transiciones abstractas en el tiempo, permitiendo que el agente mire muchos pasos adelante sin ahogarse en detalles de bajo nivel. Caracter铆sticas, opciones y modelos por lo tanto se apoyan mutuamente: nuevas caracter铆sticas sugieren nuevas opciones, cuyo dominio crea caracter铆sticas a煤n m谩s ricas, produciendo un ciclo abierto de abstracci贸n que Sutton argumenta es necesario para el comportamiento inteligente.
OAK se presenta como un manifiesto de investigaci贸n m谩s que como un producto terminado. De forma expl铆cita deja sin resolver dos problemas dif铆ciles: aprendizaje profundo continuo sin olvido catastr贸fico, y descubrimiento autom谩tico de caracter铆sticas 煤tiles a partir de entradas de alta dimensionalidad. Sutton afirma que una vez que estos componentes se estabilicen, la misma arquitectura compacta podr铆a escalar desde mundos de juguete hasta la sociedad humana porque no contiene suposiciones incorporadas sobre el dominio. Al rechazar codificar conocimiento del dise帽ador, el agente debe descubrir por s铆 mismo objetos, relaciones, objetivos y habilidades, implementando as铆 una ruta puramente experiencial hacia una inteligencia poderosa, y quiz谩s superhumana.
Ideas Clave:
1.- OAK significa Opciones y Conocimiento, los dos pilares de la arquitectura.
2.- La inteligencia surge de la interacci贸n en l铆nea, no de datos de entrenamiento est谩ticos.
3.- Una opci贸n es un comportamiento controlable m谩s una condici贸n de terminaci贸n aprendida.
4.- Los agentes crean sus propios subproblemas seleccionando caracter铆sticas de estado relevantes.
5.- Cada subproblema entrena una opci贸n que confiablemente alcanza su caracter铆stica.
6.- Los modelos de opci贸n predicen resultados a largo plazo de secuencias completas de comportamiento.
7.- La planificaci贸n encadena opciones en lugar de acciones primitivas para lookahead eficiente.
8.- Todo aprendizaje, modelado y abstracci贸n ocurre durante la ejecuci贸n, nunca offline.
9.- Se asume que el mundo es mucho m谩s grande que cualquier modelo que el dise帽ador pueda incrustar.
10.- El aprendizaje profundo continuo sin olvidar es la capacidad cr铆tica faltante.
11.- Caracter铆sticas, opciones y modelos forman un ciclo virtuoso de abstracci贸n sin fin.
12.- La percepci贸n convierte sensaciones brutas en un conjunto creciente de caracter铆sticas de estado.
13.- Las caracter铆sticas se clasifican seg煤n su utilidad para resolver tareas actuales y futuras.
14.- Los subproblemas respetan la recompensa: maximizan la obtenci贸n de caracter铆sticas menos p茅rdida de recompensa.
15.- Las opciones se almacenan con sus funciones de valor y modelos de transici贸n.
16.- La planificaci贸n actualiza estimados de valor mediante barridos sobre trayectorias de opci贸n imaginadas.
17.- La arquitectura es deliberadamente general y no contiene hechos incorporados.
18.- Se rechaza el conocimiento en tiempo de dise帽o para mantener al agente conceptualmente simple.
19.- El aprendizaje en tiempo de ejecuci贸n escala con recursos computacionales disponibles, no con tiempo de experto humano.
20.- El aprendizaje meta mejora el algoritmo de aprendizaje mismo mientras el agente act煤a.
21.- La hip贸tesis de recompensa afirma que la recompensa escalar es suficiente para todos los objetivos.
22.- Se omiten intencionalmente m煤ltiples objetivos, restricciones o medidas de riesgo.
23.- El agente debe manejar mundos no estacionarios que parecen cambiar con el tiempo.
24.- Funciones de valor y pol铆ticas aproximadas son inevitables en mundos grandes.
25.- Las representaciones de estado se construyen en l铆nea a partir de secuencias de acciones y observaciones.
26.- La U-box (ahora m贸dulo de percepci贸n) construye la estimaci贸n de estado a partir de entradas brutas.
27.- Funciones de valor auxiliares corresponden a cada caracter铆stica descubierta.
28.- Algoritmos fuera de pol铆tica como GTD aprenden funciones de valor para cada opci贸n.
29.- Los modelos de opci贸n permiten planificaci贸n con comportamientos extendidos en el tiempo.
30.- El mismo mecanismo de planificaci贸n funciona para opciones de bajo y alto nivel.
31.- La retroalimentaci贸n de utilidad de caracter铆stica cura qu茅 abstracciones mantiene el agente.
32.- El olvido catastr贸fico y la p茅rdida de plasticidad son obst谩culos no resueltos.
33.- IDBD, el algoritmo de Sutton de 1992, podr铆a ayudar a adaptar tasas de aprendizaje continuamente.
34.- El juego se ve como subproblemas auto-generados para adquisici贸n de habilidades.
35.- Animales e infantes inspiran la idea de creaci贸n espont谩nea de problemas.
36.- La arquitectura busca una descripci贸n concisa de cinco p谩ginas de pseudoc贸digo.
37.- Oak contrasta con modelos de lenguaje grandes que dependen de datos offline masivos.
38.- El enfoque unifica aprendizaje por refuerzo, aprendizaje de representaci贸n y planificaci贸n.
39.- El 茅xito producir铆a una teor铆a mecan铆stica de mente, razonamiento y formaci贸n de conceptos.
40.- El dise帽o est谩 destinado a escalar desde mundos de rejilla hasta complejidad humana.
41.- No se requieren etiquetas externas ni demostraciones humanas para el aprendizaje.
42.- El agente debe descubrir objetos, relaciones y objetivos exclusivamente desde la experiencia.
43.- Los recursos computacionales son el 煤nico l铆mite en la profundidad de abstracci贸n alcanzable.
44.- La arquitectura se presenta como una direcci贸n de investigaci贸n, no como un sistema terminado.
45.- Sutton afirma que el aprendizaje por refuerzo ofrece el camino m谩s claro hacia la IA fuerte.
46.- La gran b煤squeda es entender c贸mo las mentes pueden surgir de principios simples y generales.
Entrevistas por Pl谩cido Dom茅nech Esp铆 & Invitados - B贸veda de Conocimiento construida porDavid Vivancos 2025