Conocimiento Bóveda 7 /300 - xHubAI 11/06/2025
📘MIDIENDO LA AGI: Benchmarks de razonamiento interactivo
< Imagen de Resumen >
Enlace a EntrevistaVideo Original xHubAI

Gráfico Conceptual, Resumen & Ideas Clave usando Moonshot Kimi K2:

graph LR classDef arc fill:#d4f1f9, font-weight:bold, font-size:14px classDef intel fill:#f9d4d4, font-weight:bold, font-size:14px classDef test fill:#d4f9d4, font-weight:bold, font-size:14px classDef model fill:#f9f9d4, font-weight:bold, font-size:14px classDef future fill:#e6d4f9, font-weight:bold, font-size:14px classDef comm fill:#f9e6d4, font-weight:bold, font-size:14px Main["Bóveda7-300"] --> G1["Mundos ArcAGI
Sonda AGI 1"] Main --> G2["Camrath: Adquisición
de Habilidades = Inteligencia 2"] Main --> G3["Benchmark: Solo
Prioridades Básicas 3"] Main --> G4["Línea Base Humana
Acciones + Tiempo 4"] Main --> G5["Conjunto Privado
Bloquea Fugas 5"] Main --> G6["Juegos de Vista Previa
120 para 2026 6"] Main --> G7["ArcPrize Busca
Donantes, Devs 7"] Main --> G8["Plácido Burlándose
de Apple 8"] Main --> G9["Discord Hub
Documentos Abiertos 9"] Main --> G10["Secuela en Julio
Insinuada 10"] G2 --> G11["Energía + Datos
Métricas Reales 11"] G2 --> G12["Cognición de Cuervos
Desafía Antropocentrismo 12"] G2 --> G13["Gato Muestra
Transferencia Cruzada 13"] G2 --> G14["Era Atari
Recompensas Defectuosas 14"] G2 --> G15["McCarthy: Resolver
Problemas Desconocidos 15"] G2 --> G16["Chollet 2019
Formaliza Habilidades 16"] G2 --> G17["o3 Vence
ArcAGI-1 17"] G1 --> G18["Tareas Estáticas
Insuficientes 18"] G1 --> G19["Razonamiento Interactivo
Mundos Abiertos 19"] G1 --> G20["Cerrajero Necesita
Sin Manual 20"] G1 --> G21["Prioridades Básicas:
Contar, Geometría 21"] G1 --> G22["Objetividad Unifica
Cuerpos de Píxeles 22"] G1 --> G23["Eficiencia: IA vs
Acciones Humanas 23"] G1 --> G24["San Diego
400 Humanos Validados 24"] G1 --> G25["Unity Abandonado
Framework Python 25"] G2 --> G26["Superhumano ≠ AGI
Superinteligencia 26"] G2 --> G27["Ventana Overton
Aceptación Gradual 27"] Main --> G28["Actualizaciones Diarias
+ Análisis Profundos 28"] G28 --> G29["Multiplataforma
Transmisiones en Vivo 29"] G28 --> G30["Soporte via
Ko-fi, Compartir 30"] class G1,G3,G4,G5,G6,G18,G19,G20,G21,G22,G23,G24,G25 arc class G2,G11,G12,G13,G14,G15,G16,G17,G26,G27 intel class G7,G9,G10,G28,G29,G30 comm class G8 model class G1 future

Resumen:

La transcripción captura una discusión informal pero densa transmitida en vivo por PlácidoDoménech, presentador del programa de IA en español InsideX. Comenzando con saludos y actualizaciones comunitarias, enmarca la sesión como un diálogo relajado más que un debate formal, invitando a los espectadores a compartir pensamientos sobre recientes controversias en torno al artículo de Apple "Los LLM no razonan" y el discurso más amplio sobre benchmarks de inteligencia artificial general. Menes enfatiza que el artículo de Apple y su recepción viral ejemplifican tendencias reduccionistas en los comentarios sobre IA, prometiendo un futuro episodio de CDX para diseccionar el dogmatismo y nihilismo que percibe en el discurso actual.
Central en la transmisión está un recorrido detallado de una keynote de veinte minutos por Greg Camrath, presidente de ArcPrize, describiendo el próximo benchmark ArcAGI-3. Camrath argumenta que la medición de AGI debe apuntar a la generalización a nivel humano más que al dominio de tareas estrechas. Explica la evolución de ArcAGI desde rompecabezas estáticos de una sola jugada a un entorno interactivo basado en juegos donde los agentes deben explorar mundos desconocidos sin conocimiento previo del desarrollador o acceso a internet. El nuevo benchmark, programado para lanzarse completamente en Q1 2026, incluirá 120 minijuegos generados proceduralmente—colectivamente llamados "World's Fair"—diseñados para que ni la IA ni sus creadores tengan exposición previa, asegurando una prueba real de eficiencia en adquisición de habilidades.
La conversación reiteradamente aborda la pregunta filosófica de qué cuenta como inteligencia. Menes y los participantes del chat desafían el estándar antropocéntrico, notando que los humanos pueden fallar en tareas que las máquinas superan y viceversa. Invocan límites gödelianos, paradojas de la conciencia y el problema sorites de la emergencia gradual para advertir contra etiquetas binarias como "razona" o "no razona". El enfoque operacional de Camrath—medir primero, definir después—es elogiado pero criticado por evitar problemas epistémicos más profundos. Referencias a cuervos resolviendo rompecabezas novedosos y al modelo Gato de DeepMind subrayan la tensión entre prioridades innatas y capacidades aprendidas.
Surgen preocupaciones prácticas sobre eficiencia energética, datos previos y equidad en benchmarks. Camrath aboga por mínimas suposiciones de conocimiento básico—contar, geometría, permanencia del objeto y teoría de la mente—excluyendo lenguaje y datos culturales triviales. Invita a contribuciones de código abierto, financiamiento filantrópico y probadores adversarios, revelando el giro de ArcPrize desde Unity a un motor ligero en Python. Menes repite el llamado a la participación comunitaria, promocionando el creciente servidor de Discord e insinuando una secuela en julio de su entrevista más vista, cuyo invitado permanece sin nombre pero se insinúa como una figura pivotal en gobernanza de IA.
Reflexiones finales yuxtaponen narrativas corporativas: el estancamiento percibido de Apple versus el potencial latente de Google, el enfoque en alineación de Anthropic y las alianzas estratégicas de OpenAI. Menes advierte que la sociedad, especialmente en Europa y España, debe prepararse para debates políticos sobre humanos aumentados ya incubándose en círculos de élite. Urge a los espectadores a evitar el fatalismo impulsado por titulares, estudiar fuentes primarias y comprometerse políticamente, no sea que revelaciones incrementales—la rana hirviendo proverbial de la ventana Overton—los conviertan en espectadores pasivos de cambios irreversibles.

30 Ideas Clave:

1.- ArcAGI-3 introduce mundos de juego interactivos para sondear AGI sin conocimiento previo.

2.- Camrath define inteligencia como adquisición eficiente de habilidades en tareas no vistas.

3.- Benchmark elimina lenguaje, cultura, símbolos, probando solo prioridades básicas.

4.- Humanos proveen puntajes base medidos mediante acciones y tiempo de completado.

5.- Conjunto de evaluación privado bloquea acceso a internet, previniendo fugas de datos.

6.- Cinco juegos de vista previa debutan el próximo mes, 120 planeados para 2026.

7.- ArcPrize busca donantes, probadores, desarrolladores Python para motor liviano.

8.- Plácido se burla de la afirmación del artículo de Apple de que los LLM no razonan.

9.- Discord comunitario aloja documentos, cursos, cómics gratis, fomentando diálogo abierto.

10.- Secuela en julio insinuada para entrevista más vista, tema no revelado pero anticipado.

11.- Energía y datos de entrenamiento propuestos como denominadores para métricas reales de inteligencia.

12.- Cognición de cuervos citada para desafiar suposiciones antropocéntricas de inteligencia.

13.- Modelo Gato demuestra aprendizaje por transferencia en diversas tareas y dominios.

14.- Era de benchmarks Atari criticada por inyección de conocimiento del desarrollador y recompensas densas.

15.- Definición de McCarthy enfatiza resolver problemas nunca vistos durante entrenamiento.

16.- Artículo de Francois Chollet 2019 formaliza adquisición de habilidades como medida de inteligencia.

17.- Rompecabezas ArcAGI-1 superados por modelo o3, impulsando lanzamiento de ArcAGI-2 más difícil.

18.- Tareas estáticas de un solo turno consideradas insuficientes para evaluación de inteligencia similar a humana.

19.- Razonamiento interactivo requiere agentes exploren mundos abiertos e infieran objetivos.

20.- Juego de cerrajero ejemplifica necesidad de descubrimiento sin manuales de instrucción.

21.- Prioridades básicas incluyen contar hasta diez, geometría básica, objetividad, agencia.

22.- Objetividad agrupa píxeles contiguos en cuerpos unificados para modelado de mundo.

23.- Métrica de eficiencia compara conteos de acciones de IA contra distribuciones de línea base humana.

24.- Pruebas en persona en San Diego con 400 humanos validaron solucionabilidad de cada tarea ArcAGI.

25.- Motor Unity abandonado por framework personalizado en Python para mundos en grilla 64x64.

26.- Tareas superhumanas excediendo capacidad humana etiquetadas superinteligencia, no AGI.

27.- Analogía de ventana Overton advierte aceptación gradual de políticas de humanos aumentados.

28.- Plácido aboga por combinar actualizaciones diarias rápidas con especiales ocasionales en profundidad.

29.- Transmisión en vivo simultánea en YouTube, Twitch, LinkedIn, Rumble, Kik.

30.- Audiencia urgida a apoyar via Ko-fi, PayPal o compartiendo contenido para sostener producción.

Entrevistas por Plácido Doménech Espí & Invitados - Bóveda de Conocimiento construida porDavid Vivancos 2025