El Fin del Conocimiento - Vault 7/358 - xHubAI - 08/08/2025 - Modelos GPT-OSS Abiertos de OpenAI Lo bueno y lo malo

graph LR classDef release fill:#d4f9d4, font-weight:bold, font-size:14px; classDef perf fill:#f9d4d4, font-weight:bold, font-size:14px; classDef safety fill:#d4d4f9, font-weight:bold, font-size:14px; classDef policy fill:#f9f9d4, font-weight:bold, font-size:14px; classDef infra fill:#f9d4f9, font-weight:bold, font-size:14px; classDef future fill:#d4f9f9, font-weight:bold, font-size:14px; Main[GPT-OSS Lanzamiento] Main --> P1[Pesos Apache datos abiertos ocultos 1] P1 -.-> G1[Lanzamiento] Main --> P2[Contexto 128 k retrasa QWEN 2] P2 -.-> G2[Rendimiento] Main --> P3[Solo texto carece de visión 3] P3 -.-> G2 Main --> P4[120 B iguala a O4-Mini matemáticas 4] P4 -.-> G2 Main --> P5[Deslizador ajusta velocidad precisión 5] P5 -.-> G2 Main --> P6[Groq 500 t/s 120 B 6] P6 -.-> G3[Infraestructura] Main --> P7[MoE 5.1 % activo 7] P7 -.-> G2 Main --> P8[RoPE GQA velocidad 8] P8 -.-> G2 Main --> P9[SFT RL desde grandes 9] P9 -.-> G2 Main --> P10[Bloqueo de seguridad bio química nuclear 10] P10 -.-> G4[Seguridad] Main --> P11[Escapar por ajuste fino 11] P11 -.-> G4 Main --> P12[Prueba roja ganancia limitada 12] P12 -.-> G4 Main --> P13[Apache protege China 13] P13 -.-> G5[Política] Main --> P14[Contar China OSS auge 14] P14 -.-> G5 Main --> P15[QWEN 4 B supera 20 B 15] P15 -.-> G2 Main --> P16[Datos sintéticos evitan demandas 16] P16 -.-> G1 Main --> P17[Tokenizador GPT-4O reutilizado 17] P17 -.-> G1 Main --> P18[Ollama LM-Studio VLLM etc 18] P18 -.-> G3 Main --> P19[Azure Bedrock alojamiento 19] P19 -.-> G3 Main --> P20[Playground bajo mediano alto 20] P20 -.-> G3 Main --> P21[Tau-Bench cerca O4-Mini 21] P21 -.-> G2 Main --> P22[Health-Bench 120 B supera O3 22] P22 -.-> G2 Main --> P23[Examen Humanidad 4-Turbo 23] P23 -.-> G2 Main --> P24[20 B supera 120 B ciencia 24] P24 -.-> G2 Main --> P25[OCR falla sin visión 25] P25 -.-> G2 Main --> P26[Truncamiento afecta resúmenes largos 26] P26 -.-> G2 Main --> P27[Prueba roja global desafío 27] P27 -.-> G4 Main --> P28[Marco Preparación actualizado 28] P28 -.-> G5 Main --> P29[HF Rust Python TS 29] P29 -.-> G3 Main --> P30[ONNX GPU local 30] P30 -.-> G3 Main --> P31[Gemma-3N 4 B visión 31] P31 -.-> G6[Futuro] Main --> P32[LinkedIn AI populistas mienten 32] P32 -.-> G5 Main --> P33[Acta UE ralentiza adopción 33] P33 -.-> G5 Main --> P34[Tres niveles educación empuje 34] P34 -.-> G5 Main --> P35[Discord 500 curso septiembre 35] P35 -.-> G3 Main --> P36[GPT-5 mini regular nano 36] P36 -.-> G6 Main --> P37[5 salto pequeño 6 grande 37] P37 -.-> G6 Main --> P38[Anthropic Google ganan silenciosamente 38] P38 -.-> G6 Main --> P39[Microsoft Azure exclusivo 39] P39 -.-> G3 Main --> P40[EE.UU. responde China OSS 40] P40 -.-> G5 Main --> P41[Altman cambia postura abierta 41] P41 -.-> G5 Main --> P42[Ilya advierte pesos libres 42] P42 -.-> G4 Main --> P43[Agentes código seguridad canal 43] P43 -.-> G6 Main --> P44[Kit Agente PDF libre 44] P44 -.-> G6 Main --> P45[SLMs borde multi-agente 45] P45 -.-> G6 Main --> P46[Destilar 4 B rivales 20 B 46] P46 -.-> G6 Main --> P47[Local corta riesgo privacidad 47] P47 -.-> G6 Main --> P48[Marcas benchmark ignoran hype 48] P48 -.-> G6 Main --> P49[50 a 300 k vistas 49] P49 -.-> G3 Main --> P50[Primeros pesos desde GPT-2 50] P50 -.-> G1 G1[Lanzamiento] --> P1 G1 --> P16 G1 --> P17 G1 --> P50 G2[Rendimiento] --> P2 G2 --> P3 G2 --> P4 G2 --> P5 G2 --> P7 G2 --> P8 G2 --> P9 G2 --> P15 G2 --> P21 G2 --> P22 G2 --> P23 G2 --> P24 G2 --> P25 G2 --> P26 G3[Infraestructura] --> P6 G3 --> P18 G3 --> P19 G3 --> P20 G3 --> P29 G3 --> P30 G3 --> P35 G3 --> P39 G3 --> P49 G4[Seguridad] --> P10 G4 --> P11 G4 --> P12 G4 --> P27 G4 --> P42 G5[Política] --> P13 G5 --> P14 G5 --> P28 G5 --> P32 G5 --> P33 G5 --> P34 G5 --> P40 G5 --> P41 G6[Futuro] --> P31 G6 --> P36 G6 --> P37 G6 --> P38 G6 --> P43 G6 --> P44 G6 --> P45 G6 --> P46 G6 --> P47 G6 --> P48 class P1,P16,P17,P50 release class P2,P3,P4,P5,P7,P8,P9,P15,P21,P22,P23,P24,P25,P26 perf class P10,P11,P12,P27,P42 safety class P13,P14,P28,P32,P33,P34,P40,P41 policy class P6,P18,P19,P20,P29,P30,P35,P39,P49 infra class P31,P36,P37,P38,P43,P44,P45,P46,P47,P48 future

Resumen:

El orador agradece al público por el éxito de "Rational Investment Round 2", subrayando que el 99.9 % de los participantes aún están involucrados. Anuncia una doble sesión: primero, un análisis de los nuevos modelos "GPT-OSS" de OpenAI con pesos abiertos (20 B y 120 B de parámetros), seguido de una visualización en vivo del lanzamiento de GPT-5. Advierte que la hiperbola está ahogando el pensamiento crítico; la charla sobre IA en LinkedIn está dominada por populistas que repiten eslóganes de marketing sin entender pipelines de datos, benchmarks de evaluación o riesgos legales. El Acta de IA de Europa ya está siendo mal explicada por expertos autoproclamados, y el orador teme que la mediocridad se convierta en la norma aceptada. El regreso de OpenAI a "abierto" es, por tanto, menos un gesto filantrópico que una respuesta estratégica a laboratorios chinos como DeepSeek, Kimi y QWEN que han lanzado modelos completamente abiertos bajo licencias permisivas. La charla comparará pesos, licencias, longitud de contexto, modos de razonamiento, alineación de seguridad y herramientas posteriores, y preguntará si GPT-OSS realmente democratiza la IA o simplemente ofrece una versión sanitizada y amigable con el gobierno estadounidense cuya longitud de contexto de 128 k y licencia Apache aún se quedan cortas frente a rivales asiáticos.
Después de desglosar diagramas de arquitectura, el orador concluye que GPT-OSS está diseñado para la seguridad primero: mezcla de expertos múltiples, incrustaciones posicionales rotativas, atención agrupada por consultas y ajuste fino supervisado en datos sintéticos producidos por modelos internos de OpenAI más grandes. Los benchmarks muestran que el modelo de 120 B se acerca al O4-Mini en matemáticas (AIME 2024) y llamadas a herramientas (Tau-Bench), mientras que el modelo de 20 B iguala al O3-Mini en tareas científicas y de salud pero permanece estrictamente de texto y limitado a 128 k tokens—la mitad de lo que ya ofrece QWEN 32 B. La licencia Apache no es completamente "open source" porque lleva cláusulas de protección legal para OpenAI y disposiciones de exportación que desincentivan la reutilización china. Más importante aún, los pesos se lanzan pero el corpus de entrenamiento, recetas de filtrado de datos y prompts de alineación se retienen, por lo que actores malintencionados podrían aún ajustar el modelo en corpora sensibles de biología o ciberseguridad; el informe de prueba roja de OpenAI admite que después de un ajuste fino adversarial el modelo no alcanzó niveles peligrosos de capacidad, pero el orador enfatiza que esto no es garantía una vez que los pesos circulen por torrents. Elogia el deslizador ajustable de "razonamiento" (bajo, medio, alto) que permite a los desarrolladores intercambiar latencia por precisión, y señala que Groq ya sirve el modelo de 120 B a 500 tokens/s y el de 20 B a 1 000 tokens/s, lo que los hace atractivos para bucles de agentes locales orquestados mediante LM-Studio, Ollama o ONNX.
En el futuro, el orador posiciona GPT-OSS como un parche: los modelos de "pensamiento" chinos de 4 B destilados de profesores más grandes ya superan al OSS de 20 B en varios benchmarks, demostrando que el tamaño ya no es destino. El verdadero campo de batalla será en frameworks de múltiples agentes donde docenas de modelos pequeños y especializados colaboren; el movimiento de OpenAI es, por tanto, defensivo, destinado a recuperar el control narrativo antes de que llegue GPT-5. Predice que GPT-5 será un modelo frontera unificado (mini, regular, nano) que engulle la multimodalidad, el uso de herramientas y el razonamiento en un solo punto final, pero el salto será incremental comparado con el salto de GPT-3.5 a GPT-4; el verdadero cambio disruptivo vendrá de Gemini 2.5 de Google, Claude-4 Opus de Anthropic y la próxima ola china. Mientras tanto, los desarrolladores deben tratar a GPT-OSS como una opción confiable, alineada con la seguridad y de costo medio para flujos de trabajo estrechos, pero continuar benchmarking QWEN, Gemma-3N y Mistral para contextos más ricos, visión y transparencia completa de código abierto. La sesión termina con una invitación a la visualización en vivo de GPT-5 y un recordatorio de que el pensamiento crítico, no la lealtad a marcas, decidirá qué ecosistema finalmente entrega IA centrada en el ser humano.

Ideas Clave:

1.- GPT-OSS 20 B y 120 B lanzados bajo licencia Apache, pesos abiertos pero datos de entrenamiento retenidos.

2.- Longitud de contexto de 128 k retrasa QWEN 32 B 256 k, limitando tareas de documentos largos.

3.- Modelos de solo texto carecen de visión multimodal, a diferencia de Gemma-3N o Gemini-Pro.

4.- 120 B alcanza puntuación matemática de O4-Mini en AIME 2024; 20 B iguala a O3-Mini.

5.- Deslizador ajustable intercambia latencia por precisión en producción.

6.- Groq sirve 120 B a 500 tokens/s, 20 B a 1 000 tokens/s mediante GroqFlow.

7.- Arquitectura de mezcla de expertos activa el 5.1 % de 117 B de parámetros por token.

8.- Incrustación posicional rotativa y atención agrupada por consultas optimizan el throughput.

9.- Ajuste fino supervisado más aprendizaje por refuerzo desde modelos internos más grandes.

10.- Alineación de seguridad bloquea prompts de bio/química/nuclear pero se puede escapar mediante ajuste fino.

11.- Evaluación de prueba roja muestra ganancia limitada de capacidad después de ajuste fino malicioso.

12.- Licencia Apache incluye cláusulas de protección legal que desincentivan la reutilización comercial china.

13.- Movimiento de OpenAI responde a la ola de código abierto chino: DeepSeek, Kimi, QWEN, Mistral.

14.- QWEN 4 B modelo "pensamiento" destilado supera a GPT-OSS 20 B en benchmarks.

15.- Entrenamiento de GPT-OSS depende en gran medida de datos sintéticos para evitar demandas por derechos de autor.

16.- Tokenizador reutilizado de GPT-4O; promesa de lanzamiento completo del tokenizador más adelante.

17.- Modelos compatibles con Ollama, LM-Studio, VLLM, Azure, AWS, NVIDIA, AMD, Apple Metal.

18.- Azure AI Foundry y AWS Bedrock ya alojan puntos finales para uso empresarial.

19.- Interfaz de Playground ofrece modos de razonamiento bajo/medio/alto sin cambios de código.

20.- Puntuación de llamada a funciones en Tau-Bench se acerca a O4-Mini, útil para flujos de trabajo de agentes.

21.- Evaluación Health-Bench muestra que 120 B supera a O3 en conjuntos de preguntas médicas.

22.- Examen Humanity Last coloca a 120 B entre niveles de GPT-4 y GPT-4-Turbo.

23.- Modelo de 20 B supera a 120 B en algunas tareas científicas, mostrando eficiencia de tamaño.

24.- Modelos carecen de visión, por lo que no son adecuados para pipelines de imagen a texto o OCR intensivo.

25.- Truncamiento de ventana de contexto afecta resúmenes largos y consultas de bases de código.

26.- OpenAI organiza desafío global de prueba roja para encontrar riesgos de seguridad residuales.

27.- Documento Preparación actualizado junto con lanzamiento del modelo para responsables de políticas.

28.- Pesos lanzados en Hugging Face con enlaces de Rust, Python y TypeScript.

29.- ONNX runtime en Windows habilita inferencia local en GPU sin llamadas a la nube.

30.- Gemma-3N 4 B modelo multimodal citado como superior para tareas de visión en dispositivos.

31.- Orador critica a populistas de LinkedIn por difundir desinformación sobre el Acta de IA.

32.- Cumplimiento del Acta de IA de Europa debatido; incertidumbre legal ralentiza la adopción.

33.- Orador aboga por educación de tres niveles: usuario, empresarial y técnico.

34.- Comunidad Discord cerca de 500 miembros; planes de cursos de ingeniería de IA en septiembre.

35.- Visualización en vivo de GPT-5 programada para las 18:30 con cinco expertos españoles en IA.

36.- GPT-5 esperado en tamaños mini/regular/nano, unificando modalidades en un solo punto final.

37.- Orador predice salto de GPT-5 más pequeño que de GPT-3.5 a GPT-4; GPT-6 será disruptivo.

38.- Modelos de Anthropic y Google superan silenciosamente a OpenAI en varios benchmarks.

39.- Microsoft retiene derechos de nube exclusivos; OpenAI depende de la infraestructura de Azure.

40.- Narrativa política estadounidense enmarca el lanzamiento de código abierto como contrapeso a la dominación china.

41.- Testimonios de Sam Altman en congresos revelan postura cambiante sobre el valor del código abierto.

42.- Charla de Ilya Sutskever en Tel Aviv destaca preocupaciones por seguridad sobre pesos sin restricciones.

43.- Orador planea nuevo canal de ingeniería centrado en código, agentes, seguridad, frameworks.

44.- Kit de IA Agente PDF compila guías gratuitas de Microsoft, Amazon, Anthropic para desarrolladores.

45.- Modelos pequeños de lenguaje vistos como futuro para sistemas multi-agente en el borde.

46.- Técnicas de destilación permiten que modelos de 4 B rivalicen con 20 B reduciendo cómputo.

47.- Ejecución local reduce riesgo de privacidad pero requiere optimización cuidadosa del hardware.

48.- Orador urge a la audiencia a benchmarkear múltiples modelos en lugar de seguir el hype de marcas.

49.- Crecimiento de la comunidad: de 50 oyentes mensuales a 300 000 vistas proyectadas por episodio.

50.- Momento histórico reclamado: primera vez que OpenAI lanza pesos desde la era de GPT-2.

Entrevistas por Plácido Doménech Espí & Invitados - Vault de Conocimiento construido porDavid Vivancos 2025