Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-La IA de Facebook está explorando el uso de tareas artificiales para construir máquinas inteligentes y evaluar las capacidades de razonamiento de los modelos.
2.-Los recientes avances en IA dependen de modelos profundos con alta capacidad y muchos datos etiquetados, pero el razonamiento puede seguir siendo limitado.
3.-Los ejemplos muestran que los modelos profundos no entienden realmente la semántica y pueden ser engañados, fallar en imágenes inusuales, cometer errores de traducción.
4.-Sólo más datos probablemente no puedan resolver la IA; los modelos pueden no generalizar bien a todas las situaciones posibles del mundo real.
5.-Las tareas artificiales permiten controlar la complejidad, el razonamiento requerido y la interpretabilidad de los resultados para analizar las capacidades y limitaciones del modelo.
6.-Históricamente, los problemas de juguete artificiales han impulsado avances en el aprendizaje automático, por ejemplo, para la agrupación, redes neuronales, conjuntos de datos como UCI.
7.-Ejemplos de IA conocidos: el mundo de bloques de Winograd de los años 70 para responder preguntas, el razonamiento de árboles genealógicos de Hinton de 1986 - útiles pero limitados.
8.-Se están desarrollando nuevas plataformas de evaluación para evaluar sistemas inteligentes, como el proyecto de Allen AI, pero no controlan completamente el entrenamiento.
9.-El enfoque de Facebook: entornos de juegos artificiales para generar historias, preguntas y respuestas; controlar la dificultad de las tareas para sondear el razonamiento del modelo.
10.-Las salidas de simulación describen acciones; las preguntas prueban si los modelos siguen el estado del mundo, con respuestas restringidas a sí/no para una evaluación fácil.
11.-Hasta ahora se han desarrollado 20 tareas para probar diferentes habilidades; el objetivo es un modelo único que pueda resolverlas todas, no modelos especializados individuales.
12.-Se proporcionan hechos de apoyo con respuestas para ver si los modelos están aprovechando la información relevante o simplemente coinciden con patrones.
13.-La complejidad de las tareas puede aumentarse, por ejemplo, de 1 a 2 a 3 hechos de apoyo necesarios para responder una pregunta.
14.-Otras tareas: probar la sensibilidad al orden de las palabras, responder preguntas de sí/no, razonamiento posicional, seguimiento de objetos, conteo, comparaciones, conocimiento externo.
15.-Los modelos probados incluyen LSTMs con supervisión débil, redes de memoria con fuerte supervisión y SVMs ricos en características; resultados resumidos en un tablero de rendimiento.
16.-Cuestión clave: ¿qué tan bien pueden las capacidades entrenadas en tareas artificiales transferirse a problemas de comprensión del lenguaje del mundo real?
17.-Las tareas artificiales son importantes para construir comprensión de los métodos, incluso si no son perfectamente realistas; un requisito previo antes de escalar.
18.-Los modelos no deben estar excesivamente adaptados solo para las tareas; el objetivo es mejorar incrementalmente los sistemas generales que puedan manejar nuevas tareas.
19.-Las simulaciones permiten "perillas" para ajustar la complejidad lingüística: eliminar el lenguaje, probar los requisitos de memoria, añadir correferencias, variar las expresiones de tiempo.
20.-Es necesario tener cuidado de que la complejidad lingüística no se convierta en una confusión; las versiones simbólicas de las tareas ayudan a eliminar eso.
21.-Se vislumbra un ciclo virtuoso: diseñar tareas que rompan modelos, mejorar modelos para resolver tareas, repetir. Pero requiere un diseño cuidadoso del experimento.
22.-Los entornos artificiales permiten este desarrollo controlado, pero también hay otros enfoques posibles; los entornos de juegos también han impulsado el progreso de RL.
23.-Los modelos potentes y los grandes datos son valiosos, pero también se necesita un entrenamiento y prueba más controlados para hacer avances fundamentales.
24.-Las tareas particulares mostradas son una propuesta inicial, pero otros pueden diseñar versiones incluso mejores; se agradece la retroalimentación y discusión.
25.-Hay debates abiertos sobre si las tareas actuales están probando lo que afirman, o si los modelos están aprendiendo las cosas correctas.
26.-El análisis post-hoc de lo que los modelos han aprendido es importante; las tareas simplistas hasta ahora son solo una base sobre la que construir.
27.-Es crucial que la comunidad esté abierta a la retroalimentación sobre la mejora de las tareas para lograr mejor los ambiciosos objetivos.
28.-Una dirección futura clave es probar la generalización entrenando y probando en diferentes distribuciones sobre los datos simulados.
29.-Se puede incorporar un lenguaje más realista haciendo que los anotadores interpreten las salidas de simulación simbólicas como inglés natural.
30.-El paradigma de un ciclo virtuoso entre tareas que rompen modelos y modelos que resuelven tareas es clave para impulsar el progreso.
Bóveda del Conocimiento construida por David Vivancos 2024