Conocimiento Bóveda 6 /99 - ICML 2024
¿Pueden los LLMs Razonar y Planificar?
Subbarao Kambhampati
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef core fill:#f9d4d4, font-weight:bold, font-size:14px classDef limits fill:#d4f9d4, font-weight:bold, font-size:14px classDef eval fill:#d4d4f9, font-weight:bold, font-size:14px classDef improve fill:#f9f9d4, font-weight:bold, font-size:14px classDef practical fill:#f9d4f9, font-weight:bold, font-size:14px Main["¿Pueden los LLMs Razonar
y Planificar?"] --> C["Capacidades Centrales"] Main --> L["Limitaciones"] Main --> E["Métodos de Evaluación"] Main --> I["Enfoques de Mejora"] Main --> P["Uso Práctico"] C --> C1["Los LLMs reaccionan en lugar de
pensar 1"] C --> C2["Los humanos cambian modos de pensamiento 2"] C --> C3["Las afirmaciones de razonamiento necesitan validación 3"] C --> C4["Las buenas reacciones carecen de pensamiento 4"] C --> C5["Los modelos recuperan con errores 7"] L --> L1["El apilamiento de bloques muestra límites 5"] L --> L2["Los modelos intentan tareas imposibles 6"] L --> L3["Los límites de entrenamiento limitan las cadenas de pensamiento 12"] L --> L4["Las pruebas de letras muestran límites 13"] L --> L5["Las solicitudes de reacción enfrentan barreras 14"] L --> L6["Los modelos no pueden autocriticarse 15"] E --> E1["Múltiples intentos muestran pensamiento
humano 8"] E --> E2["El estilo tiene éxito, los hechos fallan 9"] E --> E3["La planificación básica revela fallas 10"] E --> E4["Los cambios impactan negativamente los resultados 11"] E --> E5["Las métricas de distribución fallan aquí 19"] I --> I1["Las verificaciones externas funcionan mejor 16"] I --> I2["El tiempo de complejidad se mantiene constante 17"] I --> I3["El tamaño restringe el rango de aprendizaje 18"] I --> I4["El retroceso ayuda en algunos casos 26"] I --> I5["Las verificaciones externas mejoran la salida 24"] P --> P1["Los modelos carecen de habilidades deductivas 20"] P --> P2["La planificación necesita una comprensión más profunda 21"] P --> P3["Eliminar reglas ayuda incorrectamente 22"] P --> P4["Dar hechos aproximados del dominio 23"] P --> P5["Minimizar la intervención humana 25"] P3 --> P6["La crítica de estilo supera a los hechos 27"] P4 --> P7["Las pruebas necesitan verificación 28"] P5 --> P8["Generar supera al razonamiento 29"] P5 --> P9["Las herramientas funcionan dentro de límites 30"] class Main,C,C1,C2,C3,C4,C5 core class L,L1,L2,L3,L4,L5,L6 limits class E,E1,E2,E3,E4,E5 eval class I,I1,I2,I3,I4,I5 improve class P,P1,P2,P3,P4,P5,P6,P7,P8,P9 practical

Resumen:

1.- Los LLMs son principalmente procesadores reactivos del Sistema 1 en lugar de deliberativos del Sistema 2

2.- Los humanos pueden cambiar entre el Sistema 1 y 2; los LLMs no pueden

3.- Las afirmaciones sobre las habilidades de razonamiento de los LLMs a menudo son malinterpretadas como validación humana

4.- Los LLMs son impresionantes como procesadores del Sistema 1 pero carecen de capacidades deliberativas

5.- Problemas simples de apilamiento de bloques revelan la incapacidad de los LLMs para razonar lógicamente

6.- Los LLMs siempre intentan soluciones, incluso para problemas insolubles

7.- Los LLMs son modelos de N-gramas que realizan recuperación aproximada con alucinaciones constantes

8.- Múltiples intentos de solicitud hasta el éxito indican razonamiento humano, no LLM

9.- Los LLMs sobresalen en estilo pero luchan con la corrección factual

10.- La evaluación sistemática muestra un bajo rendimiento en tareas básicas de planificación

11.- Las versiones ofuscadas de problemas impactan severamente el rendimiento de los LLMs

12.- La solicitud de cadena de pensamiento no escala más allá de los ejemplos de entrenamiento

13.- Los experimentos de concatenación de la última letra muestran capacidad limitada para recibir consejos

14.- La solicitud de reacción enfrenta limitaciones similares a la cadena de pensamiento

15.- Los LLMs no pueden autocriticarse efectivamente sus soluciones

16.- Los verificadores externos funcionan mejor que la autocrítica de los LLMs

17.- La complejidad computacional no afecta el tiempo de respuesta de los LLMs

18.- El ajuste fino muestra una pobre generalización más allá del tamaño del problema de entrenamiento

19.- Las métricas dentro y fuera de distribución no son útiles para los LLMs

20.- Los LLMs carecen de capacidades de cierre deductivo

21.- La planificación requiere comprender las interacciones de acción, con las que los LLMs luchan

22.- Eliminar precondiciones mejora el rendimiento de los LLMs pero elimina la necesidad de planificación

23.- Los LLMs sobresalen en proporcionar conocimiento aproximado del dominio

24.- Los marcos modulares de LLM combinan generación con verificación externa

25.- La intervención humana debe minimizarse en los sistemas LLM

26.- El retroceso puede mejorar la precisión dentro de iteraciones razonables

27.- Los LLMs pueden criticar efectivamente el estilo en lugar de la corrección

28.- Los sistemas de prueba Alpha y similares utilizan verificadores externos

29.- Los LLMs son mejores como generadores que como razonadores

30.- Los LLMs siguen siendo herramientas valiosas cuando se usan adecuadamente dentro de sus limitaciones

Bóveda del Conocimiento construida por David Vivancos 2024