Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- Los LLMs son principalmente procesadores reactivos del Sistema 1 en lugar de deliberativos del Sistema 2
2.- Los humanos pueden cambiar entre el Sistema 1 y 2; los LLMs no pueden
3.- Las afirmaciones sobre las habilidades de razonamiento de los LLMs a menudo son malinterpretadas como validación humana
4.- Los LLMs son impresionantes como procesadores del Sistema 1 pero carecen de capacidades deliberativas
5.- Problemas simples de apilamiento de bloques revelan la incapacidad de los LLMs para razonar lógicamente
6.- Los LLMs siempre intentan soluciones, incluso para problemas insolubles
7.- Los LLMs son modelos de N-gramas que realizan recuperación aproximada con alucinaciones constantes
8.- Múltiples intentos de solicitud hasta el éxito indican razonamiento humano, no LLM
9.- Los LLMs sobresalen en estilo pero luchan con la corrección factual
10.- La evaluación sistemática muestra un bajo rendimiento en tareas básicas de planificación
11.- Las versiones ofuscadas de problemas impactan severamente el rendimiento de los LLMs
12.- La solicitud de cadena de pensamiento no escala más allá de los ejemplos de entrenamiento
13.- Los experimentos de concatenación de la última letra muestran capacidad limitada para recibir consejos
14.- La solicitud de reacción enfrenta limitaciones similares a la cadena de pensamiento
15.- Los LLMs no pueden autocriticarse efectivamente sus soluciones
16.- Los verificadores externos funcionan mejor que la autocrítica de los LLMs
17.- La complejidad computacional no afecta el tiempo de respuesta de los LLMs
18.- El ajuste fino muestra una pobre generalización más allá del tamaño del problema de entrenamiento
19.- Las métricas dentro y fuera de distribución no son útiles para los LLMs
20.- Los LLMs carecen de capacidades de cierre deductivo
21.- La planificación requiere comprender las interacciones de acción, con las que los LLMs luchan
22.- Eliminar precondiciones mejora el rendimiento de los LLMs pero elimina la necesidad de planificación
23.- Los LLMs sobresalen en proporcionar conocimiento aproximado del dominio
24.- Los marcos modulares de LLM combinan generación con verificación externa
25.- La intervención humana debe minimizarse en los sistemas LLM
26.- El retroceso puede mejorar la precisión dentro de iteraciones razonables
27.- Los LLMs pueden criticar efectivamente el estilo en lugar de la corrección
28.- Los sistemas de prueba Alpha y similares utilizan verificadores externos
29.- Los LLMs son mejores como generadores que como razonadores
30.- Los LLMs siguen siendo herramientas valiosas cuando se usan adecuadamente dentro de sus limitaciones
Bóveda del Conocimiento construida por David Vivancos 2024