Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- Jason Weston obtuvo su doctorado en 2000, co-supervisado por Vapnik. Conocido por su trabajo en SVMs, PLN con redes neuronales, redes de memoria.
2.- El objetivo es construir un agente conversacional inteligente que pueda aprender del diálogo. Los desafíos incluyen razonamiento, conversaciones largas, aprendizaje de nuevo conocimiento.
3.- Las redes de memoria combinan una gran memoria con un componente de aprendizaje que puede leer/escribir en la memoria. Muchas variaciones posibles en la arquitectura.
4.- Tareas de juguete diseñadas para probar capacidades de razonamiento necesarias para el diálogo, como rastrear la ubicación de objetos, contar, deducción, búsqueda de caminos.
5.- La primera red de memoria usó atención dura sobre memorias para encontrar hechos de apoyo, entrenada con hechos de apoyo como supervisión adicional.
6.- Aumentar los saltos de memoria mejora el rendimiento en tareas de juguete que requieren múltiples hechos de apoyo. Algunas tareas siguen siendo desafiantes, como la búsqueda de caminos.
7.- Las redes de memoria de extremo a extremo usan atención continua sobre memorias para entrenar sin supervisión de hechos de apoyo. La atención es interpretable.
8.- En tareas de juguete, múltiples saltos mejoran la precisión para redes de extremo a extremo, pero aún quedan cortas en comparación con la versión fuertemente supervisada en algunas tareas.
9.- El trabajo relacionado incluye NTM, RNNs aumentadas con pila, modelos basados en atención para MT, tareas de PLN. El taller RAM en NIPS explora razonamiento, atención, memoria.
10.- Conjuntos de datos de modelado del lenguaje a gran escala prueban la capacidad de los modelos para usar contexto a largo plazo. El análisis muestra que los saltos de atención alternan entre palabras cercanas y lejanas.
11.- Nuevos conjuntos de datos prueban el razonamiento sobre contextos largos a través de QA estilo cloze (CBT, CNN/DailyMail). Los humanos usan el contexto para mejorar la precisión.
12.- La auto-supervisión en memorias (asumiendo que la respuesta está en ellas) y la atención multi-hop ayudan en CBT. Aún hay una brecha con el rendimiento humano.
13.- Las redes de memoria son competitivas en conjuntos de datos de QA como WebQuestions, WikiQA, pero el enfoque ha sido más en algoritmos de aprendizaje que en ingeniería de características.
14.- Las redes de memoria clave-valor separan las memorias en claves para direccionamiento y valores para lectura. Permite diferentes representaciones para mejorar el rendimiento.
15.- El conjunto de datos de diálogo en películas prueba tanto habilidades de QA como de recomendación en conversaciones. Se proporcionan modelos de referencia, pero los desafíos permanecen.
16.- Las redes de memoria logran resultados sólidos en el corpus de diálogo de Ubuntu, pero el mejor modelo hasta ahora es una arquitectura RNN-CNN.
17.- Tareas de diálogo de juguete más realistas podrían ayudar a impulsar arquitecturas de modelos innovadoras. Comprender éxitos/fracasos en datos reales sigue siendo un desafío.
18.- Existen conjuntos de datos supervisados, pero el aprendizaje por refuerzo a través de la interacción puede ser necesario, similar a cómo los niños aprenden el lenguaje.
19.- La predicción hacia adelante de respuestas conversacionales proporciona una señal de entrenamiento alternativa a las recompensas. La retroalimentación textual puede ser más informativa que las recompensas binarias.
20.- El documento sobre aprendizaje de lenguaje basado en diálogo propone arquitecturas y procedimientos de entrenamiento para aprender de varios tipos de retroalimentación interactiva sin recompensas explícitas.
21.- Código y datos disponibles en línea para redes de memoria e investigación relacionada. Muchas preguntas abiertas permanecen en razonamiento, atención y memoria.
22.- La motivación es construir modelos que puedan participar en un diálogo significativo combinando razonamiento, atención y memoria.
23.- La atención permite escalar a grandes memorias recuperando información relevante según sea necesario. Aumentar los saltos permite un razonamiento más profundo.
24.- La memoria auto-supervisada ayuda al rendimiento asumiendo que las respuestas están presentes en la entrada y aprendiendo a seleccionarlas.
25.- Separar la memoria en clave/valor permite diferentes representaciones para recuperación y predicción. Mejora el rendimiento en WikiQA.
26.- Los datos de diálogo en películas prueban tanto QA factual como recomendación. El modelo conjunto hace ambas cosas pero aún hay margen de mejora.
27.- El objetivo es tener un modelo que pueda participar en un diálogo abierto, haciendo y respondiendo preguntas, haciendo recomendaciones, etc.
28.- El aprendizaje por refuerzo a partir de la interacción conversacional, en lugar de conjuntos de datos supervisados, puede ser clave para lograr agentes de diálogo generales.
29.- La retroalimentación textual rica proporciona más que solo una señal de recompensa. Predecir la retroalimentación entrena al modelo para comprender las respuestas.
30.- Queda mucho trabajo futuro para resolver desafíos de razonamiento, atención y memoria y construir agentes de diálogo inteligentes que puedan aprender.
Bóveda del Conocimiento construida porDavid Vivancos 2024