Conocimiento Bóveda 2/37 - ICLR 2014-2023
Y-Lan Boureau ICLR 2017 - Aprendizaje de Diálogo Orientado a Objetivos de Extremo a Extremo
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef task fill:#f9d4d4, font-weight:bold, font-size:14px; classDef subtask fill:#d4f9d4, font-weight:bold, font-size:14px; classDef data fill:#d4d4f9, font-weight:bold, font-size:14px; classDef model fill:#f9f9d4, font-weight:bold, font-size:14px; classDef result fill:#f9d4f9, font-weight:bold, font-size:14px; A[Y-Lan Boureau
ICLR 2017] --> B[Ilan Bourreau de Facebook AI Research
presentando trabajo conjunto sobre diálogo orientado a objetivos. 1] A --> C[Charla trivial vs chatbots comerciales
orientados a objetivos. 2] C --> D[Los usuarios quieren tareas
orientadas a objetivos rápidas. 3] C --> E[Estados tradicionales orientados a objetivos
necesitan reglas. 4] C --> F[Modelos de extremo a extremo generalizan
usando lenguaje. 5] F --> G[Evaluando modelos de extremo a extremo
orientados a objetivos. 6] A --> H[Subtareas de reserva de restaurante
para evaluación. 7] H --> I[Datos de diálogo sintético
disponibles abiertamente. 8] H --> J[Pruebas de subtareas necesarias
identifican problemas. 9] A --> K[Parte de los documentos de
diálogo de Facebook. 10] H --> L[Subtarea 1: Consultar base de datos. 11] H --> M[Subtarea 2: Actualizar llamada API. 12] H --> N[Subtarea 3: Clasificar opciones de API. 13] H --> O[Subtarea 4: Proveer
información adicional. 14] H --> P[Subtarea 5: Diálogo
determinista completo. 15] H --> Q[Baselines: TF-IDF, incrustaciones,
redes de memoria. 16] Q --> R[Redes de memoria: atención,
acceso multi-hop. 17] Q --> S[Resultados: Vecino más cercano
supera a TF-IDF. 18] Q --> T[Incrustaciones resuelven subtarea 1,
memoria 1-2. 19] T --> U[Tipo de coincidencia resuelve subtarea 4. 20] S --> V[Resultados dentro/fuera de vocabulario,
otros conjuntos de datos similares. 21] T --> W[Visualización de atención
de red de memoria. 22] T --> X[Ejemplo de red de memoria
en diálogo. 23] H --> Y[El conjunto de datos permite
comparación de extremo a extremo. 24] H --> Z[Conjuntos de datos realistas más difíciles
en desarrollo. 25] I --> AA[Datos sintéticos pequeños
imitan la realidad. 26] I --> AB[El llenado de ranuras determinista permite
100%, respuesta única. 27] I --> AC[Predice enunciado,
sin etiquetas específicas de tarea. 28] I --> AD[Arquitectura entrenable
con datos reales. 29] I --> AE[Datos abiertos fomentan
pruebas de extremo a extremo. 30] class A,B,C,H task; class D,E,F,L,M,N,O,P subtask; class I,V,AA,AB,AC,AD,AE data; class Q,R,T,U,W model; class G,J,K,S,X,Y,Z result;

Resumen:

1.-El ponente es Ilan Bourreau de Facebook AI Research, presentando trabajo conjunto con Antoine Bord y Jason Weston sobre diálogo orientado a objetivos.

2.-El diálogo de charla trivial es muy amplio, mientras que los chatbots comerciales para tareas como reservar hoteles son mucho más limitados y orientados a objetivos.

3.-Los usuarios quieren que las tareas de diálogo orientadas a objetivos se realicen rápidamente sin demasiada conversación extraña. El éxito se mide por si se logra el objetivo.

4.-Tradicionalmente, los estados de diálogo orientados a objetivos se definen por ranuras que deben llenarse, lo que requiere codificación manual de reglas para cada dominio.

5.-La promesa de los modelos de diálogo de extremo a extremo es generalizar a nuevos dominios sin suposiciones sobre ranuras, usando solo el lenguaje como entrada bruta.

6.-Los sistemas de diálogo neuronal de extremo a extremo recientes han mostrado promesa en charla trivial abierta, pero la cuestión es cómo evaluarlos en tareas orientadas a objetivos.

7.-El trabajo descompone la tarea de reserva de restaurante en subtareas para evaluar dónde los modelos de extremo a extremo tienen éxito y fallan.

8.-Los datos de diálogo sintético producidos, que combinan patrones de lenguaje con una base de conocimiento, están disponibles de código abierto en fb.ai/babi como parte de su conjunto de tareas que prueban los requisitos del sistema de IA.

9.-Se prueban subtareas necesarias pero no suficientes - el éxito no significa que el sistema sea inteligente, pero el fracaso indica un problema a resolver antes de continuar.

10.-El trabajo presentado es parte de un conjunto más amplio de documentos de diálogo de Facebook AI Research, resumido en una publicación de blog en su sitio web.

11.-La primera subtarea en la reserva de restaurante es consultar una base de datos, completando información sobre el tamaño del grupo, la cocina, el rango de precios y la ubicación.

12.-La segunda subtarea maneja al usuario cambiando de opinión y actualizando la llamada API con nueva información.

13.-La tercera subtarea implica que la API devuelva opciones y el sistema elija qué mostrar primero al usuario, probablemente por algún criterio de clasificación.

14.-La cuarta subtarea es proporcionar información adicional solicitada por el usuario, como el número de teléfono o la dirección del restaurante.

15.-La quinta subtarea es llevar a cabo el diálogo completo, combinando los pasos. Los diálogos se hacen deterministas para una evaluación reproducible y comparación entre sistemas.

16.-Se proporcionan líneas base, incluyendo un método de recuperación de información TF-IDF, un enfoque de vecino más cercano, y incrustaciones supervisadas, junto con un modelo de red de memoria de extremo a extremo.

17.-Las redes de memoria combinan una gran memoria con un componente de aprendizaje que puede leer y escribir en ella, usando atención suave y acceso multi-hop.

18.-Los resultados muestran sistemas basados en reglas obteniendo 100% como una comprobación de cordura. TF-IDF se desempeña mal, mientras que el vecino más cercano lo hace mejor, a diferencia de en charla trivial donde TF-IDF era superior.

19.-Las incrustaciones supervisadas resuelven la primera subtarea pero fallan en otras. Las redes de memoria resuelven las dos primeras subtareas pero no las otras.

20.-Augmentar las redes de memoria con una característica de tipo de coincidencia también resuelve la cuarta tarea de proporcionar información adicional pero aún falla en la tercera tarea.

21.-Se informan los resultados de prueba tanto dentro como fuera del vocabulario. Se observan patrones similares de resultados en otros dos conjuntos de datos - diálogos reales humano-bot y datos de reserva de restaurante humano-humano.

22.-Visualizar la atención en las redes de memoria muestra que se enfoca en ranuras relevantes para las dos primeras tareas pero no logra atender la clasificación e información extra en tareas posteriores.

23.-Se muestra un ejemplo de la atención de la red de memoria en datos de diálogo más realistas, mostrando un comportamiento razonable y sabiendo cuándo necesita solicitar más información.

24.-Desde que se publicó el conjunto de datos, trabajos posteriores han mejorado sus líneas base, lo cual era el objetivo - permitir la comparación de enfoques de extremo a extremo en esta tarea.

25.-Se están desarrollando conjuntos de datos más difíciles con fenómenos de diálogo realistas más desafiantes. Una versión extendida se presentará como una pista en el próximo Desafío de Rastreo de Estado de Diálogo.

26.-Los conjuntos de datos sintéticos se mantienen pequeños (1000 ejemplos) para imitar casos del mundo real de datos etiquetados limitados, pero pueden hacerse más grandes fácilmente si es necesario.

27.-Mantener el orden de llenado de ranuras determinista en los diálogos permite lograr el 100% y tener un único candidato de respuesta correcta.

28.-El sistema se entrena de extremo a extremo para predecir el siguiente enunciado, no con ninguna etiquetación específica de tarea. Se espera que las pruebas en un conjunto de datos real después de entrenar en los datos sintéticos se desempeñen muy mal y no es la intención.

29.-La misma arquitectura puede entrenarse en conjuntos de datos reales en su lugar para comparar enfoques. El conjunto de datos sintético no está destinado a entrenar sistemas que se transfieran directamente a la reserva de restaurantes reales.

30.-Los datos están disponibles abiertamente y animan a la comunidad a probar sus enfoques de diálogo de extremo a extremo en ellos y reportar resultados para avanzar en el campo.

Bóveda de Conocimiento construida porDavid Vivancos 2024