Conocimiento Bóveda 2/56 - ICLR 2014-2023
Mirella Lapata ICLR 2019 - Charla Invitada - Aprendiendo Interfaces de Lenguaje Natural con Modelos Neuronales
<Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef semantic fill:#f9d4d4, font-weight:bold, font-size:14px; classDef challenges fill:#d4f9d4, font-weight:bold, font-size:14px; classDef architecture fill:#d4d4f9, font-weight:bold, font-size:14px; classDef decoding fill:#f9f9d4, font-weight:bold, font-size:14px; classDef paraphrasing fill:#f9d4f9, font-weight:bold, font-size:14px; classDef future fill:#d4f9f9, font-weight:bold, font-size:14px; A[Mirella Lapata
ICLR 2019 ] --> B[Mapear lenguaje natural a lenguaje
de máquina desde los años 60. 1] A --> C[Consultar bases de datos, instruir robots,
preguntar a bases de conocimiento. 2] A --> D[Asistentes digitales: populares,
avance importante. 3] A --> E[Desajuste estructural, salida bien formada,
múltiples frases. 4] A --> F[Espina dorsal LSTM codificador-decodificador. 5] F --> G[La atención mejora sobre
el estado oculto final. 6] F --> H[Decodificación jerárquica secuencial
para la estructura de salida. 7] H --> I[Errores de paréntesis, se necesita
un enfoque más fuerte. 8] A --> J[Dos etapas: esquema, luego detalles. 9] J --> K[El esquema preserva la estructura central,
omite detalles. 10] J --> L[Separa semántica de alto nivel y bajo nivel. 11] J --> M[Aprende conjuntamente esquemas
y salidas completas. 12] J --> N[Plantillas de esquemas deterministas. 13] J --> O[Mejora la precisión en conjuntos de datos,
idiomas. 14] A --> P[Paráfrasis manejan variación lingüística. 15] P --> Q[Entrenamiento conjunto de puntuación de paráfrasis
y preguntas-respuestas. 16] P --> R[Sistema integrado de extremo a extremo. 17] P --> S[Modelo de paráfrasis crucial para el éxito. 18] S --> T[El pivote genera paráfrasis. 19] S --> U[Traducción automática neuronal
para pivote. 20] P --> V[Maneja preguntas no vistas
con diferentes frases. 21] P --> W[Supera enfoques anteriores. 22] A --> X[El codificador-decodificador funciona bien,
decodificación restringida importante. 23] A --> Y[Modelos generales en
conjuntos de datos, representaciones de significado. 24] A --> Z[Alternativas de generación de paráfrasis:
GANs vs pivote. 25] A --> AA[Mayor peso de pérdida de esquema
mejora predicciones. 26] A --> AB[Ajuste fino de modelos preentrenados
ayuda en conjuntos de datos pequeños. 27] A --> AC[Embeddings de BERT podrían
mejorar la puntuación de similitud. 28] A --> AD[RL para entrenamiento con
solo respuesta final. 29] AD --> AE[RL recompensa la buena formación
cuando muchas formas son correctas. 30] class A,B,C semantic; class D,E challenges; class F,G,H,I architecture; class J,K,L,M,N,O decoding; class P,Q,R,S,T,U,V,W paraphrasing; class X,Y,Z,AA,AB,AC,AD,AE future;

Resumen:

1.-El objetivo del análisis semántico es mapear el lenguaje natural a un lenguaje ejecutable por máquina, un desafío desde los años 60.

2.-Ejemplos incluyen consultar bases de datos, instruir robots y hacer preguntas a bases de conocimiento como el Grafo de Conocimiento de Google.

3.-Asistentes digitales como Alexa, Cortana y Google Home se están volviendo populares y Bill Gates los ve como un avance tecnológico importante.

4.-Tres desafíos principales: desajuste estructural entre el lenguaje natural y el de máquina, generar una salida bien formada, manejar diferentes frases del mismo significado.

5.-Se utiliza una arquitectura neuronal codificador-decodificador como base: un LSTM codificador representa la entrada, un LSTM decodificador genera la salida.

6.-Los mecanismos de atención permiten que el decodificador atienda a partes relevantes de la representación de entrada, mejorando sobre el uso solo del estado oculto final.

7.-Para manejar la estructura de salida, la decodificación se modifica para generar la salida secuencialmente pero de manera jerárquica, usando tokens no terminales para denotar jerarquía.

8.-Esta decodificación jerárquica secuencial ayuda pero aún comete errores en paréntesis, por lo que se necesita un enfoque más fuerte para asegurar una salida bien formada.

9.-Un enfoque de decodificación de dos etapas primero genera un esquema abstracto de la salida, luego llena los detalles para obtener la salida final.

10.-El esquema omite detalles de bajo nivel pero preserva la estructura central de salida compartida por ejemplos con el mismo significado básico.

11.-Separar semántica de alto nivel y bajo nivel hace que la representación del significado sea más compacta a nivel de esquema y proporciona contexto para la decodificación final.

12.-El modelo de dos etapas aprende conjuntamente a predecir esquemas y salidas completas, maximizando la probabilidad de representaciones de significado dadas las entradas de lenguaje natural.

13.-Las plantillas para esquemas se crean de manera determinista eliminando información variable, argumentos de predicado, anonimización de tokens y colapsando cláusulas, dependiendo del lenguaje de representación del significado.

14.-La decodificación de dos etapas mejora la precisión en múltiples conjuntos de datos y lenguajes de representación de significado, mostrando que el enfoque es general.

15.-Para manejar la variación lingüística en cómo se expresan los significados, se utilizan paráfrasis de la pregunta de entrada.

16.-Trabajos previos usaron paráfrasis pero las generaron por separado del sistema de preguntas-respuestas: los dos componentes necesitan integrarse.

17.-El enfoque propuesto entrena conjuntamente un modelo de puntuación de paráfrasis junto con el modelo de preguntas-respuestas para un sistema integrado de extremo a extremo.

18.-El modelo de paráfrasis es crucial: si las paráfrasis son malas, todo el sistema falla. Las paráfrasis se generan mediante pivote.

19.-El pivote traduce la entrada a un idioma extranjero y de vuelta para obtener paráfrasis. Se usan múltiples idiomas de pivote para robustez.

20.-Se utiliza un sistema de traducción automática neuronal para el pivote, típicamente basado en una arquitectura codificador-decodificador con atención.

21.-Generar paráfrasis permite al sistema integrado manejar preguntas que están formuladas de manera diferente a las vistas en el entrenamiento.

22.-El sistema integrado de paráfrasis y preguntas-respuestas supera a enfoques anteriores en conjuntos de datos de referencia para análisis semántico.

23.-Conclusiones clave: las arquitecturas codificador-decodificador funcionan bien para el análisis semántico, la decodificación restringida es importante para la buena formación y la paráfrasis mejora la robustez.

24.-Los modelos son generales en conjuntos de datos y representaciones de significado. El trabajo futuro incluye pruebas en más idiomas/domínios y aprendizaje solo de bases de datos.

25.-Se plantea la generación de paráfrasis mediante GANs como una alternativa al pivote a través de otros idiomas que podría explorarse.

26.-Ponderar la pérdida del esquema más que la pérdida de la salida final ayuda, ya que predecir buenos esquemas es importante.

27.-El ajuste fino de grandes modelos de lenguaje preentrenados podría ayudar, especialmente para conjuntos de datos pequeños, pero los beneficios pueden disminuir para conjuntos de entrenamiento muy grandes.

28.-El uso de embeddings de BERT podría potencialmente mejorar la puntuación de similitud entre paráfrasis y preguntas originales.

29.-El aprendizaje por refuerzo podría aplicarse cuando solo la respuesta final, no la forma lógica completa, está disponible para el entrenamiento.

30.-Con solo la respuesta final, muchas formas lógicas podrían ser correctas, por lo que el aprendizaje por refuerzo con recompensas por buena formación podría guiar la búsqueda.

Bóveda de Conocimiento construida porDavid Vivancos 2024