Conocimiento Bóveda 2/22 - ICLR 2014-2023
Chris Dyer ICLR 2016 - Conferencia Principal - ¿Debería la Arquitectura del Modelo Reflejar la Estructura Lingüística?
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef arbitrariness fill:#f9d4d4, font-weight:bold, font-size:14px; classDef compositionality fill:#d4f9d4, font-weight:bold, font-size:14px; classDef morphology fill:#d4d4f9, font-weight:bold, font-size:14px; classDef hierarchy fill:#f9f9d4, font-weight:bold, font-size:14px; classDef rnng fill:#f9d4f9, font-weight:bold, font-size:14px; classDef grasping fill:#f9d4f9, font-weight:bold, font-size:14px; A[Chris Dyer
ICLR 2016] --> B[Sin relación entre
formas de palabras y significados 1] A --> C[El significado cambia sistemáticamente
cuando se combinan partes 2] C --> D[Memorización mediante incrustaciones,
generalización mediante composición 3] C --> E[Los modismos desafían
la composicionalidad a nivel de palabra 4] A --> F[Morfología:
la estructura subpalabra importa 5] F --> G[Modelos a nivel de carácter capturan
arbitrariedad y composicionalidad 6] F --> H[Modelos subpalabra
requieren menos parámetros 7] F --> I[Modelos de caracteres generan
incrustaciones plausibles de nonce 8] F --> J[FSTs analizan
palabras en morfemas 9] F --> K[LMs de vocabulario abierto modelan
todas las cadenas posibles 10] F --> L[El conocimiento morfológico de FST
mejora los LMs neuronales 11] F --> M[Modelos de caracteres/subpalabras ayudan
para morfología, OOVs 12] A --> N[Estructura jerárquica incontrovertible,
detalles debatidos 13] N --> O[NPIs siguen la negación
en configuración estructural 14] N --> P[La evidencia translingüística apoya
generalizaciones jerárquicas 15] N --> Q[RNNGs capturan jerarquía
con mínimas extensiones 16] Q --> R[RNNGs generan terminales
y símbolos no terminales 17] Q --> S[Composición: pop no terminal
y niños, componer 18] Q --> T[RNNGs capturan la jefatura
usando RNNs bidireccionales 19] Q --> U[RNNGs evitan
marginalización sobre árboles 20] Q --> V[RNNGs generativos superan
para el análisis de constituyentes 21] Q --> W[RNNGs son
modelos de lenguaje fuertes 22] A --> X[Modelos de caracteres/subpalabras y estructura:
enfoques lingüísticos 23] X --> Y[Estructura lingüística, jerarquía
benefician modelos neuronales 24] Y --> Z[Diseñar modelos alrededor de principios
lingüísticos mejora el rendimiento 25] class B arbitrariness; class C,D,E compositionality; class F,G,H,I,J,K,L,M morphology; class N,O,P hierarchy; class Q,R,S,T,U,V,W rnng;

Resumen:

1.-Arbitrariedad: Sin relación entre formas de palabras y significados. Cambiar una letra resulta en cambios de significado impredecibles (por ejemplo, "car" vs "bar").

2.-Composicionalidad: El significado cambia sistemáticamente cuando se combinan partes (por ejemplo, "John baila" vs "Mary baila"). Permite generalización más allá de la memorización.

3.-Modelos clásicos de lenguaje neuronal: Memorización mediante incrustaciones de palabras, generalización mediante funciones de composición aprendidas sobre incrustaciones.

4.-Los modismos desafían la composicionalidad a nivel de palabra, requiriendo memorización también a nivel de oración (por ejemplo, "kicked the bucket").

5.-La morfología muestra que las formas de las palabras no son independientes: la estructura subpalabra importa, especialmente en algunos idiomas.

6.-Los modelos a nivel de carácter pueden capturar arbitrariedad y composicionalidad. Mejora sobre la búsqueda de palabras para idiomas morfológicamente ricos.

7.-Los modelos subpalabra requieren menos parámetros para representar un idioma en comparación con los modelos a nivel de palabra. Beneficia entornos de bajos recursos.

8.-Los modelos de caracteres generan incrustaciones plausibles para palabras nonce, demostrando capacidad de generalización.

9.-Los transductores de estado finito pueden analizar palabras en morfemas, pero tienen ambigüedad al operar sobre tipos vs tokens.

10.-Los modelos de lenguaje de vocabulario abierto buscan modelar todas las cadenas posibles, no un vocabulario fijo. Útil para idiomas morfológicamente ricos.

11.-Incorporar conocimiento morfológico basado en FST en LMs neuronales mejora la perplejidad. Muestra el beneficio de la estructura lingüística explícita.

12.-Resumen hasta ahora: Los modelos de caracteres/subpalabras ayudan para la morfología y problemas de vocabulario fuera de contexto. La estructura explícita proporciona más ganancias.

13.-La estructura jerárquica del lenguaje es incontrovertible, aunque los detalles exactos son debatidos. Apoyada por fenómenos como la concesión de licencias NPI.

14.-NPIs como "anybody" deben seguir una negación como "not" en una configuración estructural precisa, no solo linealmente.

15.-La evidencia translingüística apoya generalizaciones jerárquicas basadas en agrupaciones percibidas, no en orden lineal. Un aprendiz imparcial podría adquirir cualquiera de los dos.

16.-Las Gramáticas de Redes Neuronales Recurrentes (RNNGs) buscan capturar la estructura jerárquica con mínimas extensiones a las RNNs.

17.-Las RNNGs generan tanto terminales (palabras) como símbolos no terminales que indican agrupaciones de frases. Los no terminales desencadenan operaciones de composición.

18.-La composición implica extraer el no terminal y sus constituyentes hijos, componer sus incrustaciones y empujar el resultado como un solo constituyente.

19.-La composición sintáctica en RNNGs captura la noción lingüística de jefatura usando RNNs bidireccionales sobre los hijos.

20.-Las RNNGs evitan la marginalización sobre árboles requerida por gramáticas simbólicas. El muestreo de importancia permite la inferencia.

21.-Las RNNGs generativas superan a los modelos discriminativos para el análisis de constituyentes, posiblemente debido a una mejor coincidencia con la naturaleza generativa de la sintaxis subyacente.

22.-Las RNNGs también son modelos de lenguaje fuertes, superando a las bases LSTM. Un solo modelo sirve como analizador y LM.

23.-Los modelos de caracteres/subpalabras y la estructura explícita representan dos enfoques para dotar a los modelos neuronales de conocimiento lingüístico.

24.-Los resultados sugieren que la estructura lingüística, especialmente la jerarquía, beneficia a los modelos neuronales para el procesamiento del lenguaje.

25.-Hipótesis guía: Diseñar modelos alrededor de principios lingüísticos clave conduce a mejores tecnologías del lenguaje en comparación con ignorar la estructura lingüística.

Bóveda de Conocimiento construida por David Vivancos 2024