Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-Arbitrariedad: Sin relación entre formas de palabras y significados. Cambiar una letra resulta en cambios de significado impredecibles (por ejemplo, "car" vs "bar").
2.-Composicionalidad: El significado cambia sistemáticamente cuando se combinan partes (por ejemplo, "John baila" vs "Mary baila"). Permite generalización más allá de la memorización.
3.-Modelos clásicos de lenguaje neuronal: Memorización mediante incrustaciones de palabras, generalización mediante funciones de composición aprendidas sobre incrustaciones.
4.-Los modismos desafían la composicionalidad a nivel de palabra, requiriendo memorización también a nivel de oración (por ejemplo, "kicked the bucket").
5.-La morfología muestra que las formas de las palabras no son independientes: la estructura subpalabra importa, especialmente en algunos idiomas.
6.-Los modelos a nivel de carácter pueden capturar arbitrariedad y composicionalidad. Mejora sobre la búsqueda de palabras para idiomas morfológicamente ricos.
7.-Los modelos subpalabra requieren menos parámetros para representar un idioma en comparación con los modelos a nivel de palabra. Beneficia entornos de bajos recursos.
8.-Los modelos de caracteres generan incrustaciones plausibles para palabras nonce, demostrando capacidad de generalización.
9.-Los transductores de estado finito pueden analizar palabras en morfemas, pero tienen ambigüedad al operar sobre tipos vs tokens.
10.-Los modelos de lenguaje de vocabulario abierto buscan modelar todas las cadenas posibles, no un vocabulario fijo. Útil para idiomas morfológicamente ricos.
11.-Incorporar conocimiento morfológico basado en FST en LMs neuronales mejora la perplejidad. Muestra el beneficio de la estructura lingüística explícita.
12.-Resumen hasta ahora: Los modelos de caracteres/subpalabras ayudan para la morfología y problemas de vocabulario fuera de contexto. La estructura explícita proporciona más ganancias.
13.-La estructura jerárquica del lenguaje es incontrovertible, aunque los detalles exactos son debatidos. Apoyada por fenómenos como la concesión de licencias NPI.
14.-NPIs como "anybody" deben seguir una negación como "not" en una configuración estructural precisa, no solo linealmente.
15.-La evidencia translingüística apoya generalizaciones jerárquicas basadas en agrupaciones percibidas, no en orden lineal. Un aprendiz imparcial podría adquirir cualquiera de los dos.
16.-Las Gramáticas de Redes Neuronales Recurrentes (RNNGs) buscan capturar la estructura jerárquica con mínimas extensiones a las RNNs.
17.-Las RNNGs generan tanto terminales (palabras) como símbolos no terminales que indican agrupaciones de frases. Los no terminales desencadenan operaciones de composición.
18.-La composición implica extraer el no terminal y sus constituyentes hijos, componer sus incrustaciones y empujar el resultado como un solo constituyente.
19.-La composición sintáctica en RNNGs captura la noción lingüística de jefatura usando RNNs bidireccionales sobre los hijos.
20.-Las RNNGs evitan la marginalización sobre árboles requerida por gramáticas simbólicas. El muestreo de importancia permite la inferencia.
21.-Las RNNGs generativas superan a los modelos discriminativos para el análisis de constituyentes, posiblemente debido a una mejor coincidencia con la naturaleza generativa de la sintaxis subyacente.
22.-Las RNNGs también son modelos de lenguaje fuertes, superando a las bases LSTM. Un solo modelo sirve como analizador y LM.
23.-Los modelos de caracteres/subpalabras y la estructura explícita representan dos enfoques para dotar a los modelos neuronales de conocimiento lingüístico.
24.-Los resultados sugieren que la estructura lingüística, especialmente la jerarquía, beneficia a los modelos neuronales para el procesamiento del lenguaje.
25.-Hipótesis guía: Diseñar modelos alrededor de principios lingüísticos clave conduce a mejores tecnologías del lenguaje en comparación con ignorar la estructura lingüística.
Bóveda de Conocimiento construida por David Vivancos 2024