Conocimiento Bóveda 5 /67 - CVPR 2021
Desafíos y Progreso de Modelos de Lenguaje
Noah Smith
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef models fill:#f9d4d4, font-weight:bold, font-size:14px classDef data fill:#d4f9d4, font-weight:bold, font-size:14px classDef evaluation fill:#d4d4f9, font-weight:bold, font-size:14px classDef efficiency fill:#f9f9d4, font-weight:bold, font-size:14px classDef future fill:#f9d4f9, font-weight:bold, font-size:14px A["Desafíos y Progreso de Modelos de Lenguaje"] --> B["Modelos de lenguaje: núcleo de PLN,
impulsados por datos, preentrenables 1"] B --> C["Mejorar cobertura, generalización,
eficiencia, rendimiento clave 2"] A --> D["Evaluaciones de PLN: suposiciones potencialmente erróneas 3"] D --> E["Objetivo de generación similar a la humana
simplifica en exceso, evita algunos contenidos 4"] A --> F["Se necesita más transparencia en conjuntos de datos,
métodos de control 5"] A --> G["Investigación necesaria: entrenamiento,
involucrar evaluadores humanos 6"] A --> H["Visión, PLN pueden aprender
de los métodos de cada uno 7"] A --> I["GroK: elimina parámetros de tipo de palabra,
permite cambios de vocabulario 8"] I --> J["GroK utiliza fuentes externas
para representaciones de palabras 9"] I --> K["GroK sobresale fuera de dominio,
funciona con lexicones más pequeños 10"] I --> L["La visión puede beneficiarse de
modelos similares a GroK 11"] A --> M["Transformadores comunes en modelado
de lenguaje, atención computacionalmente costosa 12"] M --> N["Transformadores eficientes benefician
grupos de recursos altos y bajos 13"] M --> O["Características de Fourier aleatorias pueden
hacer la atención más eficiente 14"] O --> P["Atención de características aleatorias RFA:
tiempo lineal, espacio constante 15"] O --> Q["RFA implica sesgo de recencia,
puede ayudar si es correcto 16"] O --> R["RFA: 2x aceleración de traducción,
mantiene rendimiento 17"] O --> S["RFA afecta mínimamente la perplejidad,
puede mejorar con técnicas 18"] O --> T["RFA competitiva en velocidad,
precisión en tareas de texto largo 19"] O --> U["Modelos preentrenados adaptables
a RFA intercambiando capas 20"] A --> V["Quedan desafíos: evaluación, adaptabilidad,
eficiencia, se necesita investigación continua 21"] A --> W["Áreas futuras: impactos sociales,
interacción humana, multilingüismo 22"] A --> X["Colaboración Visión-PLN tiene
gran potencial para ambos 23"] A --> Y["Genie: evaluaciones humanas estandarizadas
para investigación metodológica 24"] A --> Z["Conjunto de datos C4 para T5
lanzado para transparencia 25"] class B,C,I,J,K,L,M,N,O,P,Q,R,S,T,U models class Z,F data class D,E,G,Y,V evaluation class H,W,X future

Resumen:

1.- Los modelos de lenguaje son centrales en las soluciones actuales de PLN, construidos a partir de datos de texto sin procesar y pueden preentrenarse por separado de los modelos específicos de tareas.

2.- Mejorar la cobertura, generalización, eficiencia y rendimiento de los modelos de lenguaje es clave, ya que impactan todas las áreas de aplicación de PLN.

3.- Algunas evaluaciones de PLN con jueces humanos pueden basarse en suposiciones erróneas sobre la percepción humana del lenguaje generado por máquinas.

4.- Aspirar a la generación de lenguaje similar a la humana simplifica en exceso lo que generan los humanos; los sistemas de PLN no deberían emular algunos contenidos creados por humanos.

5.- Se necesita mayor transparencia en los conjuntos de datos subyacentes a los modelos de lenguaje, junto con mejores métodos para analizarlos y controlarlos.

6.- Se necesita más investigación sobre cómo entrenar e involucrar a evaluadores humanos para proporcionar información útil para mejorar los sistemas de PLN.

7.- Las comunidades de visión por computadora y PLN pueden aprender unas de otras respecto al papel de los humanos no investigadores en la metodología de investigación.

8.- GroK es un modelo de lenguaje que elimina parámetros específicos de tipo de palabra, permitiendo que el vocabulario cambie sin volver a aprender nada.

9.- GroK incorpora fuentes de información externas como léxicos y diccionarios para fundamentar las representaciones de palabras.

10.- GroK supera a las bases no composicionales en configuraciones fuera de dominio y es robusto a lexicones más pequeños, relevante para dominios técnicos.

11.- La visión por computadora puede beneficiarse de modelos similares a GroK para tareas con grandes conjuntos de etiquetas y pocas observaciones de entrenamiento por etiqueta.

12.- Los transformadores se utilizan comúnmente como función de codificación en el modelado de lenguaje, con capas de atención siendo computacionalmente costosas para secuencias largas.

13.- Hacer los transformadores más eficientes beneficia tanto a los grupos de recursos altos que empujan los límites del modelo como a los grupos de recursos bajos que hacen más con menos.

14.- Las capas de atención pueden hacerse más eficientes reemplazando productos internos exponenciados con funciones lineales usando características de Fourier aleatorias.

15.- La atención de características aleatorias (RFA) se ejecuta en tiempo lineal y espacio constante, diseñada como un reemplazo directo para la atención estándar basada en softmax.

16.- RFA lleva a una suposición de sesgo de recencia en los transformadores, lo que puede ayudar a la generalización si la suposición es correcta.

17.- RFA logra casi el doble de aceleración en la decodificación en los benchmarks de traducción automática mientras mantiene el rendimiento, superando a otros métodos de atención eficientes.

18.- RFA tiene un efecto mínimo en la perplejidad en el modelado de lenguaje y puede incluso mejorar el rendimiento con técnicas adicionales como el paso de estado entre lotes.

19.- RFA es competitiva en velocidad y precisión en benchmarks de clasificación de texto largo en comparación con otros enfoques de atención eficientes.

20.- Los modelos de lenguaje preentrenados pueden adaptarse para usar atención lineal intercambiando capas RFA mientras se dejan algunas sin cambios.

21.- Quedan desafíos en la evaluación, adaptabilidad y eficiencia de los modelos de lenguaje y transformadores, requiriendo investigación y colaboración continuas.

22.- Los impactos sociales y ambientales, aplicaciones, preocupaciones de interacción humana y multilingüismo en PLN son áreas importantes para futuras discusiones.

23.- La colaboración entre visión por computadora y PLN tiene un gran potencial para avanzar en ambos campos.

24.- Genie es un nuevo tablero que ofrece evaluaciones humanas estandarizadas para tareas de PLN para facilitar la investigación sobre metodología de evaluación.

25.- C4, el conjunto de datos utilizado para construir el modelo de lenguaje T5 de Google, ha sido publicado para promover la transparencia.

Bóveda de Conocimiento construida por David Vivancos 2024