Conocimiento Bóveda 2/10 - ICLR 2014-2023
Karl Moritz Hermann; Phil Blunsom ICLR 2014 - Representaciones Distribuidas Multilingües sin Alineación de Palabras
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef multilingual fill:#f9d4d4, font-weight:bold, font-size:14px; classDef embeddings fill:#d4f9d4, font-weight:bold, font-size:14px; classDef distributional fill:#d4d4f9, font-weight:bold, font-size:14px; classDef multilingualData fill:#f9f9d4, font-weight:bold, font-size:14px; classDef compositionalSemantics fill:#f9d4f9, font-weight:bold, font-size:14px; classDef learning fill:#d4f9f9, font-weight:bold, font-size:14px; classDef evaluation fill:#f9d4d4, font-weight:bold, font-size:14px; classDef corpus fill:#d4f9d4, font-weight:bold, font-size:14px; classDef misc fill:#d4d4f9, font-weight:bold, font-size:14px; A[Karl Moritz
Hermann et al] --> B[Representaciones distribucionales
multilingües, sin alineación. 1] A --> C[Embeddings: extienden la hipótesis
distribucional, multilingüe. 2] C --> D[La hipótesis distribucional infiere
significado de la co-ocurrencia. 3] C --> E[Datos multilingües: palabras
semánticamente cercanas si están alineadas. 4] E --> F[Datos multilingües fundamentan
el lenguaje como experiencias del mundo real. 5] A --> G[Semántica composicional
completa: parafraseo, traducción. 6] G --> H[Trabajo anterior: error de autoencoder,
clasificación de sentimientos. 7] G --> I[Objetivos: espacio semántico multilingüe,
evitar sesgos. 8] I --> J[Modelo simple: cercano si
alineado, distante si no. 9] I --> K[Beneficios: independiente de la tarea,
multilingüe, espacio semántico conjunto. 10] I --> L[Minimización de distancia tiene solución
trivial, usar pérdida de bisagra. 11] I --> M[Modelo de composición de bolsa de palabras
por simplicidad. 12] A --> N[Evaluación: clasificación de documentos
cruzados, Alemán-Inglés. 13] N --> O[Dos etapas: aprender representaciones
multilingües, entrenar clasificador. 14] N --> P[Inglés-Francés mejoró Alemán
a pesar de no tener datos adicionales en Alemán. 15] N --> Q[T-SNE: representaciones aprendidas
agrupan frases a través de idiomas. 16] N --> R[Composición de bigramas considerando
el orden de palabras superó a bolsa de palabras. 17] A --> S[Modelo recursivo: nivel de frase/oración,
no se necesita alineación. 18] S --> T[Entrenar en corpora comparables/transcritos,
combinar señales cuando estén disponibles. 19] A --> U[Corpus masivamente multilingüe de TED talks,
12 idiomas, multi-etiqueta. 20] A --> V[Datos monolingües no utilizados,
pero podrían ayudar. 21] A --> W[Neurociencia: bilingües tempranos vs tardíos
tienen representaciones mezcladas vs separadas. 22] A --> X[Más elegante que el aprendizaje multilingüe
basado en autoencoder a través de árboles. 23] class A,B,C,D,E,F,I,J,K,L,M,P,Q,V,W,X multilingual; class C,D,E embeddings; class D,E,F,G distributional; class E,F,P multilingualData; class G,H,I compositionalSemantics; class J,K,L,M,O,S,T learning; class N,O,P,Q,R evaluation; class U,V corpus; class W,X misc;

Resumen:

1.-La charla discute representaciones distribucionales multilingües sin alineación de palabras, con el objetivo de desarrollar corpora paralelos y lograr transferencia semántica entre idiomas.

2.-Los embeddings se aprenden extendiendo la hipótesis distribucional a corpora multilingües y al nivel de oración.

3.-La hipótesis distribucional postula que el significado de las palabras puede inferirse de las palabras con las que co-ocurren. Esto es más poderoso con datos multilingües.

4.-Los datos multilingües permiten aprender que las palabras en diferentes idiomas son semánticamente cercanas si se alinean con la misma palabra en otro idioma.

5.-Los datos multilingües pueden proporcionar una forma de fundamentación semántica, similar a cómo las experiencias del mundo real fundamentan el aprendizaje del lenguaje en teorías lingüísticas tradicionales.

6.-Las razones para perseguir la semántica composicional completa incluyen el parafraseo (verificar si las oraciones tienen aproximadamente el mismo significado) y la traducción.

7.-El trabajo anterior sobre semántica composicional utilizó funciones objetivo como el error de reconstrucción de autoencoder o señales de clasificación como el sentimiento. Se cuestiona la utilidad de estos.

8.-Los objetivos son aprender representaciones en un espacio semántico multilingüe mientras se evitan sesgos específicos de la tarea y se tienen en cuenta los efectos de composición.

9.-Un modelo simple garantizaría que las representaciones de oraciones en dos idiomas sean cercanas si las oraciones están alineadas y distantes si no lo están.

10.-Los beneficios son el aprendizaje independiente de la tarea, representaciones multilingües, representaciones de espacio conjunto semánticamente plausibles y el uso de grandes contextos de modelos de vectores composicionales.

11.-El objetivo de minimización de distancia por sí solo tiene una solución trivial. En su lugar, se utiliza una pérdida de bisagra de contraste de ruido que fuerza la separación de oraciones no alineadas.

12.-Se utiliza un modelo de composición de bolsa de palabras por simplicidad para centrarse en evaluar el objetivo bilingüe en lugar del método de composición.

13.-La evaluación utiliza una tarea de clasificación de documentos cruzados, clasificando datos alemanes basados en etiquetas de datos en inglés. Esto prueba tanto la validez monolingüe como multilingüe.

14.-El procedimiento de dos etapas primero aprende representaciones multilingües a partir de datos paralelos, luego entrena un clasificador en las representaciones aprendidas.

15.-Agregar datos de inglés-francés mejoró las representaciones alemanas a pesar de no tener datos adicionales en alemán, apoyando la hipótesis distribucional extendida a múltiples idiomas.

16.-Las proyecciones de T-SNE muestran que las representaciones aprendidas agrupan frases con significados similares en inglés, alemán y francés muy juntas.

17.-Experimentos posteriores con un modelo de composición de bigramas considerando el orden de las palabras superaron al modelo de bolsa de palabras.

18.-Se desarrolló un modelo recursivo para aprender representaciones a nivel de frase y oración, eliminando la necesidad de alineación de oraciones.

19.-Esto permite entrenar en corpora comparables o transcritos con alineación a nivel de documento y combinar señales a nivel de documento y oración cuando estén disponibles.

20.-Se construyó un nuevo corpus masivamente multilingüe de transcripciones de TED talks en 12 idiomas para clasificación multi-etiqueta.

21.-La charla apuntó a validar puramente la extensión de la hipótesis distribucional a datos multilingües, por lo que no se utilizaron datos monolingües, aunque podrían ayudar.

22.-La neurociencia muestra que los aprendices bilingües tempranos vs tardíos tienen representaciones mezcladas vs separadas. No se exploraron los efectos del aprendizaje secuencial, pero parecen valer la pena intentar.

23.-Se argumentó que el enfoque multilingüe es más elegante que el aprendizaje de representaciones multilingües basado en autoencoder reciente, que requiere generación a través de árboles fuente.

Bóveda de Conocimiento construida porDavid Vivancos 2024