Conocimiento Bóveda 2/6 - ICLR 2014-2023
Arto Klami; Guillaume Bouchard; Abhishek Tripathi ICLR 2014 - Embeddings de Grupo Escaso en Factorización de Matrices Colectivas
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef factorization fill:#f9d4d4, font-weight:bold, font-size:14px; classDef data fill:#d4f9d4, font-weight:bold, font-size:14px; classDef methods fill:#d4d4f9, font-weight:bold, font-size:14px; classDef applications fill:#f9f9d4, font-weight:bold, font-size:14px; A[Principal] --> B[Tecnología de verificación de datos, enfoques
basados en lógica de Markov 1] A --> C[Grandes conjuntos de datos biológicos
a través de centros de investigación 2] A --> E[Enfoque en factorización de matrices
colectivas, no Markov 4] A --> I[Ejemplos: sitios web, artículos,
usuarios, bases de datos 8] A --> R[Optimización alterna,
datos no gaussianos 17] A --> W[Aprendizaje bayesiano variacional:
sin ajuste 22] C --> D[Responder preguntas: genes,
enfermedades, medio ambiente 3] E --> F[Matriz de relación única 5] E --> G[Aprendizaje multivista:
matrices concatenadas 6] E --> H[Relaciones circulares
representadas 7] E --> L[Factorización: descomposición de
datos simétricos faltantes 11] E --> M[Esquemas como matriz
simétrica de bajo rango 12] E --> N[Matices de rango fijo
indeseables 13] E --> O[Embeddings de grupo escaso:
priors gaussianos 14] E --> Q[Compresión: representación de
matriz de bajo rango 16] E --> V[Configuración multivista
flexible, genérica, aumentada 21] I --> J[Valores de matriz: representaciones
latentes, sesgo 9] I --> AA[Datos composicionales:
concatenación de matriz de características 26] I --> AB[Relaciones faltantes como
ceros impactan ortogonalidad 27] I --> AC[Grandes matrices simétricas:
bloques de relación inexistentes 28] O --> P[Determinación de relevancia
bayesiana poda dimensiones 15] R --> K[Modelo estándar: recurrencia
matemática, mejoras 10] R --> S[Expresión génica multivista
se beneficia de escasez de grupo 18] R --> T[Imágenes faciales: proximidad
de píxeles ayuda 19] R --> U[Simulaciones: datos binarios,
ventajas de Bayes variacional 20] W --> X[Trabajo en curso: consulta,
razonamiento, Bayes convexo 23] W --> Y[Aprendizaje preservando privacidad
vía embeddings compartidos 24] W --> Z[Paquete R disponible 25] AC --> AD[Tratar bloques como
ceros/datos faltantes 29] class E,F,G,H,L,M,N,O,P,Q,V factorization; class B,C,I,AA,AB,AC,AD data; class D,J,K,R,S,T,U,W methods; class Y,Z applications;

Resumen:

1.-Trabajando con Artur Klein en tecnología de verificación de datos, aplicando enfoques basados en lógica de Markov a bases de datos relacionales.

2.-Manejando grandes conjuntos de datos biológicos distribuidos a través de centros de investigación, con tablas de genes, individuos y expresiones génicas.

3.-El objetivo es responder preguntas sobre los vínculos entre genes y enfermedades, impactos ambientales, etc. usando un modelo global.

4.-El enfoque está en la factorización de matrices colectivas en lugar de redes lógicas de Markov o factorización de tensores.

5.-La factorización de matrices colectivas trabaja en una matriz de relación única con tipos de entidades en filas y columnas.

6.-El aprendizaje multivista concatena varias matrices, con m vistas teniendo m+1 tipos de entidades.

7.-La factorización de matrices colectivas permite "relaciones circulares" que no pueden ser representadas por simple concatenación de matrices.

8.-Ejemplos son sitios web vinculados a artículos vendidos a usuarios, o bases de datos relacionales generales con esquemas arbitrarios.

9.-Matemáticamente, los valores de matriz se expresan usando representaciones latentes con un término de sesgo. Varias distribuciones de ruido son posibles.

10.-El modelo estándar se aprende usando recurrencia matemática, pero son posibles mejoras para aplicaciones a gran escala.

11.-La factorización de matrices colectivas puede interpretarse como descomposición de una matriz simétrica con datos faltantes.

12.-Los esquemas de bases de datos generales pueden representarse como una matriz simétrica de bajo rango a ser factorizada.

13.-Sin embargo, fijar el rango de la matriz de cada vista es indeseable. Las vistas pueden tener complejidades diferentes.

14.-Se introducen embeddings de grupo escaso, con priors gaussianos agrupados por tipo de entidad, permitiendo rangos específicos por vista.

15.-La determinación automática de relevancia bayesiana poda dimensiones irrelevantes, llevando a ceros exactos en los embeddings.

16.-Permite la compresión representando cada matriz en su forma relevante de bajo rango.

17.-Usa optimización alterna de forma cerrada en lugar de SGD. Manejo especial para datos no gaussianos.

18.-Experimento en datos de expresión génica multivista muestra beneficio de la escasez de grupo y factorización colectiva sobre alternativas.

19.-El experimento de imágenes faciales demuestra la utilidad de incorporar información de proximidad de píxeles cuando los datos son limitados.

20.-Las simulaciones confirman ventajas de manejar adecuadamente datos binarios y usar Bayes variacional sobre el máximo a posteriori.

21.-La factorización de matrices colectivas es flexible y genérica. Muchos conjuntos de datos tienen una configuración multivista aumentada.

22.-El aprendizaje bayesiano variacional funciona bien sin parámetros de ajuste, a diferencia de los métodos basados en optimización.

23.-El trabajo en curso incluye consultar el modelo, razonamiento aproximado, enfoques bayesianos convexos y manejo de enlaces faltantes.

24.-Potencial aplicación emocionante para el aprendizaje preservando la privacidad compartiendo embeddings en lugar de datos en bruto.

25.-Paquete R disponible para usar el método.

26.-Datos composicionales como imágenes pueden manejarse creando una matriz de características y concatenándola.

27.-Cuestión abierta sobre tratar relaciones faltantes como ceros y el impacto en la ortogonalidad de los embeddings.

28.-Grandes matrices simétricas que representan la base de datos completa pueden tener muchos bloques correspondientes a relaciones inexistentes.

29.-El presentador está interesado en experimentar con el impacto de tratar estos como ceros o datos faltantes.

Bóveda del Conocimiento construida porDavid Vivancos 2024