Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-Trabajando con Artur Klein en tecnología de verificación de datos, aplicando enfoques basados en lógica de Markov a bases de datos relacionales.
2.-Manejando grandes conjuntos de datos biológicos distribuidos a través de centros de investigación, con tablas de genes, individuos y expresiones génicas.
3.-El objetivo es responder preguntas sobre los vínculos entre genes y enfermedades, impactos ambientales, etc. usando un modelo global.
4.-El enfoque está en la factorización de matrices colectivas en lugar de redes lógicas de Markov o factorización de tensores.
5.-La factorización de matrices colectivas trabaja en una matriz de relación única con tipos de entidades en filas y columnas.
6.-El aprendizaje multivista concatena varias matrices, con m vistas teniendo m+1 tipos de entidades.
7.-La factorización de matrices colectivas permite "relaciones circulares" que no pueden ser representadas por simple concatenación de matrices.
8.-Ejemplos son sitios web vinculados a artículos vendidos a usuarios, o bases de datos relacionales generales con esquemas arbitrarios.
9.-Matemáticamente, los valores de matriz se expresan usando representaciones latentes con un término de sesgo. Varias distribuciones de ruido son posibles.
10.-El modelo estándar se aprende usando recurrencia matemática, pero son posibles mejoras para aplicaciones a gran escala.
11.-La factorización de matrices colectivas puede interpretarse como descomposición de una matriz simétrica con datos faltantes.
12.-Los esquemas de bases de datos generales pueden representarse como una matriz simétrica de bajo rango a ser factorizada.
13.-Sin embargo, fijar el rango de la matriz de cada vista es indeseable. Las vistas pueden tener complejidades diferentes.
14.-Se introducen embeddings de grupo escaso, con priors gaussianos agrupados por tipo de entidad, permitiendo rangos específicos por vista.
15.-La determinación automática de relevancia bayesiana poda dimensiones irrelevantes, llevando a ceros exactos en los embeddings.
16.-Permite la compresión representando cada matriz en su forma relevante de bajo rango.
17.-Usa optimización alterna de forma cerrada en lugar de SGD. Manejo especial para datos no gaussianos.
18.-Experimento en datos de expresión génica multivista muestra beneficio de la escasez de grupo y factorización colectiva sobre alternativas.
19.-El experimento de imágenes faciales demuestra la utilidad de incorporar información de proximidad de píxeles cuando los datos son limitados.
20.-Las simulaciones confirman ventajas de manejar adecuadamente datos binarios y usar Bayes variacional sobre el máximo a posteriori.
21.-La factorización de matrices colectivas es flexible y genérica. Muchos conjuntos de datos tienen una configuración multivista aumentada.
22.-El aprendizaje bayesiano variacional funciona bien sin parámetros de ajuste, a diferencia de los métodos basados en optimización.
23.-El trabajo en curso incluye consultar el modelo, razonamiento aproximado, enfoques bayesianos convexos y manejo de enlaces faltantes.
24.-Potencial aplicación emocionante para el aprendizaje preservando la privacidad compartiendo embeddings en lugar de datos en bruto.
25.-Paquete R disponible para usar el método.
26.-Datos composicionales como imágenes pueden manejarse creando una matriz de características y concatenándola.
27.-Cuestión abierta sobre tratar relaciones faltantes como ceros y el impacto en la ortogonalidad de los embeddings.
28.-Grandes matrices simétricas que representan la base de datos completa pueden tener muchos bloques correspondientes a relaciones inexistentes.
29.-El presentador está interesado en experimentar con el impacto de tratar estos como ceros o datos faltantes.
Bóveda del Conocimiento construida porDavid Vivancos 2024