Conocimiento Bóveda 2/33 - ICLR 2014-2023
Chloé-Agathe Azencott ICLR 2017 - Conferencia Invitada - Selección de características de alta dimensión en medicina de precisión
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef precision fill:#f9d4d4, font-weight:bold, font-size:14px; classDef example fill:#d4f9d4, font-weight:bold, font-size:14px; classDef data fill:#d4d4f9, font-weight:bold, font-size:14px; classDef knowledge fill:#f9f9d4, font-weight:bold, font-size:14px; classDef multitask fill:#f9d4f9, font-weight:bold, font-size:14px; classDef challenges fill:#d4f9f9, font-weight:bold, font-size:14px; classDef resources fill:#f9d4d4, font-weight:bold, font-size:14px; A[Chloé-Agathe Azencott
ICLR 2017] --> B[Medicina de precisión: tratamientos personalizados,
enfoque genético. 1] B --> C[Trastuzumab: ejemplo de medicina de precisión,
cánceres de mama HER2. 2] A --> D[Biología/medicina basada en datos: similitudes
entre pacientes, selección de datos. 3] D --> E[Secuenciación más barata, tamaños de muestra
limitados vs características. 4] D --> F[Herencia faltante: factores genéticos no
identificados, datos de alta dimensión. 5] A --> G[Restricciones de conocimiento previo reducen
dimensionalidad, mejoran interpretabilidad. 6] G --> H[Info de ADN: lineal, vía,
interacción, estructura 3D. 7] G --> I[Selección de características binarias: puntuaciones
de relevancia, regularización estructurada. 8] I --> J[SCONES: selección de SNPs restringida,
redes biológicas, corte mínimo. 9] A --> K[Enfoques multitarea aumentan tamaño
de muestra, rasgos relacionados. 10] K --> L[SCONES multitarea: similitud de características
a través de tareas, corte mínimo. 11] K --> M[Similitud de tareas incorpora relaciones
de tareas en selección de características. 12] K --> N[LASSO multitarea: pesos independientes y
específicos de tarea, descriptores de tarea. 13] A --> O[Estabilidad de características crucial para
interpretabilidad, a menudo pasada por alto. 14] A --> P[Patrones complejos desafiantes con
muestras genómicas limitadas. 15] A --> Q[Valores p para características seleccionadas
en modelos complejos: problema abierto. 16] A --> R[Preocupaciones de privacidad al compartir datos
genéticos, desafíos de aprendizaje. 17] A --> S[Heterogeneidad complica selección de características,
requiere alineación de datos, subgrupos. 18] A --> T[Desafíos de integración de datos diversos
en modelado predictivo interpretable. 19] A --> U[Puntuaciones de riesgo poligénico comunes
pero limitadas, adopción lenta de ML. 20] A --> V[Desafíos de microscopía: segmentación de células,
clasificación, análisis automatizado. 21] A --> W[EHRs: valiosos pero incompletos,
series temporales, datos genéticos multimodales. 22] A --> X[Recursos para no-genetistas aplicando
ML a genética, medicina de precisión. 23] X --> Y[Colaboración ML-genetista necesaria para
investigación del cáncer, otras enfermedades. 24] A --> Z[GWAS enfatiza correlación sobre
causalidad en identificación de biomarcadores. 25] A --> AA[Formalismos de selección de características se asemejan
a teoría de Dempster-Shafer, álgebra de incidencia. 26,27] A --> AB[Desafíos de incertidumbre de datos en
modelos integrativos, probabilidades de error variables. 28,29] AB --> AC[El ponente invita a aportar sobre
métodos para incertidumbre de datos. 30] class A,B,C precision; class D,E,F data; class G,H,I,J knowledge; class K,L,M,N multitask; class O,P,Q,R,S,T,U,V,W challenges; class X,Y,Z,AA,AB,AC resources;

Resumen:

1.-La medicina de precisión busca adaptar tratamientos a especificidades del paciente como genética, estilo de vida y ambiente, enfocándose particularmente en factores genéticos.

2.-Trastuzumab es un ejemplo temprano de medicina de precisión, funcionando efectivamente contra cánceres de mama que sobreexpresan HER2 pero no beneficiando a pacientes que no sobreexpresan.

3.-La biología y medicina basadas en datos identifican similitudes entre pacientes con fenotipos/resultados similares, requiriendo métodos de selección de datos y características.

4.-Los costos de secuenciación están disminuyendo, permitiendo secuenciación genómica a mayor escala, pero los tamaños de muestra siguen siendo limitados en comparación con el número de características.

5.-La herencia faltante se refiere a la incapacidad de identificar la mayoría de los factores genéticos subyacentes a rasgos hereditarios, en parte debido a estadísticas de alta dimensión y baja muestra.

6.-Integrar conocimiento biológico previo como restricciones en el espacio de características puede ayudar a reducir la dimensionalidad y mejorar la interpretabilidad de los modelos.

7.-El ADN tiene información lineal, de grupo (vía), de interacción (gen/proteína) y estructural 3D que puede usarse para restringir la selección de características.

8.-La selección de características binarias usando puntuaciones de relevancia y regularización estructurada puede incorporar eficientemente grandes redes biológicas y manejar datos ruidosos.

9.-SCONES (Scans for Select and Connected Explanatory SNPs) realiza selección de SNPs restringida en redes biológicas, resolviendo un problema de corte mínimo.

10.-Los enfoques multitarea pueden aumentar efectivamente el tamaño de muestra cuando están disponibles múltiples rasgos o resultados relacionados, como en la genética de plantas.

11.-SCONES multitarea impone similitud de características seleccionadas a través de tareas relacionadas extendiendo el regularizador y resolviendo mediante corte mínimo.

12.-La similitud de tareas puede incorporarse aún más en la selección de características multitarea basada en conocimiento previo de relaciones de tareas.

13.-El LASSO multitarea descompone los pesos del modelo en componentes independientes y específicos de tarea, permitiendo el uso de descriptores de tarea para guiar la descomposición.

14.-La estabilidad de las características seleccionadas a través de subconjuntos de datos es crucial para la interpretabilidad del modelo y a menudo se pasa por alto en la selección de características.

15.-Ir más allá de los modelos aditivos para capturar patrones más complejos es desafiante con tamaños de muestra limitados en datos genómicos.

16.-Calcular valores p para características seleccionadas en modelos complejos es un problema abierto importante para la comunidad de genética estadística.

17.-La privacidad es una preocupación importante al compartir datos genéticos, y aprender de datos protegidos por privacidad es un desafío significativo.

18.-La heterogeneidad en poblaciones de muestra y fuentes de datos complica la selección de características y requiere alineación de datos, normalización y modelado de diferencias de subgrupos.

19.-Integrar tipos de datos diversos como expresión génica, metilación, imágenes y texto plantea desafíos para el modelado predictivo interpretable.

20.-La predicción de riesgo usando puntuaciones de riesgo poligénico es común pero limitada, con adopción lenta de modelos de aprendizaje automático más complejos.

21.-Los datos de imagen microscópica son cada vez más disponibles pero presentan desafíos únicos para el análisis automatizado, como la segmentación y clasificación de células.

22.-Los registros electrónicos de salud contienen datos valiosos pero incompletos, de series temporales y multimodales que podrían combinarse con información genética.

23.-El ponente proporciona recursos para no-genetistas interesados en aplicar aprendizaje automático a problemas en genética y medicina de precisión.

24.-Se necesita colaboración entre expertos en aprendizaje automático y genetistas para resolver problemas importantes en investigación del cáncer y otras enfermedades.

25.-En estudios de asociación del genoma completo, a menudo se enfatiza la correlación sobre la causalidad al identificar biomarcadores para selección de tratamientos o pronóstico de enfermedades.

26.-El formalismo para optimizar puntuaciones de relevancia y regularizadores estructurados en selección de características se asemeja a la teoría de Dempster-Shafer, con potencial para exploración adicional.

27.-La alta dimensionalidad de los datos genómicos plantea desafíos para las técnicas de optimización en selección de características, potencialmente beneficiándose de métodos de álgebra de incidencia.

28.-La incertidumbre en diferentes fuentes de datos, como errores de llamada de base en datos genómicos o problemas de rango dinámico en espectrometría de masas, no está bien abordada en modelos integrativos actuales.

29.-Integrar fuentes de datos con probabilidades de error variables a través de características (por ejemplo, nucleótidos, proteínas) sigue siendo un problema abierto en medicina de precisión.

30.-El ponente invita a la audiencia a aportar métodos para manejar la incertidumbre en diferentes fuentes de datos al integrarlas para análisis.

Bóveda de Conocimiento construida porDavid Vivancos 2024