Conocimiento Bóveda 6 /57 - ICML 2020
Aprendizaje a pesar de lo desconocido - imputación de datos faltantes en el cuidado de la salud
Mihaela van der Schaar
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4f9, font-weight:bold, font-size:14px classDef challenges fill:#f9d4d4, font-weight:bold, font-size:14px classDef methods fill:#d4f9d4, font-weight:bold, font-size:14px classDef models fill:#d4d4f9, font-weight:bold, font-size:14px classDef applications fill:#f9f9d4, font-weight:bold, font-size:14px classDef future fill:#d4f9f9, font-weight:bold, font-size:14px Main["Aprendizaje a pesar de lo
desconocido - imputación de
datos faltantes en
el cuidado de la salud"] --> A["Desafíos en ML para el cuidado de la salud"] Main --> B["Métodos de Manejo de Datos"] Main --> C["Modelos y Técnicas de ML"] Main --> D["Aplicaciones y Sistemas"] Main --> E["Direcciones Futuras"] A --> A1["ML para el cuidado de la salud: complejo, mal definido, difícil
de verificar 1"] A --> A2["La imputación de datos faltantes es crucial para
AutoML 3"] A --> A3["Los juicios clínicos moldean los patrones de datos
faltantes 10"] A --> A4["La inferencia requiere detección de puntos de cambio,
MLE 14"] A --> A5["La imputación maneja tipos de datos mixtos 28"] A --> A6["RNNs bidireccionales no son adecuadas para predicciones
clínicas 29"] B --> B1["GAIN: imputaciones múltiples efectivas sin
datos completos 4"] B --> B2["GAIN generaliza GANs con pistas del discriminador
5"] B --> B3["GAIN supera a medida que aumentan las tasas de
faltantes 6"] B --> B4["MRNN: interpolación, imputación para series de
tiempo 7"] B --> B5["MRNN adapta RNNs bidireccionales a
causal 8"] B --> B6["MRNN supera a los estándares en varios
conjuntos de datos 9"] C --> C1["El modelo semi-Markov captura trayectorias de pacientes 11"] C --> C2["Los procesos de Hawkes modelan el comportamiento de muestreo
de los clínicos 12"] C --> C3["Los procesos gaussianos modelan signos vitales
irregulares 13"] C --> C4["La inferencia en tiempo real utiliza filtrado hacia adelante,
programación 15"] C --> C5["El muestreo informativo mejora las predicciones de deterioro 16"] C --> C6["El modelo descubre estados, proporciona interpretabilidad 17"] D --> D1["AutoML adapta modelos a situaciones
cambiantes 2"] D --> D2["La colección activa de información determina estrategias de
cribado 18"] D --> D3["Deep Sensing explora las compensaciones costo-rendimiento 19"] D --> D4["Clairvoyance: pipeline unificado para predicciones
personalizadas 20"] D --> D5["Autoprognosis construye pipelines completos de ML 25"] D --> D6["El sistema de ML pronostica riesgos de COVID-19,
recursos 27"] E --> E1["ML revoluciona el cuidado de la salud con medicina
de precisión 21"] E --> E2["Aumentar, no reemplazar, al personal médico 22"] E --> E3["Los datos de EHR mejoran la práctica clínica,
investigación 23"] E --> E4["El descubrimiento causal mejora el desarrollo de fármacos 24"] E --> E5["COVID-19 requiere ML para decisiones
clínicas 26"] E --> E6["El valor de la información clínica requiere aprendizaje
adaptativo 30"] class Main main class A,A1,A2,A3,A4,A5,A6 challenges class B,B1,B2,B3,B4,B5,B6 methods class C,C1,C2,C3,C4,C5,C6 models class D,D1,D2,D3,D4,D5,D6 applications class E,E1,E2,E3,E4,E5,E6 future

Resumen:

1.- El aprendizaje automático para el cuidado de la salud es complejo debido a problemas mal definidos y soluciones difíciles de verificar.

2.- El aprendizaje automático automatizado permite crear modelos para diversas enfermedades y necesidades, adaptándose a situaciones cambiantes.

3.- La imputación de datos faltantes es crucial en conjuntos de datos clínicos para un aprendizaje automático efectivo.

4.- GAIN (Redes de Imputación Generativa Adversarial) realiza imputaciones múltiples efectivas incluso cuando no hay datos completos disponibles.

5.- GAIN generaliza GANs proporcionando pistas al discriminador sobre qué datos son reales y cuáles son imputados.

6.- GAIN supera a otros métodos de imputación, especialmente a medida que aumentan las tasas de faltantes y en escenarios complejos de datos faltantes.

7.- Las Redes Neuronales Recurrentes Multidireccionales (MRNN) realizan tanto interpolación como imputación para datos de series temporales en entornos clínicos.

8.- MRNN adapta las RNNs bidireccionales para ser causales, aprendiendo de datos actuales y pasados sin usar información futura.

9.- MRNN supera a los estándares en varios conjuntos de datos con diferentes dimensiones, cantidades de datos faltantes y tasas de muestreo.

10.- Los juicios clínicos moldean los patrones de datos faltantes, que pueden aprenderse para mejorar las predicciones.

11.- Un modelo probabilístico utilizando un proceso semi-Markov puede capturar trayectorias de pacientes y muestreo informativo en entornos clínicos.

12.- Los procesos de puntos de Hawkes modelan el comportamiento de muestreo de los clínicos, capturando el impacto de la salud del paciente en la frecuencia de observación.

13.- Los procesos gaussianos multitarea conmutables modelan correlaciones temporales en signos vitales y pruebas de laboratorio muestreados irregularmente.

14.- La inferencia y el aprendizaje en modelos doblemente estocásticos requieren detección de puntos de cambio y técnicas de estimación de máxima verosimilitud.

15.- La inferencia en tiempo real puede realizarse utilizando filtrado hacia adelante y programación dinámica.

16.- Aprender de datos muestreados informativamente mejora el rendimiento en la predicción del deterioro del paciente en comparación con las puntuaciones de riesgo tradicionales.

17.- El modelo probabilístico permite el descubrimiento de estados clínicos distintos y proporciona interpretabilidad del modelo.

18.- La recolección activa de información determina a quién examinar, cuándo examinar y qué información adquirir.

19.- Deep Sensing aprende el valor de la información explorando diferentes compensaciones costo-rendimiento a través de la falta deliberada de datos.

20.- Clairvoyance es un pipeline unificado de extremo a extremo para predicción personalizada, planificación de tratamiento y monitoreo en entornos longitudinales.

21.- El aprendizaje automático puede revolucionar el cuidado de la salud al ofrecer medicina de precisión y mejorar los caminos clínicos.

22.- La visión es aumentar a los clínicos y al personal médico en lugar de reemplazarlos.

23.- Los datos de registros de salud electrónicos pueden usarse para mejorar la práctica clínica y la investigación.

24.- El descubrimiento causal informado por diversas fuentes de datos puede conducir a un mejor desarrollo de fármacos.

25.- Autoprognosis construye pipelines completos que incluyen imputación de datos faltantes, procesamiento de características, clasificación y calibración.

26.- COVID-19 presenta desafíos complejos que requieren aprendizaje automático para asistir en decisiones clínicas difíciles.

27.- Un sistema de aprendizaje automático para COVID-19 pronostica riesgos personalizados y requisitos de recursos a nivel hospitalario y nacional.

28.- Los métodos de imputación necesitan manejar tipos de datos mixtos (categóricos y continuos) en conjuntos de datos clínicos.

29.- Las RNNs bidireccionales, aunque efectivas en algunos dominios, no son causales y por lo tanto no son adecuadas para predicciones clínicas.

30.- El valor de la información en entornos clínicos es desconocido y cambia dinámicamente, requiriendo enfoques de aprendizaje adaptativo.

Bóveda de Conocimiento construida porDavid Vivancos 2024