Conocimiento Vault 6 /22 - ICML 2017
Aprendizaje Causal
Bernhard Schölkopf
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d9c9, font-weight:bold, font-size:14px classDef foundations fill:#d4f9d4, font-weight:bold, font-size:14px classDef causality fill:#d4d4f9, font-weight:bold, font-size:14px classDef applications fill:#f9f9d4, font-weight:bold, font-size:14px classDef future fill:#f9d4f9, font-weight:bold, font-size:14px Main["Aprendizaje Causal"] Main --> A["Fundamentos de ML"] Main --> B["Conceptos de Causalidad"] Main --> C["Modelos Causales y Aplicaciones"] Main --> D["Desafíos y Direcciones Futuras"] A --> A1["Éxitos de ML: datos, modelos,
computación, IID 1"] A --> A2["La suposición IID se rompe con
intervenciones 2"] A --> A3["La dependencia implica el principio de causa
común 3"] A --> A4["Los datos observacionales son insuficientes para
la dirección causal 4"] A --> A5["Modelos gráficos causales: DAG
con flechas 5"] A --> A6["La distribución observacional hereda propiedades del
gráfico causal 6"] B --> B1["La causalidad compleja complica la prueba de
independencia condicional 7"] B --> B2["La dirección causal es identificable por
huellas del mecanismo 8"] B --> B3["Independencia causa-mecanismo: log fX
p x no correlacionado 9"] B --> B4["La regresión de medio hermano elimina el ruido
sistemático astronómico 10"] B --> B5["La regresión recupera la variable latente
bajo suposiciones 11"] B --> B6["El modelo de ruido aditivo identifica
la dirección causal 12"] C --> C1["Detección de ondas gravitacionales: clasificar
anomalías de tensión 13"] C --> C2["ML justo: paridad demográfica,
igualdad de oportunidades 14"] C --> C3["Justicia causal: decisiones a través de
variables de resolución 15"] C --> C4["Condicionales causales estables a través de
entornos 16"] C --> C5["Modelos causales permiten la descripción más
corta de datos 17"] C --> C6["Aprendizaje multi-entorno encuentra componentes
causales robustos 18"] D --> D1["Modelos causales entre estadísticos
y DE 19"] D --> D2["ML débil en transferencia, intervenciones,
tiempo, contrafactuales 20"] D --> D3["La revolución digital se centra en
información 21"] D --> D4["Impacto de la IA: beneficios y
potencial de trastornos 22"] D --> D5["La comprensión de la información puede ser
incompleta 23"] D --> D6["Dependencias de estructuras causales
asimétricas 24"] class Main main class A,A1,A2,A3,A4,A5,A6 foundations class B,B1,B2,B3,B4,B5,B6 causality class C,C1,C2,C3,C4,C5,C6 applications class D,D1,D2,D3,D4,D5,D6 future

Resumen:

1.- El aprendizaje automático ha tenido éxitos espectaculares en la última década gracias a datos masivos, modelos de alta capacidad, poder de cálculo y datos IID.

2.- La suposición IID no es inocua: recomendar artículos a los usuarios constituye una intervención que deja el entorno IID.

3.- La causalidad y la correlación están conectadas: si dos variables son dependientes, debe haber una tercera que cause ambas (principio de causa común de Reichenbach).

4.- Sin suposiciones, los datos observacionales no pueden distinguir entre X->Y, Y->X y X<-Z->Y. Un modelo causal contiene más información que uno estadístico.

5.- Un modelo gráfico causal representa variables como vértices en un DAG, con flechas para causación directa. Las variables no explicadas proporcionan la aleatoriedad.

6.- Una distribución observacional hereda propiedades del gráfico causal, permitiendo inferir una clase de gráficos probando independencias condicionales en los datos.

7.- La prueba de independencia condicional se vuelve difícil para relaciones causales complejas. Con solo dos variables, no existen independencias condicionales para probar.

8.- La dirección causal puede ser identificable examinando las huellas dejadas por el mecanismo causal en la distribución observada.

9.- La independencia de causa y mecanismo puede formalizarse: log f'(X) y p(x) no están correlacionados si X->Y pero están correlacionados si Y->X.

10.- La regresión de medio hermano se utilizó para eliminar el ruido sistemático en datos astronómicos explicando cada píxel usando otros píxeles que registran diferentes estrellas.

11.- Bajo ciertas suposiciones, la regresión de Y sobre X y la resta de la estimación recupera una variable latente desconocida que afecta a X e Y hasta la expectativa.

12.- El modelo de ruido aditivo (Y=f(X)+N) hace que la dirección causal sea identificable porque un ruido no correlacionado es poco probable en la dirección anti-causal.

13.- Los datos de detección de ondas gravitacionales son muy ruidosos. Clasificar la tensión de su pasado y futuro puede resaltar anomalías como eventos reales.

14.- En ML justo, la paridad demográfica requiere que la decisión sea independiente de los atributos sensibles. Las probabilidades igualadas se condicionan en la etiqueta verdadera.

15.- La justicia puede enmarcarse causalmente: la decisión solo debe depender de los atributos sensibles a través de variables de resolución, no de variables proxy.

16.- Los condicionales causales son más propensos a ser estables a través de entornos que los anti-causales. Los ejemplos adversarios pueden surgir del aprendizaje anti-causal.

17.- Comprimir conjuntamente conjuntos de datos ajustando modelos causales puede revelar mecanismos invariantes. El verdadero SCM debe permitir la descripción más corta.

18.- Aprender un gran modelo causal en datos de multi-entorno podría encontrar componentes robustos a través de la competencia entre mecanismos que se especializan en los entornos.

19.- Una taxonomía coloca modelos causales entre modelos estadísticos y de ecuaciones diferenciales: más poderosos que los estadísticos, más aprendibles que los DE.

20.- En comparación con los animales, ML es débil en transferencia, generalización de intervenciones, utilización del tiempo y razonamiento contrafactual. La causalidad puede ayudar.

21.- Las dos primeras revoluciones industriales se referían a la energía. La actual "revolución digital", que comenzó con la cibernética, se centra en la información.

22.- La revolución industrial tuvo grandes beneficios pero también trastornos. Asumir ingenuamente que todo será positivo con la IA es imprudente.

23.- Tomó más de un siglo después de que comenzara la revolución industrial para comprender profundamente la energía. Puede que aún no comprendamos profundamente la información.

24.- La información estadística puede ser solo un epifenómeno, con dependencias realmente debidas a estructuras causales subyacentes que pueden ser asimétricas.

25.- Muchos colaboradores y estudiantes contribuyeron a los trabajos presentados. El orador les agradeció a ellos y a la audiencia por su atención.

Vault de Conocimiento construido porDavid Vivancos 2024