Conocimiento Bóveda 2/42 - ICLR 2014-2023
Bernhard Schoelkopf ICLR 2018 - Charla Invitada - Aprendiendo Mecanismos Causales
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef scholkopf fill:#f9d4d4, font-weight:bold, font-size:14px; classDef causation fill:#d4f9d4, font-weight:bold, font-size:14px; classDef statistics fill:#d4d4f9, font-weight:bold, font-size:14px; classDef machine fill:#f9f9d4, font-weight:bold, font-size:14px; classDef physics fill:#f9d4f9, font-weight:bold, font-size:14px; A[Bernhard Schoelkopf
ICLR 2018] --> B[Schölkopf: SVMs, revolución de kernels. 1] A --> C[Dependencia vs. causalidad: problema histórico. 2] C --> D[Cigüeñas, nacimientos correlación ? causalidad. 3] C --> E[Dependencia implica causa común. 4] C --> F[Datos observacionales no pueden distinguir
causa, efecto. 5] C --> G[Modelos causales > modelos estadísticos. 6] C --> H[Gráfico causal: flechas representan
causalidad directa. 7] H --> I[Distribución cambia por mecanismos
o ruido. 8] H --> J[Factorización incorrecta requiere
cambiar factores. 9] H --> K[Descomposición causal ayuda a aprender
entre tareas. 10] H --> L[Independencia: covarianza de
entrada, mecanismo. 11] L --> M[Dirección causal implica dependencia
en anticausal. 12] C --> N[Captura causal físico,
estadístico es epifenómeno. 13] N --> O[Condición de Markov Causal. 14] N --> P[Causa común vincula dependencia
al gráfico. 15] N --> Q[Complejidad de Kolmogorov formaliza
resultados gráficos. 16] A --> R[Dirección causal importa en ML. 17] R --> S[Aprendizaje semisupervisado:
causal vs anticausal. 18] R --> T[Mecanismos independientes encontraron
nuevos exoplanetas. 19] R --> U[Equidad como problema de inferencia causal. 20] A --> V[Arquitectura neuronal invierte
mecanismos causales. 21] V --> W[Independencia permite especialización
durante el entrenamiento. 22] V --> X[Objetivo: modelos causales estructurales
para transferencia. 23] V --> Y[Representar distribuciones intervencionales
es una pregunta abierta. 24] A --> Z[Causalidad se relaciona con 'pensar'. 25] A --> AA[Revoluciones industriales: vapor, información. 26] AA --> AB[Procesamiento de información industrial
requiere IA. 27] AA --> AC[La información puede conservarse
como la energía. 28] AC --> AD[La IA actual usa procesamiento
de información 'crudo'. 29] A --> AE[Problemas abiertos en causalidad,
aprendizaje de representación. 30] class A,B scholkopf; class C,D,E,F,G,H,I,J,K,L,M,N,O,P,Q causation; class R,S,T,U machine; class V,W,X,Y,Z machine; class AA,AB,AC,AD physics; class AE causation;

Resumen:

1.-Bernhard Schölkopf es conocido por desarrollar máquinas de vectores de soporte y liderar la revolución de los kernels a principios de los 2000 antes del aprendizaje profundo.

2.-La dependencia frente a la causalidad es un gran problema histórico en la filosofía de la ciencia y la ciencia en general.

3.-Hay una fuerte correlación entre el número de cigüeñas y las tasas de natalidad humana en Alemania, pero la correlación no implica causalidad.

4.-Si dos observables X e Y son estadísticamente dependientes, existe una tercera variable Z que influye causalmente en ambos.

5.-Sin suposiciones adicionales, no podemos distinguir causa de efecto basándonos solo en datos observacionales de dos variables.

6.-Un modelo causal contiene genuinamente más información que un modelo estadístico. Los modelos causales fueron desarrollados por Judea Pearl y otros.

7.-En un gráfico causal, las flechas representan causalidad directa. Cada nodo tiene una función que da su valor basado en sus padres.

8.-Cada cambio en una distribución observada debe provenir de un cambio en los condicionales/mecanismos causales o las variables de ruido.

9.-Factorizar una distribución según el gráfico causal incorrecto implica que cambiar un factor requiere cambiar otros para mantener la distribución general.

10.-La descomposición causal en condicionales invariantes facilita el aprendizaje de diferentes tareas/conjuntos de datos, explicando por qué modelar fonemas ayuda a modelar la acústica.

11.-La independencia estadística de causa y mecanismo puede formalizarse como la covarianza nula entre la densidad de entrada y la derivada logarítmica del mecanismo.

12.-Asimetría demostrable: la independencia en la dirección causal implica dependencia en la dirección anticausal, permitiendo inferir causa vs efecto a partir de datos.

13.-La estructura causal captura mecanismos físicos que generan independencia estadística. La estructura estadística es un epifenómeno del modelo causal subyacente.

14.-El modelo causal implica la Condición de Markov Causal: un nodo es condicionalmente independiente de los no descendientes dados sus padres en el gráfico.

15.-El principio de causa común de Reichenbach vincula la dependencia estadística al gráfico causal. Pero la independencia estadística no es fundamental, la independencia causal sí lo es.

16.-La complejidad de Kolmogorov formaliza la independencia sin probabilidad, probando resultados de modelos gráficos. Implica la flecha termodinámica del tiempo a partir del modelo causal.

17.-La dirección causal marca la diferencia en el aprendizaje automático: la dirección generativa muestra independencia entre capas, la discriminativa muestra dependencia creciente.

18.-El aprendizaje semisupervisado es imposible para problemas causales, potencialmente útil para anticausal debido a la dependencia de p(x) y p(y|x). Coincide con los puntos de referencia.

19.-Eliminar la confusión aprovechando mecanismos independientes y la estructura de medio hermano permitió descubrir nuevos exoplanetas en los datos del telescopio Kepler.

20.-Imponer equidad puede enmarcarse como un problema de inferencia causal. Técnica desarrollada usando métodos causales.

21.-La arquitectura neuronal aprende a invertir mecanismos causales independientes a partir de datos mixtos mediante la competencia entre expertos y la retroalimentación del discriminador.

22.-La independencia de los mecanismos causales permite la especialización de expertos en los mecanismos durante el entrenamiento competitivo. Se generaliza a nuevas clases de entrada.

23.-El objetivo es aprender modelos causales estructurales que permitan la transferencia de tareas a través de componentes independientes y reutilizables. Relacionado con el desentrelazamiento.

24.-Mucho progreso en el aprendizaje de representaciones de datos i.i.d., pero representar distribuciones intervencionales de modelos causales es una pregunta abierta.

25.-Representar modelos causales para razonar y planificar tiene que ver con "pensar": actuar en espacios imaginados según Konrad Lorenz.

26.-La primera revolución industrial impulsada por la máquina de vapor (energía). La "revolución" actual comenzó a mediados del siglo XX, impulsada por la información (cibernética).

27.-El procesamiento de información a escala industrial requiere computadoras. El procesamiento inteligente de información puede requerir IA y aprendizaje automático.

28.-La información puede ser una cantidad conservada en física como la energía. Podemos convertirla y procesarla pero no crearla.

29.-El éxito actual de la IA se basa en el procesamiento de información "crudo". Una comprensión más profunda puede provenir de la causalidad: la información estadística es un epifenómeno.

30.-Quedan problemas abiertos en la comprensión de la causalidad y el tiempo, el aprendizaje de representaciones para modelos causales. Se necesita mucha más investigación.

Bóveda de Conocimiento construida porDavid Vivancos 2024