Conocimiento Bóveda 2/52 - ICLR 2014-2023
Leon Bottou ICLR 2019 - Charla Invitada - Aprendizaje de Representaciones Usando Invariancia Causal
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef learning fill:#f9d4d4, font-weight:bold, font-size:14px; classDef statistical fill:#d4f9d4, font-weight:bold, font-size:14px; classDef environments fill:#d4d4f9, font-weight:bold, font-size:14px; classDef invariance fill:#f9f9d4, font-weight:bold, font-size:14px; classDef methods fill:#f9d4f9, font-weight:bold, font-size:14px; A[Leon Bottou
ICLR 2019] --> B[Sistemas de aprendizaje superan
heurísticas con datos 1] A --> C[Algoritmos estadísticos optimizan,
pueden no generalizar 2] A --> D[Datos de la naturaleza de diferentes
entornos sesgados 3] D --> E[Aprendizaje robusto minimiza
error a través de entornos 4] D --> F[Se necesita extrapolación a nuevos
entornos 5] A --> G[Invariancia relacionada con la causalidad 6] G --> H[Aprender representación independiente del
entorno 7] G --> I[Predicción invariante recupera
causas directas del objetivo 8] G --> J[Adaptación adversarial de dominio
aprende representación invariante 9] A --> K[Múltiples entornos definen
dominio para extrapolación 10] K --> L[Regresión lineal: matriz S
para minimización de error 11] K --> M[Soluciones invariantes de alto rango
a través de dirección de coseno 12] K --> N[Capa ficticia congelada
penaliza gradiente 13] K --> O['MNIST coloreado' supera
dependencia inestable de color 14] K --> P[Regularizador de invariancia no convexo,
difícil de escalar 15] A --> Q[Problemas realizables: invariancia
sobre soportes de entrenamiento 16] A --> R[No realizable: encontrar representación
invariante y predictor 17] A --> S[Proxy estadístico, información de
entorno mejora estabilidad 18] A --> T[Invariancia permite extrapolación,
no solo interpolación 19] A --> U[Invariancia informa inferencia causal
con intervenciones 20] A --> V[Aprender representación invariante
para imponer invariancia 21] A --> W[Problemas realizables: encontrar
predictor perfecto eficientemente 22] A --> X[Meta-aprendizaje aprende representaciones
transferibles 23] A --> Y[Modelos grandes pueden exhibir
invariancia con datos, cálculo 24] A --> Z[Aprender propiedades estables a través de
entornos para extrapolar 25] class B,Q,R,W learning; class C,S statistical; class D,E,F,K,T environments; class G,H,I,J,U,V,Z invariance; class L,M,N,O,P,X,Y methods;

Resumen:

1.-El aprendizaje automático es útil cuando faltan especificaciones formales del problema. Con suficientes datos, los sistemas de aprendizaje pueden superar a los programas heurísticos.

2.-Los algoritmos estadísticos optimizan para los datos de entrenamiento, pero pueden perder el punto y no generalizar bien debido a correlaciones espurias.

3.-La naturaleza no baraja los datos como lo hacemos en el aprendizaje automático. Los datos provienen de diferentes entornos con diferentes sesgos.

4.-El aprendizaje robusto busca minimizar el error máximo a través de los entornos. Esto interpola pero no extrapola más allá de combinaciones convexas de entornos.

5.-En algunas aplicaciones, se necesita extrapolación a nuevos entornos, no solo interpolación entre entornos de entrenamiento. Los motores de búsqueda son un ejemplo.

6.-La invariancia está relacionada con la causalidad. Para predecir intervenciones, necesitas las propiedades de la intervención y lo que permanece invariante.

7.-El objetivo es aprender una representación en la que exista un predictor invariante a través de los entornos, ignorando correlaciones espurias.

8.-Peters et al. 2016 consideraron intervenciones en variables conocidas en un gráfico causal. El predictor invariante recupera las causas directas del objetivo.

9.-La adaptación adversarial de dominio aprende una representación independiente del entorno, pero las perspectivas de equidad e invariancia tienen diferencias clave respecto a la dependencia del objetivo.

10.-El enfoque robusto define una familia a priori de entornos. Usar múltiples entornos para definir el dominio permite la extrapolación a través de la invariancia.

11.-Para la regresión lineal, se busca la matriz S tal que un vector v minimice simultáneamente el error en todos los entornos. Las soluciones existen cuando los gradientes son linealmente dependientes.

12.-Las soluciones invariantes de alto rango se pueden encontrar resolviendo a lo largo de la dirección del coseno entre el vector de peso w y el espacio abarcado por los gradientes de costo.

13.-Insertar una capa ficticia congelada y penalizar su gradiente logra invariancia sin suposiciones lineales. Esto se extiende a redes neuronales.

14.-Un ejemplo de juguete "MNIST coloreado" muestra cómo la dependencia de características inestables como el color puede superarse penalizando la varianza entre entornos.

15.-El regularizador de invariancia es altamente no convexo. La viabilidad y el escalado siguen siendo desafiantes. Los problemas realizables (donde existe un predictor invariante perfecto) difieren de los no realizables.

16.-En el aprendizaje supervisado realizable, la invariancia asintótica se mantiene sobre la unión de los soportes de los entornos de entrenamiento. Se necesitan grandes conjuntos de datos.

17.-En configuraciones no realizables, el desafío es encontrar una representación invariante y un predictor para permitir la extrapolación. En configuraciones realizables, se trata de la eficiencia de los datos.

18.-El aprendizaje automático utiliza un proxy estadístico y no baraja los datos como lo hace la naturaleza. Utilizar información del entorno podría mejorar la estabilidad.

19.-La invariancia a través de los entornos proporciona extrapolación, no solo interpolación. Esto desafía la noción de que la extrapolación falla en altas dimensiones.

20.-La invariancia está relacionada con la causalidad. Las propiedades estables informan la inferencia causal cuando se combinan con el conocimiento de las intervenciones.

21.-Donde la invariancia no se mantiene naturalmente, aprender una representación invariante puede imponerla, con propiedades matemáticamente interesantes.

22.-Los problemas supervisados realizables, donde existe un predictor invariante perfecto, plantean desafíos diferentes en torno a encontrar eficientemente el predictor, en lugar de su existencia.

23.-El meta-aprendizaje tiene como objetivo aprender representaciones transferibles, mientras que la invariancia se centra en caracterizar matemáticamente propiedades estables para permitir la extrapolación y la inferencia causal.

24.-Con suficientes datos y cálculo, los modelos grandes pueden exhibir invariancia, pero un enfoque de invariancia explícita proporciona una comprensión y garantías más claras.

25.-Las ideas clave son: aprender propiedades estables a través de entornos para permitir la extrapolación, relacionar la invariancia con la causalidad y adaptar métodos a regímenes realizables vs no realizables.

Bóveda de Conocimiento construida por David Vivancos 2024