Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-El aprendizaje automático es útil cuando faltan especificaciones formales del problema. Con suficientes datos, los sistemas de aprendizaje pueden superar a los programas heurísticos.
2.-Los algoritmos estadísticos optimizan para los datos de entrenamiento, pero pueden perder el punto y no generalizar bien debido a correlaciones espurias.
3.-La naturaleza no baraja los datos como lo hacemos en el aprendizaje automático. Los datos provienen de diferentes entornos con diferentes sesgos.
4.-El aprendizaje robusto busca minimizar el error máximo a través de los entornos. Esto interpola pero no extrapola más allá de combinaciones convexas de entornos.
5.-En algunas aplicaciones, se necesita extrapolación a nuevos entornos, no solo interpolación entre entornos de entrenamiento. Los motores de búsqueda son un ejemplo.
6.-La invariancia está relacionada con la causalidad. Para predecir intervenciones, necesitas las propiedades de la intervención y lo que permanece invariante.
7.-El objetivo es aprender una representación en la que exista un predictor invariante a través de los entornos, ignorando correlaciones espurias.
8.-Peters et al. 2016 consideraron intervenciones en variables conocidas en un gráfico causal. El predictor invariante recupera las causas directas del objetivo.
9.-La adaptación adversarial de dominio aprende una representación independiente del entorno, pero las perspectivas de equidad e invariancia tienen diferencias clave respecto a la dependencia del objetivo.
10.-El enfoque robusto define una familia a priori de entornos. Usar múltiples entornos para definir el dominio permite la extrapolación a través de la invariancia.
11.-Para la regresión lineal, se busca la matriz S tal que un vector v minimice simultáneamente el error en todos los entornos. Las soluciones existen cuando los gradientes son linealmente dependientes.
12.-Las soluciones invariantes de alto rango se pueden encontrar resolviendo a lo largo de la dirección del coseno entre el vector de peso w y el espacio abarcado por los gradientes de costo.
13.-Insertar una capa ficticia congelada y penalizar su gradiente logra invariancia sin suposiciones lineales. Esto se extiende a redes neuronales.
14.-Un ejemplo de juguete "MNIST coloreado" muestra cómo la dependencia de características inestables como el color puede superarse penalizando la varianza entre entornos.
15.-El regularizador de invariancia es altamente no convexo. La viabilidad y el escalado siguen siendo desafiantes. Los problemas realizables (donde existe un predictor invariante perfecto) difieren de los no realizables.
16.-En el aprendizaje supervisado realizable, la invariancia asintótica se mantiene sobre la unión de los soportes de los entornos de entrenamiento. Se necesitan grandes conjuntos de datos.
17.-En configuraciones no realizables, el desafío es encontrar una representación invariante y un predictor para permitir la extrapolación. En configuraciones realizables, se trata de la eficiencia de los datos.
18.-El aprendizaje automático utiliza un proxy estadístico y no baraja los datos como lo hace la naturaleza. Utilizar información del entorno podría mejorar la estabilidad.
19.-La invariancia a través de los entornos proporciona extrapolación, no solo interpolación. Esto desafía la noción de que la extrapolación falla en altas dimensiones.
20.-La invariancia está relacionada con la causalidad. Las propiedades estables informan la inferencia causal cuando se combinan con el conocimiento de las intervenciones.
21.-Donde la invariancia no se mantiene naturalmente, aprender una representación invariante puede imponerla, con propiedades matemáticamente interesantes.
22.-Los problemas supervisados realizables, donde existe un predictor invariante perfecto, plantean desafíos diferentes en torno a encontrar eficientemente el predictor, en lugar de su existencia.
23.-El meta-aprendizaje tiene como objetivo aprender representaciones transferibles, mientras que la invariancia se centra en caracterizar matemáticamente propiedades estables para permitir la extrapolación y la inferencia causal.
24.-Con suficientes datos y cálculo, los modelos grandes pueden exhibir invariancia, pero un enfoque de invariancia explícita proporciona una comprensión y garantías más claras.
25.-Las ideas clave son: aprender propiedades estables a través de entornos para permitir la extrapolación, relacionar la invariancia con la causalidad y adaptar métodos a regímenes realizables vs no realizables.
Bóveda de Conocimiento construida por David Vivancos 2024