ConocimientoBóveda 2/78 - ICLR 2014-2023
Alexei Efros ICLR 2021 - Charla Invitada - Auto-supervisión para Aprender desde Abajo hacia Arriba
<Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef selfSupervised fill:#f9d4d4, font-weight:bold, font-size:14px; classDef curiosity fill:#d4f9d4, font-weight:bold, font-size:14px; classDef evolution fill:#d4d4f9, font-weight:bold, font-size:14px; classDef challenges fill:#f9f9d4, font-weight:bold, font-size:14px; classDef future fill:#f9d4f9, font-weight:bold, font-size:14px; A[Alexei Efros
ICLR 2021 ] --> B[Aprendizaje auto-supervisado: sin categorías,
conjuntos de datos, objetivos 1] B --> C[Las grandes empresas resuelven tareas usando etiquetas 2] B --> D[Auto-supervisión: asociaciones de abajo hacia arriba,
similitudes de instancias 3] D --> E[Los humanos categorizan a través de asociaciones
y prototipos 4] D --> F[Trabajo temprano: las distancias separan
instancias similares y disimilares 5] F --> G['Uno contra todos' se desempeñó
como basado en categorías 6] D --> H[SimCLR: las aumentaciones crean
'pseudo-clase' de variaciones 7] H --> I[Elección de aumentaciones: la supervisión humana
afecta el rendimiento 8] D --> J[El video proporciona aumentación automática
a través de correspondencias 9] J --> K[Paseos contrastivos aprenden
mediante consistencia de ciclo 10] J--> L[Paseos densos centrados en píxeles:
prometedor relacionado con flujo óptico 11] B --> M[Agentes biológicos: las muestras son
pruebas, luego entrenamiento 12] B --> N[El aprendizaje automático repite muestras,
fomentando la memorización 13] B --> O[Auto-supervisión: sin épocas repetidas,
similar a lo biológico 14] B --> P[Entrenamiento en tiempo de prueba adapta modelos
a nuevas muestras 15] P --> Q[Entrenamiento en tiempo de prueba en línea se adapta
a distribuciones cambiantes 16] A --> R[Algoritmos genéticos optimizan objetivos fijos 17] R --> S[Objetivos evolutivos emergen
a través de 'carreras armamentistas' 18] S --> T[Auto-juego, GANs: simétrico,
asimétrico 'carreras armamentistas' 19] A --> U[Predicción: meta-objetivo emergente
en mundos complejos 20] U --> V[Exploración impulsada por la curiosidad: fallo de predicción
como objetivo 21] V --> W[Agentes curiosos exhiben comportamientos emergentes
en videojuegos 22] W --> X[Agentes curiosos de pong prefieren
rallies sobre puntos 23] V --> Y[Reto: escalar la exploración curiosa
a robots reales 24] Y --> Z[Mundo real: espacios de acción más grandes
requieren atención 25] A --> AA[Auto-supervisión multimodal: visión+sonido,
visión+tacto 26] A --> AB[Curiosidad, pérdidas adversariales:
meta-objetivos adaptativos 27] A --> AC[Datos del mundo real revelan desafíos
de aprendizaje auto-supervisado 28] A --> AD[La evolución no optimiza la aptitud
emerge 29] A --> AE[Configuraciones adversariales pueden prevenir
atajos de aprendizaje emergente 30] class B,C,D,H,I,J,K,L,M,N,O,P,Q,AA,AC selfSupervised; class U,V,W,X,Y,Z,AB curiosity; class R,S,T,AD,AE evolution; class E,F,G challenges;

Resumen:

1.-El aprendizaje auto-supervisado es emocionante porque permite alejarse de las categorías semánticas, conjuntos de datos fijos y objetivos fijos.

2.-Las etiquetas son costosas, pero las grandes empresas pueden resolver tareas claramente definidas contratando suficiente gente para proporcionar etiquetas.

3.-La auto-supervisión permite pasar de categorías semánticas basadas en propiedades compartidas a asociaciones de abajo hacia arriba y similitudes entre instancias.

4.-Los humanos categorizan basándose en asociaciones de abajo hacia arriba y prototipos (Rosch), no basándose en propiedades compartidas que definen la pertenencia a una categoría (vista clásica).

5.-El trabajo temprano intentó operacionalizar categorías visuales de abajo hacia arriba aprendiendo distancias para separar instancias similares y disimilares.

6.-El conjunto de clasificadores "uno contra todos" se desempeñó tan bien como el clasificador basado en categorías.

7.-SimCLR utiliza aumentaciones de imagen para crear una "pseudo-clase" de variaciones de una instancia, contrastada contra otras instancias.

8.-La elección de aumentaciones de datos es una forma de supervisión humana que tiene un gran efecto en el rendimiento del aprendizaje auto-supervisado.

9.-El video puede proporcionar aumentación automática de datos a través de correspondencias temporales entre cuadros, similar a cómo aprenden los infantes.

10.-El paseo aleatorio contrastivo aprende características caminando a través de cuadros de video, usando consistencia de ciclo para volver al parche inicial.

11.-Los paseos aleatorios contrastivos densos en parches centrados en cada píxel es una dirección prometedora relacionada con el flujo óptico.

12.-Los agentes biológicos nunca ven los mismos datos dos veces: cada muestra es primero una prueba, luego se convierte en entrenamiento para el futuro.

13.-El aprendizaje automático generalmente ve la misma muestra repetidamente, fomentando la memorización. La aumentación de datos ayuda a alejarse de esto un poco.

14.-Con la auto-supervisión, los datos son gratuitos, por lo que no hay razón para hacer múltiples épocas: tratar cada muestra una vez como los agentes biológicos.

15.-El entrenamiento en tiempo de prueba adapta un modelo a una nueva muestra de prueba usando pérdida auto-supervisada, para manejar el cambio de distribución.

16.-El entrenamiento en tiempo de prueba en línea permite adaptarse continuamente a una distribución de datos que cambia suavemente.

17.-Los algoritmos genéticos solo optimizan un objetivo fijo: la magia de la evolución es que no optimiza ningún objetivo.

18.-Los objetivos evolutivos emergen a través de "carreras armamentistas": por ejemplo, la presión para miniaturizar calculadoras creó el objetivo emergente de caber en un bolsillo.

19.-El auto-juego es una "carrera armamentista" simétrica de un agente contra sí mismo, pero aún tiene un objetivo especificado. Los GANs son una "carrera armamentista" asimétrica.

20.-La predicción puede ser un meta-objetivo emergente: en un mundo complejo, siempre se puede intentar predecir más allá. El mundo es el "adversario".

21.-La exploración impulsada por la curiosidad usa el fallo de predicción como un objetivo emergente. El agente intenta predecir las consecuencias de las acciones y se vuelve "curioso" cuando se equivoca.

22.-Sin recompensa externa, solo curiosidad, surgen comportamientos emergentes en videojuegos, como Mario explorando y matando enemigos.

23.-Para los agentes curiosos jugando pong, mantener el rally se vuelve más "interesante" que anotar puntos.

24.-El desafío es lograr que la exploración curiosa funcione para robots del mundo real. La curiosidad funciona en videojuegos porque el espacio de acción es pequeño.

25.-El mundo real tiene espacios de acción mucho más grandes. Se necesita atención para priorizar en qué ser curioso. Los bebés tienen un "currículo" de curiosidad.

26.-Combinar múltiples modalidades como visión+sonido o visión+tacto es una buena manera de estudiar el aprendizaje auto-supervisado multimodal desde abajo hacia arriba.

27.-La curiosidad y las pérdidas adversariales son "meta-objetivos" que pueden ajustarse al mundo y son difíciles de sobreajustar, a diferencia de las pérdidas fijas.

28.-Necesitamos ejecutar el aprendizaje auto-supervisado en datos del mundo real para descubrir los desafíos reales. Las teorías y formalismos seguirán a partir de problemas bien planteados.

29.-La evolución no optimiza para la aptitud: la aptitud emerge de la evolución. Codificar explícitamente un objetivo lleva a atajos.

30.-Las configuraciones adversariales pueden ayudar a empujar el objetivo hacia atrás y evitar atajos en el aprendizaje emergente, pero la "pérdida" fundamental sigue siendo una cuestión abierta.

Bóveda del Conocimiento construida por David Vivancos 2024