Conocimiento Bóveda 2/67 - ICLR 2014-2023
Yoshua Bengio & Yann LeCun ICLR 2020 - Conferencistas Invitados - Reflexiones de los Ganadores del Premio Turing
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef ML fill:#f9d4d4, font-weight:bold, font-size:14px; classDef SSL fill:#d4f9d4, font-weight:bold, font-size:14px; classDef challenges fill:#d4d4f9, font-weight:bold, font-size:14px; classDef energy fill:#f9f9d4, font-weight:bold, font-size:14px; classDef contrastive fill:#f9d4f9, font-weight:bold, font-size:14px; classDef regularized fill:#d4f9f9, font-weight:bold, font-size:14px; classDef S1S2 fill:#f9d4d4, font-weight:bold, font-size:14px; classDef causality fill:#d4f9d4, font-weight:bold, font-size:14px; A[Yoshua Bengio & Yann LeCun
ICLR 2020] --> B[Futuro ML/IA: aprendizaje
auto-supervisado, dependencias, vacíos. 1] A --> C[SSL: aprendizaje rápido,
poca supervisión, como bebés. 2] A --> D[Retos de IA: supervisión,
razonamiento, planificación. 3] B --> E[SSL: predicción de info
faltante/futura, múltiples posibilidades. 4] B --> F[Modelos de energía: compatibilidad,
no se necesitan probabilidades. 5] F --> G[Entrenar modelos de energía
con métodos contrastivos. 6] F --> H[Estimación de densidades problemática,
crea cañones estrechos. 7] G --> I[Funciones contrastivas: empujar
datos hacia abajo, contraste hacia arriba. 8] B --> J[SSL exitoso en
NLP, no en imágenes. 9] J --> K[Embebido contrastivo para
imágenes computacionalmente costoso. 10] G --> L[GANs como métodos
de energía basados en contraste. 11] B --> M[Variables latentes regularizadas
limitan capacidad de información. 12] M --> N[VAEs: modelos de energía
latentes regularizados, añaden ruido. 13] M --> O[Regularización gráfica/temporal para
buenas representaciones. 14] M --> P[Modelos regularizados condicionales
predicen futuros multi-modales. 15] B --> Q[SSL mejor para
aprendizaje de sentido común en IA. 16] A --> R[Sistema 1: rápido,
intuitivo. Sistema 2: lento. 17] R --> S[Extender aprendizaje profundo
a tareas del Sistema 2. 18] A --> T[Variables semánticas tienen
estructura gráfica dispersa. 19] T --> U[Relación simple semántica-lenguaje.
Conocimiento reutilizable. 20] T --> V[Cambios locales en
distribución de variables semánticas. 21] S --> W[Generalización sistemática
recombinando conceptos. 22] S --> X[Combinar ventajas de
aprendizaje profundo e IA simbólica. 23] R --> Y[Procesamiento consciente enfoca
atención, difunde, almacena. 24] A --> Z[Lenguaje: conocimiento perceptual y
semántico. 25] Z --> AA['Prior de conciencia': dependencias
dispersas, predicciones fuertes. 26] V --> AB[Cambios localizados permiten
adaptación rápida, meta-aprendizaje. 27] T --> AC[Velocidad de aprendizaje descubre
estructura de grafo causal. 28] W --> AD[Mecanismos independientes recurrentes
mejoran generalización. 29] A --> AE[Ideas centrales: conocimiento
recombinable, cambios locales. 30] class A,B,C,E,F,G,H,I,J,K,L,M,N,O,P,Q SSL; class D challenges; class R,S,W,X,Y,Z,AA S1S2; class T,U,V,AB,AC,AD,AE causality;

Resumen:

1.-El futuro del aprendizaje automático y la IA es el aprendizaje auto-supervisado, que implica aprender dependencias entre variables y llenar vacíos.

2.-El aprendizaje auto-supervisado puede permitir a las máquinas aprender rápidamente con poca supervisión o interacción, similar a cómo los bebés aprenden conceptos básicos.

3.-Los principales desafíos en IA son reducir los requisitos de supervisión, aprender a razonar más allá de pasos fijos y aprender a planificar acciones complejas.

4.-El aprendizaje auto-supervisado implica predecir información faltante o futura a partir de información conocida. Las predicciones deben permitir múltiples posibilidades.

5.-Los modelos basados en energía pueden manejar la incertidumbre midiendo la compatibilidad entre variables observadas y predichas sin requerir probabilidades.

6.-Los modelos basados en energía pueden entrenarse usando métodos contrastivos que empujan la energía hacia abajo en puntos de datos y hacia arriba en otros lugares.

7.-Los métodos probabilísticos que estiman densidades son problemáticos ya que crean cañones estrechos en la función de energía que no son útiles para la inferencia.

8.-Las funciones objetivo contrastivas empujan hacia abajo la energía de los puntos de datos y hacia arriba en puntos de contraste con cierto margen.

9.-Los métodos de aprendizaje auto-supervisado como BERT han tenido mucho éxito en NLP pero no tanto para imágenes.

10.-Los métodos de embebido contrastivo para imágenes son computacionalmente costosos ya que hay muchas formas en que las imágenes pueden ser diferentes.

11.-Los GANs pueden interpretarse como métodos de energía basados en contraste que moldean la función de energía.

12.-Los métodos de variables latentes regularizadas limitan la capacidad de información para regularizar el volumen del espacio de baja energía, como en la codificación dispersa.

13.-Los autoencoders variacionales son modelos de energía latentes regularizados que añaden ruido al código latente para limitar la información.

14.-La regularización basada en grafos y la continuidad temporal pueden producir buenas representaciones al explotar la estructura de similitud o la predictibilidad temporal.

15.-Las versiones condicionales de modelos de variables latentes regularizadas permiten aprender a predecir futuros multi-modales, como en la predicción de trayectorias de vehículos.

16.-El aprendizaje auto-supervisado es el mejor enfoque actual para el aprendizaje de sentido común en IA. Escalar el aprendizaje supervisado/reforzado es insuficiente.

17.-Las tareas del Sistema 1 son rápidas, intuitivas, implícitas y donde el aprendizaje profundo actual sobresale. Las tareas del Sistema 2 son lentas, secuenciales, explícitas.

18.-Extender el aprendizaje profundo a las tareas del sistema 2 puede permitir el razonamiento, la planificación y la generalización sistemática mediante la recombinación de conceptos semánticos.

19.-La distribución conjunta de variables semánticas tiene estructura de modelo gráfico disperso. Las variables a menudo se relacionan con causalidad, agentes, intenciones, acciones, objetos.

20.-Existe una relación simple entre variables semánticas y lenguaje. Las piezas de conocimiento como reglas pueden reutilizarse en diferentes instancias.

21.-Los cambios en la distribución de variables semánticas son locales, por ejemplo, debido a intervenciones causales, con el resto del modelo sin cambios.

22.-La generalización sistemática implica recombinar dinámicamente conceptos para explicar observaciones novedosas, mejorando la falta de robustez al cambio de distribución del aprendizaje profundo actual.

23.-El objetivo es combinar las ventajas del aprendizaje profundo (representaciones fundamentadas, símbolos distribuidos, manejo de incertidumbre) con la generalización sistemática de la IA simbólica.

24.-El procesamiento consciente secuencial enfoca la atención en subconjuntos de información que se difunden y almacenan para condicionar el procesamiento subsiguiente.

25.-La comprensión del lenguaje requiere combinar el conocimiento perceptual del sistema 1 con el conocimiento semántico del sistema 2 de manera fundamentada.

26.-El "prior de conciencia" postula dependencias dispersas entre variables semánticas, permitiendo predicciones fuertes a partir de pocas variables como en el lenguaje.

27.-Bajo la hipótesis de cambio de distribución localizado, los cambios en el espacio semántico abstracto son localizados, permitiendo una adaptación más rápida y meta-aprendizaje.

28.-Los resultados empíricos muestran que la velocidad de aprendizaje puede descubrir la estructura del grafo causal. Parametrizar grafos por bordes permite el descubrimiento causal.

29.-La arquitectura de mecanismos independientes recurrentes con atención entre módulos mejora la generalización fuera de distribución al recombinar dinámicamente módulos estables.

30.-Las ideas centrales son descomponer el conocimiento en piezas recombinables con dependencias dispersas, y cambios locales en la distribución que permiten un aprendizaje/inferencia rápidos.

Bóveda de Conocimiento construida porDavid Vivancos 2024