Conocimiento Bóveda 2/5 - ICLR 2014-2023
Roland Memisevic ICLR 2014 - Conferencia Invitada - Representando Relaciones
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef models fill:#f9d4d4, font-weight:bold, font-size:14px; classDef inference fill:#d4f9d4, font-weight:bold, font-size:14px; classDef applications fill:#d4d4f9, font-weight:bold, font-size:14px; classDef training fill:#f9f9d4, font-weight:bold, font-size:14px; classDef extensions fill:#f9d4f9, font-weight:bold, font-size:14px; A[Roland Memisevic
ICLR 2014] --> B[Aprender representaciones de relaciones de imagen
para tareas diversas 1] A --> C[Las redes neuronales estándar no pueden
aprender relaciones de imagen efectivamente 2] A --> I[Entrenar con costo condicional
reconstruyendo una dada la otra 8] A --> K[Aprende filtros similares a bordes desplazados
codificando transformaciones de imagen 10] A --> N[Unidades ocultas codifican transformación
invariante a la posición de la imagen 13] A --> P[Aplicado a profundidad estéreo
sin calibración de cámara, decente 15] C --> D[Usar modelo gráfico con
interacciones multiplicativas de unidades de imagen 3] D --> E[La inferencia suma productos por pares
de características de imagen 4] D --> F[Imágenes relacionadas se encuentran en
órbitas/manifolds parametrizadas por transformación 5] I --> J[Reducir interacciones proyectando
primero en filtros de menor dimensión 9] K --> L[Transformaciones conmutativas comparten espacios propios,
inferir ángulo dentro de ellos 11] K --> M[El ángulo se calcula sumando
productos de coordenadas por pares 12] N --> O[Características invariantes a la posición emergen automáticamente
del entrenamiento con imágenes transformadas 14] P --> Q[Modelos de movimiento y profundidad
ayudan ligeramente al reconocimiento de acciones 16] P --> R[Infiere transformación entre entradas,
aplica a una tercera 17] Q --> T[Entrenar directamente para analogías de varios pasos
en video 19] Q --> W[Predice rotaciones 3D adicionales
desde vistas iniciales 22] R --> S[Funciona en rotaciones de juguete,
caras, 3D complejas 18] T --> U[Modelo de nivel superior infiere 'aceleración',
aplica recurrentemente 20] T --> V[Preentrenamiento y retropropagación a través
del tiempo necesarios 21] W --> X[Captura estructura 3D, renderiza
vistas no vistas, degrada grácilmente 23] P --> Y[Aplicado para predecir continuación
de melodías simples 24] P --> Z[Prometedor para capturar estructura abstracta
para predicción temporal 25] class B,C,D,F models; class E,K,L,M,N inference; class I,J,O,T,U,V training; class P,Q,R,S,W,X,Y applications; class Z extensions;

Resumen:

1.-El objetivo es aprender representaciones de relaciones entre imágenes para habilitar tareas como profundidad estéreo, comprensión de movimiento, creación de analogías.

2.-Las redes neuronales estándar no pueden aprender relaciones efectivamente porque las unidades ocultas desacoplarían las dos imágenes de entrada.

3.-La solución es usar un modelo gráfico con interacciones multiplicativas entre unidades que representan las dos imágenes.

4.-La inferencia en este modelo implica sumar sobre productos por pares de características de imagen, permitiendo al modelo capturar relaciones.

5.-Una motivación alternativa es que las imágenes relacionadas se encuentran en órbitas o manifolds parametrizadas por la transformación que las relaciona.

6.-Esto sugiere hacer que los pesos de un modelo de una imagen sean una función (por ejemplo, lineal) de la otra imagen.

7.-La inferencia entonces involucra naturalmente interacciones multiplicativas (sumando productos por pares) entre las dos imágenes.

8.-El entrenamiento implica una función de costo condicional reconstruyendo una imagen dada la otra. Puede ser entrenado como un autoencoder o RBM.

9.-Para reducir el número de interacciones por pares, se puede factorizar el tensor de parámetros proyectando primero en filtros de menor dimensión.

10.-El modelo aprende filtros similares a bordes desplazados para codificar eficientemente transformaciones como traslación, rotación, transformaciones afines.

11.-Las transformaciones conmutativas comparten los mismos espacios propios, por lo que el modelo solo necesita inferir el ángulo dentro de estos espacios propios.

12.-El ángulo en un espacio propio se calcula por el producto interno - sumando productos por pares de coordenadas, lo que hace el modelo.

13.-Las unidades ocultas del modelo codifican la transformación invariablemente a la posición de cada imagen - responden a la posición relativa.

14.-Esta invariancia de las características aprendidas a la posición es automática - el modelo lo obtiene gratuitamente entrenando con imágenes transformadas.

15.-Aplicado el modelo a imágenes estéreo para predecir profundidad sin requerir calibración de cámara. Se desempeña decentemente pero no es el estado del arte.

16.-Modelos combinados que codifican movimiento y profundidad para reconocer acciones en video. La profundidad ayuda ligeramente para algunas acciones.

17.-El modelo permite la creación de analogías infiriendo la transformación entre dos entradas y aplicándola a una tercera entrada.

18.-Funciona en rotaciones de juguete de barras y dígitos, mantiene la identidad de la persona en analogías de caras, descompone rotaciones 3D complejas.

19.-Trabajo reciente en entrenar el modelo directamente para analogías reconstruyendo imágenes varios pasos adelante en un video.

20.-Requiere un modelo de nivel superior encima para inferir "aceleración" de segundo orden a partir de las transformaciones y aplicarla recurrentemente en el tiempo.

21.-El preentrenamiento y la retropropagación a través del tiempo son necesarios para que este modelo de predicción de video funcione bien.

22.-El modelo puede predecir rotaciones adicionales de un objeto 3D desde tres vistas iniciales infiriendo la velocidad y aceleración de rotación.

23.-Captura la estructura 3D y puede renderizar vistas no vistas, degrada grácilmente.

24.-Aplicado el modelo para predecir la continuación de melodías simples representadas como rollos de piano.

25.-Trabajo en curso, pero muestra promesa para capturar estructura abstracta para predicción temporal en varios dominios.

Bóveda de Conocimiento construida porDavid Vivancos 2024