Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-El objetivo es aprender representaciones de relaciones entre imágenes para habilitar tareas como profundidad estéreo, comprensión de movimiento, creación de analogías.
2.-Las redes neuronales estándar no pueden aprender relaciones efectivamente porque las unidades ocultas desacoplarían las dos imágenes de entrada.
3.-La solución es usar un modelo gráfico con interacciones multiplicativas entre unidades que representan las dos imágenes.
4.-La inferencia en este modelo implica sumar sobre productos por pares de características de imagen, permitiendo al modelo capturar relaciones.
5.-Una motivación alternativa es que las imágenes relacionadas se encuentran en órbitas o manifolds parametrizadas por la transformación que las relaciona.
6.-Esto sugiere hacer que los pesos de un modelo de una imagen sean una función (por ejemplo, lineal) de la otra imagen.
7.-La inferencia entonces involucra naturalmente interacciones multiplicativas (sumando productos por pares) entre las dos imágenes.
8.-El entrenamiento implica una función de costo condicional reconstruyendo una imagen dada la otra. Puede ser entrenado como un autoencoder o RBM.
9.-Para reducir el número de interacciones por pares, se puede factorizar el tensor de parámetros proyectando primero en filtros de menor dimensión.
10.-El modelo aprende filtros similares a bordes desplazados para codificar eficientemente transformaciones como traslación, rotación, transformaciones afines.
11.-Las transformaciones conmutativas comparten los mismos espacios propios, por lo que el modelo solo necesita inferir el ángulo dentro de estos espacios propios.
12.-El ángulo en un espacio propio se calcula por el producto interno - sumando productos por pares de coordenadas, lo que hace el modelo.
13.-Las unidades ocultas del modelo codifican la transformación invariablemente a la posición de cada imagen - responden a la posición relativa.
14.-Esta invariancia de las características aprendidas a la posición es automática - el modelo lo obtiene gratuitamente entrenando con imágenes transformadas.
15.-Aplicado el modelo a imágenes estéreo para predecir profundidad sin requerir calibración de cámara. Se desempeña decentemente pero no es el estado del arte.
16.-Modelos combinados que codifican movimiento y profundidad para reconocer acciones en video. La profundidad ayuda ligeramente para algunas acciones.
17.-El modelo permite la creación de analogías infiriendo la transformación entre dos entradas y aplicándola a una tercera entrada.
18.-Funciona en rotaciones de juguete de barras y dígitos, mantiene la identidad de la persona en analogías de caras, descompone rotaciones 3D complejas.
19.-Trabajo reciente en entrenar el modelo directamente para analogías reconstruyendo imágenes varios pasos adelante en un video.
20.-Requiere un modelo de nivel superior encima para inferir "aceleración" de segundo orden a partir de las transformaciones y aplicarla recurrentemente en el tiempo.
21.-El preentrenamiento y la retropropagación a través del tiempo son necesarios para que este modelo de predicción de video funcione bien.
22.-El modelo puede predecir rotaciones adicionales de un objeto 3D desde tres vistas iniciales infiriendo la velocidad y aceleración de rotación.
23.-Captura la estructura 3D y puede renderizar vistas no vistas, degrada grácilmente.
24.-Aplicado el modelo para predecir la continuación de melodías simples representadas como rollos de piano.
25.-Trabajo en curso, pero muestra promesa para capturar estructura abstracta para predicción temporal en varios dominios.
Bóveda de Conocimiento construida porDavid Vivancos 2024