Conocimiento Bóveda 5 /19 - CVPR 2016
Redes de Módulos Neuronales
Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Dan Klein
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef vision fill:#d4f9d4, font-weight:bold, font-size:14px classDef networks fill:#d4d4f9, font-weight:bold, font-size:14px classDef parsing fill:#f9f9d4, font-weight:bold, font-size:14px classDef attention fill:#f9d4d4, font-weight:bold, font-size:14px classDef vqa fill:#f9d4f9, font-weight:bold, font-size:14px A["Redes de Módulos Neuronales"] --> B["Respondiendo preguntas
basadas en imágenes. 1"] A --> C["Construyendo redes neuronales
a partir de preguntas. 2"] A --> D["Formas coloreadas para enseñar. 3"] A --> E["Redes construidas a partir de
análisis de preguntas. 4"] A --> F["Usando red para
procesamiento de imágenes. 5"] A --> G["Modelos neuronales estructurados
relacionados con la visión. 6"] A --> H["Trabajo relacionado en PLN. 7"] A --> I["Cálculo como
una red neuronal. 8"] A --> J["Capacidades de modelos
VQA. 9"] A --> K["Identificando objetos rojos
en imágenes. 10"] F --> L["Enfocándose en partes
relevantes de imágenes. 11"] L --> M["Mapeando imagen
a objetos rojos. 12"] M --> N["Atención de círculos
a objetos arriba. 13"] N --> O["Combinando múltiples conceptos
para respuestas. 14"] B --> P["Análisis de estructura de preguntas
para redes. 15"] P --> Q["Fragmentos de red
construyendo redes específicas. 16"] Q --> R["Redes personalizadas
para cada pregunta. 17"] R --> S["Procesando imagen
con red construida. 18"] S --> T["Generando respuesta desde
salida de redes. 19"] I --> U["Investigación de modelos
neuronales estructurados para visión. 20"] H --> V["Investigación sobre mapeo
de lenguaje natural. 21"] I --> W["Codificando cálculo como
red neuronal. 22"] J --> X["Capacidades esperadas de
modelos VQA. 23"] X --> Y["Asociando palabras con
conceptos visuales. 24"] Y --> Z["Usando lo anterior para
modificar atención. 25"] class A vision class B,C,D,E,F,G,H,I,J,K networks class L,M,N,O attention class P,Q,R,S,T parsing class U,V,W,X,Y,Z vqa

Resumen:

1.- Respuesta a preguntas visuales: Respondiendo preguntas basadas en una imagen de entrada.

2.- Redes de Módulos Neuronales: Construcción dinámica de redes neuronales basada en la estructura sintáctica de la pregunta.

3.- Conjunto de datos de escenas abstractas: Formas coloreadas utilizadas para ejemplos pedagógicos.

4.- Redes neuronales específicas de preguntas: Redes construidas sobre la marcha a partir de módulos basados en el análisis sintáctico de la pregunta.

5.- Aplicación de redes dinámicas: Uso de la red construida para procesar la imagen de entrada y producir una respuesta.

6.- Modelos neuronales estructurados para visión: Trabajo relacionado en visión.

7.- Análisis semántico: Trabajo relacionado en procesamiento de lenguaje natural.

8.- Representación neuronal de cálculo específico de preguntas: Representación del cálculo construido dinámicamente como una red neuronal.

9.- Capacidades de los modelos VQA: Expectativas sobre lo que los modelos de respuesta a preguntas visuales deberían poder hacer.

10.- Entendiendo "rojo": Identificación de objetos rojos en una imagen.

11.- Mecanismo de atención visual: Enfocándose en partes relevantes de la imagen, utilizado en modelos de visión y lenguaje.

12.- "Rojo" como función: Mapeo de una imagen a un mapa de atención que resalta objetos rojos.

13.- Entendiendo "arriba": Transformando la atención de un objeto (círculos) a otro (objetos sobre los círculos).

14.- Preguntas complejas: Combinando múltiples conceptos (por ejemplo, "forma roja sobre un círculo") para responder una pregunta.

15.- Análisis sintáctico: Análisis de la estructura de la pregunta para guiar la construcción de la red.

16.- Módulos: Pequeños fragmentos de red utilizados para construir la red neuronal específica de la pregunta.

17.- Construcción dinámica de redes: Construcción de una red personalizada para cada pregunta basada en su estructura sintáctica.

18.- Aplicación de redes construidas a imágenes: Uso de la red construida dinámicamente para procesar la imagen de entrada.

19.- Producción de respuestas: Generación de una respuesta a la pregunta basada en la salida de la red.

20.- Trabajo relacionado en modelos neuronales estructurados: Otra investigación sobre la incorporación de estructura en redes neuronales para tareas de visión.

21.- Trabajo relacionado en análisis semántico: Otra investigación sobre el mapeo de lenguaje natural a representaciones ejecutables.

22.- Representación neuronal del cálculo construido: Codificación del cálculo específico de la pregunta construido dinámicamente como una red neuronal.

23.- Expectativas para los modelos VQA: Capacidades que los modelos de respuesta a preguntas visuales deberían poseer.

24.- Mapeo de palabras a conceptos visuales: Asociación de palabras como "rojo" con sus representaciones visuales correspondientes.

25.- Transformación de atención: Uso de palabras como "arriba" para modificar la atención de un objeto a otro en la imagen.

Bóveda del Conocimiento construida por David Vivancos 2024