Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:
Resumen:
1.- Respuesta a preguntas visuales: Respondiendo preguntas basadas en una imagen de entrada.
2.- Redes de Módulos Neuronales: Construcción dinámica de redes neuronales basada en la estructura sintáctica de la pregunta.
3.- Conjunto de datos de escenas abstractas: Formas coloreadas utilizadas para ejemplos pedagógicos.
4.- Redes neuronales específicas de preguntas: Redes construidas sobre la marcha a partir de módulos basados en el análisis sintáctico de la pregunta.
5.- Aplicación de redes dinámicas: Uso de la red construida para procesar la imagen de entrada y producir una respuesta.
6.- Modelos neuronales estructurados para visión: Trabajo relacionado en visión.
7.- Análisis semántico: Trabajo relacionado en procesamiento de lenguaje natural.
8.- Representación neuronal de cálculo específico de preguntas: Representación del cálculo construido dinámicamente como una red neuronal.
9.- Capacidades de los modelos VQA: Expectativas sobre lo que los modelos de respuesta a preguntas visuales deberían poder hacer.
10.- Entendiendo "rojo": Identificación de objetos rojos en una imagen.
11.- Mecanismo de atención visual: Enfocándose en partes relevantes de la imagen, utilizado en modelos de visión y lenguaje.
12.- "Rojo" como función: Mapeo de una imagen a un mapa de atención que resalta objetos rojos.
13.- Entendiendo "arriba": Transformando la atención de un objeto (círculos) a otro (objetos sobre los círculos).
14.- Preguntas complejas: Combinando múltiples conceptos (por ejemplo, "forma roja sobre un círculo") para responder una pregunta.
15.- Análisis sintáctico: Análisis de la estructura de la pregunta para guiar la construcción de la red.
16.- Módulos: Pequeños fragmentos de red utilizados para construir la red neuronal específica de la pregunta.
17.- Construcción dinámica de redes: Construcción de una red personalizada para cada pregunta basada en su estructura sintáctica.
18.- Aplicación de redes construidas a imágenes: Uso de la red construida dinámicamente para procesar la imagen de entrada.
19.- Producción de respuestas: Generación de una respuesta a la pregunta basada en la salida de la red.
20.- Trabajo relacionado en modelos neuronales estructurados: Otra investigación sobre la incorporación de estructura en redes neuronales para tareas de visión.
21.- Trabajo relacionado en análisis semántico: Otra investigación sobre el mapeo de lenguaje natural a representaciones ejecutables.
22.- Representación neuronal del cálculo construido: Codificación del cálculo específico de la pregunta construido dinámicamente como una red neuronal.
23.- Expectativas para los modelos VQA: Capacidades que los modelos de respuesta a preguntas visuales deberían poseer.
24.- Mapeo de palabras a conceptos visuales: Asociación de palabras como "rojo" con sus representaciones visuales correspondientes.
25.- Transformación de atención: Uso de palabras como "arriba" para modificar la atención de un objeto a otro en la imagen.
Bóveda del Conocimiento construida por David Vivancos 2024