Conocimiento Bóveda 5 /50 - CVPR 2019
GQA: Un Nuevo Conjunto de Datos para el Razonamiento Visual del Mundo Real y Respuesta a Preguntas Composicionales
Drew A. Hudson; Christopher D. Manning
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef gqa fill:#f9d4d4, font-weight:bold, font-size:14px classDef vqa fill:#d4f9d4, font-weight:bold, font-size:14px classDef structure fill:#d4d4f9, font-weight:bold, font-size:14px classDef metrics fill:#f9f9d4, font-weight:bold, font-size:14px A["GQA: Un Nuevo
Conjunto de Datos para el
Razonamiento Visual del Mundo Real
y Respuesta a Preguntas Composicionales"] --> B["GQA: nuevo conjunto de
datos de razonamiento visual. 1"] A --> C["Los conjuntos de datos VQA
existentes tienen debilidades. 2"] B --> D["GQA proporciona gráficos
de escena estructurados. 3"] D --> E["Preguntas representadas como
programas funcionales. 4"] D --> F["El gráfico de escena genera
preguntas de múltiples pasos. 5"] F --> G["El motor de preguntas traduce
rutas de gráficos. 6"] G --> H["Genera preguntas de inferencia
diversas y de múltiples pasos. 7"] D --> I["La estructura reduce sesgos
explotables en preguntas. 8"] I --> J["El método de balanceo reduce
el sesgo de respuesta. 9"] D --> K["La estructura permite consistencia
y métricas de fundamento. 10"] K --> L["Las métricas proporcionan
insights sobre el comportamiento del modelo. 11"] B --> M["Más información: visualreasoning.org,
póster CVPR. 12"] class A,B,M gqa class C vqa class D,E,F,G,H,I,J structure class K,L metrics

Resumen:

1.- GQA es un nuevo conjunto de datos para el razonamiento visual del mundo real y respuesta a preguntas composicionales sobre imágenes.

2.- Los conjuntos de datos VQA existentes tienen debilidades como preguntas cortas/simples y sesgos de lenguaje que limitan su utilidad para medir la comprensión visual.

3.- GQA proporciona estructura para todo: cada imagen tiene un gráfico de escena que especifica objetos, atributos y relaciones.

4.- Las preguntas también tienen representaciones estructurales como programas funcionales que enumeran los pasos de razonamiento necesarios para responderlas sobre el gráfico de escena.

5.- El gráfico de escena permite crear automáticamente 22 millones de preguntas de múltiples pasos de variada composicionalidad, cada una correspondiente a una ruta de gráfico.

6.- Un motor de preguntas robusto recorre el gráfico y traduce la ruta en una pregunta en lenguaje natural, manejando gramática y sintaxis.

7.- Esto genera preguntas lingüísticamente ricas y semánticamente diversas que cubren razonamiento espacial, comparaciones, lógica, relaciones e inferencia de múltiples pasos.

8.- Las representaciones estructurales ayudan a reducir sesgos en preguntas que los modelos explotaban previamente para adivinar respuestas sin verdadera comprensión de la escena.

9.- Un método de balanceo iterativo utiliza la semántica de las preguntas para hacer las distribuciones de respuestas más uniformes y reducir el sesgo.

10.- Las representaciones estructurales también permiten nuevas métricas de evaluación más allá de la precisión, como la consistencia en responder preguntas equivalentes y fundamentar respuestas en imágenes.

11.- Las nuevas métricas proporcionan más información sobre el comportamiento y funcionamiento interno del modelo.

12.- Más información está en visualreasoning.org o en el póster CVPR 189.

Bóveda de Conocimiento construida por David Vivancos 2024