Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:
Resumen:
1.- GQA es un nuevo conjunto de datos para el razonamiento visual del mundo real y respuesta a preguntas composicionales sobre imágenes.
2.- Los conjuntos de datos VQA existentes tienen debilidades como preguntas cortas/simples y sesgos de lenguaje que limitan su utilidad para medir la comprensión visual.
3.- GQA proporciona estructura para todo: cada imagen tiene un gráfico de escena que especifica objetos, atributos y relaciones.
4.- Las preguntas también tienen representaciones estructurales como programas funcionales que enumeran los pasos de razonamiento necesarios para responderlas sobre el gráfico de escena.
5.- El gráfico de escena permite crear automáticamente 22 millones de preguntas de múltiples pasos de variada composicionalidad, cada una correspondiente a una ruta de gráfico.
6.- Un motor de preguntas robusto recorre el gráfico y traduce la ruta en una pregunta en lenguaje natural, manejando gramática y sintaxis.
7.- Esto genera preguntas lingüísticamente ricas y semánticamente diversas que cubren razonamiento espacial, comparaciones, lógica, relaciones e inferencia de múltiples pasos.
8.- Las representaciones estructurales ayudan a reducir sesgos en preguntas que los modelos explotaban previamente para adivinar respuestas sin verdadera comprensión de la escena.
9.- Un método de balanceo iterativo utiliza la semántica de las preguntas para hacer las distribuciones de respuestas más uniformes y reducir el sesgo.
10.- Las representaciones estructurales también permiten nuevas métricas de evaluación más allá de la precisión, como la consistencia en responder preguntas equivalentes y fundamentar respuestas en imágenes.
11.- Las nuevas métricas proporcionan más información sobre el comportamiento y funcionamiento interno del modelo.
12.- Más información está en visualreasoning.org o en el póster CVPR 189.
Bóveda de Conocimiento construida por David Vivancos 2024