Conocimiento Bóveda 5 /87 - CVPR 2023
Programación Visual: Razonamiento visual composicional sin entrenamiento
Tanmay Gupta, Aniruddha Kembhavi
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef visual fill:#f9d4d4, font-weight:bold, font-size:14px classDef reasoning fill:#d4f9d4, font-weight:bold, font-size:14px classDef models fill:#d4d4f9, font-weight:bold, font-size:14px classDef program fill:#f9f9d4, font-weight:bold, font-size:14px classDef visprog fill:#f9d4f9, font-weight:bold, font-size:14px A["Programación Visual: Razonamiento
visual composicional sin
entrenamiento"] --> B["Diseño de sistemas de visión
por computador basados en lenguaje 1"] A --> C["Combinación de habilidades para
tareas complejas 2"] A --> D["Modelos impulsados por el usuario
limitados en alcance 3"] D --> E["El aumento de tareas demanda
más capacidades 4"] A --> F["Programas generados a partir de
descripciones de tareas 5"] F --> G["Aprovechamiento de modelos especializados
como componentes 6"] F --> H["Modificación de programas
se adapta a tareas 7"] F --> I["Creación automática de programas
a partir de descripciones 8"] A --> J["Visprog: GPT-3 genera
código Python 9"] J --> K["Módulos de Visprog: modelos de visión
rutinas 10"] J --> L["Los programas son interpretables
y depurables 11"] J --> M["Los modelos necesitan intención y
comprensión de módulos 12"] M --> N["Los ejemplos permiten la generación
práctica de programas 13"] J --> O["La justificación visual vincula
los pasos de ejecución 14"] O --> P["Los usuarios interpretan, depuran,
intervienen visualmente 15"] class B,C visual class D,E models class F,G,H,I program class J,K,L,M,N,O,P visprog

Resumen:

1.- Programación Visual: Un nuevo paradigma para diseñar sistemas de visión por computador usando descripciones de lenguaje para generar programas que resuelvan tareas visuales.

2.- Razonamiento Visual Composicional: Combinación de múltiples habilidades de visión por computador para realizar tareas complejas, como etiquetar personajes en una imagen.

3.- Modelos de Extremo a Extremo: Grandes redes neuronales que consumen entradas de usuario y descripciones de tareas para producir resultados directamente, pero están limitadas en alcance.

4.- Aumento de la Complejidad de Tareas: A medida que los usuarios se vuelven más creativos con las tareas visuales, los modelos de extremo a extremo requerirán más habilidades y parámetros.

5.- Generación de Programas: Un enfoque alternativo donde un generador de programas crea un programa de computadora basado en la descripción de la tarea.

6.- Modelos Especializados de Visión por Computador: La Programación Visual aprovecha modelos existentes y especializados como bloques de construcción para programas generados.

7.- Modificación de Programas: Los usuarios pueden modificar programas generados para adaptarse a nuevas tareas, invocando diferentes conjuntos de habilidades.

8.- Generación Automática de Programas: El objetivo es generar automáticamente programas usando descripciones de tareas proporcionadas por los usuarios.

9.- Visprog: Una implementación específica de Programación Visual usando GPT-3 y aprendizaje en contexto para generar programas en Python.

10.- Módulos de Visprog: El corazón de Visprog, que consiste en varios modelos de visión por computador, rutinas de procesamiento de imágenes y operaciones aritméticas/lógicas.

11.- Interpretación y Depuración de Programas: Los programas de Visprog son fáciles de interpretar y depurar, con cada paso invocando un módulo de Visprog.

12.- Limitaciones de los Modelos de Lenguaje: Los grandes modelos de lenguaje por sí solos no pueden generar programas útiles sin comprender la intención del usuario y los módulos disponibles.

13.- Ejemplos en Contexto: Proporcionar ejemplos de tareas, programas aceptados y módulos disponibles permite a los modelos de lenguaje generar programas útiles.

14.- Justificación Visual: Visprog proporciona una justificación visual al unir la entrada y salida de cada paso de ejecución.

15.- Interpretación e Intervención: Los usuarios pueden interpretar, depurar, diagnosticar e intervenir en el proceso de razonamiento visual usando la justificación visual.

Bóveda de Conocimiento construida porDavid Vivancos 2024