Conocimiento Bóveda 5 /20 - CVPR 2016
DenseCap: Redes de Localización Completamente Convolucionales para Subtitulación Densa.
Justin Johnson, Andrej Karpathy, Li Fei-Fei
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef captioning fill:#f9d4d4, font-weight:bold, font-size:14px classDef dataset fill:#d4f9d4, font-weight:bold, font-size:14px classDef prior fill:#d4d4f9, font-weight:bold, font-size:14px classDef new fill:#f9f9d4, font-weight:bold, font-size:14px classDef results fill:#f9d4f9, font-weight:bold, font-size:14px classDef misc fill:#d4f9f9, font-weight:bold, font-size:14px A["DenseCap: Redes de Localización
Completamente Convolucionales para
Subtitulación Densa."] --> B["Subtitulación densa:
Detecta regiones de imagen,
describe naturalmente. 1"] A --> C["Conjunto de datos de Subtítulos de Regiones de Visual Genome:
100K imágenes,
5.4M subtítulos de regiones. 2"] A --> D["Métodos previos:
CNN extrae características,
RNN genera subtítulos. 3"] D --> E["Detección de objetos previa RCNN:
Extrae propuestas,
CNN predice etiquetas. 4"] D --> F["Subtitulación densa previa:
Ineficiente, carece de contexto,
usa CNN, RNN. 5"] A --> G["Nueva subtitulación densa:
Modelo único produce
regiones, subtítulos. 6"] G --> H["Convolución eficiente,
capas de reconocimiento. 7"] G --> I["Propone regiones usando
cajas ancla. 8"] G --> J["Alinea propuestas,
aumenta confianza en coincidencias. 9"] G --> K["Interpolación bilineal para
entrenamiento de extremo a extremo. 10"] G --> L["Subtitulación densa final:
CNN, localización, reconocimiento,
RNN entrenado. 11"] A --> M["Pérdidas de entrenamiento conjunto:
Localización, reconocimiento,
subtitulación. 12"] M --> N["Mejor contexto,
eficiente, entrenamiento
de extremo a extremo. 13"] A --> O["Resultados cualitativos:
Detecta subtítulos,
regiones en imágenes. 14"] O --> P["Métrica de subtitulación densa:
Mide caja delimitadora,
calidad del subtítulo. 15"] O --> Q["Eficiencia:
Procesa múltiples cuadros
por segundo. 16"] A --> R["Bonus:
Modelo inverso para
recuperación de regiones. 17"] R --> S["Recuperación de regiones:
CNN, localización, reconocimiento,
RNN clasifica regiones. 18"] R --> T["Resultados de recuperación de regiones:
Coincide nombres, interacciones,
alguna confusión. 19"] A --> U["Código liberado:
Código de entrenamiento/prueba,
demo en GitHub. 20"] class A,B captioning class C dataset class D,E,F prior class G,H,I,J,K,L new class M,N results class O,P,Q results class R,S,T results class U misc

Resumen:

1.- Subtitulación densa: Detecta conjuntamente regiones de imagen y las describe en lenguaje natural. Combina la densidad de etiquetas de la detección de objetos con la complejidad de etiquetas de la subtitulación de imágenes.

2.- Conjunto de datos de Subtítulos de Regiones de Visual Genome: Más de 100K imágenes con 5.4M subtítulos de regiones escritos por humanos, promediando 50 regiones por imagen, usado para entrenar modelos de subtitulación densa.

3.- Subtitulación de imágenes previa: CNN extrae características de la imagen, RNN genera subtítulo una palabra a la vez condicionado en palabras previas.

4.- Detección de objetos previa (RCNN): Propuestas de regiones extraídas, recortadas, procesadas por CNN para predecir etiquetas.

5.- Proceso de subtitulación densa previa: Ineficiente, carece de contexto. Usa propuestas de regiones, las recorta, procesa con CNN, pasa cada una a RNN.

6.- Nueva subtitulación densa de extremo a extremo: Modelo único toma imagen, produce regiones y subtítulos. Entrenado de extremo a extremo con datos de Visual Genome.

7.- Dividiendo CNN en capas convolucionales y red de reconocimiento completamente conectada, intercambiando orden de convolución y recorte para eficiencia.

8.- Capa de localización: Propone regiones candidatas en la cuadrícula del mapa de características convolucional usando cajas ancla. Transforma anclas en propuestas de regiones.

9.- Entrenamiento de la capa de localización: Alinea propuestas con la verdad del terreno. Aumenta confianza de coincidencias, disminuye otras. Refina coordenadas de coincidencias.

10.- Interpolación bilineal (vs agrupamiento ROI) para recorte: Permite retropropagación a través de coordenadas de caja para entrenamiento de extremo a extremo.

11.- Arquitectura final de subtitulación densa: CNN, capa de localización, red de reconocimiento completamente conectada, y RNN entrenados conjuntamente de extremo a extremo.

12.- Cinco pérdidas de entrenamiento conjunto: Localización (regresión de caja y clasificación), correcciones de reconocimiento (regresión de caja y clasificación), subtitulación.

13.- Beneficios sobre trabajos previos: Mejor contexto a través de grandes campos receptivos de CNN, compartición eficiente de cómputo, propuestas de regiones y entrenamiento de extremo a extremo.

14.- Resultados cualitativos: Detecta y subtitula regiones salientes (objetos, partes, cosas) en imágenes de prueba de Visual Genome e imágenes nuevas.

15.- Métrica de evaluación de subtitulación densa: Mide tanto la caja delimitadora como la calidad del subtítulo. Supera trabajos previos por un margen saludable.

16.- Eficiencia: Procesa múltiples cuadros de alta resolución por segundo en GPU, 13 veces más rápido que antes.

17.- Bonus: Modelo inverso para recuperación de regiones dada una consulta en lenguaje natural.

18.- Método de recuperación de regiones: Paso hacia adelante de CNN, localización y reconocimiento. Clasifica por probabilidad de que RNN genere consulta desde región.

19.- Resultados de recuperación de regiones: Coincide nombres de objetos, interacciones como "manos sosteniendo teléfono". Alguna confusión en detalles como ruedas delanteras/traseras.

20.- Código y demo liberados: Código de entrenamiento/prueba, métrica AP, demo en vivo con cámara web en GitHub.

Bóveda del Conocimiento construida porDavid Vivancos 2024