Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:
Resumen:
1.- Subtitulación densa: Detecta conjuntamente regiones de imagen y las describe en lenguaje natural. Combina la densidad de etiquetas de la detección de objetos con la complejidad de etiquetas de la subtitulación de imágenes.
2.- Conjunto de datos de Subtítulos de Regiones de Visual Genome: Más de 100K imágenes con 5.4M subtítulos de regiones escritos por humanos, promediando 50 regiones por imagen, usado para entrenar modelos de subtitulación densa.
3.- Subtitulación de imágenes previa: CNN extrae características de la imagen, RNN genera subtítulo una palabra a la vez condicionado en palabras previas.
4.- Detección de objetos previa (RCNN): Propuestas de regiones extraídas, recortadas, procesadas por CNN para predecir etiquetas.
5.- Proceso de subtitulación densa previa: Ineficiente, carece de contexto. Usa propuestas de regiones, las recorta, procesa con CNN, pasa cada una a RNN.
6.- Nueva subtitulación densa de extremo a extremo: Modelo único toma imagen, produce regiones y subtítulos. Entrenado de extremo a extremo con datos de Visual Genome.
7.- Dividiendo CNN en capas convolucionales y red de reconocimiento completamente conectada, intercambiando orden de convolución y recorte para eficiencia.
8.- Capa de localización: Propone regiones candidatas en la cuadrícula del mapa de características convolucional usando cajas ancla. Transforma anclas en propuestas de regiones.
9.- Entrenamiento de la capa de localización: Alinea propuestas con la verdad del terreno. Aumenta confianza de coincidencias, disminuye otras. Refina coordenadas de coincidencias.
10.- Interpolación bilineal (vs agrupamiento ROI) para recorte: Permite retropropagación a través de coordenadas de caja para entrenamiento de extremo a extremo.
11.- Arquitectura final de subtitulación densa: CNN, capa de localización, red de reconocimiento completamente conectada, y RNN entrenados conjuntamente de extremo a extremo.
12.- Cinco pérdidas de entrenamiento conjunto: Localización (regresión de caja y clasificación), correcciones de reconocimiento (regresión de caja y clasificación), subtitulación.
13.- Beneficios sobre trabajos previos: Mejor contexto a través de grandes campos receptivos de CNN, compartición eficiente de cómputo, propuestas de regiones y entrenamiento de extremo a extremo.
14.- Resultados cualitativos: Detecta y subtitula regiones salientes (objetos, partes, cosas) en imágenes de prueba de Visual Genome e imágenes nuevas.
15.- Métrica de evaluación de subtitulación densa: Mide tanto la caja delimitadora como la calidad del subtítulo. Supera trabajos previos por un margen saludable.
16.- Eficiencia: Procesa múltiples cuadros de alta resolución por segundo en GPU, 13 veces más rápido que antes.
17.- Bonus: Modelo inverso para recuperación de regiones dada una consulta en lenguaje natural.
18.- Método de recuperación de regiones: Paso hacia adelante de CNN, localización y reconocimiento. Clasifica por probabilidad de que RNN genere consulta desde región.
19.- Resultados de recuperación de regiones: Coincide nombres de objetos, interacciones como "manos sosteniendo teléfono". Alguna confusión en detalles como ruedas delanteras/traseras.
20.- Código y demo liberados: Código de entrenamiento/prueba, métrica AP, demo en vivo con cámara web en GitHub.
Bóveda del Conocimiento construida porDavid Vivancos 2024