Conocimiento Bóveda 5 /26 - CVPR 2017
Anotando Instancias de Objetos con un Polygon-RNN
Lluís Castrejón, Kaustav Kundu, Raquel Urtasun, & Sanja Fidler
< Imagen del Resumen >

Gráfico de Concepto & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef instanceSegmentation fill:#f9d4d4, font-weight:bold, font-size:14px classDef polygonRNN fill:#d4f9d4, font-weight:bold, font-size:14px classDef annotations fill:#d4d4f9, font-weight:bold, font-size:14px classDef experiments fill:#f9f9d4, font-weight:bold, font-size:14px A["Anotando Instancias de Objetos
con un Polygon-RNN"] --> B["Segmentación de instancias: regiones,
instancias de objetos, anotación que consume tiempo. 1"] B --> C["Polygon-RNN: modelo interactivo,
polígonos, modificaciones del usuario. 2"] C --> D["Polígonos: natural, escasa
representación, fácil incorporación. 3"] C --> E["Polygon-RNN: características de CNN,
LSTM convolucional, vértices. 4"] C --> F["Correcciones del usuario: selección de
vértices, actualizaciones del modelo. 5"] A --> G["Anotación: caja delimitadora, polígono,
correcciones, segmentación. 6"] A --> H["Experimentos: segmentación automática,
correcciones simuladas del usuario. 7"] H --> I["Polygon-RNN supera las bases
en el conjunto de datos Cityscapes. 8"] H --> J["Correcciones simuladas: acuerdo a nivel humano,
menos clics. 9"] H --> K["Generalización KITTI: acuerdo humano estimado,
<6 clics. 10"] A --> L["Polygon-RNN permite anotación barata,
interacción automática+usuario. 11"] class A,B instanceSegmentation class C,D,E,F polygonRNN class G,L annotations class H,I,J,K experiments

Resumen:

1.- La segmentación de instancias implica determinar las regiones de la imagen que pertenecen a instancias individuales de objetos. Anotar instancias manualmente consume mucho tiempo.

2.- Polygon-RNN es un modelo interactivo de segmentación de instancias que genera polígonos y acepta modificaciones del usuario para mejorar las predicciones.

3.- Los polígonos son una representación natural y escasa para anotar instancias, permitiendo la fácil incorporación de modificaciones del usuario al agregar/eliminar/mover vértices.

4.- Polygon-RNN extrae características de imagen de CNN en diferentes niveles, utiliza un LSTM convolucional para predecir vértices de polígonos secuencialmente.

5.- Los usuarios pueden corregir los vértices predichos seleccionando nuevas ubicaciones. Las correcciones se introducen en el modelo para actualizar las predicciones.

6.- Proceso de anotación: Dibujar caja delimitadora, el modelo genera polígono, el usuario corrige vértices si es necesario, el modelo genera segmentación refinada.

7.- Experimentos realizados en segmentación automática de instancias (sin interacción del usuario) y anotación con correcciones simuladas del usuario.

8.- Polygon-RNN supera a las bases DeepMask y SharpMask para la segmentación automática de instancias en el conjunto de datos Cityscapes.

9.- Con correcciones simuladas del usuario, Polygon-RNN logra un acuerdo de anotación a nivel humano mientras requiere 5 veces menos clics en comparación con la anotación manual.

10.- Polygon-RNN se generaliza al conjunto de datos KITTI sin ajuste fino, alcanzando un acuerdo humano estimado con <6 clics por instancia en promedio.

11.- Polygon-RNN permite la anotación barata de nuevos conjuntos de datos de segmentación de instancias combinando predicción automática con fácil interacción del usuario.

Bóveda de Conocimiento construida porDavid Vivancos 2024