Conocimiento Bóveda 5 /45 - CVPR 2019
Redes de Pirámide de Características Panópticas
Alexander Kirillov; Ross Girshick; Kaiming He; Piotr Dollár
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef panoptic fill:#f9d4d4, font-weight:bold, font-size:14px classDef semantic fill:#d4f9d4, font-weight:bold, font-size:14px classDef instance fill:#d4d4f9, font-weight:bold, font-size:14px classDef datasets fill:#f9f9d4, font-weight:bold, font-size:14px classDef architectures fill:#f9d4f9, font-weight:bold, font-size:14px A["Redes de Pirámide de
Características Panópticas"] --> B["Panóptico: etiqueta píxeles, divide instancias. 1"] A --> C["Semántico: etiqueta cada píxel. 2"] A --> D["Instancia: enmascara objetos. 3"] A --> E["Conjuntos de datos: anotaciones, desafíos, tablas de clasificación. 4"] A --> F["Redes independientes: semántico, instancia. 5"] F --> G["Cálculo/memoria ineficiente, más difícil de extremo a extremo. 5"] A --> H["PanopticFPN: unificado semántico, instancia. 6"] H --> I["FPN: mapas de características multi-escala. 7"] H --> J["Mask R-CNN: cabeza de instancia. 8"] H --> K["Pixel-wise: cabeza semántica. 9"] J --> L["RBR: fuerte rendimiento de instancia. 10"] K --> M["PLR: segmentación semántica eficiente. 11"] H --> N["Segmentación simultánea de instancia, semántica. 12"] A --> O["Conjuntos de datos: COCO, Cityscapes. 13"] H --> P["Supera a redes independientes. 14"] A --> Q["PanopticFPN: simple, eficiente línea base. 15"] class A,B panoptic class C semantic class D instance class E,O datasets class F,G,H,I,J,K,L,M,N,P,Q architectures

Resumen:

1.- Segmentación panóptica: Asigna una etiqueta semántica a cada píxel y divide instancias de la misma clase en diferentes segmentos. Combina segmentación semántica e instancia.

2.- Segmentación semántica: Asigna una etiqueta semántica a cada píxel en la imagen.

3.- Segmentación de instancia: Delinea objetos de clases de "cosas" con máscaras. Las máscaras predichas se utilizan para análisis adicionales.

4.- Conjuntos de datos de segmentación panóptica: Los conjuntos de datos modernos tienen anotaciones de verdad de terreno. Existen desafíos y tablas de clasificación.

5.- Combinación de dos redes independientes: Enfoque directo utilizando las mejores arquitecturas de segmentación semántica e instancia. Cálculo/memoria ineficiente, más difícil para un sistema de extremo a extremo.

6.- Redes de Pirámide de Características Panópticas (PanopticFPN): Arquitectura unificada que produce segmentación semántica e instancia simultáneamente desde una sola base.

7.- Red de Pirámide de Características (FPN) base: Produce mapas de características a diferentes resoluciones espaciales, utilizados para las cabezas de instancia y semántica.

8.- Cabeza Mask R-CNN para segmentación de instancia: Fuerte arquitectura para segmentación de instancia, llamada cabeza de Reconocimiento Basado en Regiones (RBR).

9.- Cabeza simple a nivel de píxel para segmentación semántica: Procesa los mapas de características de cada escala de forma independiente, los suma, predice las puntuaciones finales. Llamada cabeza de Reconocimiento a Nivel de Píxel (PLR).

10.- Rendimiento competitivo de segmentación de instancia: La cabeza RBR en la base FPN rinde a la par con métodos bien conocidos como DeepLabV3/V3+.

11.- Segmentación semántica eficiente: La cabeza PLR evita dilaciones para preservar la resolución espacial, haciéndola computacional y de memoria eficiente.

12.- Segmentación simultánea de instancia y semántica: Arquitectura unificada PanopticFPN con una sola base y dos cabezas.

13.- Conjuntos de datos evaluados: COCO y Cityscapes.

14.- Comparación con redes independientes: Con el mismo presupuesto de cálculo, PanopticFPN supera a Mask R-CNN y SemanticFPN. Mayor calidad panóptica.

15.- Fuerte línea base de segmentación panóptica: Se espera que PanopticFPN se utilice como línea base para futuros métodos panópticos debido a su simplicidad y eficiencia.

Bóveda de Conocimiento construida por David Vivancos 2024