Conocimiento Bóveda 5 /40 - CVPR 2018
DensePose: Estimación Densa de Pose Humana en el Entorno
Rıza Alp Güler, Natalia Neverova, Iasonas Kokkinos
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4d4, font-weight:bold, font-size:14px classDef pose fill:#d4f9d4, font-weight:bold, font-size:14px classDef dataset fill:#d4d4f9, font-weight:bold, font-size:14px classDef architecture fill:#f9f9d4, font-weight:bold, font-size:14px classDef applications fill:#f9d4f9, font-weight:bold, font-size:14px A["DensePose: Estimación Densa de
Pose Humana en
el Entorno"] --> B["DensePose: estimación de pose humana,
mapeo de píxeles a modelo 3D. 1"] B --> C["Más allá de los puntos clave, proporciona
correspondencias densa de malla de píxeles. 2"] B --> D["Superficie del cuerpo dividida en
parches con coordenadas locales. 3"] A --> E["Construcción de un conjunto de datos a gran escala con
anotaciones manuales de imagen-superficie. 4"] E --> F["Anotación eficiente en dos etapas: segmentación,
mapeo de puntos a 3D. 5"] E --> G["Evaluación de la precisión de anotaciones usando
datos sintéticos, pistas visuales. 6"] A --> H["Entrenamiento discriminativo aprende pose densa
del conjunto de datos anotado. 7"] A --> I["DensePose R-CNN: estimación en tiempo real,
múltiples cuadros por segundo. 8"] I --> J["Predice clasificación de partes, regresión de coordenadas U/V
dentro de las partes. 9"] I --> K["Evaluado usando métricas de distancia geodésica
para precisión de correspondencia. 10"] I --> L["Supera el ajuste de modelos como SMPLify,
mucho más rápido. 11"] I --> M["Imágenes anotadas reales superiores
a datos ajustados/sintéticos. 12"] I --> N["Aprendizaje multitarea, conexiones entre tareas
mejoran el rendimiento sustancialmente. 13"] I --> O["Robusto a escala, oclusión,
apariencia, suaviza sobre video. 14"] I --> P["Maneja múltiples personas simultáneamente,
funciona en tiempo real en GPU. 15"] A --> Q["Aplicaciones: transferencia de texturas densas
del modelo 3D a imágenes. 16"] A --> R["Código, conjunto de datos disponible públicamente
para investigación de pose densa. 17"] A --> S["Desafíos anunciados para ECCV 2018. 18"] B --> T["Se enfoca en correspondencias de plantillas,
no en pose/forma 3D específica. 19"] I --> U["Detección de puntos clave como tarea auxiliar
mejora el rendimiento de pose densa. 20"] I --> V["Interacción entre cabezas de red,
puntos clave a pose densa, ayuda. 21"] I --> W["Manos, cara, pies más precisos.
Torso menos distintivo, mayores errores. 22"] B --> X["Entrenado para corresponder píxeles
al cuerpo, incluso cuando está oculto. 23"] I --> Y["Introducido Similitud de Puntos Geodésicos
GPS, extiende OKS a denso. 24"] I --> Z["ResNet-101 más grande vs 50
disminución en precisión-velocidad. 25"] B --> AA["Correspondencia en dos pasos: etiquetas de partes,
luego U-V dentro de partes. 26"] I --> AB["Entrenamiento de extremo a extremo con
supervisión densa, sin ajuste en prueba. 27"] I --> AC["Sistema único: caja delimitadora, puntos clave,
enmascaramiento, estimación de pose densa. 28"] I --> AD["Visualiza segmentaciones de partes, campos U-V
para evaluar rendimiento, modos de falla. 29"] B --> AE["Abre nuevas posibilidades para
comprensión humana detallada. 30"] class A main class B,C,D,T,X,AA,AE pose class E,F,G,R dataset class H,I,J,K,L,M,N,O,P,U,V,W,Y,Z,AB,AC,AD architecture class Q,S applications

Resumen:

1.- DensePose estima la pose humana densa mapeando píxeles de imagen a un modelo de superficie 3D del cuerpo.

2.- Se extiende más allá de la estimación de pose basada en puntos clave para proporcionar correspondencias entre todos los píxeles humanos y miles de puntos de malla.

3.- La superficie del cuerpo humano se divide en parches, cada uno asociado con coordenadas UV locales.

4.- Se construyó un conjunto de datos a gran escala con anotaciones manuales de correspondencias imagen-superficie en 50,000 imágenes COCO.

5.- Se utilizó una canalización de anotación eficiente en dos etapas, primero segmentando partes y luego mapeando puntos muestreados a la superficie 3D.

6.- La precisión de las anotaciones se evaluó utilizando datos sintéticos, encontrando que las pistas visuales prominentes permiten un etiquetado preciso.

7.- Se utiliza entrenamiento discriminativo para aprender la estimación de pose densa del gran conjunto de datos anotado.

8.- La arquitectura DensePose R-CNN realiza estimación de pose densa en tiempo real, procesando video a múltiples cuadros por segundo.

9.- Se predicen tres salidas: clasificación de partes para cada píxel y regresión de coordenadas U/V dentro de las partes.

10.- La evaluación se realiza utilizando métricas de distancia geodésica que miden la precisión de correspondencia entre puntos de imagen y la superficie.

11.- DensePose muestra grandes mejoras sobre enfoques de ajuste de modelos como SMPLify, siendo mucho más rápido.

12.- Entrenar en imágenes anotadas reales (DensePose-COCO) ofrece resultados superiores en comparación con el entrenamiento en datos ajustados o sintéticos.

13.- Se analizaron las elecciones arquitectónicas, encontrando que el aprendizaje multitarea y las conexiones entre tareas mejoran el rendimiento sustancialmente.

14.- Los resultados cualitativos demuestran robustez a escala, oclusión, variación de apariencia y predicciones suaves sobre secuencias de video.

15.- El sistema maneja múltiples personas simultáneamente y funciona en tiempo real en una sola GPU.

16.- Se muestran aplicaciones potenciales, como la transferencia de texturas densas del modelo 3D a imágenes.

17.- El código y el conjunto de datos se ponen a disposición del público para fomentar una mayor investigación sobre el problema de la estimación de pose densa.

18.- Se anuncian los desafíos DensePose-COCO y DensePose-PoseTrack para ECCV 20

19.- El enfoque se centra en las correspondencias a una forma de plantilla, no en la estimación de una pose y forma 3D específica para cada imagen.

20.- La detección de puntos clave como tarea auxiliar proporciona el mayor impulso al rendimiento de la estimación de pose densa.

21.- La interacción entre diferentes cabezas de red, especialmente de puntos clave a pose densa, ayuda significativamente al modelo.

22.- Las manos, la cara y los pies tienen las correspondencias más precisas, mientras que las áreas menos visualmente distintivas como el torso tienen errores más altos.

23.- El sistema está entrenado para corresponder píxeles al cuerpo subyacente incluso cuando está oculto por ropa y accesorios.

24.- Se introduce una medida de evaluación por instancia llamada Similitud de Puntos Geodésicos (GPS), extendiendo OKS de puntos clave a correspondencia densa.

25.- Usar una red de respaldo más grande (ResNet-101 vs 50) da rendimientos decrecientes en el equilibrio precisión-velocidad.

26.- La correspondencia imagen-superficie se establece en dos pasos: asignación de etiquetas de partes, luego regresión de coordenadas U-V dentro de las partes.

27.- El modelo se entrena de extremo a extremo utilizando correspondencia densa como supervisión, sin ajuste de modelo en el momento de la prueba.

28.- Un solo sistema puede realizar múltiples tareas, incluida la detección de caja delimitadora/puntos clave, enmascaramiento y estimación de pose densa.

29.- Las segmentaciones de partes y los campos U-V predichos por el sistema se visualizan para evaluar cualitativamente el rendimiento y los modos de falla.

30.- La estimación de pose densa abre nuevas posibilidades para la comprensión detallada del ser humano más allá de los puntos clave dispersos.

Bóveda del Conocimiento construida porDavid Vivancos 2024