Conocimiento Bóveda 5 /59 - CVPR 2020
DeepCap: Captura de Rendimiento Humano Monocular Usando Supervisión Débil
Marc Habermann; Weipeng Xu; Michael Zollhöfer; Gerard Pons-Moll; Christian Theobalt
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef deepcap fill:#f9d4d4, font-weight:bold, font-size:14px classDef networks fill:#d4f9d4, font-weight:bold, font-size:14px classDef losses fill:#d4d4f9, font-weight:bold, font-size:14px classDef results fill:#f9f9d4, font-weight:bold, font-size:14px A["DeepCap: Captura de Rendimiento Humano
Monocular Usando
Supervisión Débil"] --> B["Captura de rendimiento humano monocular
usando cámara RGB. 1"] A --> C["Captura pose, deformación de ropa
para personajes realistas. 2"] A --> D["Entrenamiento débilmente supervisado evita
procesamiento de datos complejo. 3"] A --> E["Configuración monocular: desafiante debido a
ambigüedades de profundidad, altas dimensiones. 4"] A --> F["Trabajo previo: métodos sin plantilla, paramétricos,
basados en plantillas. 5"] A --> G["DeepCAP: plantilla 3D personalizada con
gráfico embebido, esqueleto. 6"] G --> H["PoseNet regresa la pose del esqueleto. 7"] G --> I["DepthNet regresa la deformación de la superficie
en pose canónica. 7"] A --> J["Redes débilmente supervisadas con
juntas 2D multivista, máscaras. 8"] J --> K["Módulos diferenciables de 3D a 2D
requeridos para la pérdida. 9"] A --> L["Entrenamiento: estudio de pantalla verde multicámara. 10"] H --> M["PoseNet: puntos de referencia 3D en cámara,
espacio relativo a la raíz. 11"] H --> N["Capa de alineación global calcula,
aplica rotación, traslación. 12"] H --> O["Pérdida de puntos clave dispersos multivista:
puntos de referencia 3D proyectan a 2D. 13"] I --> P["DepNet regresa rotaciones del gráfico embebido
traslaciones. 14"] I --> Q["Capa de deformación combina pose,
deformación mediante deformación embebida,
skinning de cuaterniones duales. 15"] I --> R["Capa de alineación global aplicada para
vértices globales, puntos de referencia. 16"] I --> S["Pérdida de puntos clave dispersos multivista para
marcadores posados, deformados. 17"] I --> T["Pérdida de silueta: modelo coincide
imagen para supervisión densa. 18"] A --> U["DeepCAP vs LifeCap: mejor pose 3D,
deformación invisible plausible. 19"] A --> V["DeepCAP vs métodos de superficie implícita:
geometría consistente, sin extremidades faltantes. 20"] A --> W["IoU multivista mide precisión de reconstrucción
de superficie. 21"] A --> X["DeepCAP supera trabajo previo:
considera deformación de ropa,
predicción consistente de tela 3D. 22"] A --> Y["Entrenamiento débilmente supervisado: juntas
2D multivista, máscaras de primer plano. 23"] A --> Z["Módulos diferenciables de 3D a 2D
permiten pérdida de entrenamiento. 24"] A --> AA["Plantilla 3D personalizada con gráfico embebido,
esqueleto para regresión. 25"] A --> AB["PoseNet, DepthNet: principales redes de DeepCAP. 26"] A --> AC["Capa de alineación global para cálculo de
pérdida de puntos de referencia 3D globales. 27"] A --> AD["Capa de deformación: combina pose regresada,
deformación mediante deformación embebida,
skinning de cuaterniones duales. 28"] A --> AE["Pérdidas de silueta, puntos clave multivista:
supervisión densa, dispersa. 29"] A --> AF["DeepCAP: captura realista, geometría consistente,
ropa de única RGB. 30"] class A,B,C,D,E,F,G,AA,AF deepcap class H,I,M,N,P,Q,R,AB networks class J,K,O,S,T,Y,Z,AE losses class U,V,W,X results

Resumen:

1.- DeepCAP: enfoque de captura de rendimiento humano monocular usando una única cámara RGB.

2.- Captura pose y deformación de ropa para personajes virtuales realistas.

3.- Entrenamiento débilmente supervisado evita procesamiento de datos complicado.

4.- La configuración monocular es desafiante debido a ambigüedades de profundidad y problema de alta dimensión.

5.- Trabajo previo: modelos de cuerpo paramétricos sin plantilla y métodos basados en plantillas.

6.- DeepCAP utiliza una malla de plantilla 3D personalizada con un gráfico embebido y esqueleto.

7.- PoseNet regresa la pose del esqueleto, y DepthNet regresa la deformación de la superficie en pose canónica.

8.- Las redes son débilmente supervisadas con detecciones de juntas 2D multivista y máscaras de primer plano.

9.- Se requieren módulos diferenciables de 3D a 2D para evaluación de pérdida.

10.- Configuración de captura: estudio de pantalla verde multicámara para entrenamiento.

11.- PoseNet produce posiciones de puntos de referencia 3D en cámara y espacio relativo a la raíz.

12.- Capa de alineación global calcula y aplica rotación y traslación para posiciones de puntos de referencia 3D globales.

13.- Pérdida de puntos clave dispersos multivista asegura que los puntos de referencia 3D se proyecten en detecciones de juntas 2D.

14.- DepNet regresa ángulos de rotación por nodo y traslaciones del gráfico embebido.

15.- Capa de deformación combina pose regresada y deformación usando deformación embebida y skinning de cuaterniones duales.

16.- Capa de alineación global se aplica para obtener vértices y puntos de referencia globales.

17.- Pérdida de puntos clave dispersos multivista se aplica para marcadores posados y deformados.

18.- Pérdida de silueta impone que la silueta del modelo coincida con la silueta de la imagen para supervisión densa de vértices.

19.- Comparación con LifeCap muestra mejora en pose 3D y deformación plausible de superficies invisibles.

20.- Comparación con métodos de superficie implícita demuestra geometría consistente a lo largo del tiempo y evita extremidades faltantes.

21.- Intersección sobre unión multivista mide la precisión de reconstrucción de superficie.

22.- DeepCAP supera trabajos previos al considerar deformaciones de ropa y predicción consistente de deformación de tela 3D.

23.- Entrenamiento débilmente supervisado usando detecciones de juntas 2D multivista y máscaras de primer plano.

24.- Módulos diferenciables de 3D a 2D permiten evaluación de pérdida durante el entrenamiento.

25.- Se utiliza una malla de plantilla 3D personalizada con gráfico embebido y esqueleto para regresión de pose y deformación.

26.- PoseNet y DepthNet son las dos principales redes en el enfoque DeepCAP.

27.- Capa de alineación global asegura posiciones de puntos de referencia 3D globales para cálculo de pérdida.

28.- Capa de deformación combina pose regresada y deformación usando deformación embebida y skinning de cuaterniones duales.

29.- Pérdida de silueta y pérdida de puntos clave dispersos multivista proporcionan supervisión densa y dispersa, respectivamente.

30.- DeepCAP logra captura de rendimiento humano realista con geometría consistente y deformación de ropa desde una única cámara RGB.

Bóveda de Conocimiento construida por David Vivancos 2024