Conocimiento Bóveda 5 /55 - CVPR 2020
Adaptación de Dominio Debilmente Supervisada mediante GAN y Modelo de Malla para Estimar Poses de Manos 3D Interactuando con Objetos
Seungryul Baek; Kwang In Kim; Tae-Kyun Kim
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef pose fill:#f9d4d4, font-weight:bold, font-size:14px classDef data fill:#d4f9d4, font-weight:bold, font-size:14px classDef method fill:#d4d4f9, font-weight:bold, font-size:14px classDef results fill:#f9f9d4, font-weight:bold, font-size:14px A["Adaptación de Dominio Debilmente Supervisada
mediante GAN y
Modelo de Malla para
Estimar Poses de Manos 3D
Interactuando con Objetos"] --> B["Predicción de pose de mano exitosa solo mano,
no mano-objeto. 1"] A --> C["Meta: predicción de pose de mano
con interacciones de objetos. 2"] A --> D["Trabajo previo limitado
por problemas de conjunto de datos. 3"] A --> E["Comparación de conjuntos de datos reales:
cantidad limitada, anotaciones. 4"] A --> F["Conjuntos de datos sintéticos difieren
de la apariencia real. 5"] F --> G["Los datos sintéticos causan
fallo en la predicción real. 6"] A --> H["Conjuntos de captura de movimiento basados en marcadores
tienen huecos. 7"] A --> I["Conjuntos de datos reales pequeños
requieren esfuerzo manual. 8"] A --> J["Conjuntos de datos de videojuegos
carecen de anotaciones 3D. 9"] A --> K["Combinación de datos reales y
sintéticos. 10"] K --> L["Puente entre datos reales limitados,
datos sintéticos abundantes. 11"] A --> M["Pipeline: supervisión de imagen, propagación,
supervisión de esqueleto 3D. 12"] M --> N["Mapas de consistencia de ciclo a
espacio de imagen original. 13"] M --> O["Supervisión de pose 3D mediante
renderizado diferenciable. 14"] M --> P["Generador, discriminador,
renderizador diferenciable. 15"] P --> Q["Generar imagen sintética solo manos. 16"] P --> R["Mapear sintético a real
usando red generadora. 17"] P --> S["GAN sintetiza imagen mixta,
preserva estructura de mano. 18"] P --> T["Predecir pose 3D de
imagen mixta. 19"] P --> U["Discriminador refuerza objetivo GAN
a nivel de imagen. 20"] A --> V["Aprovecha conjuntos de datos RGB existentes,
conjuntos de datos sintéticos mano-objeto. 21"] A --> W["Ajuste fino en conjuntos de datos
reales 3D pequeños. 22"] A --> X["Opcional: utilizar conjuntos de datos anotados 3D
interacciones mano-objeto. 23"] A --> Y["Adaptación de dominio debilmente supervisada
puente entre sintético-real. 24"] A --> Z["Mantiene rendimiento solo manos,
generaliza a mano-objeto. 25"] A --> AA["Resultados cualitativos visualizan
entradas, predicciones. 26"] A --> AB["Pruebas demuestran efectividad del método
en conjuntos de datos. 27"] A --> AC["Combina estimación 2D, GANs,
avances en renderizado diferenciable. 28"] AC --> AD["Entrena estimador de pose sin
grandes conjuntos de datos reales. 29"] A --> AE["Permite progreso en pose de mano 3D
bajo interacciones de objetos. 30"] class A,B,C,Z,AE pose class D,E,F,G,H,I,J,K,L,V,W,X,AA data class M,N,O,P,Q,R,S,T,U,Y,AC,AD method class AB results

Resumen:

1.- Predicción de pose de mano exitosa en escenarios solo mano, pero aún no con interacciones mano-objeto.

2.- El objetivo es habilitar la predicción exitosa de pose de mano con interacciones de objetos.

3.- El trabajo previo tuvo problemas para poblar nuevos conjuntos de datos debido a limitaciones.

4.- Comparación de los conjuntos de datos Dex-YCB y Ego-Dexter - secuencias reales pero cantidad limitada y anotaciones 3D.

5.- El conjunto de datos HO-3D tiene anotaciones 3D más completas pero la apariencia sintética difiere de la real.

6.- Usar datos sintéticos causa que la predicción de pose de mano falle en secuencias reales.

7.- Los conjuntos de captura de movimiento basados en marcadores tienen imágenes RGB si se utilizan sensores, pero permanecen huecos.

8.- Los conjuntos de datos reales pequeños construidos mediante ajuste de modelo 3D y refinamiento manual tienen mejor calidad pero requieren esfuerzo manual.

9.- Los grandes conjuntos de datos de videojuegos siguen siendo problemáticos debido a la falta de anotaciones 3D.

10.- Combinación de conjuntos de datos reales pequeños con otros sintéticos más grandes mediante ajuste de modelo 3D.

11.- Necesidad de cerrar la brecha entre los datos reales limitados y los datos sintéticos abundantes.

12.- Idea principal: Utilizar supervisión a nivel de imagen en imágenes RGB, propagar a imágenes solo manos, luego a supervisión de esqueleto 3D.

13.- Usar consistencia de ciclo para mapear de nuevo al espacio de imagen original.

14.- Obtener supervisión de pose 3D mediante renderizado diferenciable.

15.- El pipeline involucra generador, discriminador y renderizador diferenciable.

16.- Generar imagen sintética solo manos X' mediante renderizado de malla de mano 3D.

17.- Mapear sintético X' a imagen real X usando red generadora.

18.- Entrenar GAN para sintetizar nueva imagen mixta X'' preservando estructura de mano.

19.- Predecir malla de mano 3D y pose desde X'' usando estimador de pose 2D y renderizador diferenciable.

20.- Entrenar red discriminadora para reforzar el objetivo GAN a nivel de imagen.

21.- Aprovechar conjuntos de datos existentes de pose de mano RGB e imágenes sintéticas mano-objeto para entrenar el pipeline completo.

22.- Ajuste fino en conjuntos de datos pequeños con anotaciones de pose 3D reales.

23.- Opcionalmente utilizar conjuntos de datos con anotaciones 3D e interacciones mano-objeto si están disponibles.

24.- La adaptación de dominio debilmente supervisada ayuda a cerrar la brecha entre los datos sintéticos y reales.

25.- Mantener el rendimiento en el benchmark solo manos mientras se habilita la generalización a escenarios mano-objeto.

26.- Los resultados cualitativos visualizan entradas, predicción inicial de malla, imagen completa traducida y predicción final de malla.

27.- Las pruebas en los conjuntos de datos HO-3D, EgoDexter, Dexter+Object demuestran la efectividad del método.

28.- Combina avances en estimación de pose 2D, GANs y renderizado diferenciable.

29.- Permite entrenar el estimador de pose sin requerir grandes conjuntos de datos reales anotados.

30.- Permite el progreso en el desafiante problema de estimación de pose de mano 3D bajo interacciones de objetos.

Bóveda del Conocimiento construida porDavid Vivancos 2024