Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:
Resumen:
1.- Predicción de pose de mano exitosa en escenarios solo mano, pero aún no con interacciones mano-objeto.
2.- El objetivo es habilitar la predicción exitosa de pose de mano con interacciones de objetos.
3.- El trabajo previo tuvo problemas para poblar nuevos conjuntos de datos debido a limitaciones.
4.- Comparación de los conjuntos de datos Dex-YCB y Ego-Dexter - secuencias reales pero cantidad limitada y anotaciones 3D.
5.- El conjunto de datos HO-3D tiene anotaciones 3D más completas pero la apariencia sintética difiere de la real.
6.- Usar datos sintéticos causa que la predicción de pose de mano falle en secuencias reales.
7.- Los conjuntos de captura de movimiento basados en marcadores tienen imágenes RGB si se utilizan sensores, pero permanecen huecos.
8.- Los conjuntos de datos reales pequeños construidos mediante ajuste de modelo 3D y refinamiento manual tienen mejor calidad pero requieren esfuerzo manual.
9.- Los grandes conjuntos de datos de videojuegos siguen siendo problemáticos debido a la falta de anotaciones 3D.
10.- Combinación de conjuntos de datos reales pequeños con otros sintéticos más grandes mediante ajuste de modelo 3D.
11.- Necesidad de cerrar la brecha entre los datos reales limitados y los datos sintéticos abundantes.
12.- Idea principal: Utilizar supervisión a nivel de imagen en imágenes RGB, propagar a imágenes solo manos, luego a supervisión de esqueleto 3D.
13.- Usar consistencia de ciclo para mapear de nuevo al espacio de imagen original.
14.- Obtener supervisión de pose 3D mediante renderizado diferenciable.
15.- El pipeline involucra generador, discriminador y renderizador diferenciable.
16.- Generar imagen sintética solo manos X' mediante renderizado de malla de mano 3D.
17.- Mapear sintético X' a imagen real X usando red generadora.
18.- Entrenar GAN para sintetizar nueva imagen mixta X'' preservando estructura de mano.
19.- Predecir malla de mano 3D y pose desde X'' usando estimador de pose 2D y renderizador diferenciable.
20.- Entrenar red discriminadora para reforzar el objetivo GAN a nivel de imagen.
21.- Aprovechar conjuntos de datos existentes de pose de mano RGB e imágenes sintéticas mano-objeto para entrenar el pipeline completo.
22.- Ajuste fino en conjuntos de datos pequeños con anotaciones de pose 3D reales.
23.- Opcionalmente utilizar conjuntos de datos con anotaciones 3D e interacciones mano-objeto si están disponibles.
24.- La adaptación de dominio debilmente supervisada ayuda a cerrar la brecha entre los datos sintéticos y reales.
25.- Mantener el rendimiento en el benchmark solo manos mientras se habilita la generalización a escenarios mano-objeto.
26.- Los resultados cualitativos visualizan entradas, predicción inicial de malla, imagen completa traducida y predicción final de malla.
27.- Las pruebas en los conjuntos de datos HO-3D, EgoDexter, Dexter+Object demuestran la efectividad del método.
28.- Combina avances en estimación de pose 2D, GANs y renderizado diferenciable.
29.- Permite entrenar el estimador de pose sin requerir grandes conjuntos de datos reales anotados.
30.- Permite el progreso en el desafiante problema de estimación de pose de mano 3D bajo interacciones de objetos.
Bóveda del Conocimiento construida porDavid Vivancos 2024