Conocimiento Bóveda 5 /7 - CVPR 2015
Reconstrucción de Objetos Específicos de Categoría a partir de una Sola Imagen
Abhishek Kar, Shubham Tulsiani, João Carreira, Jitendra Malik
< Imagen del Resumen >

Gráfico de Concepto & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef pipeline fill:#f9d4d4, font-weight:bold, font-size:14px classDef model fill:#d4f9d4, font-weight:bold, font-size:14px classDef reconstruction fill:#d4d4f9, font-weight:bold, font-size:14px classDef results fill:#f9f9d4, font-weight:bold, font-size:14px classDef misc fill:#f9d4f9, font-weight:bold, font-size:14px A["Reconstrucción de Objetos Específicos de Categoría
de una Sola
Imagen"] --> B["Reconstrucción 3D de objetos
de una sola imagen 1"] A --> C["Modelo deformable offline,
reconstrucción online 2"] C --> D["Modelos capturan variación
de forma intra-clase 3"] C --> E["Modelos deformables
de imágenes 2D 4"] A --> F["Pipeline: anotación, estimación de pose,
modelado 5"] F --> G["Estructura no rígida desde el movimiento
estima poses, puntos clave 6"] F --> H["Modelos construidos
deformando malla 7"] F --> I["Minimización de energía: datos,
priores, variedad 8"] I --> J["Descenso de coordenadas por bloques
resuelve forma 9"] A --> K["Buena forma central,
estructuras delgadas 10"] K --> L["Modos de deformación impulsados por datos
reflejan variación 11"] A --> M["Reconstrucción: conocimiento de categoría,
pose, forma 12"] M --> N["Pipeline: detección, segmentación,
pose, ajuste 13"] N --> O["Sistema de detección y
segmentación simultánea 14"] N --> P["Sistema de predicción de punto de vista
predice ángulos 15"] N --> Q["Estimación de forma combina
salidas, modelos 16"] N --> R["Optimización similar a
aprendizaje, refinamiento 17"] A --> S["Detalles de alta frecuencia añadidos
usando pistas 18"] S --> T["Forma desde sombreado, imágenes intrínsecas
aprovechan pistas 19"] S --> U["Prior específico de categoría inyecta
detalles de alta frecuencia 20"] A --> V["Reconstrucciones automáticas combinan
modelos, pistas 21"] A --> W["Varias categorías reconstruidas
con estructuras 22"] A --> X["Evaluación mide malla,
errores de profundidad 23"] X --> Y["Error menor que
enfoque CAD 24"] A --> Z["Robustez ante entradas
de reconocimiento ruidosas 25"] A --> AA["Trabajo relacionado: punto de vista,
correspondencia, imagen única 26"] A --> AB["Código liberado para
uso en investigación 27"] A --> AC["Video demuestra reconstrucciones
automáticas 28"] A --> AD["Posible extensión: incorporar
mallas 3D 29"] A --> AE["Meta: aprender de imágenes,
no CAD 30"] class B,M,N,Q,V,W reconstruction class C,D,E,H,J,L model class F,G,I,O,P,R pipeline class K,S,T,U,X,Y,Z results class AA,AB,AC,AD,AE misc

Resumen:

1.- Meta: reconstrucción 3D de objetos en una sola imagen

2.- Enfoque de dos etapas: construcción de modelo de forma 3D deformable offline, reconstrucción 3D online

3.- Modelos de forma deformable capturan variación de forma intra-clase con forma media y componentes principales

4.- Modelos deformables construidos a partir de imágenes 2D para categorías generales de objetos

5.- Pipeline: colección de imágenes anotadas, estimación de pose de cámara, construcción de modelo 3D deformable

6.- Estructura no rígida desde el movimiento (NRSFM) estima poses de cámara y puntos clave 3D

7.- Modelos 3D deformables construidos deformando iterativamente la malla para explicar siluetas

8.- Marco de minimización de energía con términos de datos, prior de forma y restricción de variedad lineal

9.- Descenso de coordenadas por bloques minimiza el objetivo para resolver la forma media y la base de deformación

10.- Resultados: buena estimación de la forma central del objeto y estructuras delgadas de Pascal VOC

11.- Modos de deformación aprendidos de los datos reflejan variaciones en categorías de objetos

12.- Reconstrucción online motivada por la percepción humana: conocimiento de categoría, pose, nociones de forma previa

13.- Pipeline de reconstrucción: detección de objetos, segmentación, estimación de pose, ajuste de modelo de forma, integración de pistas de abajo hacia arriba

14.- Sistema de detección y segmentación simultánea (Hariharan et al.) para detecciones y segmentaciones de objetos

15.- Sistema de predicción de punto de vista (Tulsiani y Malik) predice tres ángulos de Euler para cada detección

16.- Estimación de forma combinando salidas de reconocimiento con modelos de forma aprendidos

17.- Problema de optimización similar al aprendizaje, sin término de punto clave, y refinamiento de cámara

18.- Detalles de alta frecuencia añadidos usando pistas de bajo nivel como bordes y sombreado

19.- Algoritmos de forma desde sombreado e imágenes intrínsecas (SIRFS por Barron y Malik) aprovechan pistas de abajo hacia arriba

20.- SIRFS modificado para incorporar prior de forma específico de categoría para inyectar detalles de alta frecuencia

21.- Reconstrucciones completamente automáticas obtenidas combinando modelos aprendidos con pistas de abajo hacia arriba

22.- Los resultados muestran la reconstrucción de varias categorías de objetos con estructuras delgadas

23.- Evaluación empírica en el conjunto de datos Pascal 3D midiendo errores para mallas deformadas y mapas de profundidad

24.- Comparación con el enfoque basado en CAD (Kar et al.) muestra menor error usando modelos aprendidos y SIRFS

25.- Robustez ante entradas de reconocimiento ruidosas demostrada por la degradación suave del rendimiento

26.- Trabajo relacionado: sistema de predicción de punto de vista, reconstrucción basada en correspondencia, taller de 3D a partir de una sola imagen

27.- Código liberado para uso en investigación

28.- Video demuestra reconstrucciones completamente automáticas usando el método propuesto

29.- Posible extensión: incorporación de un número moderado de mallas 3D en el marco de aprendizaje

30.- Meta: alejarse de la necesidad de modelos CAD aprendiendo de imágenes

Bóveda de Conocimiento construida por David Vivancos 2024