Conocimiento Bóveda 5 /60 - CVPR 2020
Total3DUnderstanding: Reconstrucción Conjunta de Disposición, Posición de Objetos y Malla para Escenas Interiores a partir de una Imagen Única
Yinyu Nie; Xiaoguang Han; Shihui Guo; Yujian Zheng; Jian Chang; Jian.J Zhang
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef total fill:#f9d4d4, font-weight:bold, font-size:14px classDef modules fill:#d4f9d4, font-weight:bold, font-size:14px classDef training fill:#d4d4f9, font-weight:bold, font-size:14px classDef detection fill:#f9f9d4, font-weight:bold, font-size:14px classDef features fill:#f9d4f9, font-weight:bold, font-size:14px classDef results fill:#d4f9f9, font-weight:bold, font-size:14px A["Total3DUnderstanding: Reconstrucción Conjunta de Disposición,
Posición de Objetos y
Malla para Escenas Interiores
a partir de una Imagen Única"] --> B["Comprensión de escena 3D a partir
de una imagen interior única 1"] A --> C["Reconstrucción conjunta de disposición de la habitación,
posiciones de objetos,
mallas 2"] C --> D["Módulo de estimación de disposición de la habitación 8"] C --> E["Módulo de predicción de caja delimitadora
de objetos 7"] C --> F["Módulo de generación de malla 3D
para cada objeto 9"] A --> G["Entrenamiento conjunto de módulos
para escena 3D enriquecida 3"] A --> H["Detector de objetos 2D genera
cajas delimitadoras 4"] A --> I["ResNet extrae características geométricas,
de apariencia de detecciones 2D 5"] A --> J["Módulo de atención relaciona objeto
objetivo con su entorno 6"] F --> K["AtlasNet regresa forma 3D
de esfera plantilla 10"] F --> L["Clasificador de bordes elimina caras
redundantes para topología 11"] A --> M["Inferencia transforma mallas a
cámara luego sistema de disposición 12"] A --> N["Probado en imágenes de uno, múltiples
objetos 13"] N --> O["Superficies suaves, mejor topología
para objetos únicos 14"] N --> P["Mallas atractivas, colocación razonable
para múltiples objetos 15"] A --> Q["Evaluación cuantitativa en disposición,
detección, posición, malla 16"] G --> R["Entrenamiento conjunto mejora métricas,
enriquece estado del arte 17"] A --> S["Estudio de ablación explora
diseño de red 18"] S --> T["Característica relacional, entrenamiento conjunto
benefician disposición, detección, malla 19"] F --> U["Modificador de topología novedoso
para generación de malla 20"] A --> V["Solución de comprensión de escena 3D,
reconstrucción de malla de extremo a extremo 21"] G --> W["Entrenamiento conjunto muestra componentes
complementarios 22"] A --> X["Rendimiento de estado del arte alcanzado
en cada tarea 23"] class A,B,C total class D,E,F,G modules class H,I,J,K,L detection class M,N,O,P,Q results class R,S,T,U,V,W,X training

Resumen:

1.- Comprensión Total 3D: Reconstrucción conjunta de disposición de la habitación, posiciones de objetos y mallas a partir de una imagen de escena interior única.

2.- Tres módulos: Estimación de disposición de la habitación, predicción de caja delimitadora de objetos y generación de malla 3D para cada objeto.

3.- Entrenamiento conjunto: Integración de salidas de los tres módulos para producir una escena 3D semánticamente enriquecida.

4.- Detector de objetos 2D: Genera cajas delimitadoras 2D a partir de la imagen fuente.

5.- Características geométricas y de apariencia: Extraídas de detecciones 2D usando ResNet.

6.- Módulo de atención: Obtiene característica relacional del objeto objetivo a su entorno.

7.- Detector de objetos 3D: Regresa parámetros de caja delimitadora (tamaño, orientación, ubicación) en el sistema de cámara.

8.- Estimación de disposición: Estructura similar al detector 3D, genera parámetros de caja delimitadora de disposición.

9.- Generación de malla: Predice y modifica la topología de la malla para aproximar la forma 3D de cada objeto.

10.- AtlasNet: Utilizado para regresar forma 3D de una esfera plantilla concatenando característica de apariencia y código de categoría del detector.

11.- Clasificador de bordes: Elimina caras redundantes para hacer la topología de la forma idéntica a la verdad del terreno.

12.- Inferencia: Transforma mallas de objetos del sistema canónico al sistema de cámara, luego a disposición de la habitación en el sistema de paredes.

13.- Resultados: Probado en imágenes de uno y múltiples objetos, comparado con métodos de estado del arte.

14.- Superficies suaves y mejor calidad de topología logradas para casos de objetos únicos.

15.- Mallas de objetos visualmente atractivas con colocación razonable mantenida para imágenes de múltiples objetos.

16.- Evaluación cuantitativa: Realizada en estimación de disposición, detección de objetos 3D, estimación de posición de objetos y reconstrucción de malla.

17.- Estrategia de entrenamiento conjunto: Mejora consistentemente el método en cada métrica y enriquece el estado del arte.

18.- Estudio de ablación: Explora los efectos de cada diseño en la red.

19.- Característica relacional y entrenamiento conjunto: Contribuyen a puntajes en estimación de disposición, detección 3D y generación de malla.

20.- Modificador de topología novedoso: Proporcionado para generación de malla.

21.- Solución de comprensión de escena 3D y reconstrucción de malla de extremo a extremo.

22.- Papel complementario de cada componente demostrado a través de estrategia de entrenamiento conjunto.

23.- Rendimiento de estado del arte alcanzado en cada tarea.

Bóveda del Conocimiento construida por David Vivancos 2024