Conocimiento Bóveda 5 /8 - CVPR 2015
SUN RGB-D: Un Conjunto de Referencia para la Comprensión de Escenas RGB-D
Shuran Song, Samuel P. Lichtenberg, Jianxiong Xiao
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef sunrgbd fill:#f9d4d4, font-weight:bold, font-size:14px classDef understanding fill:#d4f9d4, font-weight:bold, font-size:14px classDef dataset fill:#d4d4f9, font-weight:bold, font-size:14px classDef annotations fill:#f9f9d4, font-weight:bold, font-size:14px classDef baselines fill:#f9d4f9, font-weight:bold, font-size:14px A["SUN RGB-D: Un
Conjunto de Referencia para la Comprensión
de Escenas RGB-D"] --> B["SunRGBD: gran conjunto de datos RGB-D,
conjunto de referencia. 1"] A --> C["Comprensión de escenas: tarea crucial y desafiante
en visión por computadora. 2"] C --> D["Conjuntos de datos existentes: pequeños,
principalmente etiquetas 2D. 3"] B --> E["Tamaño de SunRGBD: más de 10,000 imágenes,
comparable a PASCAL VOC. 4"] B --> F["Sensores SunRGBD: RealSense, Xtion,
Kinect v1/v2, atributos diferentes. 5"] B --> G["Anotaciones densas: etiquetas 2D/3D,
orientación, distribución de la habitación. 6"] G --> H["Recopilación de datos: desafiante, esfuerzo
extenso a nivel mundial. 7"] G --> I["Herramientas de anotación: interfaces personalizadas 2D/3D
para etiquetado denso. 8"] B --> J["Categorías de objetos: objetos interiores diversos,
sillas más comunes. 9"] A --> K["Tareas de referencia: 6 tareas de
comprensión de escenas evaluadas. 10"] K --> L["Clasificación de escenas: características profundas
superan a las hechas a mano, RGB-D mejora. 11"] K --> M["Segmentación semántica: categoría por píxel,
vecino más cercano, líneas base de flujo óptico. 12"] K --> N["Detección 2D: caja y
categoría, limitada para razonamiento. 13"] K --> O["Detección 3D: ubicación, dimensiones,
orientación clave para interacciones. 14"] K --> P["Estimación de distribución: infiere geometría 3D
de la habitación, desafiante. 15"] P --> Q["Líneas base de distribución: envolvente convexa,
caja Manhattan, geometría de vista única. 16"] P --> R["Evaluación de distribución: IoU 3D,
no segmentación 2D. 17"] K --> S["Comprensión holística: predicción conjunta de
objetos y distribución. 18"] F --> T["Detalles del sensor: RealSense baja
calidad, Kinect v2 preciso. 19"] B --> U["Datos adicionales: objetos 3D distintos,
se añadieron marcos SUN3D. 20"] C --> V["Orientación de objetos: estimación de pose 3D
para comprensión de interacciones. 21"] B --> W["Distribución de objetos: naturalista, larga cola,
sillas, sofás, mesas comunes. 22"] K --> X["Métricas de detección: precisión-recall 2D/3D
cajas, IoU 3D propuesto. 23"] K --> Y["Evaluación de espacio libre: objetos
y espacio de la habitación considerados. 24"] S --> Z["Enfoques holísticos: cuatro métodos
combinan detecciones y distribución. 25"] B --> AA["Limitaciones: 2-3 imágenes por
escena, trabajo futuro de vista múltiple. 26"] B --> AB["Financiación: fondos de regalo de Intel,
datos y código liberados. 27"] H --> AC["Recopilación de datos: equipo portátil
con laptop, sensores, baterías. 28"] I --> AD["Etiquetado: Mechanical Turk inicial
etiquetas 3D, verificadas por investigadores. 29"] A --> AE["Impacto: impulsa avances en comprensión
RGB-D, ayuda en diseño de interiores. 30"] class A,B,E,F,J,U,W,AA,AB,AC dataset class C,V understanding class D limitations class G,H,I,AD annotations class K,L,M,N,O,P,Q,R,S,X,Y,Z baselines class T sensor class AE impact

Resumen:

1.- SunRGBD: Un gran conjunto de datos de comprensión de escenas RGB-D y conjunto de referencia introducido por investigadores de Princeton.

2.- Comprensión de escenas: Una tarea crucial pero desafiante de visión por computadora que se beneficia de los sensores RGB-D.

3.- Conjuntos de datos RGB-D existentes: Demasiado pequeños (por ejemplo, NYU) para entrenar algoritmos que requieren muchos datos y en su mayoría solo tienen etiquetas 2D.

4.- Tamaño de SunRGBD: Más de 10,000 imágenes, comparable al conjunto de datos PASCAL VOC.

5.- Sensores SunRGBD: Capturados con Intel RealSense, Asus Xtion, Kinect v1 y v2, cada uno con diferentes atributos.

6.- Anotaciones densas: Segmentación 2D, cajas delimitadoras 3D, orientación de objetos y distribución de la habitación etiquetados para cada imagen.

7.- Recopilación de datos: Desafiante, requiriendo un esfuerzo extenso para capturar imágenes RGB-D en muchas ubicaciones a nivel mundial.

8.- Herramientas de anotación: Interfaces personalizadas 2D y 3D utilizadas para etiquetar densamente objetos, orientaciones y geometría de la habitación.

9.- Categorías de objetos: Conjunto diverso de objetos interiores, siendo la silla la más común. Puede ayudar en la selección de muebles.

10.- Tareas de referencia: Evalúa 6 tareas de comprensión de escenas - clasificación, segmentación, detección 2D/3D, orientación, distribución.

11.- Líneas base de clasificación de escenas: Las características de aprendizaje profundo superan a las hechas a mano. RGB-D mejora sobre solo RGB.

12.- Segmentación semántica: Predice la categoría de objetos por píxel. Se evaluaron las líneas base de vecino más cercano y flujo óptico.

13.- Detección de objetos 2D: Proporciona caja delimitadora y categoría, pero es inadecuada para razonar sobre el uso de objetos.

14.- Detección de objetos 3D: Proporciona ubicación 3D, dimensiones y orientación - clave para entender las interacciones de objetos.

15.- Estimación de distribución de la habitación: Infere la geometría 3D de paredes, suelo, techo. Desafiante debido a las formas complejas de las habitaciones reales.

16.- Líneas base de distribución: Suposiciones de envolvente convexa, caja Manhattan comparadas con el enfoque de geometría de vista única.

17.- Evaluación de distribución: Se utiliza IoU de espacio libre 3D en lugar de tratarlo como un problema de segmentación 2D.

18.- Comprensión holística de escenas: Predicción conjunta de cajas delimitadoras de objetos y distribución de la habitación.

19.- Detalles del sensor: RealSense tiene baja calidad de profundidad cruda mejorada por promediado de cuadros. Kinect v2 es más preciso pero con profundidad faltante.

20.- Datos adicionales: Marcos distintos seleccionados a mano de los conjuntos de datos Berkeley 3D Objects y SUN3D añadidos y re-anotados.

21.- Orientación de objetos: Estima la pose 3D del objeto, importante para entender cómo interactuar con los objetos.

22.- Distribución de objetos: El conjunto de datos tiene una distribución de categorías naturalista y de larga cola. Muchos ejemplos de sillas, sofás, mesas, etc.

23.- Métricas de detección: Precisión-recall estándar para cajas delimitadoras 2D y 3D. También se propone IoU de espacio libre 3D.

24.- Evaluación de espacio libre: Considera objetos y habitación juntos - espacio dentro de la habitación pero fuera de los objetos.

25.- Enfoques de comprensión holística: Cuatro métodos simples para combinar detecciones de objetos 3D y distribución de la habitación. Detalles en el documento.

26.- Limitaciones: Cada escena representada por 2-3 imágenes sin solapamiento. Explorar RGB-D de vista múltiple es trabajo futuro.

27.- Financiación: Proyecto apoyado por fondos de regalo de Intel. Datos y código liberados al público.

28.- Interfaces de recopilación de datos: Laptop en carrito, sensores en estabilizadores, baterías en mochila formaron un equipo de captura portátil.

29.- Esfuerzo de etiquetado: Trabajadores de Amazon Mechanical Turk realizaron las anotaciones 3D iniciales, luego verificadas por los investigadores.

30.- Impacto: Proporciona datos para impulsar avances en algoritmos de comprensión de escenas RGB-D; también puede ayudar en aplicaciones de diseño de interiores.

Bóveda de Conocimiento construida porDavid Vivancos 2024