Conocimiento Bóveda 5 /44 - CVPR 2019
Aprendiendo las Profundidades de Personas en Movimiento Observando Personas Congeladas
Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker, Ce Liu, Bill Freeman y Noah Snavely
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef depth fill:#f9d4d4, font-weight:bold, font-size:14px classDef stereo fill:#d4f9d4, font-weight:bold, font-size:14px classDef dataset fill:#d4d4f9, font-weight:bold, font-size:14px classDef learning fill:#f9f9d4, font-weight:bold, font-size:14px classDef applications fill:#f9d4f9, font-weight:bold, font-size:14px A["Aprendiendo las Profundidades
de Personas en Movimiento
Observando Personas
Congeladas"] --> B["Aprendiendo profundidad de
personas en movimiento 1"] A --> C["Estéreo clásico inadecuado
para objetos en movimiento 2"] A --> D["Enfoque basado en datos usando
conjunto de datos Mannequin Challenge 3"] D --> E["Conjunto de datos abarca escenas,
poses, personas 4"] D --> F["Estructura desde movimiento, estéreo de múltiples vistas
recuperan poses, profundidades 5"] F --> G["Profundidades de estéreo de múltiples vistas
entrenan red neuronal 6"] A --> H["Predicción de imagen única ignora
fotogramas vecinos 7"] A --> I["Flujo entre fotogramas
convertido a profundidades 8"] I --> J["Profundidades inexactas de personas
en movimiento enmascaradas 9"] A --> K["Entradas del modelo: RGB,
máscara, profundidades de paralaje, confianza 10"] K --> L["Red completa profundidades
enmascaradas, refina escena 11"] K --> M["Modelo aplicado a
videos de personas en movimiento 12"] M --> N["Supera a las bases en
conjunto de datos TUM RGBD 13"] M --> O["Comparación cualitativa muestra
predicciones del modelo más similares 14"] M --> P["Predicciones precisas y coherentes
en videos de internet 15"] P --> Q["Permite efectos de desenfoque, enfoque
pausado 16"] P --> R["Objetos sintéticos insertados,
ocultos usando profundidad 17"] P --> S["Síntesis de vista novedosa
usando fotogramas cercanos 18"] P --> T["Regiones humanas completadas
cuando cámara, personas se mueven 19"] A --> U["Código, conjunto de datos liberados
en sitio web del proyecto 20"] class B,H,I,J depth class C,F,G stereo class D,E dataset class K,L,M,N,O learning class P,Q,R,S,T applications

Resumen:

1.- Aprendiendo la profundidad de personas en movimiento usando el conjunto de datos de personas congeladas (Mannequin Challenge).

2.- Los algoritmos de estéreo clásico asumen escenas rígidas, inadecuados para objetos en movimiento.

3.- Enfoque basado en datos usando el conjunto de datos Mannequin Challenge con personas estacionarias.

4.- El conjunto de datos abarca varias escenas, poses y número de personas.

5.- Estructura desde movimiento y estéreo de múltiples vistas recuperan poses de cámara y profundidades.

6.- Mapas de profundidad de estéreo de múltiples vistas usados como verdad de terreno para entrenar la red neuronal.

7.- La predicción de profundidad de imagen única ignora la información 3D en fotogramas vecinos.

8.- El flujo óptico entre el fotograma de referencia y los vecinos se convierte a profundidades usando poses de cámara.

9.- Las profundidades inexactas de personas en movimiento se enmascaran usando segmentación.

10.- Entradas completas del modelo: fotograma RGB, máscara de segmentación, profundidades de paralaje de movimiento, mapa de confianza.

11.- La red aprende a completar la profundidad humana enmascarada y refinar la profundidad de toda la escena.

12.- Modelo aplicado a videos de personas en movimiento durante la inferencia.

13.- Supera a los métodos de base solo RGB, estéreo de movimiento y de vista única en el conjunto de datos TUM RGBD.

14.- La comparación cualitativa muestra que las predicciones de profundidad del modelo son las más similares a la verdad de terreno.

15.- Predicciones de profundidad precisas y coherentes en clips de video regulares de internet.

16.- Las predicciones de profundidad permiten efectos visuales como desenfoque sintético y pausa de enfoque.

17.- Objetos sintéticos insertados y ocultos usando predicciones de profundidad.

18.- Síntesis de vista novedosa usando fotogramas cercanos y vecinos para llenar oclusiones.

19.- Regiones humanas efectivamente completadas usando predicciones de profundidad cuando la cámara y las personas se mueven libremente.

20.- Código y conjunto de datos liberados en el sitio web del proyecto.

Bóveda de Conocimiento construida porDavid Vivancos 2024