Conocimiento Bóveda 5 /39 - CVPR 2018
PWC-Net: CNNs para Flujo Óptico Usando Pirámide, Deformación, y Volumen de Costos
Deqing Sun, Xiaodong Yang, Ming-Yu Liu, Jan Kautz
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef flow fill:#d4f9d4, font-weight:bold, font-size:14px classDef pwcnet fill:#d4d4f9, font-weight:bold, font-size:14px classDef costvolume fill:#f9d4d4, font-weight:bold, font-size:14px classDef performance fill:#f9f9d4, font-weight:bold, font-size:14px classDef misc fill:#f9d4f9, font-weight:bold, font-size:14px A["PWC-Net: CNNs para
Flujo Óptico Usando
Pirámide, Deformación, y
Volumen de Costos"] --> B["Flujo óptico: movimiento de píxeles. 1"] A --> C["FlowNet2: rápido, cerca
del estado del arte. 2"] A --> D["Algoritmo ideal: supera,
rápido. 3"] A --> E["El rendimiento se correlaciona
con el tamaño del modelo. 4"] A --> F["PWC-Net: compacto,
aprovechamiento del estado del arte. 5"] B --> G["Constancia de brillo:
el píxel mantiene el brillo. 6"] B --> H["Comparación de parches
revela el verdadero movimiento. 7"] G --> I["Correlación invariante
a cambios de color. 9"] G --> J["Problema de apertura:
problema de ambigüedad de parches. 11"] F --> K["PWC-Net construye
volúmenes de costos multiresolución. 12"] F --> L["Siempre usa un pequeño
rango de búsqueda. 13"] F --> M["Pirámide de características: gran
campo receptivo. 14"] K --> N["El volumen de costos correlaciona
características, no píxeles. 15"] K --> O["Concatena el volumen de costos,
usa CNN. 16"] K --> P["Sobremuestrea, reescala
el flujo a la pirámide. 17"] L --> Q["Deformación alinea imágenes
usando flujo. 18"] L --> R["Menor movimiento
en imagen deformada. 19"] L --> S["Deforma características,
no imágenes. 20"] N --> T["Construye volumen de costos
en cada nivel. 21"] N --> U["Pirámide, deformación, volumen
de costos críticos. 22"] M --> V["Modelo compacto:
rendimiento competitivo. 23"] V --> W["Aumento de datos
crítico para conjuntos de datos. 24"] W --> X["Ganó el Desafío de Visión
Robusta flujo. 25"] D --> Y["TVNet convierte TV-L1
a CNN. 27"] D --> Z["PWC-Net, TVNet codifican
conocimiento del dominio. 28"] D --> AA["PWC-Net: pirámides, deformación,
pequeño rango. 29"] D --> AB["Volúmenes de costos asequibles
en resoluciones gruesas. 30"] class B,G,H flow class F,K,L,M,N,O,P,Q,R,S pwcnet class T,U,V,W,X costvolume class Y,Z,AA,AB performance class I,J misc

Resumen:

1.- El flujo óptico estima vectores de movimiento 2D para cada píxel entre fotogramas.

2.- FlowNet2 CNN se desempeña cerca del estado del arte, mucho más rápido.

3.- El algoritmo ideal superaría el estado del arte siendo rápido.

4.- El rendimiento se correlaciona con el tamaño del modelo para los modelos de flujo óptico CNN publicados.

5.- PWC-Net es compacto pero supera el estado del arte aprovechando el conocimiento del dominio.

6.- Constancia de brillo: el píxel mantiene el brillo a pesar del cambio de posición en el tiempo.

7.- La comparación exhaustiva de parches entre fotogramas mediante correlación cruzada normalizada revela el verdadero movimiento.

8.- El volumen de costos almacena la similitud de parches para todos los vectores de movimiento por píxel.

9.- La correlación tiene cierta invariancia a los cambios de color.

10.- El volumen de costos se usa para estéreo (búsqueda 1D) pero no para flujo (búsqueda 2D) debido al cálculo.

11.- Problema de apertura: la ambigüedad de parches local requiere una selección cuidadosa del tamaño del parche.

12.- PWC-Net construye volúmenes de costos a múltiples resoluciones usando pirámides de características.

13.- Siempre usa un pequeño rango de búsqueda en la construcción del volumen de costos.

14.- La pirámide de características tiene un gran campo receptivo en la resolución más pequeña (16x8).

15.- El volumen de costos se construye correlacionando características, no píxeles en bruto.

16.- Concatena el volumen de costos con características, usa CNN para estimar el flujo.

17.- Sobremuestrea y reescala el flujo al siguiente nivel de pirámide.

18.- La deformación alinea la segunda imagen con la primera usando el flujo sobremuestreado.

19.- Menor movimiento entre la primera y la segunda imagen deformada.

20.- Deforma características, no imágenes en bruto, para propagar información a través de la pirámide.

21.- Construye el volumen de costos en cada nivel de pirámide usando un pequeño rango de búsqueda.

22.- La pirámide de características, la deformación de características, el volumen de costos en cada nivel contribuyen significativamente.

23.- El modelo compacto se desempeña de manera competitiva con el estado del arte.

24.- El aumento de datos (sin ruido gaussiano, volteo horizontal) es crítico para conjuntos de datos pequeños.

25.- Ganó la pista de flujo del Desafío de Visión Robusta.

26.- Código disponible en GitHub.

27.- TVNet convierte la optimización clásica TV-L1 en CNN.

28.- PWC-Net y TVNet comparten el espíritu de codificar el conocimiento del dominio en la red.

29.- Principios de PWC-Net: pirámides de características, deformación de características, volumen de costos con pequeño rango de búsqueda.

30.- Construir volúmenes de costos es computacionalmente asequible en resoluciones gruesas.

Bóveda de Conocimiento construida porDavid Vivancos 2024