Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:
Resumen:
1.- El flujo óptico estima vectores de movimiento 2D para cada píxel entre fotogramas.
2.- FlowNet2 CNN se desempeña cerca del estado del arte, mucho más rápido.
3.- El algoritmo ideal superaría el estado del arte siendo rápido.
4.- El rendimiento se correlaciona con el tamaño del modelo para los modelos de flujo óptico CNN publicados.
5.- PWC-Net es compacto pero supera el estado del arte aprovechando el conocimiento del dominio.
6.- Constancia de brillo: el píxel mantiene el brillo a pesar del cambio de posición en el tiempo.
7.- La comparación exhaustiva de parches entre fotogramas mediante correlación cruzada normalizada revela el verdadero movimiento.
8.- El volumen de costos almacena la similitud de parches para todos los vectores de movimiento por píxel.
9.- La correlación tiene cierta invariancia a los cambios de color.
10.- El volumen de costos se usa para estéreo (búsqueda 1D) pero no para flujo (búsqueda 2D) debido al cálculo.
11.- Problema de apertura: la ambigüedad de parches local requiere una selección cuidadosa del tamaño del parche.
12.- PWC-Net construye volúmenes de costos a múltiples resoluciones usando pirámides de características.
13.- Siempre usa un pequeño rango de búsqueda en la construcción del volumen de costos.
14.- La pirámide de características tiene un gran campo receptivo en la resolución más pequeña (16x8).
15.- El volumen de costos se construye correlacionando características, no píxeles en bruto.
16.- Concatena el volumen de costos con características, usa CNN para estimar el flujo.
17.- Sobremuestrea y reescala el flujo al siguiente nivel de pirámide.
18.- La deformación alinea la segunda imagen con la primera usando el flujo sobremuestreado.
19.- Menor movimiento entre la primera y la segunda imagen deformada.
20.- Deforma características, no imágenes en bruto, para propagar información a través de la pirámide.
21.- Construye el volumen de costos en cada nivel de pirámide usando un pequeño rango de búsqueda.
22.- La pirámide de características, la deformación de características, el volumen de costos en cada nivel contribuyen significativamente.
23.- El modelo compacto se desempeña de manera competitiva con el estado del arte.
24.- El aumento de datos (sin ruido gaussiano, volteo horizontal) es crítico para conjuntos de datos pequeños.
25.- Ganó la pista de flujo del Desafío de Visión Robusta.
26.- Código disponible en GitHub.
27.- TVNet convierte la optimización clásica TV-L1 en CNN.
28.- PWC-Net y TVNet comparten el espíritu de codificar el conocimiento del dominio en la red.
29.- Principios de PWC-Net: pirámides de características, deformación de características, volumen de costos con pequeño rango de búsqueda.
30.- Construir volúmenes de costos es computacionalmente asequible en resoluciones gruesas.
Bóveda de Conocimiento construida porDavid Vivancos 2024