Conocimiento Bóveda 5 /53 - CVPR 2020
Aprendizaje No Supervisado de Objetos 3D Deformables Probablemente Simétricos a partir de Imágenes en la Naturaleza
Shangzhe Wu, Christian Rupprecht, Andrea Vedaldi
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4d4, font-weight:bold, font-size:14px classDef singleView fill:#d4f9d4, font-weight:bold, font-size:14px classDef training fill:#d4d4f9, font-weight:bold, font-size:14px classDef symmetry fill:#f9f9d4, font-weight:bold, font-size:14px classDef model fill:#f9d4f9, font-weight:bold, font-size:14px A["Aprendizaje No Supervisado de
Objetos 3D Deformables Probablemente
Simétricos a partir de
Imágenes en la
Naturaleza"] --> B["3D No Supervisado de
imágenes de una sola vista 1"] A --> C["Entrenamiento: imágenes de una sola vista,
categoría de objeto 2"] A --> D["Predice instancia 3D
de una sola imagen 3"] A --> E["Muchos objetos exhiben
simetría bilateral 4"] A --> F["La tubería desentraña forma,
pose, textura 5"] F --> G["Entrenado con pérdida de reconstrucción,
renderizador 6"] E --> H["La simetría evita
soluciones degeneradas 7"] H --> I["Predicciones volteadas minimizan
reconstrucciones simultáneamente 8"] E --> J["Iluminación, albedo separado,
simetría aplicada 9"] E --> K["Asimetrías modeladas con
mapas de confianza 10"] B --> L["Fuertes priors
aprendidos para caras 11"] B --> M["Aplicado a video
sin ajuste fino 12"] J --> N["Relighting fácil con
albedo, iluminación 13"] C --> O["Entrenado en gatos,
sin supervisión 14"] E --> P["Plano de simetría renderizado
en entradas 15"] K --> Q["Confianza visualiza
asimetrías modeladas 16"] E --> R["Ablaciones: simetría en
albedo, profundidad 17"] F --> S["Sombreado ayuda a evitar
formas irregulares 18"] K --> T["Confianza modela efectivamente
perturbaciones asimétricas 19"] A --> U["3D deformable no supervisado
con pistas 20"] F --> V["Descomposición de imagen intrínseca
no supervisada 21"] B --> W["Demo web:
caras, gatos 22"] A --> X["Código disponible para
investigación, reproducibilidad 23"] A --> Y["Sesiones de preguntas y respuestas
en CVPR Live 24"] A --> Z["Resumen, demo web,
invitación al código 25"] class A main class B,C,D,L,M,O,W singleView class F,G,V,S training class E,H,I,J,K,P,Q,R,T,U symmetry class N,X,Y,Z model

Resumen:

1.- Aprendizaje de objetos 3D deformables a partir de imágenes de una sola vista sin anotaciones manuales o supervisión adicional.

2.- El entrenamiento solo requiere un conjunto de imágenes de una sola vista de una cierta categoría de objeto.

3.- Después del entrenamiento, el modelo predice formas 3D específicas de la instancia a partir de una sola imagen de entrada.

4.- Muchos objetos en el mundo, incluidos animales y objetos hechos por el hombre, exhiben simetría bilateral.

5.- La tubería de codificación automática fotogeométrica desentraña la forma 3D (mapa de profundidad), pose y textura de una imagen de entrada.

6.- La tubería se entrena con pérdida de reconstrucción usando un renderizador diferenciable.

7.- La simetría se utiliza para evitar soluciones degeneradas al aplicar la predicción de una vista simétrica del objeto.

8.- Las predicciones canónicas se voltean para obtener dos reconstrucciones, minimizando ambas reconstrucciones simultáneamente.

9.- La iluminación y el albedo intrínseco se separan, aplicando simetría solo en el albedo para manejar la iluminación asimétrica.

10.- Las asimetrías en el albedo o las formas deformadas se tienen en cuenta utilizando modelado de incertidumbre con mapas de confianza.

11.- El modelo aprende fuertes priors en rostros humanos y se generaliza bien a rostros abstractos, incluidos dibujos y emojis.

12.- El modelo entrenado se puede aplicar a fotogramas de video sin ajuste fino.

13.- Los objetos se pueden relit fácilmente con diferentes condiciones de iluminación debido a la descomposición del albedo y la iluminación intrínseca.

14.- El modelo también se entrenó en rostros de gatos, lo que no sería posible con métodos que requieren supervisión adicional.

15.- Las vistas canónicas simétricas permiten una fácil representación del plano de simetría en imágenes de entrada.

16.- Las asimetrías modeladas por el modelo de confianza se pueden visualizar.

17.- Los estudios de ablación demuestran la importancia de las restricciones de simetría tanto en el albedo como en la profundidad.

18.- Predecir el sombreado de la luz direccional ayuda a evitar formas irregulares y utiliza pistas de sombreado.

19.- Los mapas de confianza modelan efectivamente las asimetrías, como se demuestra con experimentos con perturbaciones asimétricas en imágenes.

20.- El método no supervisado aprende objetos 3D deformables a partir de imágenes de una sola vista utilizando simetría y sombreado como pistas geométricas.

21.- La descomposición de imagen intrínseca se logra sin supervisión.

22.- Una demostración web está disponible para que los usuarios prueben el modelo con sus propios rostros o gatos.

23.- El código está disponible en línea para reproducibilidad e investigación adicional.

24.- Se programan sesiones de preguntas y respuestas en vivo de CVPR para abordar preguntas y discutir el trabajo.

25.- La presentación concluye con un resumen de las contribuciones clave y una invitación a explorar la demostración web y el código.

Bóveda de Conocimiento construida porDavid Vivancos 2024