Conocimiento Vault 2/75 - ICLR 2014-2023
Lourdes Agapito ICLR 2021 - Conferencia Invitada - Percibiendo el Mundo 3D desde Imágenes y Video
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef main fill:#f9d4d4, stroke:#333, stroke-width:2px, font-weight:bold, font-size:14px; classDef learn fill:#d4f9d4, stroke:#333, stroke-width:2px, font-weight:bold, font-size:14px; classDef rep fill:#d4d4f9, stroke:#333, stroke-width:2px, font-weight:bold, font-size:14px; classDef challenges fill:#f9f9d4, stroke:#333, stroke-width:2px, font-weight:bold, font-size:14px; classDef future fill:#f9d4f9, stroke:#333, stroke-width:2px, font-weight:bold, font-size:14px; A[Lourdes Agapito
ICLR 2021] --> B[Aprender 3D de imágenes, videos 1] B --> C[Estructura desde movimiento, estéreo multivista 2] B --> D[Redes neuronales infieren
representaciones 3D 3] D --> E[3D: vóxeles, puntos,
mallas, implícitas 4] A --> F[Agapito: modelos 3D deformables 5] F --> G[Embeddings de bajo rango representan
deformaciones 3D 6] F --> H[Pérdidas fotométricas permiten
caras deformables 7] A --> I[3D consciente de objetos combina
reconstrucción, detección 8] A --> J[Representaciones neuronales implícitas
usan priors de forma 9] A --> K[NeRF: redes representan escenas 3D 10] A --> L[Retos: 3D para agentes encarnados 11] L --> M[Robots necesitan anticipar humanos, física 12] A --> N[3D generativo: desentrañar
forma, textura, luz 13] A --> O[ConvNeRF: 3D a nivel de categoría desde imágenes 14] A --> P[Reto abierto: 3D dinámico, deformable 15] P --> Q[No resuelto: edición realista de
expresión facial 16] P --> R[Escalando animación facial desde fotos 17] P --> S[Extremadamente desafiante: sintetizar
escenas dinámicas 18] A --> T[Las representaciones 3D deben predecir
semántica, física 19] A --> U[3D auto-supervisado debería
integrar modalidades 20] A --> V[Visión, gráficos, robótica, ML
deberían colaborar 21] class A main; class B,C learn; class D,E,F,G,H,I,J,K,N,O rep; class L,M,P,Q,R,S challenges; class T,U,V future;

Resumen:

1.-Lourdes Agapito discute cómo aprender representaciones 3D del mundo solo a partir de imágenes o videos, sin anotaciones 3D.

2.-Estructura desde movimiento y estéreo multivista son ejemplos clásicos de aprendizaje 3D a partir de observaciones 2D, utilizando métodos de optimización geométrica.

3.-Las redes neuronales ahora pueden usarse para inferir representaciones 3D, entrenadas con pérdidas 2D como la consistencia fotométrica entre vistas sintetizadas y reales.

4.-Las representaciones 3D pueden ser vóxeles discretos, nubes de puntos, mallas o funciones implícitas como campos de distancia firmados representados por redes neuronales.

5.-La investigación de Agapito se centra en aprender modelos 3D deformables que capturan cómo varían las formas de los objetos a lo largo del tiempo y entre categorías de objetos.

6.-Los embeddings de bajo rango pueden aprenderse a partir de observaciones 2D para representar eficientemente las deformaciones 3D de objetos como caras, sin datos de escaneo 3D.

7.-Las pérdidas fotométricas que comparan imágenes re-renderizadas con fotogramas de video de entrada permiten aprender modelos detallados de caras 3D deformables para aplicaciones como síntesis de video multilingüe.

8.-Las representaciones de escenas 3D conscientes de objetos combinan la reconstrucción 3D con la detección de objetos 2D para adjuntar etiquetas semánticas a la geometría 3D.

9.-Las representaciones neuronales implícitas como DeepSDF pueden representar formas 3D completas a partir de observaciones parciales aprovechando priors de forma pre-entrenados.

10.-Los campos de radiancia neuronal (NeRF) utilizan redes completamente conectadas para representar escenas 3D y permitir la síntesis de vistas novedosas a partir de un conjunto de imágenes de entrada.

11.-Persisten los retos en el aprendizaje de representaciones 3D que sean útiles para agentes encarnados que interactúan de manera segura con humanos en el mundo real.

12.-Los robots necesitan anticipar acciones humanas e incorporar priors físicos, no solo reconocer la geometría 3D, para asistir a los humanos sin comandos explícitos.

13.-Los modelos 3D generativos deben desentrañar factores como forma, textura, iluminación y deformación para permitir la edición controlada y la síntesis de objetos novedosos.

14.-Técnicas como ConvNeRF permiten la reconstrucción 3D a nivel de categoría a partir de una sola imagen aprendiendo priors de forma y textura de colecciones de imágenes.

15.-La reconstrucción 3D de escenas dinámicas y objetos deformables como el cuerpo humano sigue siendo un reto abierto en comparación con escenas estáticas.

16.-La edición realista de expresiones faciales, emociones y lenguaje corporal en videos de cabezas parlantes sintetizadas es un problema no resuelto.

17.-Escalar la animación facial para trabajar a partir de un pequeño número de fotos en lugar de varios minutos de video de entrenamiento es un área de investigación activa.

18.- Sintetizar escenas dinámicas completas con personas interactuando con objetos es extremadamente desafiante y un problema abierto importante.

19.-Las representaciones de escenas neuronales conscientes del 3D deben extenderse para predecir las posibilidades de los objetos, la semántica y las propiedades físicas, no solo la geometría y la apariencia.

20.-El aprendizaje auto-supervisado de representaciones 3D debería explorar la integración de múltiples modalidades como visión, lenguaje, audio e interacción para reducir los requisitos de anotación.

21.-Las comunidades de visión por computadora, gráficos, robótica y aprendizaje automático deberían colaborar para desarrollar representaciones de escenas 3D útiles para la percepción e interacción.

Knowledge Vault construido porDavid Vivancos 2024