Conocimiento Bóveda 2/44 - ICLR 2014-2023
Kristen Grauman ICLR 2018 - Charla Invitada - Aprendizaje Visual con Video No Etiquetado y Políticas de Exploración
<Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef grauman fill:#f9d4d4, font-weight:bold, font-size:14px; classDef recognition fill:#d4f9d4, font-weight:bold, font-size:14px; classDef learning fill:#d4d4f9, font-weight:bold, font-size:14px; classDef embodied fill:#f9f9d4, font-weight:bold, font-size:14px; classDef audio fill:#f9d4f9, font-weight:bold, font-size:14px; A[Kristen Grauman
ICLR 2018] --> B[Grauman: profesora de visión
en UT Austin 1] A --> C[Progreso emocionante en
reconocimiento visual, ImageNet 2] C --> D[Limitaciones del reconocimiento
supervisado de fotos web 3] C --> E[Datos visuales incorporados:
incontrolados, desordenados, multimodales 4] A --> F[Objetivo de aprendizaje visual
incorporado 5] F --> G[Estudio de representación
de ego-movimiento de gatitos 6] F --> H[Incrustación equivariantes predice
cambios de ego-movimiento 7] H --> I[Captura semántica, geometría,
profundidad, puntos de vista 8] H --> J[Preentrenamiento no supervisado:
aumento del 30% en precisión 9] F --> K[Aprender representaciones activamente
inspeccionando vistas de objetos 10] K --> L["Códigos de forma" mejoran
precisión en ModelNet, ShapeNet 12] F --> M[Recuperar movimiento de escena,
pose 3D 13] A --> N[Visión del mundo real acoplada
con audio informativo 14] N --> O[Aprender sonidos de objetos
de video no etiquetado 15] O --> P[Multi-instancia multi-etiqueta separa
sonidos simultáneos 16] P --> Q[Audio aprendido guía
separación de video de prueba 17] P --> R[Supera separación tradicional
de fuentes de audio 18] A --> S[Aprender políticas de movimiento
para reconocimiento 20] S --> T[Reconocimiento activo: acción,
evidencia, percepción 21] T --> U[Enfoque de extremo a extremo aprende
componentes, supera bases 22] T --> V[Fusión de evidencia RNN
para reconocimiento con pocas vistas 23] S --> W[Políticas de exploración genéricas
para nuevos entornos 25] W --> X["Finalización de observación" fomenta
exploración eficiente 27] X --> Y[Políticas reconstruyen escenas
y objetos nuevos rápidamente 28] A --> Z[Aprendizaje incorporado, percepción
activa permite reconocimiento 30] class A,B grauman; class C,D recognition; class E,F,G,H,I,J,K,L,M,S,T,U,V,W,X,Y,Z embodied; class N,O,P,Q,R audio;

Resumen:

1.-Kristen Grauman es profesora en UT Austin investigando visión por computadora y aprendizaje automático, enfocándose en reconocimiento visual y búsqueda.

2.-El reconocimiento visual ha hecho avances emocionantes en los últimos años, como lo demuestra el rendimiento en el benchmark de ImageNet.

3.-La mayoría de los sistemas de reconocimiento visual actuales aprenden a través de clasificación supervisada en fotos web desincorporadas, lo cual tiene limitaciones.

4.-En contraste, los datos visuales del mundo real se capturan desde la perspectiva en primera persona de un agente con movimientos incontrolados, desorden irrelevante y entrada sensorial multimodal.

5.-El objetivo es avanzar hacia el aprendizaje visual incorporado que considera el aprendizaje en el contexto del comportamiento y las observaciones propias de un agente.

6.-Un estudio famoso con gatitos en un carrusel demostró la importancia de aprender representaciones en el contexto del ego-movimiento de un agente.

7.-Su enfoque aprende una incrustación visual equivariantes de video no etiquetado que es predictiva de cómo cambiará la escena con el ego-movimiento.

8.-La representación aprendida captura semántica, contexto, geometría y profundidad relativa para permitir la predicción de nuevos puntos de vista desde una sola vista.

9.-Usar la representación equivariantes como un paso de preentrenamiento no supervisado mejora la precisión del reconocimiento en un 30% mientras reduce la necesidad de datos etiquetados.

10.-A continuación, consideran cómo un agente puede aprender representaciones visuales moviéndose activamente para inspeccionar un objeto desde diferentes vistas.

11.-Una tarea auto-supervisada de predecir un conjunto completo de puntos de vista desde una sola vista fomenta el aprendizaje de semántica de forma 3D.

12.-La representación de forma agnóstica a la categoría, llamada "códigos de forma", mejora la precisión del reconocimiento en ModelNet y ShapeNet en comparación con otros enfoques no supervisados.

13.-En una línea de trabajo relacionada, recuperan la pose del cuerpo humano en 3D desde video egocéntrico aprovechando la correlación con el movimiento de la escena.

14.-El reconocimiento visual es tradicionalmente silencioso, pero en el mundo real, las observaciones visuales están acopladas con señales multisensoriales informativas como el audio.

15.-Su objetivo es aprender modelos de sonido específicos de objetos de video no etiquetado donde múltiples objetos están haciendo sonidos simultáneamente.

16.-Usan un marco de aprendizaje profundo multi-instancia multi-etiqueta para desentrañar qué objetos visuales hacen qué sonidos basándose en bases de NMF de audio.

17.-En el momento de la prueba, detectan objetos presentes en un nuevo video y usan las bases de audio aprendidas para guiar la separación de las fuentes de sonido.

18.-El enfoque aprende con éxito a separar sonidos de instrumentos musicales y objetos en video no etiquetado, superando la separación tradicional de fuentes de audio.

19.-Los desafíos restantes incluyen determinar cuándo los objetos detectados visualmente están realmente haciendo sonido en el video.

20.-A continuación, discuten el aprendizaje de políticas sobre cómo los agentes deben moverse para reconocer rápidamente objetos y escenas.

21.-En el reconocimiento activo, el objetivo es aprender la selección inteligente de acciones, la fusión de evidencia a lo largo de una secuencia de vistas y la percepción.

22.-Proponen un enfoque de extremo a extremo para aprender simultáneamente los tres componentes compartiendo representaciones, superando varias bases recientes.

23.-Una red neuronal recurrente fusiona evidencia a lo largo de las vistas y actualiza las creencias de categoría para reconocer el objeto en pocas vistas.

24.-Demuestran resultados para el reconocimiento activo en tres escenarios: un agente mirando alrededor de una escena, manipulando un objeto o moviéndose alrededor de un objeto.

25.-Sin embargo, el reconocimiento activo asume una tarea predefinida y de mundo cerrado, por lo que a continuación consideran el aprendizaje de políticas exploratorias genéricas para nuevos entornos.

26.-La idea es aprender políticas que seleccionen activamente un pequeño conjunto de observaciones que permitan la reconstrucción del resto del entorno.

27.-Este objetivo de "finalización de observación" fomenta comportamientos exploratorios eficientes y no miopes para reducir rápidamente la incertidumbre en nuevas escenas.

28.-Los resultados muestran que las políticas de exploración aprendidas pueden reconstruir nuevas escenas 360 y nuevos objetos en muy pocas vistas.

29.-Experimentos preliminares muestran que estas políticas exploratorias independientes de la tarea pueden transferirse al reconocimiento activo, desempeñándose competitivamente con políticas de mundo cerrado.

30.-En resumen, el aprendizaje visual incorporado que explota video no etiquetado y la percepción e interacción activa conduce a un reconocimiento más robusto, general y eficiente.

Bóveda de Conocimiento construida por David Vivancos 2024