Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-Kristen Grauman es profesora en UT Austin investigando visión por computadora y aprendizaje automático, enfocándose en reconocimiento visual y búsqueda.
2.-El reconocimiento visual ha hecho avances emocionantes en los últimos años, como lo demuestra el rendimiento en el benchmark de ImageNet.
3.-La mayoría de los sistemas de reconocimiento visual actuales aprenden a través de clasificación supervisada en fotos web desincorporadas, lo cual tiene limitaciones.
4.-En contraste, los datos visuales del mundo real se capturan desde la perspectiva en primera persona de un agente con movimientos incontrolados, desorden irrelevante y entrada sensorial multimodal.
5.-El objetivo es avanzar hacia el aprendizaje visual incorporado que considera el aprendizaje en el contexto del comportamiento y las observaciones propias de un agente.
6.-Un estudio famoso con gatitos en un carrusel demostró la importancia de aprender representaciones en el contexto del ego-movimiento de un agente.
7.-Su enfoque aprende una incrustación visual equivariantes de video no etiquetado que es predictiva de cómo cambiará la escena con el ego-movimiento.
8.-La representación aprendida captura semántica, contexto, geometría y profundidad relativa para permitir la predicción de nuevos puntos de vista desde una sola vista.
9.-Usar la representación equivariantes como un paso de preentrenamiento no supervisado mejora la precisión del reconocimiento en un 30% mientras reduce la necesidad de datos etiquetados.
10.-A continuación, consideran cómo un agente puede aprender representaciones visuales moviéndose activamente para inspeccionar un objeto desde diferentes vistas.
11.-Una tarea auto-supervisada de predecir un conjunto completo de puntos de vista desde una sola vista fomenta el aprendizaje de semántica de forma 3D.
12.-La representación de forma agnóstica a la categoría, llamada "códigos de forma", mejora la precisión del reconocimiento en ModelNet y ShapeNet en comparación con otros enfoques no supervisados.
13.-En una línea de trabajo relacionada, recuperan la pose del cuerpo humano en 3D desde video egocéntrico aprovechando la correlación con el movimiento de la escena.
14.-El reconocimiento visual es tradicionalmente silencioso, pero en el mundo real, las observaciones visuales están acopladas con señales multisensoriales informativas como el audio.
15.-Su objetivo es aprender modelos de sonido específicos de objetos de video no etiquetado donde múltiples objetos están haciendo sonidos simultáneamente.
16.-Usan un marco de aprendizaje profundo multi-instancia multi-etiqueta para desentrañar qué objetos visuales hacen qué sonidos basándose en bases de NMF de audio.
17.-En el momento de la prueba, detectan objetos presentes en un nuevo video y usan las bases de audio aprendidas para guiar la separación de las fuentes de sonido.
18.-El enfoque aprende con éxito a separar sonidos de instrumentos musicales y objetos en video no etiquetado, superando la separación tradicional de fuentes de audio.
19.-Los desafíos restantes incluyen determinar cuándo los objetos detectados visualmente están realmente haciendo sonido en el video.
20.-A continuación, discuten el aprendizaje de políticas sobre cómo los agentes deben moverse para reconocer rápidamente objetos y escenas.
21.-En el reconocimiento activo, el objetivo es aprender la selección inteligente de acciones, la fusión de evidencia a lo largo de una secuencia de vistas y la percepción.
22.-Proponen un enfoque de extremo a extremo para aprender simultáneamente los tres componentes compartiendo representaciones, superando varias bases recientes.
23.-Una red neuronal recurrente fusiona evidencia a lo largo de las vistas y actualiza las creencias de categoría para reconocer el objeto en pocas vistas.
24.-Demuestran resultados para el reconocimiento activo en tres escenarios: un agente mirando alrededor de una escena, manipulando un objeto o moviéndose alrededor de un objeto.
25.-Sin embargo, el reconocimiento activo asume una tarea predefinida y de mundo cerrado, por lo que a continuación consideran el aprendizaje de políticas exploratorias genéricas para nuevos entornos.
26.-La idea es aprender políticas que seleccionen activamente un pequeño conjunto de observaciones que permitan la reconstrucción del resto del entorno.
27.-Este objetivo de "finalización de observación" fomenta comportamientos exploratorios eficientes y no miopes para reducir rápidamente la incertidumbre en nuevas escenas.
28.-Los resultados muestran que las políticas de exploración aprendidas pueden reconstruir nuevas escenas 360 y nuevos objetos en muy pocas vistas.
29.-Experimentos preliminares muestran que estas políticas exploratorias independientes de la tarea pueden transferirse al reconocimiento activo, desempeñándose competitivamente con políticas de mundo cerrado.
30.-En resumen, el aprendizaje visual incorporado que explota video no etiquetado y la percepción e interacción activa conduce a un reconocimiento más robusto, general y eficiente.
Bóveda de Conocimiento construida por David Vivancos 2024