Conocimiento Bóveda 5 /74 - CVPR 2022
Visión por Computador Incorporada
Martial Hebert, Kristen Grauman, Nicholas Roy, Michael Ryoo
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef embodied fill:#f9d4d4, font-weight:bold, font-size:14px classDef representation fill:#d4f9d4, font-weight:bold, font-size:14px classDef simulation fill:#d4d4f9, font-weight:bold, font-size:14px classDef learning fill:#f9f9d4, font-weight:bold, font-size:14px classDef future fill:#f9d4f9, font-weight:bold, font-size:14px A["Visión por Computador Incorporada"] --> B["Visión incorporada:
percepción, acción combinadas 1"] B --> C["Inteligencia incorporada:
energía, intercambio de información 2"] B --> D["Incertidumbre en CV crucial
para la incorporación 3"] B --> E["Las acciones de los agentes cambian
los datos encontrados 4"] A --> F["Representaciones visuales para
aprendizaje robótico 5"] F --> G["Pérdidas de RL auto-supervisadas
necesitan marco 6"] A --> H["Sim-a-real más barato,
transferencia desafiante 7"] A --> I["Entender intención, capacidad,
anticipar acciones 8"] A --> J["Ego4D informa comportamiento
de agentes incorporados 9"] A --> K["Audio espacial para
interacción 3D 10"] A --> L["Abstracción vs razonamiento
sobre dinámicas 11"] A --> M["Simulación fotorrealista carece de
física, cámara 12"] M --> N["La incorporación cambia la
distribución de datos continuamente 13"] M --> O["Modelos del mundo simulan,
alto potencial 14"] M --> P["Puntos de referencia de simulación,
desafíos sim-a-real 15"] M --> Q["La simulación escala la experiencia,
carece de realismo 16"] M --> R["Los entornos simulados carecen de
humanos dinámicos 17"] A --> S["Robótica asistencial: incierta,
cronograma exagerado 18"] A --> T["Conducción autónoma: dominios enfocados
antes de la ubicuidad 19"] A --> U["HRI crítico, descuidado
en investigación 20"] A --> V["Modelado de rendimiento deficiente
para implementación 21"] A --> W["La incorporación impulsa el aprendizaje de
representación específica de tareas 22"] W --> X["Representaciones jerárquicas para
razonamiento, generalización 23"] W --> Y["Prioridades de lenguaje para
IA incorporada 24"] W --> Z["Modelos componibles para
manejar la complejidad 25"] A --> AA["Robusto, generalizable a
situaciones novedosas 26"] A --> AB["Integrar visión, audio,
tacto, etc. 27"] A --> AC["Aprendizaje continuo de
nuevas experiencias 28"] A --> AD["Simulación centrada en humanos podría
acelerar el desarrollo 29"] A --> AE["Repensar CV para
integración en el mundo real 30"] class B,C,D,E embodied class F,G,W,X,Y,Z representation class H,M,N,O,P,Q,R,AD simulation class AC,AE future

Resumen:

1.- Visión incorporada: Sistemas de visión para agentes que actúan con propósito en su entorno, no solo sistemas estáticos. Combina percepción y acción.

2.- Inteligencia incorporada: Intercambio intencionado de energía e información con el entorno. Requiere pensar en las consecuencias del movimiento y la incertidumbre.

3.- Incertidumbre en visión por computador: Las técnicas modernas de CV como el aprendizaje profundo a menudo no manejan bien la incertidumbre, lo cual es crucial para los sistemas incorporados.

4.- Interacción con el entorno: En la visión incorporada, las acciones del agente cambian el entorno, los objetos y la distribución de datos que encuentra.

5.- Aprendizaje robótico para políticas de acción: Gran parte de la investigación en robótica descuida los avances en visión por computador. Se necesita más trabajo en representaciones visuales para RL.

6.- Aprendizaje auto-supervisado para RL: Se exploró el uso de pérdidas de visión por computador auto-supervisadas para RL, pero se encontraron dificultades. Se necesita un mejor marco.

7.- Transferencia sim-a-real: La interacción con el entorno es costosa en el mundo real. La simulación es más barata pero la transferencia sim-a-real es desafiante.

8.- Comprensión de video para actividad humana: Ir más allá del reconocimiento para entender las intenciones humanas, las capacidades y anticipar acciones.

9.- Conjuntos de datos de video egocéntrico: Grandes conjuntos de datos de video egocéntrico como Ego4D permiten aprender de la experiencia humana para informar el comportamiento de agentes incorporados.

10.- Aprendizaje audiovisual incorporado: Es importante que los agentes incorporados aprendan audio espacial para entender entornos 3D e interactuar.

11.- Abstracción del control de bajo nivel: Algunos argumentan que las acciones abstractas están bien si la aplicación lo permite. Otros creen que el razonamiento sobre dinámicas/fuerzas es esencial.

12.- Simulación fotorrealista: Ha mejorado pero aún carece de realismo en áreas como la física y la operación de cámaras. No es una solución mágica.

13.- Cambios en la distribución de datos: En la visión incorporada, la distribución de datos visuales cambia continuamente según las acciones del agente, a diferencia de los conjuntos de datos estáticos.

14.- Modelos del mundo y soñar: Aprender modelos dinámicos de datos para simular entornos. Extremadamente difícil, pero con alto potencial si es posible.

15.- Evaluación comparativa y reproducibilidad: La simulación permite evaluar sistemas de visión incorporada, pero la reproducibilidad y la sim-a-real siguen siendo desafíos abiertos significativos.

16.- Valor de la simulación: Bendición para escalar la experiencia y la evaluación. Maldición al seguir careciendo de realismo completo. Herramienta de investigación importante.

17.- Falta de humanos en simuladores: Los simuladores de IA incorporada actuales carecen de humanos. El modelado dinámico del comportamiento humano en entornos simulados es una oportunidad clave.

18.- Cronograma de robótica asistencial: Se espera un despliegue constante de sistemas robóticos que ayuden en la vida diaria, pero el cronograma es incierto y exagerado.

19.- Progreso en conducción autónoma: Avances significativos como operaciones comerciales iniciales, pero la autonomía ubicua aún está lejos. Emergerá primero en dominios enfocados.

20.- Interacción humano-robot: A menudo descuidada en la investigación robótica a favor de la navegación y la manipulación. La HRI adecuada es crítica para la implementación en el mundo real.

21.- Modelado de rendimiento y garantías: Los métodos formales para modelar el rendimiento del sistema robótico son críticos para la implementación en el mundo real, pero actualmente faltan.

22.- Representaciones impulsadas por tareas: La visión incorporada proporciona una tarea concreta para impulsar el aprendizaje de representaciones, no solo precisión por sí misma.

23.- Representaciones jerárquicas: Necesidad potencial de representaciones jerárquicas, simbólicas y abstractas para permitir un razonamiento eficiente y una fuerte generalización.

24.- El lenguaje como prioridad: Los modelos de lenguaje pueden proporcionar prioridades o conocimientos útiles para la IA incorporada, pero queda mucho trabajo por hacer para aprovecharlos.

25.- Modelos componibles: La futura IA incorporada probablemente requerirá modelos componibles para manejar la complejidad, similar a los primeros paradigmas de IA, no solo redes neuronales de extremo a extremo.

26.- Robustez y generalización: Los sistemas de IA incorporada deben ser robustos y generalizar bien para su implementación en el mundo real con situaciones novedosas.

27.- Integración de múltiples modalidades: La percepción incorporada debe aprovechar múltiples modalidades de sensores (visión, audio, tacto, etc.) para comprender y actuar mejor.

28.- Aprendizaje continuo: Los agentes incorporados tienen la oportunidad de seguir aprendiendo y adaptándose a lo largo de su vida a medida que encuentran nuevas experiencias.

29.- Simulación para entornos humanos: La simulación fotorrealista de espacios y actividades centrados en humanos podría acelerar el desarrollo de IA incorporada asistencial si se hace bien.

30.- Repensar formulaciones de problemas: A medida que avanza la IA incorporada, muchas configuraciones y suposiciones de problemas existentes en visión por computador pueden necesitar un replanteamiento fundamental para integrarse con sistemas del mundo real.

Bóveda de Conocimiento construida por David Vivancos 2024