Conocimiento Bóveda 5 /74 - CVPR 2022
Visión por Computador Incorporada
Martial Hebert, Kristen Grauman, Nicholas Roy, Michael Ryoo
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

Visión por Computador Incorporada
Visión incorporada:
percepción, acción combinadas 1
Inteligencia incorporada:
energía, intercambio de información 2
Incertidumbre en CV crucial
para la incorporación 3
Las acciones de los agentes cambian
los datos encontrados 4
Representaciones visuales para
aprendizaje robótico 5
Pérdidas de RL auto-supervisadas
necesitan marco 6
Sim-a-real más barato,
transferencia desafiante 7
Entender intención, capacidad,
anticipar acciones 8
Ego4D informa comportamiento
de agentes incorporados 9
Audio espacial para
interacción 3D 10
Abstracción vs razonamiento
sobre dinámicas 11
Simulación fotorrealista carece de
física, cámara 12
La incorporación cambia la
distribución de datos continuamente 13
Modelos del mundo simulan,
alto potencial 14
Puntos de referencia de simulación,
desafíos sim-a-real 15
La simulación escala la experiencia,
carece de realismo 16
Los entornos simulados carecen de
humanos dinámicos 17
Robótica asistencial: incierta,
cronograma exagerado 18
Conducción autónoma: dominios enfocados
antes de la ubicuidad 19
HRI crítico, descuidado
en investigación 20
Modelado de rendimiento deficiente
para implementación 21
La incorporación impulsa el aprendizaje de
representación específica de tareas 22
Representaciones jerárquicas para
razonamiento, generalización 23
Prioridades de lenguaje para
IA incorporada 24
Modelos componibles para
manejar la complejidad 25
Robusto, generalizable a
situaciones novedosas 26
Integrar visión, audio,
tacto, etc. 27
Aprendizaje continuo de
nuevas experiencias 28
Simulación centrada en humanos podría
acelerar el desarrollo 29
Repensar CV para
integración en el mundo real 30

Resumen:

1.- Visión incorporada: Sistemas de visión para agentes que actúan con propósito en su entorno, no solo sistemas estáticos. Combina percepción y acción.

2.- Inteligencia incorporada: Intercambio intencionado de energía e información con el entorno. Requiere pensar en las consecuencias del movimiento y la incertidumbre.

3.- Incertidumbre en visión por computador: Las técnicas modernas de CV como el aprendizaje profundo a menudo no manejan bien la incertidumbre, lo cual es crucial para los sistemas incorporados.

4.- Interacción con el entorno: En la visión incorporada, las acciones del agente cambian el entorno, los objetos y la distribución de datos que encuentra.

5.- Aprendizaje robótico para políticas de acción: Gran parte de la investigación en robótica descuida los avances en visión por computador. Se necesita más trabajo en representaciones visuales para RL.

6.- Aprendizaje auto-supervisado para RL: Se exploró el uso de pérdidas de visión por computador auto-supervisadas para RL, pero se encontraron dificultades. Se necesita un mejor marco.

7.- Transferencia sim-a-real: La interacción con el entorno es costosa en el mundo real. La simulación es más barata pero la transferencia sim-a-real es desafiante.

8.- Comprensión de video para actividad humana: Ir más allá del reconocimiento para entender las intenciones humanas, las capacidades y anticipar acciones.

9.- Conjuntos de datos de video egocéntrico: Grandes conjuntos de datos de video egocéntrico como Ego4D permiten aprender de la experiencia humana para informar el comportamiento de agentes incorporados.

10.- Aprendizaje audiovisual incorporado: Es importante que los agentes incorporados aprendan audio espacial para entender entornos 3D e interactuar.

11.- Abstracción del control de bajo nivel: Algunos argumentan que las acciones abstractas están bien si la aplicación lo permite. Otros creen que el razonamiento sobre dinámicas/fuerzas es esencial.

12.- Simulación fotorrealista: Ha mejorado pero aún carece de realismo en áreas como la física y la operación de cámaras. No es una solución mágica.

13.- Cambios en la distribución de datos: En la visión incorporada, la distribución de datos visuales cambia continuamente según las acciones del agente, a diferencia de los conjuntos de datos estáticos.

14.- Modelos del mundo y soñar: Aprender modelos dinámicos de datos para simular entornos. Extremadamente difícil, pero con alto potencial si es posible.

15.- Evaluación comparativa y reproducibilidad: La simulación permite evaluar sistemas de visión incorporada, pero la reproducibilidad y la sim-a-real siguen siendo desafíos abiertos significativos.

16.- Valor de la simulación: Bendición para escalar la experiencia y la evaluación. Maldición al seguir careciendo de realismo completo. Herramienta de investigación importante.

17.- Falta de humanos en simuladores: Los simuladores de IA incorporada actuales carecen de humanos. El modelado dinámico del comportamiento humano en entornos simulados es una oportunidad clave.

18.- Cronograma de robótica asistencial: Se espera un despliegue constante de sistemas robóticos que ayuden en la vida diaria, pero el cronograma es incierto y exagerado.

19.- Progreso en conducción autónoma: Avances significativos como operaciones comerciales iniciales, pero la autonomía ubicua aún está lejos. Emergerá primero en dominios enfocados.

20.- Interacción humano-robot: A menudo descuidada en la investigación robótica a favor de la navegación y la manipulación. La HRI adecuada es crítica para la implementación en el mundo real.

21.- Modelado de rendimiento y garantías: Los métodos formales para modelar el rendimiento del sistema robótico son críticos para la implementación en el mundo real, pero actualmente faltan.

22.- Representaciones impulsadas por tareas: La visión incorporada proporciona una tarea concreta para impulsar el aprendizaje de representaciones, no solo precisión por sí misma.

23.- Representaciones jerárquicas: Necesidad potencial de representaciones jerárquicas, simbólicas y abstractas para permitir un razonamiento eficiente y una fuerte generalización.

24.- El lenguaje como prioridad: Los modelos de lenguaje pueden proporcionar prioridades o conocimientos útiles para la IA incorporada, pero queda mucho trabajo por hacer para aprovecharlos.

25.- Modelos componibles: La futura IA incorporada probablemente requerirá modelos componibles para manejar la complejidad, similar a los primeros paradigmas de IA, no solo redes neuronales de extremo a extremo.

26.- Robustez y generalización: Los sistemas de IA incorporada deben ser robustos y generalizar bien para su implementación en el mundo real con situaciones novedosas.

27.- Integración de múltiples modalidades: La percepción incorporada debe aprovechar múltiples modalidades de sensores (visión, audio, tacto, etc.) para comprender y actuar mejor.

28.- Aprendizaje continuo: Los agentes incorporados tienen la oportunidad de seguir aprendiendo y adaptándose a lo largo de su vida a medida que encuentran nuevas experiencias.

29.- Simulación para entornos humanos: La simulación fotorrealista de espacios y actividades centrados en humanos podría acelerar el desarrollo de IA incorporada asistencial si se hace bien.

30.- Repensar formulaciones de problemas: A medida que avanza la IA incorporada, muchas configuraciones y suposiciones de problemas existentes en visión por computador pueden necesitar un replanteamiento fundamental para integrarse con sistemas del mundo real.

Bóveda de Conocimiento construida por David Vivancos 2024