Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:
Resumen:
1.- Visión incorporada: Sistemas de visión para agentes que actúan con propósito en su entorno, no solo sistemas estáticos. Combina percepción y acción.
2.- Inteligencia incorporada: Intercambio intencionado de energía e información con el entorno. Requiere pensar en las consecuencias del movimiento y la incertidumbre.
3.- Incertidumbre en visión por computador: Las técnicas modernas de CV como el aprendizaje profundo a menudo no manejan bien la incertidumbre, lo cual es crucial para los sistemas incorporados.
4.- Interacción con el entorno: En la visión incorporada, las acciones del agente cambian el entorno, los objetos y la distribución de datos que encuentra.
5.- Aprendizaje robótico para políticas de acción: Gran parte de la investigación en robótica descuida los avances en visión por computador. Se necesita más trabajo en representaciones visuales para RL.
6.- Aprendizaje auto-supervisado para RL: Se exploró el uso de pérdidas de visión por computador auto-supervisadas para RL, pero se encontraron dificultades. Se necesita un mejor marco.
7.- Transferencia sim-a-real: La interacción con el entorno es costosa en el mundo real. La simulación es más barata pero la transferencia sim-a-real es desafiante.
8.- Comprensión de video para actividad humana: Ir más allá del reconocimiento para entender las intenciones humanas, las capacidades y anticipar acciones.
9.- Conjuntos de datos de video egocéntrico: Grandes conjuntos de datos de video egocéntrico como Ego4D permiten aprender de la experiencia humana para informar el comportamiento de agentes incorporados.
10.- Aprendizaje audiovisual incorporado: Es importante que los agentes incorporados aprendan audio espacial para entender entornos 3D e interactuar.
11.- Abstracción del control de bajo nivel: Algunos argumentan que las acciones abstractas están bien si la aplicación lo permite. Otros creen que el razonamiento sobre dinámicas/fuerzas es esencial.
12.- Simulación fotorrealista: Ha mejorado pero aún carece de realismo en áreas como la física y la operación de cámaras. No es una solución mágica.
13.- Cambios en la distribución de datos: En la visión incorporada, la distribución de datos visuales cambia continuamente según las acciones del agente, a diferencia de los conjuntos de datos estáticos.
14.- Modelos del mundo y soñar: Aprender modelos dinámicos de datos para simular entornos. Extremadamente difícil, pero con alto potencial si es posible.
15.- Evaluación comparativa y reproducibilidad: La simulación permite evaluar sistemas de visión incorporada, pero la reproducibilidad y la sim-a-real siguen siendo desafíos abiertos significativos.
16.- Valor de la simulación: Bendición para escalar la experiencia y la evaluación. Maldición al seguir careciendo de realismo completo. Herramienta de investigación importante.
17.- Falta de humanos en simuladores: Los simuladores de IA incorporada actuales carecen de humanos. El modelado dinámico del comportamiento humano en entornos simulados es una oportunidad clave.
18.- Cronograma de robótica asistencial: Se espera un despliegue constante de sistemas robóticos que ayuden en la vida diaria, pero el cronograma es incierto y exagerado.
19.- Progreso en conducción autónoma: Avances significativos como operaciones comerciales iniciales, pero la autonomía ubicua aún está lejos. Emergerá primero en dominios enfocados.
20.- Interacción humano-robot: A menudo descuidada en la investigación robótica a favor de la navegación y la manipulación. La HRI adecuada es crítica para la implementación en el mundo real.
21.- Modelado de rendimiento y garantías: Los métodos formales para modelar el rendimiento del sistema robótico son críticos para la implementación en el mundo real, pero actualmente faltan.
22.- Representaciones impulsadas por tareas: La visión incorporada proporciona una tarea concreta para impulsar el aprendizaje de representaciones, no solo precisión por sí misma.
23.- Representaciones jerárquicas: Necesidad potencial de representaciones jerárquicas, simbólicas y abstractas para permitir un razonamiento eficiente y una fuerte generalización.
24.- El lenguaje como prioridad: Los modelos de lenguaje pueden proporcionar prioridades o conocimientos útiles para la IA incorporada, pero queda mucho trabajo por hacer para aprovecharlos.
25.- Modelos componibles: La futura IA incorporada probablemente requerirá modelos componibles para manejar la complejidad, similar a los primeros paradigmas de IA, no solo redes neuronales de extremo a extremo.
26.- Robustez y generalización: Los sistemas de IA incorporada deben ser robustos y generalizar bien para su implementación en el mundo real con situaciones novedosas.
27.- Integración de múltiples modalidades: La percepción incorporada debe aprovechar múltiples modalidades de sensores (visión, audio, tacto, etc.) para comprender y actuar mejor.
28.- Aprendizaje continuo: Los agentes incorporados tienen la oportunidad de seguir aprendiendo y adaptándose a lo largo de su vida a medida que encuentran nuevas experiencias.
29.- Simulación para entornos humanos: La simulación fotorrealista de espacios y actividades centrados en humanos podría acelerar el desarrollo de IA incorporada asistencial si se hace bien.
30.- Repensar formulaciones de problemas: A medida que avanza la IA incorporada, muchas configuraciones y suposiciones de problemas existentes en visión por computador pueden necesitar un replanteamiento fundamental para integrarse con sistemas del mundo real.
Bóveda de Conocimiento construida por David Vivancos 2024