Conocimiento Bóveda 5 /42 - CVPR 2019
Emparejamiento Cruzado Reforzado y Aprendizaje de Imitación Auto-Supervisado para Navegación Visión-Lenguaje
Xin Wang, Qiuyuan Huang, Asli Celikyilmaz, Jianfeng Gao, Dinghan Shen, Yuan-Fang
< Imagen del Resumen >

Gráfico de Concepto & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef navigation fill:#f9d4d4, font-weight:bold, font-size:14px classDef grounding fill:#d4f9d4, font-weight:bold, font-size:14px classDef reward fill:#d4d4f9, font-weight:bold, font-size:14px classDef generalization fill:#f9f9d4, font-weight:bold, font-size:14px classDef learning fill:#f9d4f9, font-weight:bold, font-size:14px A["Emparejamiento Cruzado Reforzado
y Aprendizaje de Imitación Auto-Supervisado
para Navegación Visión-Lenguaje"] --> B["Navegación en entornos 3D
con lenguaje. 1"] B --> C["Vinculación del lenguaje con lo visual. 2"] A --> D["Éxito solo en el destino. 3"] A --> E["Cálculo de recompensas a partir de
historia, instrucciones, visuales. 4"] E --> F["Evalúa la reconstrucción de instrucciones
desde la trayectoria. 5"] E --> G["Fomenta el seguimiento de instrucciones. 6"] A --> H["Los modelos fallan al generalizar. 7"] A --> I["Exploración auto-supervisada
de entornos no vistos. 8"] I --> J["Genera trayectorias para
evaluación crítica. 9"] I --> K["Almacena las mejores trayectorias
para imitación. 10"] I --> L["Aproxima mejor política
para nuevos entornos. 11"] I --> M["Una trayectoria por instrucción. 12"] I --> N["El robot mejora con
familiaridad de la casa. 13"] I --> O["Éxito en el seguimiento de instrucciones
después de la exploración. 14"] A --> P["Supera la línea base, mejora
rendimiento no visto. 15"] A --> Q["Reduce la brecha de rendimiento
visto-no visto. 16"] class B navigation class C grounding class D,E,F,G reward class H generalization class I,J,K,L,M,N,O,P,Q learning

Resumen:

1.- Navegación de Visión y Lenguaje: Navegación de un agente incorporado en un entorno 3D usando instrucciones en lenguaje natural.

2.- Vinculación cruzada modal: Vinculación de instrucciones en lenguaje natural con escenas visuales locales y trayectorias visuales globales.

3.- Problema de recompensa escasa: Señal de éxito solo dada cuando el agente llega al destino, ignorando el seguimiento de instrucciones.

4.- Emparejamiento Cruzado Reforzado: Método para calcular recompensas extrínsecas basadas en historia, instrucción y contexto visual.

5.- Crítico de emparejamiento: Evalúa el grado en que la instrucción original puede ser reconstruida desde la trayectoria generada.

6.- Recompensa de reconstrucción cíclica: Recompensa intrínseca utilizada para entrenar al navegador, fomentando el seguimiento de instrucciones.

7.- Problema de generalización: Los modelos fallan al generalizar bien a entornos no vistos.

8.- Aprendizaje de Imitación Auto-Supervisado (SIL): Aprender a explorar entornos no vistos con auto-supervisión.

9.- Instrucción no etiquetada: Utilizada en SIL para generar trayectorias, que son evaluadas por el crítico de emparejamiento.

10.- Búfer de reproducción: Almacena las mejores trayectorias generadas durante SIL para que el navegador las imite.

11.- Aprendizaje de comportamientos buenos pasados: SIL permite al modelo aproximar una mejor política para nuevos entornos.

12.- Tiempo de prueba: El navegador realiza una trayectoria por instrucción, haciendo que SIL sea útil en la práctica.

13.- Robot en casa: Ejemplo de aplicación donde SIL puede ayudar al robot a mejorar a medida que se familiariza con la casa.

14.- Ejemplo antes y después de SIL: El agente sigue exitosamente las instrucciones y llega al destino después de explorar con SIL.

15.- Resultados en conjunto de prueba no visto: El modelo RCM supera al modelo de seguimiento de orador base, y SIL mejora significativamente la puntuación SPL.

16.- Reducción de la brecha de rendimiento: SIL ayuda a reducir la brecha de rendimiento entre entornos vistos y no vistos.

Bóveda de Conocimiento construida por David Vivancos 2024