Gráfico de Concepto & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:
Resumen:
1.- Navegación de Visión y Lenguaje: Navegación de un agente incorporado en un entorno 3D usando instrucciones en lenguaje natural.
2.- Vinculación cruzada modal: Vinculación de instrucciones en lenguaje natural con escenas visuales locales y trayectorias visuales globales.
3.- Problema de recompensa escasa: Señal de éxito solo dada cuando el agente llega al destino, ignorando el seguimiento de instrucciones.
4.- Emparejamiento Cruzado Reforzado: Método para calcular recompensas extrínsecas basadas en historia, instrucción y contexto visual.
5.- Crítico de emparejamiento: Evalúa el grado en que la instrucción original puede ser reconstruida desde la trayectoria generada.
6.- Recompensa de reconstrucción cíclica: Recompensa intrínseca utilizada para entrenar al navegador, fomentando el seguimiento de instrucciones.
7.- Problema de generalización: Los modelos fallan al generalizar bien a entornos no vistos.
8.- Aprendizaje de Imitación Auto-Supervisado (SIL): Aprender a explorar entornos no vistos con auto-supervisión.
9.- Instrucción no etiquetada: Utilizada en SIL para generar trayectorias, que son evaluadas por el crítico de emparejamiento.
10.- Búfer de reproducción: Almacena las mejores trayectorias generadas durante SIL para que el navegador las imite.
11.- Aprendizaje de comportamientos buenos pasados: SIL permite al modelo aproximar una mejor política para nuevos entornos.
12.- Tiempo de prueba: El navegador realiza una trayectoria por instrucción, haciendo que SIL sea útil en la práctica.
13.- Robot en casa: Ejemplo de aplicación donde SIL puede ayudar al robot a mejorar a medida que se familiariza con la casa.
14.- Ejemplo antes y después de SIL: El agente sigue exitosamente las instrucciones y llega al destino después de explorar con SIL.
15.- Resultados en conjunto de prueba no visto: El modelo RCM supera al modelo de seguimiento de orador base, y SIL mejora significativamente la puntuación SPL.
16.- Reducción de la brecha de rendimiento: SIL ayuda a reducir la brecha de rendimiento entre entornos vistos y no vistos.
Bóveda de Conocimiento construida por David Vivancos 2024