Conocimiento Bóveda 6 /58 - ICML 2020
SLAM Visual Directo Profundo
Daniel Cremers
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4f9, font-weight:bold, font-size:14px classDef slam fill:#f9d4d4, font-weight:bold, font-size:14px classDef deep fill:#d4f9d4, font-weight:bold, font-size:14px classDef integration fill:#d4d4f9, font-weight:bold, font-size:14px classDef performance fill:#f9f9d4, font-weight:bold, font-size:14px classDef future fill:#d4f9f9, font-weight:bold, font-size:14px Main["SLAM Visual Directo
Profundo"] --> A["Conceptos Básicos de
SLAM Visual"] Main --> B["Integración de
Aprendizaje Profundo"] Main --> C["Métodos SLAM
Mejorados"] Main --> D["Rendimiento y
Evaluación"] Main --> E["Direcciones Futuras"] A --> A1["SLAM visual directo
reconstruye 3D,
movimiento de cámara 1"] A --> A2["Métodos clásicos vs directos:
error geométrico vs
error fotométrico 2"] A --> A3["SLAM LSD:
alterna seguimiento y
estimación de profundidad 3"] A --> A4["Consistencia de brillo:
minimizar diferencias de
intensidad de píxeles 4"] A --> A5["Rendimiento en tiempo real
en un solo núcleo
de CPU 5"] A --> A6["Reconstrucción a gran escala
con bajo deslizamiento 6"] B --> B1["El aprendizaje profundo
mejora los métodos de
SLAM directo 8"] B --> B2["Predicción de profundidad
de imagen única mejora SLAM 10"] B --> B3["El aprendizaje profundo
recupera la escala absoluta 11"] B --> B4["Predicción de pose
ayuda en el seguimiento 13"] B --> B5["Corrección de brillo
predice transformaciones afines 14"] B --> B6["Incertidumbre aleatoria
reduce peso de áreas no confiables 15"] C --> C1["Odometría Estéreo
Virtual Profunda integra
predicciones neuronales 12"] C --> C2["Gráfico de factores no lineal
integra predicciones de
aprendizaje profundo 16"] C --> C3["Transformación del espacio
de características robusto a
cambios de apariencia 20"] C --> C4["Red Gauss-Newton
produce características adecuadas para optimización 21"] C --> C5["Localización multi-clima
a pesar de cambios ambientales 22"] C --> C6["Incertidumbre anisotrópica
en emparejamiento de características 28"] D --> D1["Cuantificación de deslizamiento
usando cierre de bucle 7"] D --> D2["Redes entrenadas
generalizan a nuevos
entornos 17"] D --> D3["Monocular mejorado con
aprendizaje profundo supera
estéreo clásico 18"] D --> D4["Conjuntos de datos de referencia
para localización multi-clima 23"] D --> D5["Generalización a
condiciones climáticas no vistas 24"] D --> D6["Rendimiento simulado
se transfiere al mundo real 27"] E --> E1["Mapeo semántico
etiqueta reconstrucciones 3D 9"] E --> E2["Desafío de relocalización:
clima y
iluminación diferentes 19"] E --> E3["Localización de alta precisión
en varias condiciones 25"] E --> E4["Mapeo 3D en tiempo real
para sistemas autónomos 26"] E --> E5["Cuenca de
atracción asegura convergencia 29"] E --> E6["Robustez ante
oclusiones y cambios
ambientales 30"] class Main main class A,A1,A2,A3,A4,A5,A6 slam class B,B1,B2,B3,B4,B5,B6 deep class C,C1,C2,C3,C4,C5,C6 integration class D,D1,D2,D3,D4,D5,D6 performance class E,E1,E2,E3,E4,E5,E6 future

Resumen:

1.- SLAM visual directo: Utiliza intensidades de imagen en bruto para reconstruir la estructura 3D y el movimiento de la cámara, evitando pasos intermedios de extracción y emparejamiento de puntos.

2.- Métodos clásicos vs. directos: Los métodos clásicos utilizan error de reproyección geométrica, mientras que los métodos directos minimizan el error de consistencia de color fotométrico.

3.- SLAM LSD: Método de SLAM directo a gran escala que alterna entre el seguimiento de la cámara y la estimación del mapa de profundidad para fotogramas clave.

4.- Consistencia de brillo: Los métodos directos optimizan el movimiento de la cámara minimizando las diferencias en las intensidades de píxeles entre imágenes alineadas.

5.- Rendimiento en tiempo real: SLAM LSD se ejecuta en un solo núcleo de CPU, permitiendo otros núcleos para la estimación de profundidad y optimización.

6.- Reconstrucción a gran escala: El método puede reconstruir grandes entornos al aire libre con un deslizamiento relativamente bajo.

7.- Cuantificación de deslizamiento: Las secuencias que regresan al punto de inicio permiten medir el deslizamiento total en traslación, rotación y escala.

8.- Integración de aprendizaje profundo: Las redes neuronales pueden mejorar los métodos de SLAM directo prediciendo profundidad, pose e incertidumbre.

9.- Mapeo semántico: Las redes profundas pueden etiquetar reconstrucciones 3D con información semántica como áreas transitables, autos y peatones.

10.- Predicción de profundidad de imagen única: Las redes neuronales pueden estimar la profundidad a partir de una sola imagen, mejorando la inicialización en SLAM.

11.- Estimación de escala: El aprendizaje profundo permite que los sistemas monoculares recuperen la escala absoluta, anteriormente imposible con cámaras individuales.

12.- Odometría Estéreo Virtual Profunda: Integra predicciones de profundidad y pose de aprendizaje profundo en la tubería clásica de SLAM.

13.- Predicción de pose: Las redes neuronales pueden estimar la pose relativa entre fotogramas consecutivos, ayudando en el seguimiento.

14.- Corrección de brillo: Las redes pueden predecir transformaciones afines para corregir cambios de brillo entre fotogramas.

15.- Incertidumbre aleatoria: Las redes pueden estimar la incertidumbre en las predicciones, permitiendo reducir el peso de áreas no confiables.

16.- Gráfico de factores no lineal: Integra predicciones de aprendizaje profundo en el seguimiento de front-end y la optimización de back-end de SLAM.

17.- Generalización: Las redes entrenadas pueden generalizar a nuevos entornos y conjuntos de datos no vistos durante el entrenamiento.

18.- Rendimiento monocular vs. estéreo: Los métodos monoculares mejorados con aprendizaje profundo pueden superar a los métodos estéreo clásicos.

19.- Desafío de relocalización: Reconocer la misma ubicación bajo diferentes condiciones climáticas y de iluminación es difícil.

20.- Transformación del espacio de características: Las redes pueden transformar imágenes en espacios de características consistentes robustos a cambios de apariencia.

21.- Red Gauss-Newton: Diseñada para producir características óptimamente adecuadas para la optimización subsiguiente en algoritmos SLAM de Gauss-Newton.

22.- Localización multi-clima: Capacidad para localizar en entornos previamente mapeados a pesar de cambios significativos en iluminación y clima.

23.- Conjuntos de datos de referencia: Creación de puntos de referencia de localización multi-clima utilizando datos de simulador y del mundo real para evaluación.

24.- Generalización a condiciones no vistas: Los métodos entrenados en ciertas condiciones climáticas pueden generalizar a tipos de clima no vistos.

25.- Localización de alta precisión: Logro de una precisión sin precedentes en la localización de sistemas autónomos o autos en varias condiciones.

26.- Mapeo 3D en tiempo real: Permite la creación de mapas 3D a gran escala y alta resolución en tiempo real para sistemas autónomos.

27.- Datos simulados vs. reales: El rendimiento en entornos simulados puede transferirse bien a escenarios del mundo real.

28.- Incertidumbre anisotrópica: La pérdida de Gauss-Newton permite incertidumbres dependientes de la dirección en el emparejamiento de características.

29.- Cuenca de atracción: Diseño de funciones de pérdida para asegurar la convergencia incluso con una mala inicialización.

30.- Robustez ante oclusiones: Los métodos pueden manejar oclusiones temporales y cambios en el entorno entre mapeo y localización.

Bóveda del Conocimiento construida porDavid Vivancos 2024