Conocimiento Bóveda 5 /31 - CVPR 2018
Taskonomy: Desenredando el Aprendizaje de Transferencia de Tareas
Amir R. Zamir, Alexander Sax, William Shen, Leonidas J. Guibas, Jitendra Malik, y Silvio Savarese.
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef codeslam fill:#f9d4d4, font-weight:bold, font-size:14px classDef representations fill:#d4f9d4, font-weight:bold, font-size:14px classDef training fill:#d4d4f9, font-weight:bold, font-size:14px classDef autoencoder fill:#f9f9d4, font-weight:bold, font-size:14px classDef keyframe fill:#f9d4f9, font-weight:bold, font-size:14px classDef testing fill:#d4f9f9, font-weight:bold, font-size:14px classDef future fill:#f9d9d4, font-weight:bold, font-size:14px A["Taskonomy: Desenredando el Aprendizaje
de Transferencia de Tareas"] --> B["CodeSLAM: Sistema de
aprendizaje profundo SLAM 1"] A --> C["Representaciones SLAM
escasas vs densas 2"] A --> D["Mapas de profundidad: Subespacio,
correlación estructural 3"] A --> E["Autoencoder: Codifica
mapas de profundidad 4"] A --> F["Predicción de profundidad:
La red modula 5"] A --> G["Entrenamiento: Conjunto de datos CNET,
de extremo a extremo 6"] G --> H["Tamaño del código:
128 dimensiones 7"] G --> I["Decodificador lineal,
imágenes en escala de grises 8"] E --> J["Incertidumbre predicha:
Discontinuidades de profundidad 9"] E --> K["Decodificación lineal:
Función de profundidad 10"] E --> L["Jacobiano: Derivada
constante 11"] E --> M["Perturbaciones suaves
del código 12"] B --> N["SLAM basado en fotogramas clave:
Pose, variables de código 13"] N --> O["Ajuste de paquete denso:
Error fotométrico 14"] N --> P["Optimización conjunta:
Pose, códigos 15"] N --> Q["Resultados de optimización:
Reconstrucciones logradas 16"] N --> R["Velocidad: 10 Hz
iteraciones 17"] B --> S["Pruebas en el mundo real:
Conjunto de datos de Nueva York 18"] B --> T["Odometría visual:
Conjunto de datos NYU 19"] T --> U["Sistema simple:
Una optimización 20"] T --> V["Prior de código cero:
Robustez 21"] B --> W["Futuro: Datos reales,
auto-supervisión 22"] B --> X["Mejoras de red:
Arquitectura, estructura 23"] B --> Y["Demostración: Sistema
en vivo preliminar 24"] B --> Z["Generalización: Predicción de código cero,
optimización 25"] class A,B,Y codeslam class C,D representations class E,F,J,K,L,M autoencoder class G,H,I training class N,O,P,Q,R keyframe class S,T,U,V testing class W,X,Z future

Resumen:

1.- Las tareas de visión están relacionadas, no son independientes (por ejemplo, estimación de profundidad, normales de superficie, detección de objetos, diseño de habitaciones)

2.- Cuantificar las relaciones entre tareas permite ver las tareas en conjunto, no en aislamiento, para utilizar redundancias

3.- Reducir la necesidad de datos etiquetados es deseable, enfoque de investigación en aprendizaje auto-supervisado, aprendizaje no supervisado, meta-aprendizaje, adaptación de dominio, características de ImageNet, ajuste fino

4.- Las relaciones entre tareas permiten el aprendizaje de transferencia - usar un modelo desarrollado para una tarea para ayudar a resolver otra tarea relacionada

5.- Ejemplo intuitivo: la estimación de normales de superficie se beneficia más del aprendizaje de transferencia de la tarea de sombreado de imágenes que de la tarea de segmentación

6.- Cuantificar las relaciones entre tareas a gran escala permite formar un gráfico completo para entender las redundancias entre tareas

7.- Esto permite resolver un conjunto de tareas en conjunto mientras se minimiza la supervisión aprovechando las redundancias (todas las tareas transferidas desde 3 fuentes)

8.- También permite resolver una tarea novedosa deseada sin muchos datos etiquetados insertándola en la estructura de relaciones de tareas

9.- Taskonomy: método completamente computacional para cuantificar las relaciones entre tareas a gran escala y extraer una estructura unificada de aprendizaje de transferencia

10.- Definido conjunto de 26 tareas de visión diversas (semánticas, 3D, 2D) como diccionario de tareas de muestra

11.- Recopilado conjunto de datos de 4M de imágenes interiores reales con verdad de terreno para las 26 tareas

12.- Red de tareas específicas entrenada para cada una de las 26 tareas, congelar pesos

13.- Cuantificar las relaciones entre tareas utilizando el codificador de la red de una tarea para entrenar una pequeña red de lectura para resolver otra tarea

14.- El rendimiento de la red de lectura en el conjunto de prueba determina la fuerza de la relación de transferencia de tareas dirigida

15.- Calculadas 26x25 funciones de transferencia para obtener un gráfico dirigido completo de relaciones de tareas

16.- Normalizar la matriz de adyacencia del gráfico utilizando el proceso jerárquico analítico para tener en cuenta los diferentes espacios de salida de las tareas y las propiedades numéricas

17.- Extraer subgráfico óptimo del gráfico completo normalizado para maximizar el rendimiento colectivo de las tareas mientras se minimizan las fuentes utilizadas

18.- La selección de subgráfico también maneja la transferencia a tareas novedosas no incluidas en el diccionario original

19.- Las transferencias de orden superior (múltiples fuentes transfiriendo a un objetivo) también se incluyen en el marco

20.- Resultados experimentales: 26 tareas, 26 redes específicas de tareas, ~3000 funciones de transferencia, 47,000 horas de GPU, el entrenamiento de transferencia utilizó de 8 a 100 veces menos datos

21.- La taxonomía computada de muestra muestra conexiones intuitivas (tareas 3D conectadas, tareas semánticas conectadas), permite resolver tareas con datos limitados para algunas

22.- Métrica de ganancia: mide el valor ganado por el aprendizaje de transferencia. Métrica de calidad: mide cuán cerca están los resultados de transferencia de las redes específicas de tareas.

23.- API web en vivo para calcular taxonomías con argumentos personalizados y comparar con la línea base de características de ImageNet

24.- Experimentos adicionales: pruebas de significancia, pruebas de generalización, análisis de sensibilidad, comparaciones con líneas base auto-supervisadas/no supervisadas

25.- Taskonomy es un paso hacia la comprensión del espacio de tareas de visión y el tratamiento de tareas como un espacio estructurado frente a conceptos aislados

26.- Proporciona un marco completamente computacional y un modelo unificado de aprendizaje de transferencia para avanzar hacia un modelo de percepción generalista

27.- Taskonomy supera las líneas base de aprendizaje de transferencia de características de ImageNet

28.- Incluye un mecanismo para manejar tareas novedosas no incluidas en el diccionario de tareas original

29.- Puede proporcionar orientación para el aprendizaje de tareas múltiples en términos de evaluar la similitud entre tareas

30.- El subgráfico optimizado maximiza el rendimiento colectivo en todas las tareas mientras minimiza el número de tareas fuente

Bóveda del Conocimiento construida porDavid Vivancos 2024