Conocimiento Bóveda 5 /25 - CVPR 2017
Aprendiendo de Imágenes Simuladas y No Supervisadas a través de Entrenamiento Adversarial
Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Joshua Susskind, Wenda Wang, & Russell Webb
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef simgan fill:#f9d4d4, font-weight:bold, font-size:14px classDef refiner fill:#d4f9d4, font-weight:bold, font-size:14px classDef discriminator fill:#d4d4f9, font-weight:bold, font-size:14px classDef training fill:#f9f9d4, font-weight:bold, font-size:14px classDef performance fill:#f9d4f9, font-weight:bold, font-size:14px A["Aprendiendo de Imágenes Simuladas
y No Supervisadas
a través de Entrenamiento Adversarial"] --> B["SimGAN: Cerrando la brecha de distribución
entre imágenes sintéticas y reales. 1"] B --> C["Red refinadora: Produce
imágenes refinadas realistas. 2"] B --> D["Red discriminadora:
Clasifica real vs. refinado. 3"] B --> E["Entrenamiento alternado: Refinador,
discriminador actualizados alternadamente. 4"] B --> F["Pérdida de autorregulación:
Preserva anotaciones en el refinamiento. 5"] B --> G["Prueba de Turing visual:
Dificultad sintético vs. real. 8"] B --> H["No se requiere correspondencia:
No es necesario emparejamiento sintético-real. 18"] C --> I["Reducción de artefactos: Pérdida
local, ayuda histórica. 19"] C --> J["Redes completamente convolucionales:
Refinador y discriminador. 20"] D --> K["Pérdida del discriminador:
Pérdida de entropía cruzada real/refinado. 9"] D --> L["Buffer de imágenes refinadas:
Mejora la estabilidad del discriminador. 13"] E --> M["Pérdida del refinador: Engaña
al discriminador, parece real. 10"] E --> N["Entrenamiento inestable: Moviendo
objetivos del refinador/discriminador. 11"] E --> O["Pérdida adversarial local: Completamente
convolucional, reduce artefactos. 12"] A --> P["Estimación de mirada:
Entrada de imagen, salida de mirada. 6"] A --> Q["Estimación de posición de la mano:
Imagen de profundidad a articulaciones. 7"] A --> R["Generación de datos sintéticos:
Simuladores producen datos infinitos. 21"] A --> S["Refinamiento de datos sintéticos:
Refinador procesa datos sintéticos. 22"] A --> T["Experimentos cuantitativos: Sintético,
refinado, rendimiento real. 14"] T --> U["Comparación de rendimiento: Sintético,
refinado, modelos reales. 23"] T --> V["Mejora de rendimiento:
Refinado supera a sintético. 15"] T --> W["Superando datos reales limitados:
Refinado puede superar. 16"] T --> X["Mejorando la utilidad de datos simulados:
SimGAN mejora la utilidad. 24"] A --> Y["Preservando anotaciones:
SimGAN mantiene anotaciones sintéticas. 17"] A --> Z["Entrada de blog: Más
información de SimGAN disponible. 25"] class A,B,G,H,Y,Z simgan class C,I,J,R,S refiner class D,K,L discriminator class E,M,N,O,P,Q training class T,U,V,W,X performance

Resumen:

1.- SimGAN: Un enfoque basado en datos para cerrar la brecha de distribución entre imágenes sintéticas y reales.

2.- Red refinadora: Una red neuronal completamente convolucional que produce imágenes refinadas que parecen realistas.

3.- Red discriminadora: Una red de clasificación de dos clases que distingue entre imágenes reales y refinadas.

4.- Entrenamiento alternado: Las redes refinadora y discriminadora se actualizan alternadamente para generar imágenes realistas.

5.- Pérdida de autorregulación: Minimiza la distancia entre imágenes sintéticas y refinadas para preservar la información de anotación.

6.- Estimación de mirada: Una tarea donde la entrada es una imagen y la salida es la dirección de la mirada.

7.- Estimación de posición de la mano: Una tarea donde la entrada es una imagen de profundidad de la mano y la salida son las ubicaciones de las articulaciones.

8.- Prueba de Turing visual: Comparando la dificultad de distinguir entre imágenes sintéticas vs. reales y refinadas vs. reales.

9.- Pérdida del discriminador: Una pérdida de entropía cruzada de dos clases para clasificar imágenes reales y refinadas.

10.- Pérdida del refinador: Intenta engañar al discriminador generando imágenes refinadas que parecen reales.

11.- Entrenamiento inestable: El entrenamiento alternado puede ser inestable debido a los objetivos móviles para el refinador y el discriminador.

12.- Pérdida adversarial local: Usando un discriminador completamente convolucional para hacer cambios locales y reducir artefactos.

13.- Buffer de imágenes refinadas: Usando un historial de imágenes refinadas para actualizar el discriminador y mejorar la estabilidad.

14.- Experimentos cuantitativos: Evaluando el rendimiento de modelos de ML entrenados en imágenes sintéticas, refinadas y reales.

15.- Mejora de rendimiento: Las imágenes refinadas conducen a un mejor rendimiento en comparación con las imágenes sintéticas en la estimación de la mirada.

16.- Superando datos reales limitados: Las imágenes refinadas pueden superar a los modelos entrenados con una cantidad limitada de datos reales.

17.- Preservando anotaciones: SimGAN preserva las anotaciones de las imágenes sintéticas en las imágenes refinadas.

18.- No se requiere correspondencia: SimGAN no requiere correspondencia entre imágenes sintéticas y reales.

19.- Reducción de artefactos: La pérdida adversarial local y el uso de un historial de imágenes refinadas ayudan a reducir los artefactos.

20.- Redes completamente convolucionales: Tanto las redes refinadora como las discriminadoras son completamente convolucionales.

21.- Generación de datos sintéticos: Los simuladores pueden generar una cantidad casi infinita de datos sintéticos.

22.- Refinamiento de datos sintéticos: Los datos sintéticos se refinan al pasarlos a través de la red refinadora.

23.- Comparación de rendimiento: Se compara el rendimiento entre modelos entrenados con datos sintéticos, refinados y reales.

24.- Mejorando la utilidad de datos simulados: SimGAN mejora la utilidad de los datos simulados para entrenar modelos de ML.

25.- Entrada de blog: Información adicional sobre SimGAN está disponible en el blog de Apple Machine Learning.

Bóveda del Conocimiento construida porDavid Vivancos 2024