Conocimiento Bóveda 5 /29 - CVPR 2017
Super-Resolución de Imagen Única Foto-Realista Usando una Red Generativa Adversaria
Christian Ledig, Lucas Theis, Ferenc Huszár, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef superresolution fill:#f9d4d4, font-weight:bold, font-size:14px classDef learning fill:#d4f9d4, font-weight:bold, font-size:14px classDef applications fill:#d4d4f9, font-weight:bold, font-size:14px classDef srresnet fill:#f9f9d4, font-weight:bold, font-size:14px classDef srgan fill:#f9d4f9, font-weight:bold, font-size:14px classDef evaluation fill:#d4f9f9, font-weight:bold, font-size:14px classDef limitations fill:#f9d4d4, font-weight:bold, font-size:14px classDef future fill:#d4f9d4, font-weight:bold, font-size:14px A["Super-Resolución de Imagen Única
Foto-Realista Usando una
Red Generativa Adversaria"] --> B["Super-resolución de imagen única foto-realista 1"] B --> C["Aumentar resolución, añadir textura 2"] B --> D["Aplicaciones: satélite, medios, médico, vigilancia 3"] A --> E["SRResNet: CNN residual profunda 4"] E --> F["Entrenado en ImageNet 5"] E --> G["Red más profunda, bloques residuales, conexiones de salto 6"] E --> H["Escalado eficiente de convolución sub-pixel 7"] E --> I["Más bloques residuales mejoran PSNR 8"] E --> J["Mejora bicúbico pero carece de calidad perceptual 9"] E --> K["Regresión a la media con pérdida MSE 10"] A --> L["SRGAN: enfoque basado en GAN 11"] L --> M["Trabajo relacionado: características, pérdidas adversarias 12"] L --> N["Pérdida perceptual: MSE en espacio VGG 13"] L --> O["Pérdida adversaria: discriminador distingue real/falso 14"] O --> P["Generador engaña al discriminador, reconstruye detalles 15"] O --> Q["Discriminador basado en VGG modificado 16"] O --> R["Optimización minimax de entropía cruzada 17"] L --> S["Pérdida adversaria preserva el colector 18"] L --> T["Pérdida de contenido permite libertad de textura 19"] L --> U["SRGAN añade textura, resultados convincentes 20"] A --> V["Evaluación usando prueba MOS 21"] V --> W["SRGAN supera en MOS 22"] V --> X["SRResNet sobresale en PSNR, SRGAN en percepción 23"] V --> Y["SRGAN se desempeña bien en escalas más altas 24"] A --> Z["Limitaciones: texto, números difíciles 25"] Z --> AA["Importancia de datos de entrenamiento diversos 26"] A --> AB["Interés en mejorar el entrenamiento GAN 27"] A --> AC["Necesidad de métricas de calidad perceptual 28"] A --> AD["Agradecimientos a co-autores 29"] A --> AE["Invitación a sesión de póster 30"] class A,B,C superresolution class E,F,G,H,I,J,K srresnet class L,M,N,O,P,Q,R,S,T,U srgan class D applications class V,W,X,Y evaluation class Z,AA limitations class AB,AC future

Resumen:

1.- Super-resolución de imagen única foto-realista usando aprendizaje profundo

2.- Aumentar la resolución espacial y añadir detalle de textura fina

3.- Aplicaciones en imágenes satelitales, contenido multimedia, imágenes médicas, vigilancia

4.- SRResNet: CNN residual profunda optimizada para PSNR

5.- Entrenado en 350,000 imágenes de ImageNet

6.- Red más profunda con bloques residuales idénticos y conexiones de salto

7.- Convolución sub-pixel eficiente para escalado

8.- Más bloques residuales mejoran PSNR

9.- SRResNet mejora la interpolación bicúbica pero carece de calidad perceptual

10.- Problema de regresión a la media con pérdida MSE

11.- SRGAN: enfoque basado en GAN para superar limitaciones de MSE

12.- Trabajo relacionado: pérdidas en el espacio de características y pérdidas adversarias

13.- Funciones de pérdida perceptual: MSE en espacio de características VGG

14.- Pérdida adversaria: red discriminadora para distinguir imágenes reales/falsas

15.- Generador entrenado para engañar al discriminador reconstruyendo detalles realistas

16.- Arquitectura del discriminador basada en VGG con modificaciones

17.- Optimización minimax de pérdida de entropía cruzada

18.- Pérdida adversaria lleva las reconstrucciones de vuelta al colector de imágenes naturales

19.- Pérdida de contenido en el espacio de características permite más libertad para detalles de textura

20.- SRGAN añade detalles de textura fina, resultados perceptualmente convincentes

21.- Evaluación usando prueba de Puntuación de Opinión Media (MOS) con evaluadores humanos

22.- SRGAN supera a SRResNet y métodos de referencia en MOS

23.- SRResNet sobresale en PSNR, pero SRGAN proporciona calidad perceptual superior

24.- SRGAN se desempeña bien para factores de escalado más altos (8x, 16x)

25.- Limitaciones: Dificultad para reconstruir texto y números

26.- Importancia de la diversidad de datos de entrenamiento

27.- Interés en técnicas mejoradas de entrenamiento GAN

28.- Necesidad de mejores funciones objetivas que capturen la calidad perceptual

29.- Agradecimientos a co-autores, particularmente a Wenze Shi

30.- Invitación a sesión de póster para mayor discusión

Bóveda del Conocimiento construida porDavid Vivancos 2024