Conocimiento Bóveda 5 /43 - CVPR 2019
Una Arquitectura de Generador Basada en Estilo para Redes Generativas Antagónicas
Tero Karras, Samuli Laine y Timo Aila.
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef gans fill:#f9d4d4, font-weight:bold, font-size:14px classDef control fill:#d4f9d4, font-weight:bold, font-size:14px classDef data fill:#d4d4f9, font-weight:bold, font-size:14px classDef styles fill:#f9f9d4, font-weight:bold, font-size:14px classDef results fill:#f9d4f9, font-weight:bold, font-size:14px A["Una Arquitectura de Generador
Basada en Estilo para Redes
Generativas Antagónicas"] --> B["GANs: generación de imágenes
de alta calidad a resolución de megapíxeles. 1"] A --> C["Controlar GANs es difícil
sin datos de entrada adicionales. 2"] C --> D["Datos de entrenamiento etiquetados de alta calidad
son desafiantes y costosos. 3"] C --> E["Control no supervisado sobre la generación
de imágenes sin datos etiquetados. 4"] A --> F["Generador con múltiples entradas
para controlar aspectos de la imagen. 5"] A --> G["Transferencia de estilo: combinación de estilo
artístico y contenido. 6"] G --> H["AdaIN ajusta las estadísticas de activación
al estilo deseado. 7"] G --> I["Código latente aleatorizable
genera imágenes novedosas. 8"] I --> J["Código latente de estilo permite
aprender y generar estilos. 9"] A --> K["Bloques AdaIN en cada
capa para mejor control. 10"] K --> L["Código latente de contenido
eliminado de la arquitectura. 11"] K --> M["Mezcla de estilos conectando
estilos a diferentes capas. 12"] M --> N["Capas controlan género, edad,
longitud del cabello, esquema de color. 13"] A --> O["Conjunto de datos Flickr-Faces-HQ con
más variación utilizado. 14"] A --> P["Mezcla de estilos crea retratos
familiares imaginarios desde cero. 15"] A --> Q["Detalles finos y estocásticos
desafiantes para el generador. 16"] Q --> R["Entradas de ruido explícitas a
cada capa de la red. 17"] R --> S["Ruido controla fondos, cabello,
piel, detalles. 18"] A --> T["Técnicas funcionan bien
en varios conjuntos de datos. 19"] A --> U["Código fuente y modelos
disponibles en línea. 20"] A --> V["Parte de la conferencia CVPR 2019
de visión por computadora. 21"] A --> W["Trabajo realizado por investigadores
de NVIDIA. 22"] A --> X["Presentador Tero Karras,
uno de los autores. 23"] A --> Y["Arquitectura de generador basada en estilo
para control no supervisado. 24"] A --> Z["Póster 14 para
más información. 25"] A --> AA["Construido sobre trabajo previo,
ProgressiveGAN. 26"] A --> AB["Avance significativo en
generación de imágenes controlables. 27"] A --> AC["Se inspira en técnicas de
transferencia de estilo. 28"] A --> AD["Control detallado mezclando estilos
en capas. 29"] A --> AE["Entradas de ruido explícitas para
detalles finos y estocásticos. 30"] class A,B gans class C,D,E,F control class G,H,I,J,K,L,M,N,AC,AD styles class O,P,Q,R,S,T,U,V,W,X,Y,Z,AA,AB,AE results

Resumen:

1.- Las Redes Generativas Antagónicas (GANs) han mejorado rápidamente, permitiendo la generación de imágenes de alta calidad a resolución de megapíxeles (ProgressiveGAN).

2.- Controlar la generación de imágenes en GANs es difícil sin datos de entrada adicionales como etiquetas de clase o máscaras de segmentación.

3.- Obtener datos de entrenamiento etiquetados de alta calidad para la generación de imágenes condicionales es desafiante y costoso.

4.- El objetivo es lograr el control sobre la generación de imágenes de manera no supervisada, sin datos etiquetados.

5.- Se desea un generador con múltiples entradas para controlar diferentes aspectos de la imagen generada.

6.- La transferencia de estilo, que combina el estilo artístico de una imagen con el contenido de otra, sirve de inspiración.

7.- La Normalización de Instancia Adaptativa (AdaIN) se utiliza para ajustar las estadísticas de las activaciones al estilo deseado.

8.- La imagen de contenido se reemplaza con un código latente aleatorizable para generar imágenes novedosas desde cero.

9.- Se introduce otro código latente para representar el estilo, permitiendo que la red aprenda y genere estilos aleatorios.

10.- Se añaden bloques AdaIN dedicados a cada capa de la red para un mejor control sobre el proceso de generación.

11.- El código latente de contenido se vuelve innecesario y se elimina de la arquitectura.

12.- Después del entrenamiento, los estilos pueden mezclarse y combinarse conectándolos a diferentes capas de la red.

13.- Las diferentes capas de la red controlan varios aspectos de la imagen generada, como género, edad, longitud del cabello y esquema de color.

14.- Se utilizó el conjunto de datos Flickr-Faces-HQ, que contiene más variación que los conjuntos de datos de caras de alta calidad anteriores, para obtener los resultados.

15.- La mezcla de estilos puede usarse para crear retratos familiares imaginarios, con todas las imágenes generadas completamente desde cero.

16.- Las imágenes naturales contienen detalles finos y estocásticos como el cabello, que son desafiantes para que el generador los produzca sin generación de números aleatorios.

17.- Se introducen entradas de ruido explícitas a cada capa de la red para facilitar la generación de detalles finos.

18.- Las entradas de ruido controlan fondos, cabello, piel y otros detalles que no afectan significativamente la percepción de la imagen.

19.- Las técnicas presentadas funcionan bien en varios conjuntos de datos, no solo en caras.

20.- El código fuente y los modelos preentrenados están disponibles en línea para que otros los usen y desarrollen.

21.- La presentación es parte de CVPR 2019, una conferencia de visión por computadora y reconocimiento de patrones.

22.- El trabajo fue realizado por investigadores de NVIDIA, una empresa conocida por sus GPUs y aplicaciones de aprendizaje profundo.

23.- El presentador, Tero Karras, es uno de los autores del artículo que se presenta.

24.- El artículo introduce una arquitectura de generador basada en estilo para GANs, permitiendo el control no supervisado sobre la generación de imágenes.

25.- La presentación está acompañada por un póster (número 14) donde los asistentes pueden aprender más sobre el trabajo.

26.- La investigación se basa en trabajos previos, como ProgressiveGAN, que permitió la generación de imágenes de alta resolución con GANs.

27.- La arquitectura de generador basada en estilo representa un avance significativo en la generación de imágenes controlables sin datos etiquetados.

28.- El enfoque se inspira en técnicas de transferencia de estilo, adaptándolas para su uso en modelos generativos.

29.- La capacidad de mezclar y combinar estilos en diferentes capas de la red proporciona un control detallado sobre las imágenes generadas.

30.- La introducción de entradas de ruido explícitas ayuda al generador a producir detalles finos y estocásticos que se encuentran en las imágenes naturales.

Bóveda del Conocimiento construida porDavid Vivancos 2024