Conocimiento Bóveda 5 /57 - CVPR 2020
Generación de imágenes desentrelazadas mediante inyección de ruido estructurado
Yazeed Alharbi; Peter Wonka
< Imagen del Resumen >

Gráfico de Concepto & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef noise fill:#f9d4d4, font-weight:bold, font-size:14px classDef editing fill:#d4f9d4, font-weight:bold, font-size:14px classDef architecture fill:#d4d4f9, font-weight:bold, font-size:14px classDef disentanglement fill:#f9f9d4, font-weight:bold, font-size:14px classDef future fill:#f9d4f9, font-weight:bold, font-size:14px A["Generación de imágenes desentrelazadas
a través de inyección de ruido
estructurado"] --> B["La inyección de ruido estructurado
permite la edición de imágenes. 1"] A --> C["Las redes generan imágenes realistas,
fallan en la edición. 2"] A --> D["Objetivo: Restringir la influencia del ruido,
separar detalles. 3"] A --> E["Códigos de ruido: mapeo directo,
normalización de instancias. 4"] A --> F["Correspondencia espacial: tensor de entrada,
imagen final. 5"] A --> G["Arquitectura: alto desentrelazamiento,
dos códigos de ruido. 6"] G --> H["Códigos variables espacialmente
re-muestrean regiones de la imagen. 7"] G --> I["Código invariable espacialmente
define estilo, color. 8"] G --> J["Desentrelazamiento espacial: códigos
variables estructurados. 9"] J --> K["Células de código variable:
local, compartido, global. 10"] K --> L["Códigos globales, compartidos
codifican información abarcadora. 11"] K --> M["Capas independientes garantizan
independencia de códigos locales. 12"] G --> N["Código invariable: información
local única, estilística. 13"] N --> O["Sin código invariable,
cambios locales en el fondo. 14"] A --> P["El método supera a StyleGAN
en desentrelazamiento. 15"] P --> Q["PathLength mide la influencia de
la interpolación del código invariable. 16"] P --> R["Separabilidad lineal mide
inexactitud del clasificador. 17"] P --> S["Puntuaciones más altas indican
mapeo entrelazado. 18"] H --> T["Re-muestreo global variable
afecta postura, mantiene estilo. 19"] H --> U["Re-muestreo compartido variable
afecta edad, accesorios, dimensiones. 20"] H --> V["Re-muestreo códigos locales de la boca
cambia forma. 21"] H --> W["Re-muestreo códigos locales superiores
cambia peinado. 22"] I --> X["Re-muestreo invariable mantiene
postura, cambia fondo, etnicidad. 23"] A --> Y["Futuro: separación contenido-estilo,
control de código invariable. 24"] Y --> Z["Cambio potencial de etnicidad,
manteniendo aspectos estilísticos. 25"] P --> AA["Puntuaciones de desentrelazamiento comparan métodos. 26"] F --> AB["Correspondencia espacial permite
edición dirigida de imágenes. 27"] G --> AC["Arquitectura logra independencia,
control local-compartido-global. 28"] G --> AD["Códigos variables, invariables
permiten edición detallada. 29"] A --> AE["Investigación futura: separación
completa, manipulación de atributos. 30"] class A,B,C noise class D,E,F,AB,AC,AD,AE editing class G,H,I,J,K,L,M,N,O,T,U,V,W,X,Y,Z architecture class P,Q,R,S,AA disentanglement class Y,Z,AE future

Resumen:

1.- La generación de imágenes desentrelazadas mediante inyección de ruido estructurado permite la edición de imágenes generadas aleatoriamente.

2.- Las redes generan imágenes realistas pero fallan en la edición.

3.- Objetivo: Restringir la influencia de las entradas de código de ruido a regiones específicas de la imagen, separar detalles globales/estilísticos de los detalles locales.

4.- Dos formas de usar códigos de ruido de entrada: mapeo directo (DCGAN) y cálculo de parámetros de normalización de instancias (generadores basados en estilo).

5.- Existe correspondencia espacial entre el tensor de entrada y la imagen final.

6.- La arquitectura propuesta logra un alto desentrelazamiento utilizando dos códigos de ruido de entrada: variable espacialmente e invariable espacialmente.

7.- Los códigos variables espacialmente permiten el re-muestreo de regiones específicas de la imagen.

8.- El código invariable espacialmente define la mayor parte de la información de estilo y color.

9.- El desentrelazamiento espacial se logra estructurando códigos variables espacialmente con códigos locales, compartidos y globales.

10.- Cada célula del código variable espacialmente tiene un código local único, un código compartido con vecinos y un código global compartido.

11.- Los códigos globales y compartidos codifican información que abarca múltiples ubicaciones (postura, accesorios).

12.- Cada célula tiene una capa completamente conectada independiente, garantizando la independencia del código local después del mapeo.

13.- El código invariable espacialmente contiene un código local único, aprovechado para expresar información estilística.

14.- Sin el código invariable espacialmente, los códigos locales pueden cambiar el fondo y el estilo además de los detalles locales.

15.- El método supera al StyleGAN de última generación en puntuaciones de desentrelazamiento.

16.- PathLength mide la influencia de la interpolación del código invariable espacialmente.

17.- La separabilidad lineal mide la inexactitud de los clasificadores de atributos lineales entrenados en los códigos de entrada.

18.- Las puntuaciones más altas de PathLength y separabilidad lineal indican un mapeo entrelazado.

19.- El re-muestreo de la parte global del código variable espacialmente afecta la postura mientras mantiene la semejanza y el estilo de fondo.

20.- El re-muestreo de la parte compartida del código variable espacialmente afecta la edad, los accesorios y las dimensiones del rostro.

21.- El re-muestreo de los códigos locales alrededor de la boca cambia la forma de la boca.

22.- El re-muestreo de los códigos locales en las filas superiores cambia el peinado.

23.- El re-muestreo de los códigos invariables espacialmente mantiene la postura, la edad, las expresiones faciales y la forma de la ropa mientras cambia el fondo, la etnicidad y el sexo.

24.- Trabajo futuro: separación de contenido y estilo, ofreciendo más control en el código invariable espacialmente, determinando una descomposición adecuada del proceso de generación.

25.- Potencial para cambiar la etnicidad mientras se mantienen otros aspectos estilísticos de la imagen facial.

26.- Las puntuaciones de desentrelazamiento (PathLength y separabilidad lineal) se utilizan para comparar métodos.

27.- La correspondencia espacial permite la edición dirigida de imágenes generadas.

28.- La arquitectura está estructurada para lograr independencia y control sobre los aspectos locales, compartidos y globales de la imagen.

29.- La combinación de códigos variables e invariables espacialmente permite capacidades de edición detalladas.

30.- Abre posibilidades para la investigación futura en la separación completa de contenido y estilo y la manipulación controlada de atributos en imágenes generadas.

Bóveda del Conocimiento construida por David Vivancos 2024