Conocimiento Bóveda 5 /57 - CVPR 2020
Generación de imágenes desentrelazadas mediante inyección de ruido estructurado
Yazeed Alharbi; Peter Wonka
< Imagen del Resumen >

Gráfico de Concepto & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

Generación de imágenes desentrelazadas
a través de inyección de ruido
estructurado
La inyección de ruido estructurado
permite la edición de imágenes. 1
Las redes generan imágenes realistas,
fallan en la edición. 2
Objetivo: Restringir la influencia del ruido,
separar detalles. 3
Códigos de ruido: mapeo directo,
normalización de instancias. 4
Correspondencia espacial: tensor de entrada,
imagen final. 5
Arquitectura: alto desentrelazamiento,
dos códigos de ruido. 6
Códigos variables espacialmente
re-muestrean regiones de la imagen. 7
Código invariable espacialmente
define estilo, color. 8
Desentrelazamiento espacial: códigos
variables estructurados. 9
Células de código variable:
local, compartido, global. 10
Códigos globales, compartidos
codifican información abarcadora. 11
Capas independientes garantizan
independencia de códigos locales. 12
Código invariable: información
local única, estilística. 13
Sin código invariable,
cambios locales en el fondo. 14
El método supera a StyleGAN
en desentrelazamiento. 15
PathLength mide la influencia de
la interpolación del código invariable. 16
Separabilidad lineal mide
inexactitud del clasificador. 17
Puntuaciones más altas indican
mapeo entrelazado. 18
Re-muestreo global variable
afecta postura, mantiene estilo. 19
Re-muestreo compartido variable
afecta edad, accesorios, dimensiones. 20
Re-muestreo códigos locales de la boca
cambia forma. 21
Re-muestreo códigos locales superiores
cambia peinado. 22
Re-muestreo invariable mantiene
postura, cambia fondo, etnicidad. 23
Futuro: separación contenido-estilo,
control de código invariable. 24
Cambio potencial de etnicidad,
manteniendo aspectos estilísticos. 25
Puntuaciones de desentrelazamiento comparan métodos. 26
Correspondencia espacial permite
edición dirigida de imágenes. 27
Arquitectura logra independencia,
control local-compartido-global. 28
Códigos variables, invariables
permiten edición detallada. 29
Investigación futura: separación
completa, manipulación de atributos. 30

Resumen:

1.- La generación de imágenes desentrelazadas mediante inyección de ruido estructurado permite la edición de imágenes generadas aleatoriamente.

2.- Las redes generan imágenes realistas pero fallan en la edición.

3.- Objetivo: Restringir la influencia de las entradas de código de ruido a regiones específicas de la imagen, separar detalles globales/estilísticos de los detalles locales.

4.- Dos formas de usar códigos de ruido de entrada: mapeo directo (DCGAN) y cálculo de parámetros de normalización de instancias (generadores basados en estilo).

5.- Existe correspondencia espacial entre el tensor de entrada y la imagen final.

6.- La arquitectura propuesta logra un alto desentrelazamiento utilizando dos códigos de ruido de entrada: variable espacialmente e invariable espacialmente.

7.- Los códigos variables espacialmente permiten el re-muestreo de regiones específicas de la imagen.

8.- El código invariable espacialmente define la mayor parte de la información de estilo y color.

9.- El desentrelazamiento espacial se logra estructurando códigos variables espacialmente con códigos locales, compartidos y globales.

10.- Cada célula del código variable espacialmente tiene un código local único, un código compartido con vecinos y un código global compartido.

11.- Los códigos globales y compartidos codifican información que abarca múltiples ubicaciones (postura, accesorios).

12.- Cada célula tiene una capa completamente conectada independiente, garantizando la independencia del código local después del mapeo.

13.- El código invariable espacialmente contiene un código local único, aprovechado para expresar información estilística.

14.- Sin el código invariable espacialmente, los códigos locales pueden cambiar el fondo y el estilo además de los detalles locales.

15.- El método supera al StyleGAN de última generación en puntuaciones de desentrelazamiento.

16.- PathLength mide la influencia de la interpolación del código invariable espacialmente.

17.- La separabilidad lineal mide la inexactitud de los clasificadores de atributos lineales entrenados en los códigos de entrada.

18.- Las puntuaciones más altas de PathLength y separabilidad lineal indican un mapeo entrelazado.

19.- El re-muestreo de la parte global del código variable espacialmente afecta la postura mientras mantiene la semejanza y el estilo de fondo.

20.- El re-muestreo de la parte compartida del código variable espacialmente afecta la edad, los accesorios y las dimensiones del rostro.

21.- El re-muestreo de los códigos locales alrededor de la boca cambia la forma de la boca.

22.- El re-muestreo de los códigos locales en las filas superiores cambia el peinado.

23.- El re-muestreo de los códigos invariables espacialmente mantiene la postura, la edad, las expresiones faciales y la forma de la ropa mientras cambia el fondo, la etnicidad y el sexo.

24.- Trabajo futuro: separación de contenido y estilo, ofreciendo más control en el código invariable espacialmente, determinando una descomposición adecuada del proceso de generación.

25.- Potencial para cambiar la etnicidad mientras se mantienen otros aspectos estilísticos de la imagen facial.

26.- Las puntuaciones de desentrelazamiento (PathLength y separabilidad lineal) se utilizan para comparar métodos.

27.- La correspondencia espacial permite la edición dirigida de imágenes generadas.

28.- La arquitectura está estructurada para lograr independencia y control sobre los aspectos locales, compartidos y globales de la imagen.

29.- La combinación de códigos variables e invariables espacialmente permite capacidades de edición detalladas.

30.- Abre posibilidades para la investigación futura en la separación completa de contenido y estilo y la manipulación controlada de atributos en imágenes generadas.

Bóveda del Conocimiento construida por David Vivancos 2024