Conocimiento Bóveda 5 /90 - CVPR 2023
DreamBooth: Ajuste Fino de Modelos de Difusión de Texto a Imagen para Generación Impulsada por el Sujeto
Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, Kfir Aberman
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef dreambooth fill:#f9d4d4, font-weight:bold, font-size:14px classDef generation fill:#d4f9d4, font-weight:bold, font-size:14px classDef evaluation fill:#d4d4f9, font-weight:bold, font-size:14px classDef community fill:#f9f9d4, font-weight:bold, font-size:14px classDef architecture fill:#f9d4f9, font-weight:bold, font-size:14px A["DreamBooth: Ajuste Fino
de Modelos de Difusión de Texto a Imagen
para Generación Impulsada por el Sujeto"] --> B["Dreambooth: Ajuste fino de modelos de difusión
para generación impulsada por el sujeto. 1"] A --> C["Generación impulsada por el sujeto: Generación de imágenes del sujeto
en diferentes contextos. 2"] C --> D["Recontextualización: Generación de imágenes del sujeto
en contextos no vistos. 3"] C --> E["Interpretaciones artísticas: Creación de imágenes del sujeto
en estilos artísticos. 4"] C --> F["Modificación de propiedades: Generación de híbridos sujeto-objeto
o especies. 5"] C --> G["Accesorizar: Vestir al sujeto
con disfraces o accesorios. 6"] C --> H["Generación de cómics: Creación de cómics
con personajes consistentes. 7"] A --> I["Evaluación de fidelidad del sujeto: Evaluación
de la similitud imagen-sujeto generada. 8"] A --> J["Conjunto de datos Dreambooth: El mayor conjunto de datos de
generación impulsada por el sujeto. 9"] A --> K["Inversión Textual: Codifica conceptos
en incrustaciones de texto. 10"] A --> L["Estudios de usuario: Comparación entre Dreambooth
e Inversión Textual. 11"] I --> M["Similitud de imagen CLIP: Evalúa
la fidelidad del sujeto. 12"] I --> N["Similitud coseno DINO: Supera
a CLIP en fidelidad. 13"] B --> O["Dreambooth en Imagen: Mejores
resultados de fidelidad y de indicaciones. 14"] B --> P["Dreambooth en Difusión Estable:
Segundo lugar en rendimiento. 15"] C --> Q["Selfies de IA: Generación de autorretratos
con modificaciones. 16"] B --> R["Identificador raro: Denota al sujeto
durante el ajuste fino. 17"] B --> S["Pérdida de preservación previa: Previene
la deriva del lenguaje. 18"] B --> T["Ajuste fino del módulo de superresolución:
Captura detalles del sujeto. 19"] B --> U["Deriva del lenguaje: El modelo olvida
el significado de las palabras. 20"] A --> V["Indicaciones de Dreambooth: Guía para la
generación de imágenes. 21"] B --> W["Tamaño del modelo Dreambooth: Más grande
que Inversión Textual. 22"] A --> X["Entusiasmo de la comunidad: Inspiró nuevas
exploraciones y aplicaciones. 23"] C --> Y["Generación de retratos fotorrealistas:
Resultados de alta calidad tempranos. 24"] B --> Z["Imágenes de entrada no restringidas: Funciona
con un conjunto pequeño. 25"] B --> AA["Pérdida de desruido por difusión: Usada
para el ajuste fino. 26"] B --> AB["Detención temprana: Conserva lo previo,
permite modificación semántica. 27"] B --> AC["Modelos de difusión en cascada: El ajuste fino
captura detalles. 28"] I --> AD["Desafíos de evaluación: La fidelidad del sujeto
es difícil, no resuelta. 29"] A --> AE["Impacto de Dreambooth: Sorprendió a los autores
con la respuesta de la comunidad. 30"] class A,B,R,S,T,U,W,Z,AA,AB,AC dreambooth class C,D,E,F,G,H,Q,Y generation class I,M,N,AD evaluation class J,K,L,V,X community class O,P architecture

Resumen:

1.- Dreambooth: Ajuste fino de modelos de difusión de texto a imagen para generación impulsada por el sujeto usando un pequeño conjunto de imágenes del sujeto.

2.- Generación impulsada por el sujeto: Generación de nuevas imágenes de un sujeto único en diferentes contextos mientras se preservan los detalles del sujeto.

3.- Recontextualización: Generación de imágenes de un sujeto en contextos y ubicaciones no vistas.

4.- Interpretaciones artísticas: Creación de imágenes de un sujeto en diferentes estilos artísticos.

5.- Modificación de propiedades: Generación de híbridos entre el sujeto y otros objetos o especies.

6.- Accesorizar: Vestir a un sujeto con diferentes disfraces o accesorios.

7.- Generación de cómics: Creación de cómics con un personaje consistente generado por un modelo de difusión.

8.- Evaluación de fidelidad del sujeto: Evaluación de la similitud de las imágenes generadas con el sujeto original mientras se ignoran los distractores.

9.- Conjunto de datos Dreambooth: El mayor conjunto de datos para generación impulsada por el sujeto, que contiene 30 sujetos con variaciones en pose, articulación e iluminación.

10.- Inversión Textual: Trabajo concurrente que codifica conceptos en incrustaciones de texto usando optimización de pocos disparos.

11.- Estudios de usuario: Realizados para comparar Dreambooth e Inversión Textual para fidelidad de sujeto e indicaciones.

12.- Similitud de imagen CLIP: Similitud coseno entre incrustaciones CLIP de imágenes, usada para evaluar la fidelidad del sujeto.

13.- Similitud coseno DINO: Una métrica alternativa para evaluar la fidelidad del sujeto, que funciona mejor que la similitud CLIP.

14.- Dreambooth en Imagen: Logra los mejores resultados tanto para la fidelidad del sujeto como para la fidelidad de las indicaciones.

15.- Dreambooth en Difusión Estable: Un segundo lugar cercano en rendimiento.

16.- Selfies de IA: Generación de autorretratos con modificaciones semánticas y estilísticas usando Dreambooth.

17.- Identificador raro: Un identificador único usado para denotar al sujeto durante el ajuste fino.

18.- Pérdida de preservación previa: Previene la deriva del lenguaje ajustando finamente el modelo con imágenes generadas de la clase del sujeto.

19.- Ajuste fino del módulo de superresolución: Ayuda a capturar detalles del sujeto en arquitecturas modernas de modelos de difusión.

20.- Deriva del lenguaje: Un fenómeno donde el modelo olvida el significado de una palabra y la asocia a un sujeto específico.

21.- Indicaciones de Dreambooth: Un conjunto de 25 indicaciones proporcionadas con el conjunto de datos para guiar la generación de imágenes.

22.- Tamaño del modelo Dreambooth: Más grande que las incrustaciones de Inversión Textual pero permite capturar detalles finos del sujeto.

23.- Entusiasmo de la comunidad: Dreambooth inspiró nuevas exploraciones y aplicaciones perseguidas por la comunidad.

24.- Generación de retratos fotorrealistas: Dreambooth permitió generar imágenes fotorrealistas de alta calidad de personas desde el principio.

25.- Imágenes de entrada no restringidas: Dreambooth puede trabajar con un pequeño conjunto de imágenes del sujeto no restringidas.

26.- Pérdida de desruido por difusión: Usada para ajustar finamente el modelo preentrenado de texto a imagen.

27.- Detención temprana: Ayuda a conservar el modelo previo y permite la modificación semántica usando indicaciones de texto.

28.- Modelos de difusión en cascada: El ajuste fino de módulos de superresolución en arquitecturas en cascada ayuda a capturar detalles del sujeto.

29.- Desafíos de evaluación: Evaluar la fidelidad del sujeto es un problema difícil y no resuelto.

30.- Impacto de Dreambooth: El método sorprendió y humildó a los autores con la creatividad y respuesta de la comunidad.

Bóveda del Conocimiento construida porDavid Vivancos 2024