Conocimiento Bóveda 5 /79 - CVPR 2022
IA inspirada en la Imaginación para el Arte y la Cultura
Mohamed Elhoseiny
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef imagination fill:#f9d4d4, font-weight:bold, font-size:14px classDef emotion fill:#d4f9d4, font-weight:bold, font-size:14px classDef creativity fill:#d4d4f9, font-weight:bold, font-size:14px classDef learning fill:#f9f9d4, font-weight:bold, font-size:14px classDef future fill:#f9d4f9, font-weight:bold, font-size:14px A["IA inspirada en la Imaginación
para el Arte y
la Cultura"] --> B["IA para arte, cultura:
creación, expresión afectiva. 1"] A --> C["CANs: GANs crean arte novedoso,
se desvían de normas de estilo. 2"] C --> D["Curva de Wundt: la novedad impacta
apreciación creativa. 3"] C --> E["Pérdida de estilo: el discriminador consciente
de normas, se desvía. 4"] C --> F["GANs de moda: mezcla de elementos novedosos. 5"] A --> G["IA afectiva: modelos emocionalmente conscientes
comunican visualmente. 6"] G --> H["Emociones construidas en el momento,
no solo recuperadas. 7"] G --> I["El disfrute de la experiencia depende del contexto. 8"] G --> J["Artemis: pinturas con subtítulos de
lenguaje afectivo. 9"] J --> K["Subtítulos de Artemis más emocionales
que COCO. 10"] J --> L["Interfaz recolectó datos de Artemis,
emociones explicadas. 11"] J --> M["Artemis sesgado positivo,
Artemis II corregido. 12"] M --> N["Artemis II: pinturas similares,
emociones contrastantes. 13"] N --> O["Subtítulos contrastan emociones para
imágenes similares, sensibilidad al detalle. 14"] J --> P["Modelos Artemis II: 20% de ganancia SIDO,
73% preferencia humana. 15"] C --> Q["CWAN: desviación como paseo aleatorio
entre clases de estilo. 16"] Q --> R["Probabilidades de aterrizaje uniformes promueven
desviación de normas de estilo. 17"] C --> S["CWAN: imágenes más agradables, desviadas
que StyleGAN. 18"] C --> T["CWAN construye experiencias emocionales diversas
sin supervisión. 19"] B --> U["Generación de pinturas a partir de texto de
impacto emocional deseado. 20"] B --> V["INR-GAN: imágenes continuas a partir de texto,
resolución arbitraria. 21"] B --> W["Visual GPT: conocimiento de GPT-2 para
subtitulación eficiente en datos. 22"] W --> X["Regulación controla influencia de GPT-2
para destilación de conocimiento. 23"] W --> Y["Visual GPT supera a las bases con
datos limitados. 24"] W --> Z["Técnicas de Visual GPT podrían mejorar
subtitulación afectiva multilingüe. 25"] B --> AA["Modelo de video: videos de una hora,
5% más cómputo, 50% calidad. 26"] AA --> AB["Modelo permite videos artísticos
generados por IA más largos. 27"] G --> AC["Interfaces recolectando ejemplos contrastantes
mitigan sesgo afectivo. 28"] C --> AD["Paseos aleatorios modelan y fomentan
desviación generativa de normas. 29"] G --> AE["Destilación de conocimiento de modelos de lenguaje:
subtitulación afectiva eficiente en datos. 30"] class A,B,U,V,W,X,Y,Z,AA,AB imagination class G,H,I,J,K,L,M,N,O,P,AC,AE emotion class C,D,E,F,Q,R,S,T,AD creativity class W,X,Y,Z learning class AA,AB,Z future

Resumen:

1.- La charla cubre la IA inspirada en la imaginación para el arte y la cultura, enfocándose en la creación y expresión afectiva.

2.- Las Redes Adversariales Creativas fomentan que los GANs produzcan arte novedoso desviándose de las normas de estilo existentes.

3.- La curva de Wundt sugiere que la novedad que es demasiado alta o baja reduce la apreciación de las obras creativas.

4.- La pérdida de clasificación de estilo hace que el discriminador sea consciente de las normas de estilo. La pérdida de entropía alta fomenta que el generador se desvíe de ellas.

5.- Los GANs de moda creativa produjeron diseños mezclando elementos como chalecos con pantalones de maneras novedosas.

6.- La IA afectiva tiene como objetivo construir modelos emocionalmente conscientes que puedan comunicar efectivamente sobre estímulos visuales.

7.- La teoría de la emoción construida propone que las emociones se construyen en el momento en lugar de simplemente recuperarse.

8.- Experiencias como el miedo pueden ser agradables o no agradables dependiendo del contexto.

9.- El conjunto de datos Artemis empareja pinturas con subtítulos de lenguaje afectivo enfocados en experiencias emocionales.

10.- Los subtítulos de Artemis son más descriptivos emocionalmente en comparación con conjuntos de datos como COCO.

11.- Se construyó una interfaz para recolectar datos de Artemis, permitiendo a los participantes seleccionar emociones evocadas y explicarlas.

12.- El conjunto de datos inicial de Artemis estaba sesgado hacia emociones positivas. Artemis II buscó corregir esto.

13.- Para Artemis II, cada pintura original se emparejó con una visualmente similar que evocaba una emoción diferente.

14.- Esto fomentó subtítulos con experiencias emocionales contrastantes para imágenes similares, haciendo que los modelos sean más sensibles a los detalles que evocan emociones.

15.- Los modelos entrenados en Artemis II mostraron un aumento del 20% en la puntuación SIDO y fueron preferidos por los humanos el 73% del tiempo.

16.- El paso de mensajes en los modelos de Redes Adversariales Creativas modela la desviación como un paseo aleatorio a través de clases de estilo artístico.

17.- Se fomenta que las probabilidades de aterrizaje del paseo aleatorio sean uniformes, promoviendo la desviación de las normas de estilo.

18.- CWAN produce imágenes más agradables que se desvían más de los datos de entrenamiento en comparación con los modelos StyleGAN.

19.- CWAN puede construir experiencias emocionales diversas de manera no supervisada basada en evaluaciones humanas.

20.- Se exploró trabajo adicional generando pinturas a partir de descripciones textuales de impactos emocionales deseados.

21.- INR-GAN puede generar imágenes continuas a partir de texto, permitiendo resoluciones arbitrarias y generación fuera de los límites de las imágenes de entrenamiento.

22.- Visual GPT aprovecha el conocimiento de GPT-2 para permitir la subtitulación de imágenes eficiente en datos cuando los ejemplos de entrenamiento son limitados.

23.- Un mecanismo de regulación controla la influencia de los pesos de GPT-2 para permitir una destilación de conocimiento efectiva.

24.- Visual GPT supera a las bases cuando se entrena con 0.5%, 0.1% y 0.01% de datos en conjuntos de datos COCO e informes médicos.

25.- Aplicar técnicas como Visual GPT para destilar conocimiento de modelos de lenguaje podría mejorar la subtitulación afectiva en más idiomas.

26.- Se propuso un modelo de generación de video capaz de producir videos de una hora con un 5% más de cómputo y un 50% mejor calidad.

27.- El modelo de video muestra potencial para permitir videos artísticos generados por IA más largos.

28.- Las interfaces de evaluación diseñadas para recolectar ejemplos emocionalmente contrastantes ayudan a mitigar el sesgo en los conjuntos de datos afectivos.

29.- Los paseos aleatorios en el espacio latente proporcionan un enfoque para modelar y fomentar la desviación de las normas existentes en modelos generativos.

30.- La destilación de conocimiento de grandes modelos de lenguaje preentrenados es un enfoque prometedor para la subtitulación afectiva eficiente en datos.

Bóveda del Conocimiento construida porDavid Vivancos 2024