Conocimiento Bóveda 5 /84 - CVPR 2023
Visión, Lenguaje y Creatividad
Devi Parikh, Michal Irani, Aaron Hertzmann, Jason Salavon
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef experts fill:#f9d4d4, font-weight:bold, font-size:14px classDef research fill:#d4f9d4, font-weight:bold, font-size:14px classDef art fill:#d4d4f9, font-weight:bold, font-size:14px classDef intelligence fill:#f9f9d4, font-weight:bold, font-size:14px classDef data fill:#f9d4f9, font-weight:bold, font-size:14px classDef future fill:#d4f9f9, font-weight:bold, font-size:14px A["Visión, Lenguaje y
Creatividad"] --> B["IA, visión, creatividad,
expertos en arte 1"] A --> C["Parikh: visión-lenguaje,
mejora de creatividad 2"] A --> D["Salavon: arte generativo,
cultura, tecnología 3"] A --> E["Hertzmann: creatividad computacional,
perspectiva histórica 4"] B --> F["Irani: las máquinas memorizan,
los humanos generalizan 5"] F --> G["Aprendizaje interno profundo:
abundante recurrencia de parches 6"] F --> H["Aprendizaje externo profundo:
grandes conjuntos de datos 7"] C --> I["Modelos de visión-lenguaje
carecen de humor, cognición 8"] C --> J["Modelos carecen de composicionalidad,
comprensión de relaciones 9"] D --> K["Artistas sienten que su trabajo
es robado para entrenamiento 10"] K --> L["Históricamente, los artistas aprenden
copiando 11"] K --> M["Artistas precarios más preocupados 12"] L --> N["El trabajo creativo puede
convertirse en mercancía 13"] C --> O["Dependencia excesiva de
benchmarks cuantitativos problemática 14"] O --> P["Creatividad, humor difíciles
de medir 15"] C --> Q["Futuro: aprovechamiento del conocimiento multimodal 16"] Q --> R["Se necesitan nuevos conjuntos de datos de alta calidad 17"] D --> S["La comunidad CV debería
colaborar con artistas 18"] S --> T["Herramientas de iteración rápida para artistas 19"] S --> U["Derechos de autor complejos, problemas de
derechos de uso 20"] C --> V["No resuelto: composicionalidad,
relaciones de objetos 21"] F --> W["Diferencias en inteligencia
humana vs máquina 22"] F --> X["Lectura mental: aprendizaje de
datos cerebrales limitados 23"] E --> Y["Modelado de curiosidad,
serendipia computacionalmente 24"] S --> Z["Hacer herramientas de IA
controlables, útiles 25"] S --> AA["IA democratiza la producción
creativa de alta calidad 26"] AA --> AB["La próxima generación
innovará con IA 27"] Z --> AC["Se necesita más control del usuario
sobre los resultados 28"] A --> AD["Adoptar grandes modelos,
perseguir investigaciones emocionantes 29"] A --> AE["Colaboración interdisciplinaria lleva
a nuevas ideas 30"] class A,B,C,D,E experts class F,G,H,I,J,O,P,Q,R,V,W,X,Y research class K,L,M,N,S,T,U art class AA,AB,AC,Z future class AD,AE intelligence

Resumen:

1.- Panelistas presentados: Devi Parikh, Jason Salavon, Aaron Hertzmann, Michal Irani - expertos en IA, visión por computadora, creatividad computacional y arte.

2.- Investigación de Devi Parikh: Atributos para la comunicación humano-máquina, modelos de visión-lenguaje, sistemas para mejorar la creatividad humana, modelos de base multimodal, IA generativa.

3.- Arte de Jason Salavon: Artes plásticas basadas en software en la intersección de arte, cultura, tecnología. Obras generativas a partir de material culturalmente cargado.

4.- Trabajo de Aaron Hertzmann: Simulación de la creatividad artística computacionalmente, transferencia de estilo, aprendizaje de estilo de movimiento, aportando perspectiva histórica al arte de IA.

5.- Visión de Michal Irani: Las máquinas memorizan mejor que los humanos pero no pueden generalizar fuera de la distribución de entrenamiento. Los humanos generalizan a partir de pocos ejemplos.

6.- Aprendizaje interno profundo: La abundante recurrencia de parches en una imagen/video proporciona suficiente información para aprender. Se adapta a datos/degradación específicos de la imagen.

7.- Aprendizaje externo profundo: Entrenamiento extenso en grandes conjuntos de datos. La verdadera inteligencia/creatividad se encuentra entre los dos extremos.

8.- Humor e IA: Los modelos actuales de visión-lenguaje carecen de sentido del humor y cognición de lo que es gracioso en las imágenes.

9.- Limitaciones de los modelos de visión-lenguaje: Los modelos realizan subtitulado de bolsa de palabras sin comprender relaciones de objetos/composicionalidad. Un desafío abierto.

10.- Preocupaciones sobre los datos de entrenamiento: Muchos artistas sienten que su trabajo es "robado" cuando se ingiere para el entrenamiento. Cuestión compleja que toca propiedad, derechos de autor, compensación.

11.- Uso transformativo: Históricamente, los artistas aprenden copiando. Una vez que el arte es público, es difícil controlar su uso. Se necesita un ajuste cultural.

12.- Artistas amenazados: Aquellos ya en posiciones precarias son los más preocupados por el desplazamiento de su trabajo creativo y ganancias por parte de la IA.

13.- Mercantilización de píxeles: Preocupación de que el trabajo visual creativo pueda convertirse en una mercancía, con precios basados en la resolución de salida. Complejo de navegar.

14.- Evaluación y métricas: Dependencia excesiva de benchmarks cuantitativos. Los revisores deberían permitir argumentos cualitativos. Los números pueden fomentar revisiones perezosas.

15.- Limitaciones de las métricas: Difícil medir cuantitativamente aspectos como la creatividad y el humor. La evaluación humana sigue siendo la más útil.

16.- Sistemas de visión del futuro: Probablemente serán multimodales, aprovechando el conocimiento a través de visión, lenguaje, habla, audio para expandir capacidades.

17.- Limitaciones de datos: Expandir sistemas multimodales requiere nuevos conjuntos de datos de alta calidad. Un desafío clave para la comunidad de visión.

18.- Involucrar a los artistas: La comunidad CV debería colaborar con artistas/diseñadores. Modelos de código abierto, hacerlos fáciles de usar por no programadores.

19.- Herramientas de iteración rápida: Los artistas quieren la capacidad de experimentar rápidamente con nuevas técnicas. Esperar la salida del modelo puede ser parte del proceso creativo.

20.- Preguntas sobre derechos de autor: Como en otros dominios como la música, se deben navegar cuestiones complejas sobre propiedad de datos y derechos de uso.

21.- Intersección de visión/lenguaje: Muchos problemas sin resolver permanecen, e.g. composicionalidad visual, relaciones entre objetos, ir más allá de la bolsa de palabras.

22.- Inteligencia humana vs máquina: Diferencias no completamente entendidas. Ejemplos adversariales engañan a la IA pero no a los humanos. Un área para estudiar.

23.- Investigación de lectura mental: Decodificación de experiencias visuales a partir de actividad cerebral (fMRI). Requiere aprender de datos limitados, un desafío interesante.

24.- Modelado de curiosidad/creatividad: ¿Pueden capturarse computacionalmente aspectos del proceso creativo humano, como la exploración abierta y la serendipia?

25.- Utilidad práctica del modelo: Hacer herramientas generativas controlables y útiles para las necesidades creativas reales de los usuarios es importante, e.g. ControlNet.

26.- Democratización de la creación: Las herramientas de IA tienen el potencial de hacer accesible la producción creativa de alta calidad a las masas. Pueden surgir nuevas formas de arte.

27.- Creatividad de la próxima generación: Los niños que crecen con estas herramientas como nativos probablemente producirán obras y géneros innovadores y difíciles de predecir.

28.- Control y editabilidad: Dar a los usuarios más control sobre los resultados del modelo generativo es una dirección de investigación poco explorada pero importante.

29.- Consejo para estudiantes: Adopta grandes modelos como infraestructura habilitadora. Persigue investigaciones que te emocionen personalmente y reúne a otros alrededor de ellas.

30.- Colaboración interdisciplinaria: Combinar la experiencia en ciencias de la computación, arte, ciencia cognitiva, etc. puede llevar a nuevas ideas y trabajos impactantes.

Bóveda del Conocimiento construida porDavid Vivancos 2024