Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:
Resumen:
1.- Panelistas presentados: Devi Parikh, Jason Salavon, Aaron Hertzmann, Michal Irani - expertos en IA, visión por computadora, creatividad computacional y arte.
2.- Investigación de Devi Parikh: Atributos para la comunicación humano-máquina, modelos de visión-lenguaje, sistemas para mejorar la creatividad humana, modelos de base multimodal, IA generativa.
3.- Arte de Jason Salavon: Artes plásticas basadas en software en la intersección de arte, cultura, tecnología. Obras generativas a partir de material culturalmente cargado.
4.- Trabajo de Aaron Hertzmann: Simulación de la creatividad artística computacionalmente, transferencia de estilo, aprendizaje de estilo de movimiento, aportando perspectiva histórica al arte de IA.
5.- Visión de Michal Irani: Las máquinas memorizan mejor que los humanos pero no pueden generalizar fuera de la distribución de entrenamiento. Los humanos generalizan a partir de pocos ejemplos.
6.- Aprendizaje interno profundo: La abundante recurrencia de parches en una imagen/video proporciona suficiente información para aprender. Se adapta a datos/degradación específicos de la imagen.
7.- Aprendizaje externo profundo: Entrenamiento extenso en grandes conjuntos de datos. La verdadera inteligencia/creatividad se encuentra entre los dos extremos.
8.- Humor e IA: Los modelos actuales de visión-lenguaje carecen de sentido del humor y cognición de lo que es gracioso en las imágenes.
9.- Limitaciones de los modelos de visión-lenguaje: Los modelos realizan subtitulado de bolsa de palabras sin comprender relaciones de objetos/composicionalidad. Un desafío abierto.
10.- Preocupaciones sobre los datos de entrenamiento: Muchos artistas sienten que su trabajo es "robado" cuando se ingiere para el entrenamiento. Cuestión compleja que toca propiedad, derechos de autor, compensación.
11.- Uso transformativo: Históricamente, los artistas aprenden copiando. Una vez que el arte es público, es difícil controlar su uso. Se necesita un ajuste cultural.
12.- Artistas amenazados: Aquellos ya en posiciones precarias son los más preocupados por el desplazamiento de su trabajo creativo y ganancias por parte de la IA.
13.- Mercantilización de píxeles: Preocupación de que el trabajo visual creativo pueda convertirse en una mercancía, con precios basados en la resolución de salida. Complejo de navegar.
14.- Evaluación y métricas: Dependencia excesiva de benchmarks cuantitativos. Los revisores deberían permitir argumentos cualitativos. Los números pueden fomentar revisiones perezosas.
15.- Limitaciones de las métricas: Difícil medir cuantitativamente aspectos como la creatividad y el humor. La evaluación humana sigue siendo la más útil.
16.- Sistemas de visión del futuro: Probablemente serán multimodales, aprovechando el conocimiento a través de visión, lenguaje, habla, audio para expandir capacidades.
17.- Limitaciones de datos: Expandir sistemas multimodales requiere nuevos conjuntos de datos de alta calidad. Un desafío clave para la comunidad de visión.
18.- Involucrar a los artistas: La comunidad CV debería colaborar con artistas/diseñadores. Modelos de código abierto, hacerlos fáciles de usar por no programadores.
19.- Herramientas de iteración rápida: Los artistas quieren la capacidad de experimentar rápidamente con nuevas técnicas. Esperar la salida del modelo puede ser parte del proceso creativo.
20.- Preguntas sobre derechos de autor: Como en otros dominios como la música, se deben navegar cuestiones complejas sobre propiedad de datos y derechos de uso.
21.- Intersección de visión/lenguaje: Muchos problemas sin resolver permanecen, e.g. composicionalidad visual, relaciones entre objetos, ir más allá de la bolsa de palabras.
22.- Inteligencia humana vs máquina: Diferencias no completamente entendidas. Ejemplos adversariales engañan a la IA pero no a los humanos. Un área para estudiar.
23.- Investigación de lectura mental: Decodificación de experiencias visuales a partir de actividad cerebral (fMRI). Requiere aprender de datos limitados, un desafío interesante.
24.- Modelado de curiosidad/creatividad: ¿Pueden capturarse computacionalmente aspectos del proceso creativo humano, como la exploración abierta y la serendipia?
25.- Utilidad práctica del modelo: Hacer herramientas generativas controlables y útiles para las necesidades creativas reales de los usuarios es importante, e.g. ControlNet.
26.- Democratización de la creación: Las herramientas de IA tienen el potencial de hacer accesible la producción creativa de alta calidad a las masas. Pueden surgir nuevas formas de arte.
27.- Creatividad de la próxima generación: Los niños que crecen con estas herramientas como nativos probablemente producirán obras y géneros innovadores y difíciles de predecir.
28.- Control y editabilidad: Dar a los usuarios más control sobre los resultados del modelo generativo es una dirección de investigación poco explorada pero importante.
29.- Consejo para estudiantes: Adopta grandes modelos como infraestructura habilitadora. Persigue investigaciones que te emocionen personalmente y reúne a otros alrededor de ellas.
30.- Colaboración interdisciplinaria: Combinar la experiencia en ciencias de la computación, arte, ciencia cognitiva, etc. puede llevar a nuevas ideas y trabajos impactantes.
Bóveda del Conocimiento construida porDavid Vivancos 2024