Conocimiento Bóveda 2/66 - ICLR 2014-2023
Devi Parikh ICLR 2020 - Ponente Invitada - Sistemas de IA que Pueden Ver y Hablar
<Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef vision fill:#f9d4d4, font-weight:bold, font-size:14px; classDef vqa fill:#d4f9d4, font-weight:bold, font-size:14px; classDef models fill:#d4d4f9, font-weight:bold, font-size:14px; classDef bias fill:#f9f9d4, font-weight:bold, font-size:14px; classDef datasets fill:#f9d4f9, font-weight:bold, font-size:14px; classDef challenges fill:#d4f9f9, font-weight:bold, font-size:14px; classDef thoughts fill:#f9d4d4, font-weight:bold, font-size:14px; A[Devi Parikh
ICLR 2020] --> B[Visión-lenguaje: área interesante, importante 1] A --> C[VQA: amplio, abierto, evaluable 2] C --> D[Modelos describen imágenes, videos, conversan 3] C --> E[Modelos sesgados, fallan en fundamentar 4] C --> F[Neural Baby Talk fundamenta subtítulos 5] C --> G[VQA-CP prueba dependencia de sesgo lingüístico 6] G --> H[Separar visión, lenguaje reduce sesgo 7] C --> I[VQA difícil necesita OCR 8] I --> J[TextVQA se enfoca en preguntas de texto 9] A --> K[La mayoría trabaja con modelos específicos 10] K --> L[Visión-lenguaje debe aprender representaciones genéricas 11] L --> M[ViLBERT aprende representaciones genéricas, ajusta 12] M --> N[ViLBERT multitarea supera, comparte representaciones 13] M --> O[Demo: un modelo, 8 tareas 14] A --> P[Desafíos: datos diversos, conocimiento externo 15] P --> Q[Mejor evaluación con humanos 16] P --> R[No inglés, mitigación de sesgo necesaria 17] A --> S[Visión-lenguaje: terreno emocionante para investigación 18] S --> T[Capacidades actuales impresionantes pero frágiles 19] A --> U[Pensamientos adicionales: gestión del tiempo, IA
creatividad, clima, mujeres en IA, filosofía 20] class A,B,S,T vision; class C,D,E,F,G,H,I,J vqa; class K,L,M,N,O models; class E,G,H,Q,R bias; class J,P,Q datasets; class P,Q,R challenges; class U thoughts;

Resumen:

1.-Visión y lenguaje es un área interesante e importante para estudiar por sus aplicaciones, razones conceptuales y desafíos técnicos.

2.-La respuesta a preguntas visuales (VQA) es una tarea de visión-lenguaje amplia, abierta y evaluable cuantitativamente que muestra las capacidades actuales de los modelos.

3.-Los modelos ahora pueden describir imágenes, videos y tener conversaciones sobre el contenido de las imágenes de manera impresionante.

4.-Aunque impresionantes, los modelos de visión-lenguaje aún pueden estar sesgados hacia los antecedentes lingüísticos y fallar en fundamentarse suficientemente en las imágenes.

5.-Neural Baby Talk genera subtítulos fundamentados en las salidas de detectores de objetos, permitiendo la descripción de escenas novedosas y subtitulado robusto.

6.-VQA-CP prueba la dependencia de los modelos en los antecedentes lingüísticos al tener diferentes distribuciones de respuestas para tipos de preguntas entre entrenamiento y prueba.

7.-Separar el razonamiento de visión y lenguaje en módulos distintos que se combinan más tarde ayuda a reducir el sesgo lingüístico en VQA.

8.-Las preguntas difíciles de VQA a menudo implican leer texto en imágenes, pero los modelos principales fallan en esto debido a la falta de integración de OCR.

9.-El conjunto de datos y desafío TextVQA se enfoca en preguntas que requieren leer y razonar sobre texto en imágenes.

10.-La mayoría del trabajo en visión-lenguaje entrena modelos específicos para tareas separadas en diferentes conjuntos de datos, aprendiendo representaciones no genéricas.

11.-Visión y lenguaje deberían apuntar a aprender representaciones genéricas que permitan resolver múltiples tareas con un solo modelo.

12.-ViLBERT aprende representaciones genéricas de visión-lenguaje mediante preentrenamiento que pueden ajustarse para varias tareas posteriores.

13.-Un modelo ViLBERT multitarea con cabezas específicas para tareas supera a los modelos especialistas y se beneficia de representaciones compartidas.

14.-Una demostración en vivo muestra un solo modelo realizando 8 tareas de visión-lenguaje: VQA, expresiones referenciales, implicación, recuperación y más.

15.-Quedan desafíos abiertos en el uso de datos visuales diversos más allá de COCO e incorporar conocimiento externo para VQA.

16.-Los modelos de visión-lenguaje necesitan mejor evaluación en tareas posteriores con humanos en el bucle, no solo en puntos de referencia estáticos.

17.-Se necesita más trabajo en idiomas no ingleses, identificando y mitigando sesgos en conjuntos de datos y modelos de visión-lenguaje.

18.-Visión-lenguaje es un terreno emocionante y fértil para la investigación en tareas, conjuntos de datos, evaluación, aplicaciones, sesgos e interacción humano-IA.

19.-Las capacidades actuales de visión-lenguaje son impresionantes pero aún fáciles de romper; queda mucho trabajo por hacer.

20.-El ponente tiene pensamientos adicionales sobre la gestión del tiempo, la creatividad en IA, el cambio climático, experiencias como mujer en IA y filosofía.

Bóveda del Conocimiento construida porDavid Vivancos 2024