Conocimiento Bóveda 2/85 - ICLR 2014-2023
Cordelia Schmid ICLR 2022 - Charla Invitada - ¿Ves lo que veo? Aprendizaje a gran escala de videos multimodales
<Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef video fill:#f9d4d4, font-weight:bold, font-size:14px; classDef tasks fill:#d4f9d4, font-weight:bold, font-size:14px; classDef representation fill:#d4d4f9, font-weight:bold, font-size:14px; classDef learning fill:#f9f9d4, font-weight:bold, font-size:14px; classDef videobird fill:#f9d4f9, font-weight:bold, font-size:14px; classDef vqa fill:#d4f9f9, font-weight:bold, font-size:14px; classDef dataset fill:#f9d4d4, font-weight:bold, font-size:14px; A[Cordelia Schmid
ICLR 2022] --> B[Datos de video en línea en crecimiento. 1] A --> C[Tareas clave de video. 2] C --> D[Clasificar, recuperar, describir videos. 3] A --> E[Representaciones de video
multimodales necesarias. 4] E --> F[Datos audiovisuales para
entender. 5] A --> G[Supervisión cruzada a gran escala
modal. 6] G --> H[HowTo 1M: aprendizaje
sin anotación. 7] A --> I[VideoBird: correspondencias video-habla. 8] I --> J[Arquitectura tipo BERT,
preentrenamiento instruccional. 9] I --> K[Predicción de cero disparos en nuevos videos. 10] I --> L[Reconocimiento de acción casi supervisado. 11] I --> M[Mejora el subtitulado de video
SOTA. 12] I --> N[Futuro: tareas más difíciles,
no instruccionales. 13] A --> O[Preguntas y respuestas de video de cero disparos cruzados. 14] O --> P[Preguntas y respuestas de texto y video. 15] O --> Q[Videos instructivos
con transcripciones. 16] Q --> R[Extracción de preguntas y respuestas de
transcripciones. 17] Q --> S[Conjunto de datos de 69M de preguntas y respuestas de video generado. 18] S --> T[30% de pares de preguntas y respuestas correctos,
bien emparejados. 19] O --> U[Transformador multimodal
para preguntas y respuestas de cero disparos. 20] S --> V[Permite un fuerte cero disparos
en benchmarks. 21] S --> W[El preentrenamiento mejora
vs. desde cero. 22] S --> X[Primera preguntas y respuestas de video de cero disparos. 23] A --> Y[Aprovechando conjuntos de datos de subtitulado de imagen
. 24] Y --> Z[Conjuntos de datos de video-texto
ruidosos o pequeños. 25] Y --> AA[Transferir subtítulos de imagen
a videos. 26] AA --> AB[Conjunto de datos Video CC 3M
construido. 27] AB --> AC[Video CC 3M más
equilibrado. 28] AB --> AD[91% de pares de video-subtítulo relevantes. 29] AB --> AE[Mejora la recuperación de cero disparos
frente a HowTo100M. 30] AB --> AF[Características de audio
mejoran aún más SOTA. 31] AB --> AG[Primera subtitulación de video
de cero disparos. 32] A --> AH[Conclusiones clave. 33] AH --> AI[Aprendizaje cruzado modal desde
datos limpios y diversos. 34] A --> AJ[Preguntas abiertas y
trabajo futuro. 35] AJ --> AK[Limpieza de datos, escala
, diversidad. 36] AJ --> AL[Refinar la alineación temporal video-texto. 37] AJ --> AM[Representaciones a nivel de objeto
para emparejamiento. 38] class A,B,Y,Z video; class C,D tasks; class E,F,G,H representation; class I,J,K,L,M,N videobird; class O,P,Q,R,S,T,U,V,W,X vqa; class AA,AB,AC,AD,AE,AF,AG dataset; class AH,AI,AJ,AK,AL,AM learning;

Resumen:

1.-Hay una gran y creciente cantidad de datos de video disponibles en línea de varias fuentes como YouTube y cámaras de vigilancia.

2.-Las tareas clave incluyen clasificar actividades en videos, recuperación de texto a video y describir la historia de un video.

3.-Se necesitan representaciones de video multimodales que incorporen información de audio y visual para entender con precisión el contenido del video.

4.-La supervisión cruzada a gran escala de conjuntos de datos como HowTo One Million permite el aprendizaje sin anotación manual.

5.-VideoBird es un modelo que aprende correspondencias entre video y habla a partir de datos multimodales utilizando una arquitectura similar a BERT.

6.-VideoBird se preentrena en un gran conjunto de datos de videos instructivos, luego se puede aplicar para predicción de cero disparos en nuevos videos.

7.-El rendimiento de VideoBird en el reconocimiento de acciones está cerca de los modelos completamente supervisados. Más datos de preentrenamiento mejoran el rendimiento.

8.-VideoBird se puede ajustar para tareas posteriores como la subtitulación de videos, donde el preentrenamiento ayuda a mejorar el estado del arte.

9.-Las preguntas abiertas para VideoBird incluyen extenderse a tareas más difíciles y videos no instruccionales.

10.-El aprendizaje cruzado modal se utiliza para responder preguntas de video de cero disparos generando un gran conjunto de datos de preguntas y respuestas a partir de texto y video.

11.-Comience con un conjunto de datos de videos instructivos con transcripciones de habla. Use un modelo de preguntas y respuestas entrenado para extraer preguntas y respuestas de las transcripciones.

12.-Este proceso genera automáticamente un conjunto de datos de preguntas y respuestas de video de 69M, con 33 clips de 10 segundos por video y 1.2 pares de preguntas y respuestas por clip.

13.-Aproximadamente el 30% de los pares de preguntas y respuestas generados automáticamente son correctos y están bien emparejados con el video, según evaluación manual.

14.-Un transformador multimodal se entrena en este conjunto de datos para preguntas y respuestas de video de cero disparos, tomando video+más preguntas como entrada para predecir la respuesta.

15.-El conjunto de datos HowTo VQA 69M generado automáticamente permite un fuerte rendimiento de cero disparos en los benchmarks IVQA y MSVD-QA.

16.-Usar el conjunto de datos HowTo VQA para el preentrenamiento mejora significativamente el rendimiento en comparación con el entrenamiento desde cero.

17.-Este preentrenamiento cruzado modal iguala a los modelos de estado del arte que utilizan otras fuentes de preentrenamiento, y es el primero en permitir preguntas y respuestas de cero disparos.

18.-Los conjuntos de datos de video-texto existentes son recolectados semi-automáticamente y ruidosos, o etiquetados manualmente y a pequeña escala.

19.-En contraste, los conjuntos de datos de subtitulación de imagen son más limpios y a mayor escala. La idea es aprovechar estos para anotar automáticamente videos.

20.-Encuentre fotogramas de video visualmente similares a las imágenes subtituladas, transfiera el subtítulo a clips de video cortos alrededor de esos fotogramas.

21.-Este proceso construye el conjunto de datos Video CC 3M a partir del conjunto de datos de imágenes Conceptual Captions 3M. Tiene 10.3M de pares de video-subtítulo.

22.-Video CC 3M está más equilibrado entre dominios en comparación con HowTo100M, que está dominado por videos de cocina/comida.

23.-La evaluación manual muestra que el 91% de los pares de video-subtítulo de Video CC 3M son relevantes, con algo de ruido debido a que la similitud visual no captura objetos con precisión.

24.-El rendimiento de recuperación de video-texto de cero disparos es significativamente mayor al entrenar en Video CC 3M en comparación con HowTo100M, mostrando la importancia de la calidad de los datos.

25.-Agregar características de audio a Video CC 3M mejora aún más la precisión de recuperación de cero disparos, superando el estado del arte.

26.-Un modelo entrenado en Video CC 3M para subtitulación de video de cero disparos genera subtítulos mucho más relevantes que uno entrenado en HowTo100M.

27.-Este es el primer enfoque que demuestra la subtitulación de video de cero disparos, con resultados cualitativos prometedores.

28.-Las conclusiones clave son la efectividad del aprendizaje cruzado modal a partir de conjuntos de datos limpios y diversos para tareas de comprensión de video de cero disparos.

29.-Las preguntas abiertas incluyen una mayor limpieza de datos, la extensión de la escala y diversidad de datos, y el refinamiento de la alineación temporal video-texto.

30.-El trabajo futuro podría incorporar representaciones a nivel de objeto para mejorar el emparejamiento cruzado modal más allá de la similitud visual global.

Bóveda del Conocimiento construida porDavid Vivancos 2024