Conocimiento Bóveda 2/85 - ICLR 2014-2023
Cordelia Schmid ICLR 2022 - Charla Invitada - ¿Ves lo que veo? Aprendizaje a gran escala de videos multimodales
<Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

Cordelia Schmid
ICLR 2022
Datos de video en línea en crecimiento. 1
Tareas clave de video. 2
Clasificar, recuperar, describir videos. 3
Representaciones de video
multimodales necesarias. 4
Datos audiovisuales para
entender. 5
Supervisión cruzada a gran escala
modal. 6
HowTo 1M: aprendizaje
sin anotación. 7
VideoBird: correspondencias video-habla. 8
Arquitectura tipo BERT,
preentrenamiento instruccional. 9
Predicción de cero disparos en nuevos videos. 10
Reconocimiento de acción casi supervisado. 11
Mejora el subtitulado de video
SOTA. 12
Futuro: tareas más difíciles,
no instruccionales. 13
Preguntas y respuestas de video de cero disparos cruzados. 14
Preguntas y respuestas de texto y video. 15
Videos instructivos
con transcripciones. 16
Extracción de preguntas y respuestas de
transcripciones. 17
Conjunto de datos de 69M de preguntas y respuestas de video generado. 18
30% de pares de preguntas y respuestas correctos,
bien emparejados. 19
Transformador multimodal
para preguntas y respuestas de cero disparos. 20
Permite un fuerte cero disparos
en benchmarks. 21
El preentrenamiento mejora
vs. desde cero. 22
Primera preguntas y respuestas de video de cero disparos. 23
Aprovechando conjuntos de datos de subtitulado de imagen
. 24
Conjuntos de datos de video-texto
ruidosos o pequeños. 25
Transferir subtítulos de imagen
a videos. 26
Conjunto de datos Video CC 3M
construido. 27
Video CC 3M más
equilibrado. 28
Mejora la recuperación de cero disparos
frente a HowTo100M. 30
Características de audio
mejoran aún más SOTA. 31
Primera subtitulación de video
de cero disparos. 32
Conclusiones clave. 33
Aprendizaje cruzado modal desde
datos limpios y diversos. 34
Preguntas abiertas y
trabajo futuro. 35
Limpieza de datos, escala
, diversidad. 36
Refinar la alineación temporal video-texto. 37
Representaciones a nivel de objeto
para emparejamiento. 38

Resumen:

1.-Hay una gran y creciente cantidad de datos de video disponibles en línea de varias fuentes como YouTube y cámaras de vigilancia.

2.-Las tareas clave incluyen clasificar actividades en videos, recuperación de texto a video y describir la historia de un video.

3.-Se necesitan representaciones de video multimodales que incorporen información de audio y visual para entender con precisión el contenido del video.

4.-La supervisión cruzada a gran escala de conjuntos de datos como HowTo One Million permite el aprendizaje sin anotación manual.

5.-VideoBird es un modelo que aprende correspondencias entre video y habla a partir de datos multimodales utilizando una arquitectura similar a BERT.

6.-VideoBird se preentrena en un gran conjunto de datos de videos instructivos, luego se puede aplicar para predicción de cero disparos en nuevos videos.

7.-El rendimiento de VideoBird en el reconocimiento de acciones está cerca de los modelos completamente supervisados. Más datos de preentrenamiento mejoran el rendimiento.

8.-VideoBird se puede ajustar para tareas posteriores como la subtitulación de videos, donde el preentrenamiento ayuda a mejorar el estado del arte.

9.-Las preguntas abiertas para VideoBird incluyen extenderse a tareas más difíciles y videos no instruccionales.

10.-El aprendizaje cruzado modal se utiliza para responder preguntas de video de cero disparos generando un gran conjunto de datos de preguntas y respuestas a partir de texto y video.

11.-Comience con un conjunto de datos de videos instructivos con transcripciones de habla. Use un modelo de preguntas y respuestas entrenado para extraer preguntas y respuestas de las transcripciones.

12.-Este proceso genera automáticamente un conjunto de datos de preguntas y respuestas de video de 69M, con 33 clips de 10 segundos por video y 1.2 pares de preguntas y respuestas por clip.

13.-Aproximadamente el 30% de los pares de preguntas y respuestas generados automáticamente son correctos y están bien emparejados con el video, según evaluación manual.

14.-Un transformador multimodal se entrena en este conjunto de datos para preguntas y respuestas de video de cero disparos, tomando video+más preguntas como entrada para predecir la respuesta.

15.-El conjunto de datos HowTo VQA 69M generado automáticamente permite un fuerte rendimiento de cero disparos en los benchmarks IVQA y MSVD-QA.

16.-Usar el conjunto de datos HowTo VQA para el preentrenamiento mejora significativamente el rendimiento en comparación con el entrenamiento desde cero.

17.-Este preentrenamiento cruzado modal iguala a los modelos de estado del arte que utilizan otras fuentes de preentrenamiento, y es el primero en permitir preguntas y respuestas de cero disparos.

18.-Los conjuntos de datos de video-texto existentes son recolectados semi-automáticamente y ruidosos, o etiquetados manualmente y a pequeña escala.

19.-En contraste, los conjuntos de datos de subtitulación de imagen son más limpios y a mayor escala. La idea es aprovechar estos para anotar automáticamente videos.

20.-Encuentre fotogramas de video visualmente similares a las imágenes subtituladas, transfiera el subtítulo a clips de video cortos alrededor de esos fotogramas.

21.-Este proceso construye el conjunto de datos Video CC 3M a partir del conjunto de datos de imágenes Conceptual Captions 3M. Tiene 10.3M de pares de video-subtítulo.

22.-Video CC 3M está más equilibrado entre dominios en comparación con HowTo100M, que está dominado por videos de cocina/comida.

23.-La evaluación manual muestra que el 91% de los pares de video-subtítulo de Video CC 3M son relevantes, con algo de ruido debido a que la similitud visual no captura objetos con precisión.

24.-El rendimiento de recuperación de video-texto de cero disparos es significativamente mayor al entrenar en Video CC 3M en comparación con HowTo100M, mostrando la importancia de la calidad de los datos.

25.-Agregar características de audio a Video CC 3M mejora aún más la precisión de recuperación de cero disparos, superando el estado del arte.

26.-Un modelo entrenado en Video CC 3M para subtitulación de video de cero disparos genera subtítulos mucho más relevantes que uno entrenado en HowTo100M.

27.-Este es el primer enfoque que demuestra la subtitulación de video de cero disparos, con resultados cualitativos prometedores.

28.-Las conclusiones clave son la efectividad del aprendizaje cruzado modal a partir de conjuntos de datos limpios y diversos para tareas de comprensión de video de cero disparos.

29.-Las preguntas abiertas incluyen una mayor limpieza de datos, la extensión de la escala y diversidad de datos, y el refinamiento de la alineación temporal video-texto.

30.-El trabajo futuro podría incorporar representaciones a nivel de objeto para mejorar el emparejamiento cruzado modal más allá de la similitud visual global.

Bóveda del Conocimiento construida porDavid Vivancos 2024