Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-Hay una gran y creciente cantidad de datos de video disponibles en línea de varias fuentes como YouTube y cámaras de vigilancia.
2.-Las tareas clave incluyen clasificar actividades en videos, recuperación de texto a video y describir la historia de un video.
3.-Se necesitan representaciones de video multimodales que incorporen información de audio y visual para entender con precisión el contenido del video.
4.-La supervisión cruzada a gran escala de conjuntos de datos como HowTo One Million permite el aprendizaje sin anotación manual.
5.-VideoBird es un modelo que aprende correspondencias entre video y habla a partir de datos multimodales utilizando una arquitectura similar a BERT.
6.-VideoBird se preentrena en un gran conjunto de datos de videos instructivos, luego se puede aplicar para predicción de cero disparos en nuevos videos.
7.-El rendimiento de VideoBird en el reconocimiento de acciones está cerca de los modelos completamente supervisados. Más datos de preentrenamiento mejoran el rendimiento.
8.-VideoBird se puede ajustar para tareas posteriores como la subtitulación de videos, donde el preentrenamiento ayuda a mejorar el estado del arte.
9.-Las preguntas abiertas para VideoBird incluyen extenderse a tareas más difíciles y videos no instruccionales.
10.-El aprendizaje cruzado modal se utiliza para responder preguntas de video de cero disparos generando un gran conjunto de datos de preguntas y respuestas a partir de texto y video.
11.-Comience con un conjunto de datos de videos instructivos con transcripciones de habla. Use un modelo de preguntas y respuestas entrenado para extraer preguntas y respuestas de las transcripciones.
12.-Este proceso genera automáticamente un conjunto de datos de preguntas y respuestas de video de 69M, con 33 clips de 10 segundos por video y 1.2 pares de preguntas y respuestas por clip.
13.-Aproximadamente el 30% de los pares de preguntas y respuestas generados automáticamente son correctos y están bien emparejados con el video, según evaluación manual.
14.-Un transformador multimodal se entrena en este conjunto de datos para preguntas y respuestas de video de cero disparos, tomando video+más preguntas como entrada para predecir la respuesta.
15.-El conjunto de datos HowTo VQA 69M generado automáticamente permite un fuerte rendimiento de cero disparos en los benchmarks IVQA y MSVD-QA.
16.-Usar el conjunto de datos HowTo VQA para el preentrenamiento mejora significativamente el rendimiento en comparación con el entrenamiento desde cero.
17.-Este preentrenamiento cruzado modal iguala a los modelos de estado del arte que utilizan otras fuentes de preentrenamiento, y es el primero en permitir preguntas y respuestas de cero disparos.
18.-Los conjuntos de datos de video-texto existentes son recolectados semi-automáticamente y ruidosos, o etiquetados manualmente y a pequeña escala.
19.-En contraste, los conjuntos de datos de subtitulación de imagen son más limpios y a mayor escala. La idea es aprovechar estos para anotar automáticamente videos.
20.-Encuentre fotogramas de video visualmente similares a las imágenes subtituladas, transfiera el subtítulo a clips de video cortos alrededor de esos fotogramas.
21.-Este proceso construye el conjunto de datos Video CC 3M a partir del conjunto de datos de imágenes Conceptual Captions 3M. Tiene 10.3M de pares de video-subtítulo.
22.-Video CC 3M está más equilibrado entre dominios en comparación con HowTo100M, que está dominado por videos de cocina/comida.
23.-La evaluación manual muestra que el 91% de los pares de video-subtítulo de Video CC 3M son relevantes, con algo de ruido debido a que la similitud visual no captura objetos con precisión.
24.-El rendimiento de recuperación de video-texto de cero disparos es significativamente mayor al entrenar en Video CC 3M en comparación con HowTo100M, mostrando la importancia de la calidad de los datos.
25.-Agregar características de audio a Video CC 3M mejora aún más la precisión de recuperación de cero disparos, superando el estado del arte.
26.-Un modelo entrenado en Video CC 3M para subtitulación de video de cero disparos genera subtítulos mucho más relevantes que uno entrenado en HowTo100M.
27.-Este es el primer enfoque que demuestra la subtitulación de video de cero disparos, con resultados cualitativos prometedores.
28.-Las conclusiones clave son la efectividad del aprendizaje cruzado modal a partir de conjuntos de datos limpios y diversos para tareas de comprensión de video de cero disparos.
29.-Las preguntas abiertas incluyen una mayor limpieza de datos, la extensión de la escala y diversidad de datos, y el refinamiento de la alineación temporal video-texto.
30.-El trabajo futuro podría incorporar representaciones a nivel de objeto para mejorar el emparejamiento cruzado modal más allá de la similitud visual global.
Bóveda del Conocimiento construida porDavid Vivancos 2024