[2406.04264] MLVU: Benchmarking Multi-task Long Video Understanding
MLVU: Benchmarking Multi-task Long Video Understanding
The evaluation of Long Video Understanding (LVU) performance poses an important but challenging research problem. Despite previous efforts, the existing video understanding benchmarks are severely constrained by several issues, especially the insufficient
arxiv.org
요약
Multi Modal과 LLM 요즘 매우 핫한 분야라서 한번쯤 들어봤을 것이라고 생각됩니다.
최근 LLM을 확장시켜서 MLLM이라고 하는 Multi-modal LLM이 여럿 제안되고 있습니다.
오늘 살펴볼 논문은 이러한 MLLM의 long-video undestanding( LVU )의 성능을 종합적으로 평가하기 위한 새로운 밴치마크를 제안한 연구입니다.
배경 및 선행 연구
- Multimodal Large Language Models(MLLMs)
[현재 상황]
최근 MLLM 은 (1) LLM의 backbone과 Visual Encoders&adapters를 융합하거나 (2) visual instruction tuning기반 fine-tuning 통해 최근 발전을 이루고 있다. 또한, MLLM가 video instruction datasets와 특성화된 video adapter를 통해 비디오 생성 task가 발전가 발전을 이루고 있다.
[한계 및 발전 상황]
하지만, 긴 비디오에서 충분한 맥락을 설정하는데 어려움이 있어서, 여태까지의 모델들은 1분 미만의 짧은 영상에 최적화되어 있다. 이러한 해당 문제를 해결하기 위해, compact한 video representation 또는 MLLM의 context length 확장을 연구가 이루어지고 있다.
- 최근 연구
- ex. LLaMa-Vid: 각 비디오 프레임을 2개의 토큰으로 나눠, 모델이 몇 시간의 긴 영상을 다루도록 함
- ex. MovieChat, MA-LMM: recursive video processing을 위한 메모리 요소 제안
- ex. LWM, LongVA, Video-XL: MLLM의 context length(모델이 한 번에 처리할 수 있는 정보의 양)를 확장하여 더 긴 비디오 입력을 처리할 수 있도록 설계
- ex. 검색기나 에이전트를 기반으로 긴 비디오에서 프레임이나 클립을 선택적으로 활용하는 방법도 탐구됨
- Video Understanding Benchmarks
- Short-Videos
- temperal perception, action understanding, video classification, video reasoning, video vaptioning의 Task를 Benchmark한 모델들 제안됨
- MVBench: QA를 통해 일반적인 능력을 평가할 수 있는 short-video Benchmark 제공
- Long-Videos
- LLaMA-Vid: MovieNet 데이터셋 기반으로 영화 QA 제공
- MovieChat: 특정 캐릭터 이름이나 내용의 구체성을 제외
⇒ (한계점) 하지만, 각 질문이 특정 시간대를 제공하여 결국 long-video undestanding이 아닌 short-video나 image understanding 문제가 된다 - EgoSchema: 1인칭 영상을 사용하여 비디오 추론 작업을 제시
Introduction
MLLM의 long-video undestanding 성능을 평가하는 것은 현재 도전적인 과제입니다.
**현재 한계점은 다음과 같습니다.
- 대부분의 비디오 데이터셋은 짧은(n초) 비디오로 구성됨
- video 장르와 성능평가의 다양성 부족
- 주로 하나의 비디오 타입에 집중(ex.1인칭 시점 비디오)
- Captioning과 같은 하나의 테스크에 집중
⇒ 이는 LVU의 포괄적인 평가를 제한
- 많은 성능 Task가 LVU를 위해 설계되지 않음
= long video의 복잡한 정보를 사용하지 않고 해결 가능한 형태로 구성됨- ex) 많은 질문들이 긴 비디오에서 단 하나의 프레임에 관한 것일 뿐
- 많은 다른 과제들은 인기 영화나 유명 인물에 관한 것으로, 이는 텍스트 프롬프트만으로 MLLMs이 직접적으로 답할 수 있다.
**본 논문에서 제안하는 MLVU는 다음과 같이 기존 한계점을 개선하고 Benchmark를 제안합니다.
제안하는 MLVU는 다음과 같이 구성하였습니다.
- 3min~3h 사이의 다양한 길이의 긴 비디오로 구성(평균 15m)
- segmented 되어 있어서 다양한 길이의 영상을 유연성 있게 평가 가능
- MLVU를 위한 다양한 evaluation task 소개
- MLVU는 기존과 비교했을 때 더욱 다양한 평가 반영
- 9가지 독립적인 Task
- 객관식 및 개방형 생성 작업이 포함
- 일부 과제는 전체 비디오의 글로벌 정보를 활용하도록 설계, 일부 과제는 특정 클립의 특정 로컬 정보를 요구하도록 설계
- 로컬 정보와 관련된 모든 질문은 명확한 맥락으로 주석이 달려 있어
⇒ MLLMs가 긴 비디오 내에서 적절한 클립을 정확하게 찾거나 추론해야 합니다
**유명한 MLLMs 분석하며 논문이 발견한 인사이트 (= 현 상황 및 문제점)
- 최근의 오픈 소스 긴 비디오 MLLMs는 LVU에서 상당한 발전을 이뤘습니다.
- 이러한 발전은 모델이 긴 시각적 시퀀스를 처리하는 능력을 향상시켜, 최근 몇 달 동안 선도적인 독점 모델과의 격차를 좁히는 데 기여했습니다.
- 하지만 여전히 long-video understading은 MLLM에서 기술적으로 Challenging Problem입니다
- GPT-4 o 는 뛰어난 성능 보이지만, multi-choice Task에서 평균 54.5% 정확도를 보이며
- 모든 methods는 전체 영상에서 정밀한 정보를 요구하는 task를 잘 수행하지 못합니다
MLVU: Multi-task Long Video Understanding Benchmark
MLVU는 LVU를 위해 특별히 설계된 9가지 category에서 3102개 QA pairs로 구성된 multi-task benchmark입니다

다음과 같이 다양한 영상 장르를 포함하며, 다양한 길이의 영상을 사용합니다. 또한 Task를 크게 Holistic Task와 Detailed Task로 분리합니다.
- Holistic Task: global information이 전체 영상에 대해 제대로 사용되는지 확인하는 질문 (task)
- Detailed Task: local information를 바르게 사용할 수 있는지 확인하는 질문(task)
Single Detailed Task와 Multi Detailed Task의 차이는 한 가지 local information을 활용하는지, 여러 local information을 활용해야하는지로 구별됩니다.
9가지 Task에 대한 예시입니다.

Experiments & Analysis
본 논문에서는 23가지 MLLM을 제안한 MLVU benchmark에 대하여 zero-shot 방식으로 평가를 수행했습니다.
사용한 MLLMs의 종류는 3가지로 나뉩니다.
- Image MLLM: image-related instructions로 Fine-tuned된 모
- Short Video MLLM: short-video related instructions로 Fine-tuned된 모델
- Long Video MLLM: Long Video Understaning에 최적화된 모델
이미지 기반 MLLMs의 경우, 원본 비디오에서 분할된 프레임을 처리하기 위해 그들의 다중 이미지 추론 능력을 활용하고,
영상 기반 MLLMs의 경우, 균등 샘플링(uniform sampling strategy)또는 프레임 속도 샘플링( Frame Rate Sampling )사용하여 비디오 처리합니다.
* Uniform Sampling & Frame Rate Sampling 설명
전략 | 방법 | 특징 |
Uniform Sampling | 일정한 간격으로 프레임 선택 | 전체 비디오를 고르게 반영하지만, 중요한 장면을 놓칠 수 있음 |
Frame Rate Sampling | 프레임 속도를 조절하여 선택 | 중요한 장면에서 더 많은 정보를 유지할 수 있음 |
평가 지표로는 multiple-choice (M-Avg) and generation tasks (G-Avg)에 대한 평균 성능 사용
Results=주요 결과
- GPT-4o가 MLVU에서 가장 좋은 성능을 보인다
- 최근 LVU(긴 비디오 이해)의 발전은 상당한 진전을 이루었으며, 오픈소스 긴 비디오 MLLM과 GPT-4o 간의 격차가 좁혀지고 있다
- 최근 긴 시각적 시퀀스를 처리하는 능력을 개선했으며, 이전의 오픈소스 모델들에 비해 단일 세부사항(예: NQA) 및 다중 세부사항(예: AC) 작업에서 상당한 성과 보인다 - 여전히 MLVU task에 대해 좋은 성능을 보이지 못한다
- close-ended holistic task는 다른 task에 비해 뛰어난 성능을 보인다
- close-ended holistic task는 전반적인 이해만을 요구하므로, MLLM의 긴 비디오 이해 능력을 평가하는 예비 지표로 사용할 수 있을 것 - multiple details에 대한 미묘한 이해가 필요한 작업을 처리하는 것은 여전히 도전 과제
- MLLM은 긴 영상에 대해서 더 challenging하다
- 최근의 긴 영상 MLLM(예: LongVA , Video-XL)은 참조 클립의 위치에 관계없이 일관된 성능을 유지한다.
반면, 짧은 영상 MLLM은 클립 위치에 더 민감하다 ⇒ 즉, 최근 long video MLLMs 발전은 확장된 recent visual sequences에 대하여 reliable clue retrieval and effective reasoning 성능이 개선시켰다 - 다중 세부 사항 작업의 난이도는 세부 사항의 수에 따라 증가한다
- MLLM이 여러 세부 사항을 동시에 이해하고 처리하는 데 상당한 어려움을 겪고 있음 ⇒ 긴 영상 이해 능력 향상을 위한 중요한 개선 분야이다 - 컨텍스트 길이, 이미지 이해 능력, 및 LLM Backbone의 선택은 LVU 성능의 주요 요소이다.
- 입력 길이가 길어짐에 따라 일관된 성능 향상을 보였다
- 이미지 이해 성능의 impact 실험 결과, MLLM의 LVU 성능이 일반적으로 MMMU의 image understanding 성능과 일치
- 서로 다른 백본을 사용하는 MLLM을 비교 결과, LVU 성능은 더 크고 (Vicuna-13B vs. Vicuna-7B) 더 발전된 백본(Mistral-7B vs. Llama-2-7B)에서 성능이 더 높다