https://arxiv.org/abs/2402.10698
Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering
We present Q-ViD, a simple approach for video question answering (video QA), that unlike prior methods, which are based on complex architectures, computationally expensive pipelines or use closed models like GPTs, Q-ViD relies on a single instruction-aware
arxiv.org
https://github.com/Daromog/Q-ViD
Abstract
Q-ViD는 무거운 비디오 전용 모델을 새로 학습하거나 유료 모델을 활용하지 않고도, 단일 오픈소스 모델인 InstructBLIP만으로 비디오 질의응답을 수행하는 프레임워크이다. 핵심 아이디어는 비디오 자체를 직접 이해하려 하기보다, 질문과 관련된 프레임 정보를 텍스트 형태로 변환한 뒤 LLM이 이를 바탕으로 답을 추론하도록 하는 것이다.
구체적으로는 먼저 주어진 질문을 조건으로 비디오의 각 프레임에서 캡션을 추출한다. 이후 프레임별로 생성된 캡션들을 하나의 텍스트 정보로 통합하고, 이 통합된 설명과 질문을 함께 LLM에 입력하여 최종 답변을 생성한다. 이는 복잡한 비디오 이해 문제를 텍스트 질의응답의 형태로 단순화한 방식이라고 볼 수 있다.
이러한 단순한 구조만으로도 NExT-QA, STAR와 같은 주요 Video QA 벤치마크에서 기존의 복잡한 최신 모델들과 비슷하거나 더 높은 성능을 보였다. 이는 비디오 질의응답에서 반드시 거대한 비디오 전용 모델이나 복잡한 학습 파이프라인이 필요한 것은 아니며, 적절한 프레임 캡션 추출과 LLM 기반 추론만으로도 충분히 경쟁력 있는 성능을 낼 수 있음을 보여준다.
Introduction
최근 VLM은 이미지 질의응답 분야에서 높은 성능을 보이고 있으며, 여러 연구에서는 캡셔닝을 제로샷 이미지 질의응답에 활용해 왔다. 이미지 캡션은 장면에 대한 언어적 맥락을 제공하고, 질문이 모호할 때 부족한 정보를 보완하는 역할을 한다. 또한 캡션을 조정하거나 다른 유형의 언어 정보와 결합함으로써 모델이 이미지 내용을 더 잘 이해하고 답을 추론할 수 있도록 돕는다.
그러나 이러한 방식을 비디오 질의응답에 적용하기는 더 어렵다. 비디오는 여러 프레임이 시간 순서에 따라 연결되어 있으며, 각 프레임은 독립적으로 존재하지 않고 서로 관계를 가진다. 따라서 비디오를 이해하기 위해서는 장면에 등장하는 객체나 행동뿐만 아니라, 사건의 흐름, 시간적 변화, 프레임 간 관계, 원인과 결과까지 함께 고려해야 한다. 이러한 이유로 기존 비디오 QA 연구들은 GPT와 같은 강력한 폐쇄형 LLM을 사용하거나, 대규모 데이터셋을 기반으로 복잡한 모델을 학습하는 방식에 의존하는 경우가 많았다. 하지만 이 방식은 비용이 크고, 구현과 재현 측면에서도 부담이 있다.
Q-ViD는 이러한 한계를 줄이기 위해 비디오 질의응답을 텍스트 질의응답 문제로 변환하는 접근을 제안한다. 입력 비디오 V가 주어지면 먼저 n개의 프레임을 샘플링하고, 주어진 질문에 맞는 캡션을 생성한다. 이후 InstructBLIP을 사용해 각 프레임에 대한 질문 의존적 캡션을 생성한다. 이때 생성되는 캡션은 일반적인 장면 설명이 아니라, 해당 질문에 답하는 데 필요한 정보를 중심으로 구성된 프레임별 설명이다. 이후 생성된 프레임별 캡션들을 하나로 연결하여 비디오 전체를 설명하는 텍스트 정보를 만든다. 이 텍스트 설명은 질문, 선택지, 질의응답 지시 프롬프트와 함께 LLM 기반 추론 모듈에 입력된다. LLM은 비디오를 직접 처리하는 대신, 프레임별 캡션으로 구성된 언어 정보를 바탕으로 객관식 질문의 답을 추론한다.
Q-ViD의 핵심은 비디오를 질문에 맞는 텍스트 정보로 변환하고, 이를 LLM이 추론할 수 있는 형태로 제공하는 데 있다. 이를 통해 복잡한 비디오 전용 모델이나 대규모 학습 과정 없이도, InstructBLIP과 LLM만으로 효율적인 Video QA를 수행할 수 있다.
Related Work
Q-ViD와 관련된 기존 연구는 크게 두 흐름으로 나눌 수 있다.
첫 번째는 이미지-언어 모델이나 LLM을 비디오 질의응답에 맞게 확장하는 연구이다. Flamingo, SeViLa, FrozenBiLM 등은 비디오 프레임을 입력으로 사용하거나 키프레임을 선택하고, 시각 정보와 언어 모델을 연결해 질문에 답하도록 설계되었다. 이러한 방법들은 성능은 높지만, 별도의 학습 과정이나 복잡한 구조가 필요한 경우가 많다.
두 번째는 시각 정보를 캡션이나 텍스트 설명으로 변환한 뒤, LLM이 이를 바탕으로 답을 추론하도록 하는 연구이다. 이미지 질의응답에서는 캡션을 활용한 제로샷 방식이 효과적으로 사용되어 왔고, 비디오 분야에서도 ChatCaptioner, ViperGPT, LLoVi처럼 비디오 정보를 언어화해 질의응답에 활용하는 방법들이 제안되었다. 다만 많은 방법들이 GPT 계열의 폐쇄형 모델이나 여러 처리 모듈에 의존한다.
Q-ViD는 더 가벼운 방식을 제안한다. InstructBLIP으로 질문에 맞는 프레임별 캡션을 생성하고, 이를 연결해 LLM이 객관식 답변을 선택하도록 구성한다. 추가 학습이나 GPT API 없이 오픈소스 모델 기반으로 Video QA를 수행한다는 점에서 기존 연구들과 차별화된다.
Method

InstructBLIP은 이미지와 질문을 함께 입력으로 받아, 질문에 답하는 데 필요한 시각적 특징을 중심으로 정보를 추출하도록 설계되어 있다. 일반적인 이미지 캡셔닝 모델이 이미지 전체를 포괄적으로 설명하는 데 초점을 둔다면, InstructBLIP은 주어진 질문을 함께 고려하여 답변에 필요한 장면 요소를 더 구체적으로 포착할 수 있다. Q-ViD는 이러한 InstructBLIP의 특성을 비디오 질의응답에 활용한다.

먼저 입력 비디오는 균일한 샘플링(64)을 통해 n개의 프레임으로 나뉜다. 이후 각 프레임은 InstructBLIP에 입력되며, 이때 캡셔닝 프롬프트와 질문을 연결한 형태의 프롬프트가 함께 사용된다. 이 과정을 통해 각 프레임에 대해 질문에 종속된 캡션이 생성된다. 생성된 캡션은 주어진 질문에 답하는 데 도움이 되는 시각 정보를 중심으로 구성된다.
이렇게 얻은 프레임별 캡션들은 비디오를 텍스트로 표현하는 기본 단위가 된다. Q-ViD는 비디오를 프레임 캡션들의 집합으로 변환한다. 결과적으로 비디오는 여러 개의 캡션으로 이루어진 텍스트 시퀀스로 표현되며, 각 캡션은 w개의 단어로 구성된다. 이 방식은 비디오 정보를 LLM이 다룰 수 있는 언어적 형태로 바꾸는 과정이라고 볼 수 있다.
추론 단계에서는 InstructBLIP 내부의 Flan-T5를 다시 활용한다. 먼저 프레임별 캡션들을 비디오의 시간 순서에 맞게 연결하여 하나의 캡션 목록을 만든다. 여기에 질문, 가능한 답변 선택지, 그리고 '올바른 답을 선택하라'는 작업 설명을 차례로 결합한다. 이를 수식적으로 표현하면 캡션 목록 C, 질문 Q, 답변 후보 A, 작업 설명 T를 연결한 형태인 concat(C,Q,A,T)가 된다. 최종적으로 Flan-T5는 이 텍스트 입력을 바탕으로 객관식 질문의 정답을 선택한다.
Q-ViD의 구조는 비디오 프레임에서 질문 관련 캡션을 생성하고, 이를 시간 순서대로 정리한 뒤, LLM이 텍스트 질의응답 방식으로 답을 추론하도록 구성된다. 이를 통해 비디오 질의응답 문제를 별도의 복잡한 비디오 모델 학습 없이도 처리할 수 있다.
Experiments
Q-ViD는 NExT-QA, STAR, How2QA, TVQA, IntentQA 총 5개의 객관식 Video QA 벤치마크에서 제로샷 성능을 평가했다. 실험에서는 12.1B개의 파라미터를 가진 InstructBLIP-Flan-T5XXL을 사용했으며, 각 비디오에서 64개의 프레임을 추출한 뒤 프레임별 질문 의존적 캡션을 생성했다. 이후 생성된 캡션과 질문, 선택지를 Flan-T5 기반 추론 모듈에 입력해 정답을 선택하도록 했다.


실험 결과 Q-ViD는 복잡한 구조를 가진 기존 Video QA 모델들과 비교해도 경쟁력 있는 성능을 보였다. NExT-QA에서는 SeViLa보다 높은 평균 정확도를 기록했고, STAR와 How2QA에서도 기존 모델들과 비슷한 수준의 성능을 냈다. TVQA에서는 비교 모델 중 가장 높은 성능을 보였으며, IntentQA에서도 지도학습 기반 모델과 SeViLa를 뛰어넘고 GPT 기반 LLoVi와 거의 비슷한 성능을 보였다.
Ablation Studies


Q-ViD는 프롬프트 설계가 성능에 어떤 영향을 주는지 확인하기 위해 ablation study를 진행했다.
먼저 Figure 3(왼쪽 그림)에서는 프레임 캡션을 만들 때 사용하는 프롬프트를 비교한다. 일반적인 장면 설명을 요구하는 General Prompt와, 질문과 관련된 정보를 설명하도록 유도하는 Question-dependent Prompt를 나누어 실험했다. Table 3(오른쪽 표)의 결과를 보면, 작은 모델인 Q-ViD_XL에서는 General Prompt가 더 좋은 성능을 보였지만, 큰 모델인 Q-ViD_XXL에서는 Question-dependent Prompt를 사용했을 때 NExT-QA와 STAR 모두에서 성능이 더 높게 나타났다. 이는 모델 규모가 충분할 경우, 질문에 맞춘 캡션이 Video QA에 더 유용한 정보를 제공할 수 있음을 보여준다.


다음으로 Figure 4(왼쪽 그림)에서는 정답 선택 단계에서 사용하는 QA 프롬프트를 비교한다. 기본 QA 프롬프트 외에도 더 길고 구체적인 지시문을 추가한 변형 프롬프트들을 실험했다. 그러나 Table 4(오른쪽 표)의 결과에서는 복잡한 QA 프롬프트가 성능을 크게 개선하지 못했고, 경우에 따라 성능이 조금 낮아지기도 했다. 이를 통해 Q-ViD에서는 정답 선택 지시문을 길게 만드는 것보다, 앞단에서 질문과 관련된 프레임 캡션을 잘 생성하는 것이 더 중요한 요소임을 확인할 수 있다.
Limitations
Q-ViD는 구조가 간단하고 효율적이라는 장점이 있지만, InstructBLIP에 의존하는 만큼 몇 가지 한계도 가진다.
먼저 InstructBLIP은 이미지 내용을 설명하는 과정에서 실제 프레임에 존재하지 않는 정보를 생성하는 환각 문제가 발생할 수 있다. 비디오 전체를 직접 관찰하는 것이 아니라 프레임별 캡션을 바탕으로 답을 추론하는 구조이기 때문에, 캡션 단계에서 잘못된 정보가 포함되면 이후 LLM의 답변에도 영향을 줄 수 있다.
또한 Q-ViD에서는 각 프레임에 대해 질문에 맞는 설명을 생성하는 것이 중요하다. 그러나 InstructBLIP이 항상 질문 특화 캡션을 생성하는 것은 아니며, 경우에 따라 프레임을 설명하기보다 질문에 대한 직접적인 답변을 만들어내는 경향을 보일 수 있다. 이 경우 프레임의 시각적 근거가 충분히 보존되지 않고, 이후 추론 모듈이 다양한 프레임 정보를 종합하기 어려워질 수 있다.
긴 비디오를 처리할 때도 한계가 있다. 비디오 길이가 길어질수록 샘플링해야 하는 프레임 수가 증가하고, 각 프레임마다 캡션을 생성해야 하므로 메모리 사용량과 계산 비용이 커진다. 생성된 캡션들을 모두 연결해 LLM에 입력하는 과정에서도 입력 길이가 길어질 수 있어, 매우 긴 비디오에 대해서는 효율성이 떨어질 수 있다. 이러한 이유로 Q-ViD는 짧거나 중간 길이의 비디오 QA에는 적합하지만, 장시간 비디오를 그대로 처리하는 용도로는 부담이 있을 수 있다.
Conclusion
Q-ViD는 비디오 질의응답을 텍스트 질의응답 형태로 전환하는 제로샷 프레임워크이다. 비디오에서 추출한 각 프레임에 대해 InstructBLIP이 질문과 관련된 캡션을 생성하고, 이 캡션들을 시간 순서대로 연결한 뒤 Flan-T5가 최종 답을 추론한다. 이 과정에서 별도의 추가 학습이나 GPT API와 같은 폐쇄형 상용 모델을 사용하지 않는다.
실험 결과 Q-ViD는 NExT-QA, STAR, How2QA, TVQA, IntentQA 등 여러 Video QA 벤치마크에서 복잡한 기존 모델들과 비교해 경쟁력 있는 성능을 보였다. 또한 ablation study를 통해, 정답 선택 단계의 프롬프트를 복잡하게 설계하는 것보다 질문에 맞는 프레임 캡션을 생성하는 과정이 성능에 더 큰 영향을 줄 수 있음을 확인했다.
다만 프레임 캡션 생성 과정에서 환각이 발생하거나, 상세한 장면 설명 대신 질문에 대한 짧은 답변이 생성될 수 있다는 한계가 있다. 긴 비디오에서는 캡션 수가 늘어나면서 메모리 사용량과 입력 길이 부담도 커진다. 그럼에도 Q-ViD는 공개 모델 기반의 간결한 구조만으로도 제로샷 Video QA에서 높은 성능을 달성할 수 있음을 보여준다는 점에서 의미가 있다.