Abstract
기존의 VLP 모델들은 주로 이해 기반 또는 생성 기반 작업 중 한 분야에서만 뛰어났고, 성능 향상은 노이즈가 많은 웹 이미지-텍스트 쌍 데이터셋을 확장하는 방식으로 이루어졌다. 하지만 이는 최적의 감독 소스가 아니었다.
본 논문에서는 이러한 한계를 극복하기 위해 BLIP이라는 새로운 프레임워크를 제안한다. BLIP은 시각/언어 이해 및 생성 작업 모두에 유연하게 전이될 수 있다. 캡션 부트스트래핑(bootstrapping the captions) 방식을 통해 노이즈가 많은 웹 데이터를 효과적으로 활용하며, 이 과정에서 캡셔너(captioner)가 합성 캡션을 생성하고, 필터(filter)가 노이즈 있는 캡션을 제거한다.
BLIP은 이미지-텍스트 검색, 이미지 캡셔닝, 시각 질문 응답(VQA) 등 광범위한 시각-언어 작업에서 최첨단 결과를 달성했으며, 비디오-언어 작업으로 직접 제로샷 전이 시에도 강력한 일반화 능력을 보여주었다.
1. Introduction
기존 VLP 방법들은 모델과 데이터 두 측면에서 한계를 지닌다.
- 모델 측면에서는 인코더 기반 모델이 텍스트 생성 작업에 직접 적용되기 어렵고, 인코더-디코더 기반 모델은 이미지-텍스트 검색과 같은 이해 기반 작업에 적합하지 않다.
- 데이터 측면에서는 웹에서 수집된 대규모 이미지-텍스트 쌍이 noise가 많아 학습이 최적화되지 않는다.
이러한 한계를 극복하기 위해, BLIP(Bootstrapping Language-Image Pre-training)는 시각-언어 이해와 생성을 통합한 모델이다. BLIP은 모델 아키텍처인 MED(Multimodal mixture of Encoder-Decoder)와 데이터 부트스트래핑 기법인 CapFilt(Captioning and Filtering)를 통해 문제를 해결한다. CapFilt는 캡셔너(captioner)가 합성 캡션을 생성하고 필터(filter)가 noise가 많은 캡션을 제거하여 데이터 품질을 향상시킨다.
BLIP은 이미지-텍스트 검색, 이미지 캡셔닝, 시각 질의 응답(VQA) 등 다양한 비전-언어 작업에서 최첨단 성능을 달성하였으며, 비디오-언어 작업에서도 제로샷(zero-shot) 일반화 능력을 보였다. 특히 CapFilt는 캡션 부트스트래핑을 통해 성능을 크게 향상시켰으며, 다양한 캡션이 더 큰 성능 향상을 가져온다는 점을 입증하였다.
2. Related Work
기존 VLP 연구들은 대규모 이미지-텍스트 쌍을 사용하여 사전 학습을 수행하였으나, 웹에서 수집된 텍스트는 noise가 많아 시각-언어 학습에 비효율적이었다. 이러한 noise의 부정적 영향은 데이터 규모 확대에 따른 성능 향상에 가려져 주목받지 못하였다. 본 연구는 CapFilt를 통해 noise가 많은 웹 데이터를 효과적으로 정제하여 시각-언어 학습 효율을 개선하는 방법을 제안한다.
더하여 다양한 시각-언어 작업을 단일 프레임워크로 통합하려는 시도가 있었으나, 이해 기반 작업(예: 이미지-텍스트 검색)과 생성 기반 작업(예: 이미지 캡셔닝)을 동시에 우수하게 수행할 수 있는 모델 구조를 설계하기는 어려웠다. BLIP의 MED 모델은 이러한 한계를 극복하고, 폭넓은 다운스트림 작업에서 높은 유연성과 성능을 보인다.
CapFilt는 기존의 지식 증류(Knowledge Distillation) 방법과 달리, 의미적으로 풍부한 합성 캡션을 통해 지식을 전달하고 필터를 통해 noise를 제거함으로써 보다 효과적인 데이터 증류 방식을 제시한다. 이는 대규모 시각-언어 사전 학습에서 합성 캡션의 중요성을 입증하였다.
3. Method
BLIP은 noise가 많은 이미지-텍스트 쌍으로부터 학습하는 통합된 VLP 프레임워크이다. 핵심 구성 요소는 모델 아키텍처인 MED와 데이터 부트스트래핑 기법인 CapFilt이다.

MED는 세 가지 기능을 수행하는 멀티태스크 모델이다.
(1) 이미지와 텍스트를 독립적으로 인코딩하는 단일 모달 인코더
(2) 시각 정보를 활용해 시각-언어 상호작용을 학습하는 이미지 기반 텍스트 인코더
(3) 주어진 이미지로부터 텍스트를 생성하는 이미지 기반 텍스트 디코더이다.
사전 학습 과정에서는 세 가지 목적 함수를 동시에 최적화한다.
(1) 이미지-텍스트 대조 손실(ITC)은 시각 및 언어 표현 공간을 정렬한다.
(2) 이미지-텍스트 매칭 손실(ITM)은 이미지와 텍스트 간의 세밀한 정렬을 학습한다.
(3) 언어 모델링 손실(LM)은 주어진 이미지로부터 텍스트를 생성하도록 학습한다.
텍스트 인코더와 디코더는 Self-Attention 레이어를 제외한 모든 매개변수를 공유하여 학습 효율성을 높인다.

CapFilt는 데이터 품질 향상을 위한 부트스트래핑 절차로, 캡셔너가 합성 캡션을 생성하고 필터가 이미지-텍스트의 일치 여부를 학습하여 noise를 제거한다. 이 과정은 사전 학습된 MED 모델을 기반으로 하며, COCO 데이터셋에서 별도로 fine-tuning된다.
4. Experiments and Discussions
BLIP 모델은 PyTorch 기반으로 구현되었으며, ImageNet으로 사전 학습된 ViT와 BERTbase를 텍스트 트랜스포머로 사용하였다.
ViT-B/16과 ViT-L/16 두 가지 모델을 사용하였으며, 주로 ViT-B를 실험에 활용하였다. 사전 학습은 20 epochs 동안 배치 크기 2880(ViT-B)/2400(ViT-L)으로 진행되었다. optimizer는 0.05의 가중치 감소를 갖는 AdamW를 사용했으며, 학습률은 3e-4(ViT-B)/2e-4(ViT-L)에서 0.85의 비율로 선형적으로 감소하도록 하였다. 학습 데이터셋은 COCO, Visual Genome, Conceptual Captions, Conceptual 12M, SBU 캡션 등 총 1,400만 개의 이미지로 구성되었으며, 추가적으로 LAION(1억 1,500만 개 이미지) 데이터에서도 검증되었다.

CapFilt는 이미지-텍스트 검색 및 이미지 캡셔닝 등 여러 다운스트림 작업에서 뚜렷한 성능 향상을 보였다. 캡셔너와 필터가 개별적으로 적용될 때에도 성능이 개선되었고, 함께 적용할 경우 시너지 효과를 통해 noise가 많은 원본 데이터를 사용할 때보다 훨씬 우수한 성능을 달성하였다. 이는 데이터 및 모델 규모 확장 시에도 안정적으로 성능을 유지하였다. 특히 nucleus sampling을 통해 생성된 다양한 캡션이 beam search보다 더 큰 성능 향상을 이끌었다.
*nucleus sampling: stochastic한 디코딩 방법, 특정 임계값을 초과하는 누적 확률 질량을 가진 토큰 세트 내에서 다음 토큰을 무작위로 샘플링해 캡션 생성
*beam search: deterministic한 디코딩 방법, 주어진 시퀀스에서 다음 단어가 될 확률이 가장 높은 후보들을 탐색해 최적의 캡션 생성
텍스트 인코더와 디코더 간 매개변수 공유 비교 결과, Self-Attention 레이어를 제외한 공유 방식이 학습 효율과 성능의 균형을 가장 잘 유지하였다.
CapFilt 단계에서는 캡셔너와 필터를 독립적으로 미세 조정할 때 더 나은 성능을 보였으며, 이는 동일한 파라미터를 공유할 경우 발생할 수 있는 확증 편향을 방지하기 위함이다.
5. Comparison with State-of-the-arts
이미지-텍스트 검색에서 BLIP은 COCO와 Flickr30K 데이터셋에서 기존 방법을 크게 능가하였다. 동일한 1,400만 개의 사전 학습 이미지를 사용할 때, BLIP은 ALBEF 대비 평균 recall@1 성능이 2.7% 향상되었다. 또한 COCO에서 미세 조정된 모델을 Flickr30K에 직접 적용한 제로샷 검색에서도 기존 방법보다 우수한 성능을 보였다.
이미지 캡셔닝에서는 NoCaps 및 COCO 데이터셋에서 BLIP이 유사한 규모의 데이터를 사용한 기존 모델들보다 높은 성능을 달성하였다. 1억 2,900만 개의 이미지를 사용한 BLIP은 LEMON과 유사한 성능을 보였으며, LEMON이 객체 검출기와 고해상도 이미지를 필요로 하는 반면, BLIP은 검출기 없이 저해상도 이미지를 사용하여 추론 속도가 빠르다.

시각 질의 응답(VQA)에서는 VQA2.0 데이터셋 기준 BLIP이 ALBEF보다 1.64% 높은 성능을 보였으며, 13배 많은 데이터와 더 큰 백본을 사용하는 SimVLM보다도 우수하였다.
자연어 시각 추론(NLVR2)에서도 BLIP은 대부분의 기존 모델을 능가하였으며, 시각 대화(VisDial) 과제에서도 최첨단 성능을 달성하였다. 또한, 비디오-언어 작업에서도 BLIP은 제로샷 전이 능력을 입증하였으며, 텍스트-비디오 검색에서 미세 조정된 모델보다 recall@1 기준 12.4% 높은 성능을 기록하였다.
6. Additional Ablation Study

CapFilt의 성능 향상은 단순한 훈련 시간 증가 때문이 아니다. 부트스트랩 데이터셋은 원본 데이터보다 텍스트가 많아 에포크당 훈련 시간이 길지만, 동일한 데이터 수를 유지한 복제 실험에서도 성능 향상은 미미하였다. 이는 CapFilt의 주요 효과가 데이터 품질 개선에 있음을 의미한다. 더불어 기존 사전 학습 모델을 부트스트랩 데이터셋으로 추가 훈련하는 것은 충분한 성능 향상을 가져오지 못하였다. 이는 지식 증류(knowledge distillation)에서 학생 모델을 교사 모델로 초기화하지 않는 관행과 일치한다.
7. Conclusion
본 연구에서는 시각-언어 이해와 생성을 통합하는 새로운 VLP 프레임워크인 BLIP을 제안하였다.
BLIP은 noise가 많은 이미지-텍스트 쌍으로부터 다양한 합성 캡션을 생성하고, noise를 제거하여 데이터셋을 부트스트랩함으로써 MED 모델을 효율적으로 사전 학습하였다. 그 결과 이해 기반과 생성 기반을 포함한 다양한 시각-언어 작업에서 최첨단 성능을 달성하였다.
향후 연구 방향으로는
(1) 데이터셋 부트스트래핑의 다중 라운드 적용
(2) 이미지당 여러 합성 캡션 생성을 통한 사전 학습 데이터 확장
(3) 다양한 캡셔너 및 필터의 조합을 통한 CapFilt 앙상블 모델 구축이 있다.
본 연구는 향후 시각-언어 사전 학습에서 모델 구조와 데이터 품질 개선의 양측면에서 발전을 도모하는 기반이 될 것으로 기대된다.