CLIP

2025. 11. 3. 13:55·ML&DL/논문리뷰

Abstract

SOTA CV 시스템은 미리 정의된 고정된 객체 범주를 예측하도록 훈련된다. 이러한 제한된 형태의 감독은 시스템의 일반성과 유용성을 제약하고, 새로운 시각적 개념을 인식하려면 추가적인 라벨링 데이터가 필요하다.

 

본 논문은 어떤 캡션이 어떤 이미지에 속하는지를 예측하는 단순한 사전 훈련 작업이 인터넷에서 수집한 4억 개의 (이미지, 텍스트) 쌍 데이터셋으로부터 최첨단 이미지 표현을 처음부터 학습할 수 있는 효율적이고 확장 가능한 방법임을 입증하였다. 사전 훈련이 완료된 후에는 자연어를 활용하여 학습된 시각적 개념을 참조하거나 새로운 개념을 설명함으로써 모델이 다양한 다운스트림 작업에 zero-shot transfer할 수 있도록 한다.

*zero-shot transfer: 모델이 특정 훈련 데이터를 보지 않고도 새로운 시각적 개념이나 작업을 수행할 수 있는 능력

 

이 접근 방식의 성능은 OCR, 비디오 내 동작 인식, 지리적 위치 추정, 다양한 세밀한 객체 분류 등 30개 이상의 기존 컴퓨터 비전 데이터셋에서 벤치마크 평가를 통해 검증되었다. 모델은 대부분의 작업에서 일반화 능력을 보였으며, 특정 데이터셋으로 별도의 학습을 수행하지 않고도 완전 감독 학습 모델과 경쟁할 수 있는 수준의 성능을 나타냈다.

 

1. Introduction and Motivating Work

자연어 처리(NLP) 분야에서는 원시 텍스트로부터 직접 학습(Task-agnostic objectives)하는 사전 훈련 방법이 최근 몇 년간 혁신적인 발전을 이끌었다. GPT-3와 같은 대규모 모델은 맞춤형 모델과 경쟁할 정도의 성능을 보이며, 별도의 데이터셋 학습이 거의 필요하지 않다. 이는 대규모 웹 텍스트에서 얻을 수 있는 집합적 감독이 고품질의 크라우드 라벨링 데이터보다 더 강력할 수 있음을 시사한다.


반면, 컴퓨터 비전 분야에서는 여전히 ImageNet과 같은 크라우드 라벨링 데이터셋을 사용한 사전 학습이 일반적이다. 웹 텍스트로부터 직접 학습하는 확장 가능한 사전 훈련이 컴퓨터 비전에서도 유사한 돌파구를 가져올 수 있을지에 대한 의문이 존재한다. Mori et al. (1999)과 Joulin et al. (2016) 등 기존 연구에서는 이미지 캡션 내 단어를 예측하도록 CNN을 훈련해 유용한 이미지 표현을 학습할 수 있음을 보여주었다.


CLIP은 4억 개의 (이미지, 텍스트) 쌍을 포함한 데이터셋을 구축하여 기존 연구의 규모적 한계를 극복하고, 자연어 감독 하에서 대규모로 훈련된 이미지 분류기의 특성을 분석한다. 본 연구는 ConVIRT의 단순화된 버전인 CLIP(Contrastive Language-Image Pre-training)이 자연어 감독으로부터 효율적으로 학습할 수 있음을 입증한다. CLIP은 OCR, 지리적 위치 파악, 동작 인식 등 다양한 작업을 사전 훈련 중에 학습하며, 30개 이상의 데이터셋에서 제로샷 전이 성능을 평가하여 기존의 태스크별 모델과 경쟁 가능한 결과를 보였다.

또한 제로샷 CLIP 모델은 동일한 정확도의 감독 ImageNet 모델보다 훨씬 더 강력한 일반화 성능을 보이며, Task-agnostic 모델의 제로샷 평가는 모델의 근본적인 역량을 더 잘 반영함을 나타낸다.

 

2. Approach

본 접근법의 핵심은 자연어에 포함된 감독 신호로부터 인식을 학습하는 것이다. 이는 새로운 아이디어는 아니지만, 본 연구는 자연어를 직접 감독 신호로 사용하는 점에서 의미가 있다. 자연어 감독은 크라우드 소싱 기반 라벨링보다 확장성이 높으며, 인터넷 상의 방대한 텍스트 데이터를 활용하여 수동 개입 없이 학습할 수 있다는 장점이 있다. 또한 자연어로부터 학습하는 것은 표현 학습을 넘어 언어와 시각 정보를 직접 연결하여 유연한 제로샷 전이를 가능하게 한다.


기존 데이터셋인 MS-COCO, Visual Genome, YFCC100M은 규모가 작거나 메타데이터 품질이 낮아 자연어 감독의 잠재력을 충분히 반영하지 못했다. 이를 보완하기 위해 본 연구는 다양한 공개 웹 소스에서 수집한 4억 개의 (이미지, 텍스트) 쌍을 포함하는 WIT(WebImageText) 데이터셋을 구축하였다.

 

 


자연어로부터의 학습은 방대한 계산 자원을 요구하므로, 훈련 효율성이 확장을 위한 핵심 요인이 된다. 본 연구는 이미지 캡션 예측 접근법이 단순한 단어 가방(bag-of-words) 인코딩보다 세 배 느리다는 사실을 확인하였다. 이에 CLIP은 대조 학습 목적 함수를 사용하여 실제 이미지-텍스트 쌍의 일치를 예측하고 잘못된 쌍의 점수를 낮추는 방식으로 학습하였다. 그 결과 CLIP은 ImageNet 제로샷 전이 성능에서 약 4배의 효율성 향상을 보였다.

 

 

CLIP은 배치에 포함된 N개의 (이미지, 텍스트) 쌍을 활용하여, N × N가지 가능한 모든 이미지-텍스트 조합 중에서 실제로 올바르게 짝지어진 쌍을 찾아내도록 훈련됩니다. 이 과정에서 모델은 이미지 인코더와 텍스트 인코더를 동시에 학습시켜, 이미지와 텍스트를 함께 이해할 수 있는 다중 모달 임베딩 공간을 구축합니다. 구체적으로 모델은 실제 짝지어진 이미지와 텍스트 임베딩 간의 코사인 유사도를 최대화하고, 잘못 짝지어진 모든 조합의 유사도는 최소화하도록 학습합니다. 이를 달성하기 위해 CLIP은 대칭적인 교차 엔트로피 손실 함수를 최적화합니다.

 

CLIP은 이미지 인코더와 텍스트 인코더를 공동으로 훈련하여 멀티모달 임베딩 공간을 학습한다. 대규모 데이터셋을 사용하므로 과적합이 크게 문제가 되지 않아 훈련 절차를 단순화할 수 있었다. CLIP은 사전 학습된 가중치를 사용하지 않고 처음부터 훈련되며, 비선형 투영 대신 선형 투영을 사용한다. 데이터 증강으로는 무작위 정사각형 자르기만을 적용하였고, 로짓의 범위를 제어하는 온도 매개변수 τ는 훈련 중 직접 최적화되었다.


이미지 인코더로는 ResNet-50과 Vision Transformer(ViT)를 사용하였다. ResNet은 ResNet-D 개선 및 안티앨리어싱 풀링을 적용하고, 전역 평균 풀링층 대신 어텐션 풀링을 사용하였다. ViT에는 추가적인 계층 정규화와 수정된 초기화 방식을 적용하였다. 텍스트 인코더는 최대 시퀀스 길이 76의 Transformer를 사용하며, 마스킹된 셀프 어텐션을 통해 언어 모델링 보조 목표를 설정할 수 있도록 설계하였다.

*안티앨리어싱 풀링: 정보 손실 및 인공물 발생을 줄이기 위해 사용, 풀링을 적용하기 전에 이미지를 부드럽게 blur 처리하여 세부적인 정보를 필터링함

*전역 평균 풀링: CNN의 마지막 컨볼루션 레이어에서 모든 공간 차원을 평균하여 하나의 특징 벡터를 생성

*어텐션 풀링: 이미지의 전체적인 내용 중에서 더 중요하거나 관련성 높은 특정 부분을 강조하도록 학습


ResNet 인코더는 Tan & Le(2019)의 방식을 참고하여 너비, 깊이, 해상도 전반에 걸쳐 컴퓨팅 자원을 확장하였다. 텍스트 인코더는 ResNet의 너비에 비례하여 확장하였으며 깊이는 조정하지 않았다. 총 5개의 ResNet 모델과 3개의 ViT 모델을 32에포크 동안 훈련하였으며, Adam 옵티마이저와 코사인 학습률 스케줄을 적용하였다. 매우 큰 미니배치(32,768)와 혼합 정밀도를 사용하여 효율성을 높였다. ViT-L/14 모델은 336픽셀 해상도로 추가 에포크를 수행하여 성능을 향상시켰으며, 이 모델이 최종 CLIP 결과의 주된 기준이 되었다.

 

3. Experiments

3.1. Zero-Shot Transfer

 

CLIP은 이미지와 텍스트의 쌍 일치를 학습한 후, 이를 다양한 데이터셋에서 제로샷 분류기로 재사용한다. 각 클래스 이름을 텍스트 쌍으로 구성하고 CLIP가 가장 가능성이 높은 (이미지, 텍스트) 쌍을 선택하도록 하여 분류를 수행한다. 이는 다항 로지스틱 회귀로 해석할 수 있다.
CLIP은 ImageNet에서 76.2%의 정확도를 달성하며, Visual N-Grams의 11.5% 대비 크게 향상된 성능을 보였다. 이는 CLIP이 유연하고 실용적인 제로샷 분류기의 가능성을 보여준다. 또한 Oxford-IIIT Pets, SUN, aYahoo 등의 데이터셋에서도 기존 방법보다 훨씬 높은 정확도를 보였다.

 


프롬프트 설계는 CLIP의 제로샷 성능을 향상시키는 데 큰 영향을 미친다. 예를 들어 “A photo of a {label}.”과 같은 문맥적 프롬프트를 사용하면 ImageNet에서 1.3%의 정확도 향상을 얻을 수 있다. 여러 프롬프트를 앙상블하면 최대 5%의 추가적인 성능 개선이 가능하다. CLIP은 27개 데이터셋 중 16개에서 완전 감독 선형 분류기를 능가하였으며, Stanford Cars나 Food101 등 세밀한 분류 작업에서 20% 이상의 향상을 보였다. 반면, 위성 이미지나 의학 영상과 같은 특수 도메인에서는 상대적으로 성능이 낮았다.

 


제로샷 CLIP은 4샷 분류기의 평균 성능과 유사하며, 16샷 분류기 최고 성능에 근접한다. 데이터셋마다 라벨 효율성은 다르며, 평균적으로 클래스당 약 20개의 예시가 필요하다. CLIP의 제로샷 성능은 모델 규모에 따라 예측 가능한 로그-로그 스케일링을 보이며, 이는 GPT 계열 모델의 패턴과 유사하다.

*로그-로그 스케일링: 평균 제로샷 오류율이 컴퓨팅 자원의 로그 값과 선형적인 관계를 보인다.

 

3.2. Representation Learning

 

표현 학습의 품질은 선형 분류기로 평가되었다. 작은 CLIP 모델은 ImageNet-1K로 학습된 ResNet보다 성능이 높았으나, ImageNet-21K로 학습된 대형 모델보다는 다소 낮았다. 그러나 대규모 CLIP 모델(RN50x64)은 기존 최고 모델(EfficientNet-L2)을 약간 능가하였다. ViT 기반 CLIP은 ResNet 기반보다 3배 효율적이며, 동일한 컴퓨팅 자원에서 더 높은 성능을 달성한다.


ViT-L/14 모델은 고해상도(336픽셀) 학습으로 평균 2.6% 더 높은 점수를 기록하였다. CLIP은 OCR, 지리 인식, 얼굴 감정 인식, 동작 인식 등 기존 단일 모델이 수행하지 못한 광범위한 작업에서도 성능을 보였다.

 

 

CLIP은 27개 데이터셋 중 21개에서 Noisy Student EfficientNet-L2를 능가했으며, 특히 언어 기반 추론이나 동사 개념이 포함된 작업에서 가장 큰 향상을 보였다. 그러나 ImageNet이나 CIFAR 계열의 저해상도 데이터에서는 효율적이지 않았다.

 

3.3. Robustness to Natural Distribution Shift

 

기존 딥러닝 모델은 새로운 분포에서 성능이 급격히 저하되는 문제가 있었다. CLIP은 ImageNet에 직접 훈련되지 않았으므로, 이러한 상관관계에 의존하지 않아 훨씬 높은 견고성을 보였다. 제로샷 CLIP은 모든 분포 변화 데이터셋에서 기존 모델보다 높은 효과적 견고성을 나타냈다.

ImageNet에 대해 감독 적응을 수행하면 정확도는 9.2% 향상되었지만, 분포 변화 데이터셋에서는 오히려 평균 정확도가 약간 하락하였다. CLIP은 제로샷 분류기를 각 데이터셋의 클래스 이름에 따라 맞춤화하여 평균 견고성을 5% 높일 수 있었다.

 

4. Comparison to Human Performance


Oxford-IIIT Pets 데이터셋을 이용한 인간 실험에서, 제로샷 인간은 54%, 1샷 학습 시 76%의 정확도를 달성하였다. CLIP은 제로샷 상황에서 유사한 수준의 성능을 보였으며, 이는 인간과 유사한 분류 난이도 분포를 보여준다. 다만, 인간은 불확실성을 인식하고 소수의 예시로 효율적으로 학습하지만, CLIP은 그렇지 못하다.

 

5. Data Overlap Analysis

대규모 웹 데이터셋에서는 의도치 않은 중복이 발생할 가능성이 존재한다. 본 연구는 데이터 중복을 감지하기 위한 합성 증강 파이프라인을 구축하여 분석하였다. 35개 데이터셋 중 9개는 중복이 없었으며, 평균 중복률은 3.2%에 불과했다. 중복으로 인한 정확도 변화는 대부분 0.1% 이하로 미미하였다.

 

6. Limitations

CLIP은 제로샷 성능이 인상적이지만, 세밀한 분류나 추상적 과제에서는 여전히 한계를 보인다. 전반적인 SOTA 성능에 도달하기 위해서는 약 1000배의 컴퓨팅 자원이 필요하며, 이는 현재 기술로는 불가능하다. 또한 CLIP은 Few-shot 학습에서 비효율적이며, 새로운 개념을 생성하는 능력이 부족하다. 모델은 대규모 데이터로 일반화를 유도하지만, 이는 근본적인 일반화 문제의 해결책은 아니다.

 

7. Broader Impacts

CLIP은 임의의 이미지 분류 작업을 수행할 수 있는 범용성을 지니며, 이미지 검색 등 다양한 응용 가능성을 가진다. 그러나 동시에 사회적 영향에 대한 신중한 평가가 필요하다. CLIP은 감시, 얼굴 인식, 정체성 인식 등 민감한 영역에 사용될 수 있으며, 사회적 편향을 학습할 위험이 있다. FairFace 데이터셋 평가 결과, 인종과 성별에 따른 분류 편향이 관찰되었다. 낮은 확률 임계값에서는 여성에게 ‘유모’, 남성에게 ‘죄수’ 등의 고정관념적 라벨이 나타났다. 이러한 결과는 클래스 설계가 모델 편향에 미치는 영향을 보여준다.

 

8. Related Work

자연어를 감독 신호로 사용하는 접근법은 오래전부터 존재하였으며, CLIP은 텍스트-이미지 검색 기반의 대조 학습을 발전시킨 형태이다. 이후 다양한 연구가 멀티모달 임베딩 학습을 발전시켰으며, CLIP은 이러한 흐름을 대규모 웹 데이터 수준으로 확장하였다.

 

9. Conclusion

본 연구는 NLP 분야에서의 대규모 사전 학습 성공을 컴퓨터 비전으로 확장할 수 있음을 보여주었다. CLIP은 자연어 감독을 활용하여 다양한 시각 개념을 학습하며, 제로샷 전이를 통해 광범위한 작업에 적용 가능함을 입증하였다. 충분한 규모에서 CLIP은 태스크별 감독 모델과 경쟁할 수 있으나, 향후 효율성 개선과 데이터 품질 향상을 위한 추가 연구가 필요하다.

'ML&DL > 논문리뷰' 카테고리의 다른 글

ResNet  (0) 2025.11.11
BLIP  (0) 2025.11.03
YOLO  (0) 2025.10.27
GoogLeNet  (0) 2025.10.27
VGGNet  (0) 2025.10.27
'ML&DL/논문리뷰' 카테고리의 다른 글
  • ResNet
  • BLIP
  • YOLO
  • GoogLeNet
minyoy
minyoy
  • minyoy
    MINYOY
    minyoy
  • 전체
    오늘
    어제
    • 분류 전체보기 (17)
      • ML&DL (16)
        • 논문리뷰 (16)
      • 알고리즘 (1)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.5
minyoy
CLIP
상단으로

티스토리툴바