CLIP
·
ML&DL/논문리뷰
AbstractSOTA CV 시스템은 미리 정의된 고정된 객체 범주를 예측하도록 훈련된다. 이러한 제한된 형태의 감독은 시스템의 일반성과 유용성을 제약하고, 새로운 시각적 개념을 인식하려면 추가적인 라벨링 데이터가 필요하다. 본 논문은 어떤 캡션이 어떤 이미지에 속하는지를 예측하는 단순한 사전 훈련 작업이 인터넷에서 수집한 4억 개의 (이미지, 텍스트) 쌍 데이터셋으로부터 최첨단 이미지 표현을 처음부터 학습할 수 있는 효율적이고 확장 가능한 방법임을 입증하였다. 사전 훈련이 완료된 후에는 자연어를 활용하여 학습된 시각적 개념을 참조하거나 새로운 개념을 설명함으로써 모델이 다양한 다운스트림 작업에 zero-shot transfer할 수 있도록 한다.*zero-shot transfer: 모델이 특정 훈련 데..