BLIP
·
ML&DL/논문리뷰
Abstract기존의 VLP 모델들은 주로 이해 기반 또는 생성 기반 작업 중 한 분야에서만 뛰어났고, 성능 향상은 노이즈가 많은 웹 이미지-텍스트 쌍 데이터셋을 확장하는 방식으로 이루어졌다. 하지만 이는 최적의 감독 소스가 아니었다. 본 논문에서는 이러한 한계를 극복하기 위해 BLIP이라는 새로운 프레임워크를 제안한다. BLIP은 시각/언어 이해 및 생성 작업 모두에 유연하게 전이될 수 있다. 캡션 부트스트래핑(bootstrapping the captions) 방식을 통해 노이즈가 많은 웹 데이터를 효과적으로 활용하며, 이 과정에서 캡셔너(captioner)가 합성 캡션을 생성하고, 필터(filter)가 노이즈 있는 캡션을 제거한다. BLIP은 이미지-텍스트 검색, 이미지 캡셔닝, 시각 질문 응답(VQ..