V-JEPA: Revisiting Feature Prediction for Learning VisualRepresentations from Video

·
ML&DL/논문리뷰
AbstractV-JEPA는 입력 비디오의 일부만 관측한 뒤, 보이지 않는 영역의 표현을 feature space에서 직접 예측하도록 설계된 구조이다. 이를 통해 픽셀 단위의 재구성이 아닌 의미적이고 구조적인 정보를 중심으로 학습할 수 있도록 한다. 실험 결과, 제안한 방식은 다양한 비디오 및 이미지 downstream task에서 기존 방법들을 능가하는 성능을 보이며, 특히 적은 라벨 환경에서도 높은 효율성을 유지한다. 또한 학습 속도와 데이터 효율 측면에서도 강점을 보인다. 1. Introduction기존의 self-supervised 비디오 학습은 주로 픽셀 복원이나 생성 기반 목표에 의존해왔으며, 이러한 방식은 입력의 저수준 세부 정보까지 함께 재현하도록 요구한다. 그러나 이러한 학습 목표는 의미..