V-JEPA 2: Self-Supervised Video Models EnableUnderstanding, Prediction and Planning
·
ML&DL/논문리뷰
Abstract이 연구는 대규모 비디오 기반 self-supervised 학습과 소량의 로봇 데이터를 결합해, 물리 세계를 이해하고 예측하며 행동까지 계획할 수 있는 world model을 구축한다. V-JEPA 2는 비디오 이해와 행동 예측에서 높은 성능을 달성하고, V-JEPA 2-AC는 추가 학습 없이도 로봇에서 pick-and-place와 같은 작업을 수행한다. 1. Introduction이 논문은 비디오 기반 self-supervised 학습을 통해 물리 세계를 이해하고, 미래를 예측하며, 행동까지 계획할 수 있는 world model을 구축하는 것을 목표로 한다. 기존 방법들은 주로 상태-행동 데이터와 보상에 의존하지만, 실제 로봇 상호작용 데이터는 제한적이어서 확장성이 떨어진다. 반면 이 연..