V-JEPA 2: Self-Supervised Video Models EnableUnderstanding, Prediction and Planning

Abstract

이 연구는 대규모 비디오 기반 self-supervised 학습과 소량의 로봇 데이터를 결합해, 물리 세계를 이해하고 예측하며 행동까지 계획할 수 있는 world model을 구축한다. V-JEPA 2는 비디오 이해와 행동 예측에서 높은 성능을 달성하고, V-JEPA 2-AC는 추가 학습 없이도 로봇에서 pick-and-place와 같은 작업을 수행한다.

1. Introduction

이 논문은 비디오 기반 self-supervised 학습을 통해 물리 세계를 이해하고, 미래를 예측하며, 행동까지 계획할 수 있는 world model을 구축하는 것을 목표로 한다. 기존 방법들은 주로 상태-행동 데이터와 보상에 의존하지만, 실제 로봇 상호작용 데이터는 제한적이어서 확장성이 떨어진다. 반면 이 연구는 인터넷 규모의 비디오를 활용해 이러한 한계를 해결한다.

핵심 접근은 JEPA 구조를 기반으로, 픽셀 생성이 아닌 representation 공간에서 미래를 예측하는 것이다. 이를 통해 불필요한 저수준 정보는 배제하고, 물체의 움직임과 같은 예측 가능한 구조만 학습한다.

전체 구조는 두 단계로 이루어진다. 먼저 대규모 비디오로 self-supervised pretraining을 수행해 representation을 학습하고, 이후 소량의 로봇 데이터로 action-conditioned world model(V-JEPA 2-AC)을 학습한다. 이 모델은 action과 상태를 입력으로 받아 다음 상태를 예측하며, planning에 활용된다.

결과적으로 V-JEPA 2는 다양한 비디오 이해(task)에서 높은 성능을 보이고 LLM과 결합 시 video QA에서도 성능을 달성하며, 미래 행동 예측에서도 기존 대비 향상된 성능을 보인다 또한 V-JEPA 2-AC는 약 62시간의 데이터만으로도, 새로운 환경에서 추가 학습 없이 grasp나 pick-and-place와 같은 로봇 작업을 수행할 수 있다.

2. V-JEPA 2: Scaling Self-Supervised Video Pretraining

2.1 Methodology

V-JEPA와 동일하게 입력 비디오에서 일부 패치를 masking한 후, encoder와 predictor를 통해 해당 영역의 representation을 예측하도록 학습한다. Encoder Eθ(·)는 마스킹된 입력 뷰 x를 representation으로 변환하고, predictor Pϕ(·)는 encoder 출력 Eθ(x)와 마스킹 위치를 나타내는 학습 가능한 토큰 Δy를 함께 입력받아 원래 비디오 y의 masked patch representation을 예측한다. 이때 target은 masked patch에 해당하는 부분이며, 학습은 stop-gradient와 EMA target encoder를 사용해 representation collapse를 방지하는 방식으로 이루어진다.

Encoder와 Predictor는 ViT 기반이며, 비디오는 2×16×16 크기의 tubelet 단위로 분할되어 입력된다. positional encoding은 기존 sin-cos 방식 대신 3D RoPE를 사용하며, temporal, height, width 축을 각각 독립적으로 인코딩한다. 이는 대형 모델에서 학습 안정성을 향상시키는 역할을 한다.

성능 향상의 핵심은 구조 자체보다 스케일링 전략에 있다. 데이터는 약 2백만 개 비디오에서 2천만 개로 확장되고, 모델은 1B 이상 파라미터까지 증가하며, 학습 iteration 또한 크게 늘어난다. 추가로 입력 해상도와 프레임 길이를 점진적으로 증가시키는 방식이 적용된다.

평가는 encoder를 고정한 상태에서 attentive probe를 학습하는 방식으로 이루어지며, Something-Something v2, Kinetics, ImageNet 등 다양한 데이터셋에서 representation의 일반화 성능을 측정한다.

**attentive probe은 4개의 트랜스포머 블록으로 이루어져있으며, 1~3번째 블록은 self-attention 레이어로, 4번째 블록은 cross-attention 레이어로 구성되어있다고 한다. 마지막은 linear classifier로 특정 task를 수행하기 위한 최종 결과값을 결정한다.

2.2 Scaling Self-Supervised Video Learning

저자들은 데이터, 모델 크기, 학습 시간, 입력 해상도 네 가지 요소를 독립적으로 확장하며 각각이 성능에 미치는 영향을 평가한다. Baseline model은 2M 비디오로 학습된 ViT-L/16 기반 V-JEPA이다. 네 가지 요소를 확장할수록 성능이 일관되게 향상되며, 각 요소는 서로 독립적으로 유의미한 기여를 한다. 이는 self-supervised 비디오 학습에서 스케일링이 핵심적인 성능 결정 요인임을 보여준다. 이러한 확장은 representation이 포착할 수 있는 시공간 정보의 범위와 정밀도를 동시에 증가시키며, 더 긴 temporal context와 높은 spatial resolution을 통해 비디오 내 동적 구조를 보다 정교하게 모델링할 수 있게 한다.

2.3 Pretraining Dataset

V-JEPA 2의 pretraining 데이터셋은 공개된 다양한 비디오 및 이미지 데이터 소스를 결합하여 구성된다. 이미지 데이터인 ImageNet은 시간 축으로 복제하여 동일 프레임이 반복된 16-frame 비디오 형태로 변환함으로써 비디오와 통합적으로 학습에 활용된다. 각 데이터 소스는 경험적으로 설정된 sampling weight에 따라 학습에 사용되며, 최종적으로 약 2,200만 개 샘플로 구성된 VideoMix22M 데이터셋이 구축된다.

대규모 데이터의 품질 문제를 해결하기 위해 YT-Temporal-1B에는 retrieval 기반의 정제 과정이 적용된다. 먼저 PySceneDetect로 영상을 장면 단위로 분할하고, 각 장면에서 DINOv2를 이용해 시각적 임베딩을 추출한 뒤 약 150만 개의 클러스터로 군집화한다. 이후 Kinetics, Something-Something v2, COIN, Epic-Kitchens 등 고품질 타겟 데이터와 매칭하여, 타겟 데이터가 포함된 약 21만 개의 클러스터만을 유지하고 나머지는 제거한다. 마지막으로 가중치 기반 샘플링을 통해 데이터 분포를 재조정함으로써, 노이즈를 줄이면서도 타겟 분포에 정렬된 데이터셋을 구축한다.

이러한 정제된 YT1B 데이터는 기존 비정제 데이터 대비 유의미한 성능 개선을 보인다. 이는 데이터 규모와 다양성, 그리고 품질이 함께 고려될 때 self-supervised 비디오 표현 학습의 성능이 극대화된다는 점을 보여준다.

2.4 Pretraining Recipe

모델 크기를 300M에서 1B 파라미터까지 확장하며, 더 큰 모델일수록 시공간 정보를 표현하는 능력이 향상되고 motion 및 appearance 이해 모두에서 성능 개선이 나타난다. 이는 self-supervised 비디오 학습이 대규모 모델에서도 효과적으로 확장 가능함을 보여준다.

학습 스케줄은 warmup–constant–decay 구조를 사용한다. 초기에는 짧은 warmup 이후 일정한 learning rate를 유지하며 충분히 학습을 진행하고, 이후 decay 단계에서 learning rate를 점진적으로 감소시킨다. 이 방식은 장시간 학습을 안정적으로 수행할 수 있도록 하며 다양한 해상도와 시퀀스 길이를 점진적으로 확장하는 데 유리하다.

이를 기반으로 제안된 전략이 progressive resolution training이다. 학습 초반에는 짧은 프레임 길이와 낮은 해상도의 비디오를 사용하여 계산 비용을 절감하고, 후반부 decay 단계에서 프레임 수와 해상도를 증가시킨다. 이를 통해 전체 학습 비용을 크게 증가시키지 않으면서도 긴 temporal context와 높은 spatial resolution을 처리할 수 있는 모델을 학습할 수 있다. 실제로 전체 학습 과정에서 고해상도 입력을 사용하는 비율을 제한함으로써 계산 효율을 유지하면서도 성능 향상을 달성한다.

또한 비디오 길이와 해상도의 확장은 단순히 입력 크기를 키우는 것을 넘어 representation이 더 긴 시간적 의존성과 더 정밀한 공간 정보를 학습하도록 만든다. pretraining 과정에서 더 긴 클립을 사용하는 것만으로도 평가 시 동일한 짧은 클립을 사용하더라도 성능이 향상되는 효과가 나타난다.

3. V-JEPA 2-AC: Learning an Action-Conditioned World Model

3.1 Action-Conditioned World Model Training

앞선 pretraining 단계에서 학습된 V-JEPA 2는 비디오의 구조를 이해하고 미래를 예측할 수 있지만, 행동의 영향을 직접적으로 반영하지는 못한다. 따라서 실제 로봇과 같은 embodied agent에서 활용하기 위해서는 행동을 했을 때 미래 상태가 어떻게 변하는지를 학습하는 추가 단계가 필요하다. V-JEPA 2-AC는 이 점을 해결하기 위해, action과 상태를 조건으로 미래 representation을 예측하는 world model로 설계된다.

해당 그림은 이 과정을 보여준다. pretraining이 끝난 후 encoder는 고정(frozen)되고, 새로운 predictor가 추가된다. 이 predictor는 과거 비디오 프레임의 representation과 함께 로봇의 행동(action) 및 상태(pose)를 입력으로 받아 다음 시점의 representation을 예측한다.

학습 데이터는 Droid 데이터셋을 사용하며, 약 62시간 분량의 로봇 조작 영상으로 구성된다. 각 데이터는 비디오 프레임과 함께 해당 시점의 로봇 팔 위치, 방향, 그리퍼 상태를 포함한 pose 정보를 포함한다. 모델 입력은 일정 길이의 비디오 클립(예: 16프레임)이며 각 프레임은 encoder를 통해 representation으로 변환된다. 동시에 action은 연속된 두 프레임 사이에서 로봇 pose가 어떻게 변했는지를 나타내며, pose와 함께 predictor의 입력으로 사용된다.

모델은 autoregressive 방식으로 동작한다. 현재까지의 pose와 action을 바탕으로 다음 시점의 representation을 예측하고, 이를 반복적으로 이어가며 미래를 예측할 수 있다. 이를 학습하기 위해 두 가지 loss가 사용된다. 첫 번째는 teacher-forcing loss로 실제 representation을 기준으로 다음 시점을 rollout(모델의 예측을 반복적으로 이어서 미래를 여러 단계까지 전개하는 과정)하도록 학습한다. 식은 다음과 같다.

여기서 z_{k+1}는 실제 프레임의 representation, ẑ_{k+1}는 predictor가 예측한 representation이다. 이 loss는 한 step씩 정확하게 예측하는 능력을 학습시킨다.

두 번째는 rollout loss로 여러 step을 연속적으로 예측하는 능력을 강화하기 위한 것이다.

이 loss는 모델이 자신의 예측을 다시 입력으로 사용하면서도 오류가 누적되지 않도록 만든다. 최종 학습 목표는 두 loss를 합친 형태이다.

Figure 6은 teacher forcing과 rollout의 차이를 보여주며, 두 방식의 차이는 예측기의 입력으로 실제 representation을 사용하는지 아니면 모델이 예측한 값을 사용하는지에 있다. Teacher forcing은 각 step마다 실제 representation(zₖ)을 입력으로 사용해 다음 상태를 예측하고, rollout은 초기 이후부터는 모델이 예측한 값(ẑ)을 다시 입력으로 사용해 여러 step을 연속적으로 예측한다.

predictor Pϕ는 transformer로 구성되며, action, pose, 비디오 feature를 각각 별도의 learnable affine transformation을 통해 동일한 hidden dimension으로 변환한 뒤 함께 처리한다. learnable affine transformation은 서로 다른 형태의 입력을 공통된 표현 공간으로 정렬하기 위한 학습 과정에서 가중치와 bias가 업데이트되는 선형 변환이다. 더하여 위치 정보는 3D-RoPE로 인코딩되며, attention은 block-causal 구조를 사용한다. Block-causal 구조는 각 시점의 feature가 현재 시점과 이전 시점의 정보에는 접근할 수 있지만, 미래 시점의 정보에는 접근하지 못하도록 제한하는 방식이다.

3.2 Inferring Actions by Planning

Figure 7은 planning 과정을 보여준다. 현재 상태와 목표 이미지가 주어지면, 모델은 길이 T의 action sequence를 생성하고 이를 통해 미래 representation을 예측한다. 이후 예측된 결과와 목표 representation 간 차이를 최소화하는 action을 선택한다.

Figure 7은 모델이 어떤 행동을 해야 목표 상태에 가까워질지를 찾는 과정(planning)을 보여준다. 현재 상태와 목표 이미지가 주어지면, 모델은 먼저 여러 개의 action sequence 후보를 만든다. 각 후보는 앞으로 T step 동안 로봇이 취할 수 있는 행동들의 조합이며, 이후 각 action sequence에 대해 모델은 이 행동들을 하면 미래가 어떻게 될지를 내부적으로 rollout해서 미래 representation을 예측한다. 그 다음 예측된 미래 상태가 목표 상태와 얼마나 가까운지를 비교한다. 이때 두 representation 사이의 차이를 계산하고, 그 값이 가장 작은 action sequence를 선택한다.

하지만 이 action sequence 전체는 한 번에 실행하지 않고, 실제로는 그중 첫 번째 action만 수행하고 새로운 상태를 다시 관측한 뒤 같은 과정을 반복한다. 이렇게 하면 매 순간 최신 상태를 반영해 다시 계획을 세울 수 있어서 중간에 예측이 틀어져도 계속 보정할 수 있다.

4. Planning: Zero-shot Robot Control

single-goal reaching은 목표 이미지 하나만을 기준으로 로봇 end-effector를 해당 위치로 이동시키는 작업이다. 실험 결과 모델은 목표 위치와의 거리를 지속적으로 줄이며 최종적으로 4cm 이내까지 도달한다. 이는 단일 RGB 이미지만으로도 3D 공간과 행동을 이해하고 제어할 수 있음을 보여준다.

Figure 9는 action에 따른 energy 값을 시각화한 것으로, 실제 정답 action 근처에서 energy가 최소가 되는 것을 보여준다. 이는 모델이 행동의 결과를 제대로 학습했음을 의미한다. 또한 energy landscape가 비교적 부드럽고 국소적으로 convex한 형태를 가져, planning이 안정적으로 수행될 수 있음을 보여준다.

prehensile manipulation은 로봇이 물체를 잡고 옮기고 놓는(pick-and-place) 등 gripper를 활용해 물체를 조작하는 작업을 의미한다. 본 실험에서는 grasp, reach with object, pick-and-place와 같은 작업을 평가하며, 모델은 목표 이미지(또는 단계별 sub-goal 이미지)를 기반으로 행동을 생성한다. Figure 10은 이러한 pick-and-place 과정에서 실제 로봇이 단계적으로 물체를 집고 목표 위치로 옮기는 수행 예시를 보여준다.

실험 결과 모든 모델이 단순 reach 작업에서는 높은 성공률을 보이지만, 객체를 다루는 작업에서는 성능 차이가 크게 나타난다. 이는 물체의 형태와 조작 난이도에 따라 정밀한 action과 물리적 상호작용 이해가 요구되기 때문이다. 그럼에도 V-JEPA 2-AC는 Octo와 Cosmos를 포함한 모든 baseline 대비 가장 높은 성공률을 기록한다. 특히 diffusion 기반 모델인 Cosmos와 비교했을 때, V-JEPA 2-AC는 효율성에서도 큰 차이를 보인다. Cosmos는 action 하나를 계산하는 데 약 4분이 소요되는 반면, V-JEPA 2-AC는 약 16초로 훨씬 빠르게 planning이 가능하며 실제 로봇 제어에 더 적합한 방법임을 보여준다.

4.3은 V-JEPA 2-AC의 한계를 세 가지로 정리한다.

(1) 카메라 위치에 민감하다. 모델은 별도의 카메라 보정 없이 영상만으로 좌표계를 추정해야 하기 때문에, 로봇 기준 좌표를 정확히 파악하지 못하면 예측 오류가 발생한다.

(2) 긴 horizon planning이 어렵다. autoregressive 구조 특성상 예측을 반복할수록 오차가 누적되고, action sequence가 길어질수록 탐색 공간이 기하급수적으로 증가해 계산이 어려워진다.

(3) 목표가 이미지에 의존한다. 현재는 목표를 이미지로만 정의하는데, 실제 환경에서는 언어와 같은 다른 형태의 목표 표현이 필요하다.

9. Conclusion

이 연구는 대규모 비디오 데이터와 소량의 로봇 데이터를 이용한 self-supervised 학습만으로, 물리 세계를 이해하고 예측하며 행동까지 계획할 수 있는 world model을 구축할 수 있음을 보여준다. V-JEPA 2는 action classification과 action anticipation에서 높은 성능을 보이며, LLM과 결합 시 video QA에서도 기존 방법보다 우수한 성능을 달성한다. 또한 이를 기반으로 학습된 V-JEPA 2-AC는 추가 학습 없이도 실제 로봇에서 pick-and-place와 같은 작업을 수행할 수 있다.

한계와 향후 과제는 세 가지로 정리된다. 첫째, 현재는 비교적 짧은 시간 범위의 예측만 가능하며, 더 복잡한 장기 작업을 위해서는 계층적 모델 등 추가적인 구조가 필요하다. 둘째, 목표가 이미지에 의존하고 있어, 언어 기반 목표로 확장하는 연구가 필요하다. 셋째, 모델 스케일을 더 크게 확장했을 때의 성능 향상을 위한 학습 전략이 추가로 필요하다.

'ML&DL > 논문리뷰' 카테고리의 다른 글

V-JEPA: Revisiting Feature Prediction for Learning VisualRepresentations from Video (0)	2026.03.20
3DGS: 3D Gaussian Splatting for Real-Time Radiance Field Rendering (0)	2026.03.12
NeRF: Representing Scenes asNeural Radiance Fields for View Synthesis (0)	2026.03.11
I-JEPA: Self-Supervised Learning from Images with aJoint-Embedding Predictive Architecture (0)	2026.03.10
MAE: Masked Autoencoders Are Scalable Vision Learners (0)	2026.03.09

Abstract

1. Introduction

2. V-JEPA 2: Scaling Self-Supervised Video Pretraining

2.1 Methodology

2.2 Scaling Self-Supervised Video Learning

2.3 Pretraining Dataset

2.4 Pretraining Recipe

3. V-JEPA 2-AC: Learning an Action-Conditioned World Model

3.1 Action-Conditioned World Model Training

3.2 Inferring Actions by Planning

4. Planning: Zero-shot Robot Control

9. Conclusion

'ML&DL > 논문리뷰' 카테고리의 다른 글

티스토리툴바