Abstract
V-JEPA는 입력 비디오의 일부만 관측한 뒤, 보이지 않는 영역의 표현을 feature space에서 직접 예측하도록 설계된 구조이다. 이를 통해 픽셀 단위의 재구성이 아닌 의미적이고 구조적인 정보를 중심으로 학습할 수 있도록 한다. 실험 결과, 제안한 방식은 다양한 비디오 및 이미지 downstream task에서 기존 방법들을 능가하는 성능을 보이며, 특히 적은 라벨 환경에서도 높은 효율성을 유지한다. 또한 학습 속도와 데이터 효율 측면에서도 강점을 보인다.
1. Introduction
기존의 self-supervised 비디오 학습은 주로 픽셀 복원이나 생성 기반 목표에 의존해왔으며, 이러한 방식은 입력의 저수준 세부 정보까지 함께 재현하도록 요구한다. 그러나 이러한 학습 목표는 의미적 구조보다는 불필요한 시각적 세부 정보까지 포함하게 되어, 표현의 일반화 측면에서 비효율적일 수 있다. 특히 시공간적 복잡성이 높은 비디오 데이터에서는 이러한 한계가 더욱 두드러진다. 이러한 문제의식에 기반하여, 본 연구는 픽셀 수준의 복원이 아닌 feature space에서의 예측을 중심으로 하는 V-JEPA(Video Joint Embedding Predictive Architecture)를 제안한다. 해당 구조는 입력의 일부 영역을 관측한 뒤, 비가시 영역에 대한 표현을 직접 예측하도록 설계되어 있으며, reconstruction이 아닌 semantic prediction을 학습 목표로 설정한다. 또한 이 접근은 생성 모델과 달리 다양한 가능한 미래를 단일한 정답으로 수렴시키지 않고, 표현 공간에서의 유연한 예측을 허용한다. 이를 통해 비디오 내 객체의 지속성, 동작의 일관성, 시공간적 관계와 같은 고수준 구조를 보다 효과적으로 반영할 수 있다.
3. Methodology: Video-JEPA
핵심 아이디어는 영상의 한 부분인 x를 보고, 다른 부분 y를 맞추도록 학습시키는 구조다. 여기서 중요한 건 y를 픽셀 단위로 복원하는 게 아니라, encoder가 만든 feature representation을 맞춘다는 점이다.

Figure 2를 보면, x는 x-encoder를 거쳐 representation으로 변환되고 predictor는 여기에 추가 정보 z(위치/변환 정보)를 함께 받아서 y의 representation을 예측한다. 한편 y는 별도의 y-encoder를 통해 target representation으로 만들어진다. 결국 학습은 predictor의 출력과 y의 representation이 가까워지도록 만드는 방향으로 진행된다.
3.1 Training Objective

Naive하게 보면, x로부터 y의 representation을 예측하고 둘 사이의 L1 distance를 줄이는 regression 문제처럼 보인다. 하지만 이 방식에서는 encoder가 모든 입력에 대해 동일한 constant representation을 출력하면 loss가 쉽게 최소화되는 trivial solution, representation collapse이 발생한다.

이를 해결하기 위해 I-JEPA와 동일하게 stop-gradient와 EMA(Exponential Moving Average) encoder를 사용한다. 구체적으로는 y의 representation에 대해 gradient가 역전파되지 않도록 stop-gradient를 적용하고, 동시에 y-encoder는 x-encoder의 EMA 버전으로 유지한다. 이때 EMA는 모멘텀을 크게 설정해 이전 가중치가 더 많이 반영되도록 하는데, 실제 학습에서는 0.998에서 시작해 점진적으로 1.0까지 증가한다. 이런 방식으로 predictor는 비교적 빠르게 업데이트되는 반면, encoder는 보다 안정적으로 유지되면서 representation collapse를 효과적으로 방지할 수 있다.

Figure 3는 실제 학습 과정을 보여준다. 영상을 spatio-temporal patch로 쪼개서 token sequence로 만든 뒤, 일부는 가리고(x), 나머지는 target(y)으로 둔다. x는 encoder를 거쳐 representation이 되고, 여기에 mask token과 위치 정보가 붙어서 predictor로 들어간다. predictor는 가려진 부분의 representation을 예측한다. 동시에 전체 영상은 y-encoder를 거쳐 target representation이 되고, 둘 사이의 L1 loss를 계산한다.
논문에서는 이 objective가 단순한 트릭이 아니라는 점을 이론적으로도 설명한다. L1 loss를 사용하는 경우, 최적의 predictor는 다음과 같이 조건부 median을 학습하게 된다. 이는 주어진 x의 representation에 대해 가능한 y들의 분포에서 중앙값에 해당하는 representation을 예측하는 방향으로 수렴한다는 의미이다.

이때 encoder의 관점에서 보면, 전체 loss는 다음과 같은 형태로 해석된다.

여기서 MAD는 median absolute deviation으로, 조건부 분포가 얼마나 퍼져 있는지를 나타내는 지표다. 이 관점에서 보면 encoder는 주어진 representation을 바탕으로 y의 분포 퍼짐이 작아지도록 만드는 방향으로 학습된다. 결국 representation이 충분한 정보를 담고 있어야 y의 가능한 경우의 수가 줄어들고 그만큼 loss도 낮출 수 있다. 반대로 representation이 충분한 정보를 담지않는다면 y의 분포가 넓어질 수밖에 없고 자연스럽게 loss를 줄이기 어려워진다. 이런 구조 덕분에 encoder는 모든 입력을 같은 값으로 보내는 collapse 상태로 가기보다는 더 많은 정보를 담는 방향으로 학습이 유도된다.
**Appendix B. Extended Description of V-JEPA

입력은 하나의 비디오 클립으로, 논문에서는 4프레임 간격으로 16프레임(약 2초 분량의 짧은 비디오 클립)을 사용한다. 이 프레임들을 그대로 넣는 대신, 2×16×16 크기의 3D convolution으로 임베딩을 만들고 positional embedding까지 더해 하나의 긴 토큰 시퀀스로 변환한다. 이후 전체 토큰 중 일부는 masking하고 나머지만 남긴다.
먼저 x-encoder는 남아 있는 토큰들(마스킹되지 않음)만 입력으로 받아 representation을 만든다. 그 다음 predictor는 이 representation에 더해, 어디가 가려졌는지를 나타내는 mask token을 함께 입력받는다. 이 mask token은 위치 정보를 포함한 learnable embedding이라, predictor가 어떤 부분을 채워야 하는지를 알 수 있게 해준다. 결과적으로 predictor는 가려진 부분의 representation을 예측하게 된다. 반면 target은 전체 영상을 그대로 y-encoder에 넣어 모든 토큰의 representation을 만든 뒤, 그중에서 가려졌던 위치에 해당하는 부분만 골라 사용한다. loss는 가려진 M개의 토큰에 대해 predictor의 출력과 y-encoder의 출력 사이의 L1 distance를 평균내는 방식으로 계산된다.
추가로 multi-mask 전략도 사용된다. 하나의 영상에 대해 여러 개의 mask를 샘플링해 학습을 진행하는데, x-encoder와 predictor는 마스크마다 각각 forward를 수행하는 반면, y-encoder는 한 번만 계산한다. 덕분에 계산량을 크게 늘리지 않으면서도 다양한 가려진 상황을 학습할 수 있다.
3.2 Prediction Task: Predicting y from x
y는 영상에서 몇 개의 공간적으로 이어진 블록을 뽑아서 만든다. 이 블록들은 서로 겹칠 수도 있고, 종횡비도 랜덤하게 바뀐다. 그리고 중요한 점은 이 블록을 특정 프레임에만 적용하는 게 아니라 시간 축 전체에 그대로 반복한다는 것이다. 한 번 선택된 영역은 모든 프레임에서 통째로 가려지며, x는 그 나머지 영역이다. 이렇게 설계한 이유는 영상의 특성 때문이다. 영상은 공간적으로도, 시간적으로도 정보가 많이 반복되기에 일부만 가리면 주변 정보를 이용해 쉽게 맞출 수 있다. 반면 이렇게 시간 전체를 덮는 블록을 가리면 단순한 보간으로는 해결이 어렵고, 장면의 구조나 움직임을 이해해야만 예측이 가능해진다.
마스킹은 두 가지를 섞어서 사용한다. 하나는 short-range로, 프레임 기준 약 15%를 가리는 작은 블록 8개를 합친 형태이고, 다른 하나는 long-range로, 약 70%를 덮는 큰 블록 2개를 사용하는 방식이다. 블록의 종횡비는 0.75~1.5 사이에서 랜덤하게 정해진다. 여러 블록을 합치는 구조라 최종적으로는 평균 약 90% 정도가 가려지며, 논문에서는 이를 multi-block masking이라고 부른다.
3.3 Network Parameterization
모델 구조는 전반적으로 ViT 기반이다. 영상은 2프레임×16×16 픽셀 단위의 spatio-temporal 패치로 나뉘고, 이 패치들이 토큰이 되어 transformer에 입력된다. 마스킹은 토큰 단위에서 단순히 일부를 제거하는 방식으로 적용된다. x-encoder에는 가려지지 않은 토큰만 입력되고, y-encoder에서는 전체 영상을 처리한 뒤 가려진 위치에 해당하는 토큰만 골라 target으로 사용한다.
predictor는 상대적으로 작은 transformer(12 blocks, embedding dim 384)로 구성되며, x-encoder의 출력에 더해 y의 위치 정보를 담은 mask token을 함께 입력받는다. 이 mask token은 위치 정보를 포함한 learnable embedding임으로, predictor는 이를 기반으로 가려진 각 위치에 대한 representation을 예측하게 된다.
3.4 Pretraining Data and Evaluation Setup
Pretraining 데이터는 여러 공개 데이터셋을 합쳐서 만든다. HowTo100M, Kinetics-400/600/700, Something-Something-v2를 통합하고, 평가 데이터와 겹치는 부분은 제거하여 최종적으로 약 200만 개 규모의 비디오를 만든다. 논문에서는 이를 VideoMix2M이라고 부른다. 모델은 ViT-L/16, ViT-H/16, 그리고 더 큰 해상도를 사용하는 ViT-H/16 (384 입력)으로 총 세 가지를 학습한다. 입력은 16프레임짜리 비디오 클립이고, 프레임 간격을 두고 샘플링해서 평균적으로 약 3초 정도 길이가 된다. 해상도는 기본 모델은 224, 큰 모델은 384를 사용한다. 배치 사이즈도 모델 크기에 맞게 다르게 설정되어 있다.
평가는 downstream task 기준으로 진행된다. 비디오 쪽에서는 VideoGLUE 일부를 사용해서 세 가지 능력을 본다. 먼저 Kinetics-400에서는 action recognition을 평가하는데, 주로 어떤 객체가 있는지같은 외형 기반 이해를 보는 지표다. Something-Something-v2에서는 motion classification을 평가하는데, 여기서는 움직임 자체를 얼마나 이해하는지를 주로 반영한다. AVA에서는 action localization을 통해, 영상 내에서 행동이 어디에서 발생하는지까지 정확히 잡아내는지를 본다. 추가로 이미지 태스크도 같이 평가한다. ImageNet으로 객체 인식, Places205로 장면 분류, iNaturalist로 fine-grained 분류를 테스트한다. 전체적으로 비디오에서만 잘 되는 모델이 아니라, 외형 이해, 시간적 이해, 위치 인식까지 고르게 잘 되는지를 확인하고자 했다.
4. What Matters for Learning Representations from Video?
해당 섹션에서는 비디오 표현 학습에서 어떤 설계 요소가 실제 성능에 영향을 주는지를 실험적으로 보여준다. 학습 목표와 데이터, 그리고 representation을 활용하는 방식이 더 중요하다는 점을 강조한다.
4.1 Predicting Representations versus Pixels
representation을 직접 예측하는 방식과 픽셀을 복원하는 방식을 비교한다. 기존의 video masked autoencoder 계열은 픽셀 단위 reconstruction을 목표로 하지만, V-JEPA는 feature space에서의 예측을 사용한다.

Table 1을 보면 동일한 모델 구조에서도 feature를 target으로 한 prediction이 더 좋은 결과를 낸다. Kinetics-400(K400)과 ImageNet(IN1K)에서 모두 개선된 것을 볼 수 있다. 이러한 차이는 학습 목표의 성격에서 비롯된다고 설명한다. 픽셀 복원은 입력의 모든 저수준 정보를 그대로 재현해야 하기 때문에 noise나 불필요한 디테일까지 학습하게 된다. 반면 feature prediction은 표현 공간에서 중요한 정보만 남기고 예측하도록 유도하기 때문에 더 추상적이고 일반화 가능한 representation을 만든다. 결과적으로 downstream task에서 더 잘 작동하는 것은 픽셀 수준의 정확한 복원이 아니라 의미적인 정보 보존이라는 점이 드러난다.
4.2 Pretraining Data Distribution

Table 2에서는 서로 다른 데이터 조합으로 학습했을 때의 성능을 비교한다. 데이터 규모가 커질수록 평균 성능이 상승하는 경향은 나타나지만, 특정 task에서는 특정 데이터가 유리한 결과를 만드는 것을 확인할 수 있다. 예를 들어 motion 중심 데이터인 Something-Something-v2(SSv2)가 포함되면 해당 task 성능이 크게 향상되고, appearance 중심의 Kinetics(K710)에서는 Kinetics 기반 데이터가 더 유리하다. 모든 데이터를 합친 VideoMix2M은 평균 성능에서는 가장 좋은 결과를 보이지만, 각 task별 최고 성능은 데이터 조합에 따라 달라진다. 이는 representation learning에서 단순히 데이터 양을 늘리는 것뿐 아니라 데이터의 성격을 어떻게 구성하느냐가 중요한 변수임을 보여준다. 다양한 데이터를 섞으면 범용성은 좋아지지만, 특정 task 최적화에는 오히려 제한이 생길 수 있다.
4.3 Evaluation: Attentive Probing
representation을 downstream task에 사용하는 방식 역시 큰 차이를 만든다. 기존에는 encoder의 출력을 평균 풀링한 뒤 linear classifier를 붙이는 방식이 일반적이었다. 하지만 이 논문에서는 cross-attention 기반의 attentive probing을 사용한다.

Appendix에 제시된 식에 따르면, learnable query token이 각 feature의 중요도를 계산하고 가중합 형태로 representation을 집계한다. 단순 평균이 아니라 중요한 부분을 선택적으로 읽어내는 구조다.

Table 3에서 Kinetics-400, Something-Something-v2에서 모두 average pooling 대비 성능이 매우 크게 상승하는 것을 볼 수 있다. 이는 representation learning은 encoder에서 끝나는 것이 아니라, 그 representation을 읽어내는 방식까지 포함된 문제라는 것을 보여주는 결과다.
4.4 Prediction Task: Predicting y from x
마지막으로 masking 전략에 대한 분석이 이어진다. 어떤 방식으로 입력을 가리고 예측하게 하느냐에 따라 학습되는 표현의 질이 크게 달라진다. 논문에서는 random-tube, causal multi-block, multi-block 세 가지 방식을 비교한다. random-tube는 시간 전체에 걸쳐 랜덤하게 패치를 제거하는 방식이고, causal 방식은 앞 프레임만 보고 뒤를 예측하는 구조이며, multi-block은 영상 전체에서 큰 연속 블록을 제거하는 방식이다.

Table 4를 보면 multi-block 방식이 가장 높은 성능을 보인다. random-tube는 구조를 지나치게 깨뜨려 semantic 정보를 유지하지 못하고, causal 방식은 사용할 수 있는 정보가 제한되어 표현 학습이 충분히 이루어지지 않는다. 반면 multi-block은 공간적 및 시간적 구조를 유지하면서도 큰 영역을 제거해 예측 난이도를 높인다.
5. Comparison with Prior Work
Section 5는 전체적으로 제안한 방법의 성능을 다양한 benchmark에서 비교한다.


Table 5를 기준으로 보면, V-JEPA는 ImageNet을 제외한 대부분의 downstream task에서 기존 픽셀 예측 기반 모델들보다 더 높은 성능을 보인다. Backbone을 고정한 상태에서도 우수한 결과를 유지한다는 점에서, representation 자체의 품질이 높다고 해석할 수 있다. fine-tuning에서도 최고 수준의 성능을 달성하며, Figure 4를 통해 더 적은 데이터와 학습량으로도 이러한 결과를 얻는다는 점이 확인된다. 이는 성능뿐 아니라 학습 효율 측면에서도 강점을 가진다는 것을 의미한다.


Table 6에서는 최신 비디오 및 이미지 모델들과의 비교 결과가 제시된다. V-JEPA는 기존 비디오 모델 대비 전반적으로 더 높은 성능을 보이며, Figure 5를 통해 학습 속도 또한 약 2배 수준으로 빠르다는 점이 확인할 수 있다. 이미지 모델과 비교할 경우, 시간적 변화 이해가 중요한 task에서는 뚜렷한 성능 우위를 보이고, 정적인 이미지 분류에서도 성능 격차를 상당 부분 줄인다. 이는 비디오 기반 학습이 시간 정보뿐 아니라 일반적인 시각 표현 학습에도 긍정적인 영향을 준다는 점을 시사한다.

5.3에서는 제한된 라벨 환경에서의 성능을 평가한다. Table 7을 보면 전체 데이터의 5% 또는 10% 수준의 라벨만을 사용하더라도 V-JEPA는 성능 저하가 상대적으로 작게 나타난다. 반면 기존 모델들은 라벨이 줄어들수록 성능 감소 폭이 크게 증가한다. 특히 라벨이 부족할수록 모델 간 성능 차이가 더 벌어지는 경향이 나타나며, 이는 V-JEPA가 적은 supervision 환경에서도 안정적으로 일반화 가능한 representation을 학습했음을 보여준다.
6. Evaluating the Predictor
Section 6에서는 V-JEPA의 predictor가 학습한 표현이 실제로 어떤 정보를 담고 있는지를 정성적으로 분석한다. 이는 feature space에서의 예측이 시각적으로 의미 있는 구조를 포함하고 있는지를 확인하는 과정이다.
이를 위해 encoder와 predictor를 고정한 상태에서, 예측된 feature를 다시 픽셀 공간으로 변환하는 conditional diffusion decoder를 별도로 학습한다. 이때 설정은 decoder가 마스킹되지 않은 원본 영상에 접근하지 못하고, 오직 predictor가 생성한 가려진 영역의 feature만을 입력으로 사용한다는 점이다. 따라서 복원 결과는 predictor가 학습한 표현만으로 얼마나 실제 장면을 재구성할 수 있는지를 직접적으로 반영한다.


Figure 6 (a)는 전체 구조를 나타내며, Figure 6 (b)는 동일한 입력에 대해 서로 다른 랜덤 시드를 사용해 생성된 복원 결과들을 보여준다. 여러 샘플에서 공통적으로 나타나는 시각적 요소들은 predictor가 안정적으로 포착한 정보로 해석할 수 있다. 사진을 확인해보면, V-JEPA의 예측은 공간적 및 시간적으로 일관된 구조를 유지한다. 객체의 위치와 움직임이 자연스럽게 이어지며, 동일한 장면에 대해 다양한 형태의 plausible한 결과를 생성한다. 이는 모델이 단일한 정답을 복원하는 것이 아니라, 가능한 여러 경우를 포함하는 분포적 표현을 학습했음을 시사한다. 또한 일부 결과에서는 물체가 부분적으로 가려진 이후에도 동일한 형태로 유지되는 양상이 나타나는데, 이는 object permanence와 같은 개념까지 일정 부분 반영하고 있음을 보여준다.
7. Conclusion
픽셀 복원이 아닌 feature space에서의 예측을 학습 목표로 설정하는 것이 보다 효과적인 표현 학습으로 이어진다는 점이 강조된다. 이는 저수준의 세부 정보를 그대로 재현하는 대신, 의미적이고 구조적인 정보를 중심으로 표현을 학습하도록 유도하는 접근으로 시공간적 관계가 중요한 비디오 데이터에서 특히 유리하게 작용한다. 또한 predictor를 통해 관측되지 않은 영역을 representation 수준에서 예측하는 구조는 단순한 재구성을 넘어, 장면의 구조와 동작을 내재적으로 모델링하도록 한다는 점에서 의의가 있다. 이러한 방식은 객체의 지속성이나 움직임의 일관성과 같은 고수준 개념을 자연스럽게 반영하는 표현 학습으로 이어질 수 있다. 한편, 본 접근은 여전히 대규모 데이터와 연산 자원에 대한 의존성을 가지며, feature 예측 결과의 해석 가능성 및 안정성 측면에서는 추가적인 분석과 개선이 요구된다. 향후 연구 방향으로는 predictor 구조의 정교화, 다양한 모달리티와의 통합, 그리고 보다 일반화된 형태의 world model로의 확장이 제시된다.
'ML&DL > 논문리뷰' 카테고리의 다른 글
| 3DGS: 3D Gaussian Splatting for Real-Time Radiance Field Rendering (0) | 2026.03.12 |
|---|---|
| NeRF: Representing Scenes asNeural Radiance Fields for View Synthesis (0) | 2026.03.11 |
| I-JEPA: Self-Supervised Learning from Images with aJoint-Embedding Predictive Architecture (0) | 2026.03.10 |
| MAE: Masked Autoencoders Are Scalable Vision Learners (0) | 2026.03.09 |
| SAM: Segment Anything (0) | 2026.03.09 |
