Abstract
이 논문은 Masked Autoencoder(MAE)가 컴퓨터 비전에서 확장성이 높은 self-supervised 학습 방법임을 보여준다. MAE의 기본 아이디어는 입력 이미지의 일부 패치를 무작위로 가리고, 가려진 픽셀을 복원하는 방식으로 표현을 학습하는 것이다.
MAE는 두 가지 핵심 설계를 기반으로 한다. 첫째, 비대칭 encoder–decoder 구조를 사용한다. encoder는 마스크된 토큰을 포함하지 않고 보이는 패치만 처리하며, 이후 경량 decoder가 latent representation과 mask token을 이용해 원래 이미지를 복원한다. 둘째, 입력 이미지의 약 75%와 같은 높은 비율로 패치를 마스킹하여 학습 과제를 더 의미 있고 어려운 self-supervised 문제로 만든다.
이 두 설계를 결합하면 대형 모델을 효율적으로 학습할 수 있으며 학습 속도도 크게 향상된다. 실제로 MAE는 기존 방법보다 3배 이상 빠른 학습 속도를 보이면서 정확도도 향상된다. 또한 이 방법은 대규모 모델로 확장될수록 성능이 지속적으로 개선되는 특성을 보이며, 예를 들어 ViT-Huge 모델은 ImageNet-1K만 사용하고도 87.8%의 최고 정확도를 달성하였다. 더 나아가 다양한 downstream task에서도 supervised pre-training보다 더 좋은 transfer 성능을 보여준다.
Introduction
최근 딥러닝 모델은 점점 더 대규모로 발전하고 있지만, 그만큼 많은 라벨 데이터가 필요해지고 있다. 반면 NLP에서는 GPT나 BERT와 같은 self-supervised pretraining이 이러한 한계를 크게 완화해 왔고, 저자들은 이러한 흐름을 컴퓨터 비전으로 확장하고자 한다.
다만 이미지는 언어와는 다른 특성을 가진다. 먼저 과거 비전에서 주로 사용되던 CNN은 입력 전체를 정규 격자 형태로 처리하며 특징을 추출했기 때문에, 일부 영역을 가리더라도 이를 계산에서 완전히 제외하기 어려웠다. 이런 구조에서는 입력을 토큰 단위로 나누고 일부만 선택적으로 복원하는 masked modeling을 자연스럽게 설계하기 쉽지 않았다. 반면 ViT는 이미지를 patch token들의 집합으로 변환해 처리하므로 가려진 patch를 제거하고 보이는 patch만 encoder에 입력하는 구성을 훨씬 직접적으로 구현할 수 있다.
또 하나의 차이는 이미지가 가진 높은 공간적 중복성이다. 언어는 몇 개의 단어만 가려도 문맥을 이해해야 하지만, 이미지는 일부 영역만 가려서는 주변 정보만으로도 비교적 쉽게 복원할 수 있다. 그래서 비전에서 masked autoencoding이 의미 있는 학습 과제가 되기 위해서는, 적은 비율이 아니라 오히려 상당히 높은 비율로 patch를 가려야 한다. 그래야 단순히 비어 있는 부분을 메우는 수준을 넘어, 객체와 장면 전체를 이해하는 표현 학습으로 이어질 수 있다.

위 복원 예시를 보면 patch를 많이 가린 상황에서도 이미지의 전체 윤곽과 핵심 구조를 꽤 잘 복원하는 모습을 확인할 수 있다.
또한 논문은 비전에서는 decoder의 역할이 특히 중요하다고 본다. 언어에서는 decoder가 단어를 예측하지만, 이미지에서는 픽셀 자체를 복원해야 하기 때문에 훨씬 더 저수준의 출력을 다루게 된다. 그래서 decoder는 최종적으로 어떤 representation이 만들어질지를 좌우하는 중요한 요소가 된다.
**비전에선 훨씬 더 저수준의 출력을 다루는데 왜 decoder의 역할이 중요해지는지 의문이 들었다.
지피티의 답변으로는
"언어에서는 예측 대상 자체가 이미 의미 있는 출력 단위이지만, 이미지에서는 객체나 장면을 이해한 뒤에도 그것을 픽셀 수준으로 다시 복원해야 한다. 따라서 비전의 decoder는 단순히 결과를 내는 모듈이 아니라, 의미 정보를 실제 이미지 형태로 풀어내는 추가적인 역할까지 담당한다."
라고 한다. 추가적인 복원 과정을 거쳐야해서 decoder가 더 중요해지는 것같다.

이런 문제의식에서 출발한 MAE는 입력 이미지를 patch 단위로 나눈 뒤 대부분을 가리고 보이는 patch만 encoder에 넣어 처리한다. 그리고 작은 decoder가 encoder 출력과 mask token을 이용해 원래 이미지를 복원한다. Figure 1은 이 구조를 보여주며, pre-training에서는 decoder까지 포함해 복원을 수행하고, 실제 downstream task에서는 decoder를 떼어내고 encoder만 사용한다.
Related Work
BERT나 GPT와 같은 self-supervised pretraining 모델은 입력의 일부를 가리고 이를 예측하도록 학습하는 masked modeling 방식을 사용하며, 대규모 데이터에서도 잘 확장되고 다양한 downstream task에서 좋은 성능을 보여 왔다.
autoencoder는 입력을 encoder로 압축한 뒤 decoder로 다시 복원하는 구조이며, denoising autoencoder는 입력을 일부 손상시키거나 노이즈를 추가한 뒤 원본을 복원하도록 학습한다. 이미지의 일부 영역을 가리거나 입력을 훼손한 뒤 복원하도록 학습하는 방식 역시 이러한 접근과 맥락을 같이 한다. MAE 역시 입력 이미지의 상당 부분을 가린 뒤 이를 복원하도록 학습한다는 점에서 denoising autoencoder 계열과 연결된다.
비전 분야에서도 masked prediction을 활용한 연구들이 이어져 왔다. Context Encoder는 이미지의 큰 결손 영역을 CNN을 이용해 복원하는 inpainting 방식의 접근이었고, 이후 Transformer 기반 모델이 등장하면서 masked modeling을 활용한 방법들이 제안되었다. iGPT는 이미지를 픽셀 시퀀스로 변환해 가려진 픽셀을 예측하는 방식을 사용했으며, BEiT는 픽셀 대신 discrete tokens을 예측하는 접근을 사용했다. MAE 역시 이러한 masked modeling 문제 설정과 연결되지만, 픽셀 자체를 직접 복원하는 방식이라는 점에서 차이를 가진다.
또 다른 관련 흐름으로 contrastive learning 기반의 self-supervised learning이 있다. SimCLR이나 MoCo와 같은 방법들은 서로 다른 view 사이의 유사성을 학습하는 방식으로 널리 사용되어 왔다. 이에 비해 MAE는 이미지 복원을 학습 목표로 하는 autoencoding 계열의 self-supervised learning 방법에 속한다.
Approach

핵심 아이디어는 입력 이미지를 겹치지 않는 작은 patch들로 나눈 뒤, 그중 일부만 남기고 나머지를 가린 상태에서 원래 이미지를 다시 복원하도록 학습하는 것이다. 다만 MAE가 기존 autoencoder와 다른 점은 비대칭 encoder-decoder 구조를 사용한다는 데 있다. encoder는 보이는 patch만 입력받아 표현을 만들고, decoder는 그 표현과 mask token을 이용해 전체 이미지를 복원한다. 이 전체 흐름은 Figure 1에 나타난다.
마스킹 방식도 단순하다. 이미지를 patch로 나눈 뒤 일부만 무작위로 남기고 나머지는 제거하는데, 여기서 중요한 것은 가리는 비율이 매우 높다는 점이다. 논문은 이미지가 공간적으로 중복성이 큰 데이터이기 때문에, 조금만 가려서는 주변 정보만으로도 쉽게 복원이 가능하다고 본다. 그래서 모델이 단순히 빈 부분을 메우는 데 그치지 않고, 장면의 구조나 객체 수준의 의미를 이해하도록 만들기 위해 상당히 높은 masking ratio를 사용한다. 또 patch는 균일한 무작위 방식으로 선택해 특정 위치나 중심부에 편향이 생기지 않도록 했다.
encoder는 ViT를 기반으로 한다. 다만 일반적인 ViT처럼 모든 patch를 처리하는 것이 아니라, 마스킹 이후 남은 visible patch만 입력으로 받는다. 각 patch는 ViT와 동일하게 선형 projection과 positional embedding을 거쳐 Transformer block으로 들어가며, 가려진 patch는 encoder 단계에서 아예 제외된다. 즉, encoder는 이미지 전체가 아니라 일부 patch만 보고 표현을 학습하게 된다. 이런 설계 덕분에 계산량과 메모리 사용량을 크게 줄일 수 있고, 더 큰 규모의 모델도 비교적 효율적으로 학습할 수 있다.
decoder는 다시 전체 patch 단위를 기준으로 복원을 수행한다. 여기에는 encoder가 만든 visible patch의 표현과, 가려진 위치를 채우기 위한 mask token이 함께 들어간다. 이후 각 token에 positional embedding을 더해 원래 이미지 내 위치 정보를 반영한다. decoder 역시 Transformer block으로 구성되지만, encoder보다 훨씬 작고 가볍다. 논문은 decoder가 pre-training 단계에서 복원만 담당하면 되기 때문에, downstream task에 사용될 encoder와는 별도로 비교적 자유롭게 설계할 수 있다고 설명한다. 실제 기본 설정에서도 decoder는 encoder보다 훨씬 얕으며, token당 계산량도 매우 작은 편이다.
복원 목표는 decoder는 가려진 각 patch의 픽셀값을 예측하고, 이를 이어 붙여 전체 이미지를 복원한다. 학습에는 복원된 이미지와 원본 이미지 사이의 픽셀 단위 MSE를 사용하며, 손실은 전체 patch가 아니라 masked patch에 대해서만 계산한다. 이는 이미 보이는 부분까지 함께 맞추도록 하면 학습 효과가 오히려 떨어질 수 있기 때문이다. 논문은 또한 각 patch의 픽셀값을 정규화한 뒤 이를 복원 대상으로 사용하는 변형도 함께 다룬다.
구현도 생각보다 복잡하지 않다. 모든 patch를 token으로 만든 뒤 무작위로 섞고, masking ratio에 맞춰 일부만 남겨 encoder 입력으로 사용한다. 이후 encoder 출력을 얻으면 mask token을 다시 붙이고, 원래 patch 순서에 맞게 되돌린 다음 decoder에 넣는다. 이런 방식은 별도의 복잡한 sparse 연산 없이도 구현할 수 있고, shuffle과 unshuffle만으로 비교적 효율적으로 동작한다.
ImageNet Experiments
MAE는 ImageNet-1K 데이터셋으로 self-supervised pre-training을 수행한 뒤, 학습된 표현을 linear probing과 end-to-end fine-tuning 방식으로 평가한다. 먼저 linear probing은 사전 학습된 encoder의 가중치를 모두 고정한 상태에서 그 위에 단순한 linear classifier만 추가로 학습하는 방식이다. 이 방법은 encoder 자체가 얼마나 좋은 representation을 학습했는지를 평가하는 데 목적이 있다. 반면 end-to-end fine-tuning은 사전 학습된 encoder를 초기값으로 사용하되, 모델의 모든 파라미터를 함께 업데이트하면서 학습하는 방식이다. encoder와 classifier가 모두 학습되며 모델 전체가 새로운 task에 맞게 조정된다. 이 방법은 특정 다운스트림 작업에서 얻을 수 있는 최종 성능을 측정하는 데 목적이 있다.

실험에서는 ViT-Large(ViT-L/16)를 backbone으로 사용하였다. ViT-L은 매우 큰 모델이기 때문에 scratch(아무 사전 학습 없이 모델을 처음부터 학습)로 학습하면 과적합이 쉽게 발생하며 안정적으로 학습하기도 어렵다. 실제로 scratch 학습에서는 82.5% 정확도를 얻었지만, MAE로 사전 학습한 뒤 fine-tuning을 수행하면 84.9%까지 성능이 향상된다. 또한 scratch 학습이 200 epoch이 필요한 반면 MAE fine-tuning은 50 epoch만으로 높은 성능을 얻을 수 있어 pre-training이 표현 학습에 중요한 역할을 한다는 것을 보여준다.

MAE의 중요한 특징 중 하나는 매우 높은 masking ratio를 사용한다는 점이다. 실험 결과 약 75%의 패치를 가리는 설정이 가장 좋은 성능을 보였다. 이는 BERT에서 일반적으로 사용하는 15% masking이나 기존 컴퓨터 비전의 masked modeling(20~50%)보다 훨씬 높은 수준이다. 높은 비율로 패치를 가려도 모델은 단순히 텍스처를 보간하는 것이 아니라 객체와 장면의 전체 구조를 이해하며 가려진 영역을 추론한다. Linear probing에서는 masking ratio가 높아질수록 성능이 크게 향상되며 최대 약 20%의 정확도 차이가 나타난다. 반면 fine-tuning에서는 masking ratio에 대한 민감도가 낮아 40~80% 범위에서 모두 안정적인 성능을 보인다.

Decoder의 깊이는 linear probing 성능에 영향을 주는데, 이는 autoencoder 구조에서 마지막 층들이 주로 복원에 특화되기 때문이다. 충분히 깊은 decoder가 복원 작업을 담당하면 encoder의 latent representation이 더 추상적인 특징을 유지할 수 있어 linear probing 성능이 최대 8%까지 향상된다. 그러나 fine-tuning을 사용하는 경우에는 encoder의 마지막 층이 인식 작업에 맞게 조정되기 때문에 decoder 깊이의 영향이 상대적으로 작다. 실제로 Transformer block이 하나뿐인 매우 작은 decoder도 fine-tuning에서는 거의 동일한 성능을 보이며 학습 속도를 더 빠르게 만든다. 기본 설정에서는 8개의 block과 512차원의 폭을 가진 lightweight decoder를 사용하며, 이는 ViT-L encoder 대비 token당 약 9% 수준의 연산량만을 필요로 한다.


또 다른 중요한 설계는 encoder에서 mask token을 사용하지 않는 것이다. 기존 방식에서는 encoder 입력에 mask token을 포함하지만, MAE에서는 visible patch만 encoder에 입력하고 mask token은 decoder 단계에서 추가한다. encoder에 mask token을 넣으면 pre-training 단계에서는 많은 mask token을 보지만 실제 추론 시에는 존재하지 않는 입력을 학습하게 되어 성능이 저하된다. 실험에서도 mask token을 encoder에 포함하면 linear probing 정확도가 약 14% 감소하는 것으로 나타났다. 또한 encoder에서 mask token을 제거하면 연산량도 크게 줄어들어 전체 학습 FLOPs가 약 3.3배 감소하고 실제 학습 속도도 약 2.8배 빨라진다. 높은 masking ratio로 인해 self-attention 계산량이 줄어드는 효과까지 더해져 메모리 사용량 역시 크게 감소하며, 결과적으로 더 큰 모델을 효율적으로 학습할 수 있다.

다음으로 본 논문은 reconstruction target에 대한 비교 실험을 수행하였다. 기본 설정은 patch의 pixel 값을 그대로 복원하는 방식인데, patch 단위로 정규화를 적용한 pixel을 reconstruction target으로 사용할 경우 정확도가 더 향상되는 것으로 나타났다. 이는 patch 내부의 local contrast를 강화하기 때문이다. 반면 patch 공간에서 PCA를 수행해 상위 PCA coefficient를 reconstruction target으로 사용하는 방법은 성능이 오히려 감소하였다. 이러한 결과는 MAE가 high-frequency 정보를 활용하는 것이 중요하다는 것을 보여준다. 또한 BEiT 방식처럼 token을 예측하는 MAE 변형 모델도 비교하였다. 이 경우 DALLE에서 학습된 dVAE tokenizer를 사용하여 이미지를 discrete token으로 변환하고, decoder가 token index를 예측하도록 학습한다. 이 방식은 unnormalized pixel 대비 fine-tuning 정확도를 약 0.4% 향상시키지만, 정규화된 pixel 방식보다 이점은 없었으며 linear probing 성능은 오히려 감소하였다. 또한 tokenization 방식은 추가적인 pre-training 단계와 대규모 데이터가 필요하며 계산 비용도 크다. 따라서 pixel 기반 MAE가 더 단순하고 효율적인 방법이다.

다음으로 data augmentation의 영향을 분석하였다. MAE는 cropping 기반 augmentation만으로도 충분히 잘 동작하며 random crop 또는 fixed-size crop에 horizontal flipping 정도만 사용해도 높은 성능을 얻는다. 반면 color jittering을 추가하면 오히려 성능이 감소하였다. MAE는 data augmentation이 거의 없어도 안정적으로 학습되는 특징을 보인다. 이는 contrastive learning 방식과 큰 차이인데, contrastive 방법들은 강한 augmentation에 크게 의존한다. MAE에서는 random masking 자체가 새로운 학습 샘플을 생성하는 역할을 하므로 별도의 augmentation이 크게 필요하지 않다고 언급했다.


또한 mask sampling 전략도 비교하였다. BEiT에서 사용한 block-wise masking은 큰 영역을 한 번에 가리기 때문에 reconstruction이 더 어렵고 결과 이미지도 더 흐려지는 경향이 있다. 특히 masking ratio가 75%일 때 성능이 크게 감소하였다. 반면 grid-wise masking은 규칙적으로 patch를 남기기 때문에 reconstruction은 쉬워지고 결과 이미지도 선명하지만, representation의 품질은 낮아졌다. 실험 결과 단순한 random masking이 가장 좋은 성능을 보였으며, 높은 masking ratio를 유지하면서도 정확도와 학습 효율을 모두 확보할 수 있었다.

마지막으로 training schedule 길이의 영향을 분석하였다. pre-training epoch을 늘릴수록 성능은 꾸준히 향상되며 1600 epoch까지도 linear probing 성능의 포화가 나타나지 않았다. 이는 contrastive learning과 다른 특징으로 MoCo v3는 약 300 epoch에서 성능이 포화된다. 이러한 차이는 학습 과정에서 encoder가 보는 데이터 양의 차이와 관련이 있다. MAE에서는 masking 때문에 한 epoch에서 전체 patch의 약 25%만 encoder가 관찰하지만, contrastive learning에서는 두 개 이상의 crop을 사용하기 때문에 한 epoch에서 최대 200% 이상의 patch를 보게 된다.
Comparisons with Previous Results


Table 3에서 기존 self-supervised 방법들과 비교해보면 ViT-B 모델에서는 대부분의 self-supervised 방법들이 비슷한 성능을 보였지만, 더 큰 모델인 ViT-L에서는 방법 간 성능 차이가 커졌다. 이는 대형 모델일수록 overfitting을 줄이는 것이 중요한 문제임을 보여준다. MAE는 모델 크기를 쉽게 확장할 수 있으며 모델이 커질수록 성능이 꾸준히 향상된다.
예를 들어 ViT-H 모델에서는 224 해상도에서 86.9% 정확도를 달성했으며, 448 해상도로 fine-tuning하면 87.8% 정확도를 얻었다. 이 결과는 외부 데이터 없이 ImageNet-1K만 사용한 기존 최고 성능(87.1%)을 넘어서는 수준이다. 또한 MAE는 복잡한 네트워크 구조가 아닌 기본적인 ViT 구조만으로도 높은 성능을 달성했다.
BEiT와 비교했을 때도 MAE는 더 단순하면서도 더 높은 정확도와 빠른 학습 속도를 보였다. BEiT는 이미지를 token으로 변환하여 예측하는 방식을 사용하지만, MAE는 pixel을 직접 복원한다. BEiT 방식은 dVAE tokenizer를 사전 학습해야 하며 계산 비용도 추가로 필요하다. 반면 MAE는 이러한 추가 과정 없이도 더 높은 성능을 달성하며, epoch당 학습 속도도 약 3.5배 빠르다.
또한 Figure 7에서 볼 수 있듯이 MAE는 학습 시간이 더 길어도 효율적이다. MAE 모델은 성능 향상을 위해 1600 epoch 동안 pre-training을 수행했지만, 전체 학습 시간은 다른 방법보다 여전히 짧다. 예를 들어 같은 128 TPU-v3 환경에서 ViT-L 기준 MAE는 1600 epoch에 31시간, MoCo v3는 300 epoch에 36시간이 소요된다.

다음으로 supervised pre-training과의 비교도 수행하였다. 기존 ViT 연구에서는 ViT-L을 ImageNet-1K에서 supervised 방식으로 학습할 경우 성능이 쉽게 포화되는 문제가 있었다. 반면 MAE pre-training을 사용하면 모델 용량이 커질수록 성능 향상이 더 크게 나타나며, 이는 대규모 데이터(JFT-300M)를 사용한 supervised pre-training과 유사한 scaling 효과를 보인다.

마지막으로 partial fine-tuning 실험을 수행하였다. 기존에는 linear probing과 full fine-tuning이 대표적인 평가 방식이었지만, 두 결과 사이의 상관관계가 높지 않다는 문제가 있다. 이를 보완하기 위해 일부 Transformer layer만 fine-tuning하는 방식을 실험하였다. 결과적으로 마지막 Transformer block 하나만 fine-tuning해도 정확도가 73.5%에서 81.0%로 크게 상승하였다. 심지어 마지막 block의 MLP 부분만 fine-tuning해도 79.1%를 얻어 linear probing보다 훨씬 높은 성능을 보였다. 또한 4~6개의 block만 fine-tuning해도 전체 fine-tuning과 거의 비슷한 성능을 달성할 수 있었다.
MoCo v3와 비교하면 MoCo v3는 linear probing 성능은 더 높지만, 일부 layer만 fine-tuning하는 경우에는 MAE가 일관되게 더 높은 성능을 보였다. 예를 들어 4개의 block을 fine-tuning할 때 약 2.6%의 성능 차이가 나타났다. 이는 MAE가 선형적으로 분리 가능한 특징은 약할 수 있지만, 비선형 표현 능력이 더 강하다는 것을 의미한다. 이러한 결과는 representation 품질을 평가할 때 linear separability으로 판단하는 것은 충분하지 않다는 점을 보여준다. 실제로 다른 연구에서도 linear probing 결과는 transfer learning 성능과 항상 높은 상관관계를 보이지 않는 것으로 보고되고 있다.
Transfer Learning Experiments
해당 실험에서는 ImageNet-1K로 pre-training한 MAE 모델을 다양한 downstream task에 적용하여 성능을 평가하였다.

객체 탐지와 인스턴스 분할 실험에서는 MAE로 사전학습된 ViT를 Mask R-CNN의 backbone으로 사용하고, COCO 데이터셋을 이용해 전체 모델을 end-to-end로 다시 학습하여 객체 탐지와 인스턴스 분할 성능을 평가하였다. 실험 결과 MAE로 사전 학습한 모델은 모든 설정에서 supervised pre-training보다 더 높은 성능을 보였다. 특히 ViT-B에서는 object detection AP가 50.3으로 supervised 방식(47.9)보다 높았고, 더 큰 모델인 ViT-L에서는 53.3으로 supervised pre-training(49.3)보다 높은 성능을 기록하였다. 또한 pixel 기반 MAE는 token 기반 방법인 BEiT와 비교해도 성능이 비슷하거나 더 좋으면서 구조는 더 단순하고 학습 속도도 빠르다.

Semantic segmentation 실험에서는 ADE20K 데이터셋과 UperNet을 사용하였다. 여기에서도 MAE pre-training은 supervised pre-training보다 큰 성능 향상을 보였으며, 예를 들어 ViT-L 기준으로 약 3.7p 성능이 향상되었다. 또한 이 결과는 COCO 실험과 동일하게 pixel 기반 MAE가 token 기반 BEiT보다 더 좋은 성능을 보이는 경향을 확인하였다.

Classification transfer 실험에서는 iNaturalist와 Places 데이터셋을 사용하였다. iNaturalist에서는 모델 크기가 커질수록 성능이 크게 향상되는 scaling 특성이 나타났으며 기존 최고 성능을 크게 넘어섰다. Places 데이터셋에서도 MAE는 이전 최고 성능을 기록한 방법들보다 더 높은 정확도를 보였는데, 이 기존 방법들은 수십억 장의 이미지로 pre-training한 모델이었다. 반면 MAE는 ImageNet-1K만 사용했음에도 더 좋은 성능을 달성하였다.

또한 reconstruction target으로 pixel과 token 방식을 비교하였다. dVAE token을 사용하는 방식은 정규화되지 않은 pixel보다 약간 좋은 결과를 보였지만, 정규화된 pixel을 사용하는 MAE와는 거의 차이가 없었다. 이 결과는 MAE에서 tokenization이 필수적인 요소가 아니라는 것을 보여준다.
Discussion and Conclusion
딥러닝의 발전은 보통 단순하지만 확장 가능한 알고리즘에서 시작된다. NLP 분야에서는 self-supervised learning이 대형 모델 확장을 가능하게 했으며, 컴퓨터 비전에서는 여전히 supervised pre-training이 주류였다. 하지만 본 연구에서는 단순한 autoencoder 기반 self-supervised 방법인 MAE가 ImageNet과 다양한 transfer learning 작업에서 뛰어난 확장성을 보인다는 것을 확인하였다. 이는 비전 분야에서도 NLP와 유사하게 self-supervised learning 중심의 발전이 가능함을 시사한다.
또한 이미지와 언어는 신호의 성격이 다르다는 점도 강조한다. 언어는 단어 단위의 명확한 의미 구조를 가지지만, 이미지는 단순히 빛이 기록된 신호이기 때문에 동일한 방식으로 처리하기 어렵다. 따라서 MAE에서는 객체 단위가 아닌 랜덤 패치를 제거하고 픽셀을 복원하는 방식을 사용한다. 비록 픽셀 자체는 의미 단위가 아니지만, 모델은 복원 과정에서 장면 구조와 객체 개념을 이해하는 복잡한 표현을 학습하는 것으로 관찰되었다.
마지막으로 모델이 학습 데이터의 통계적 특성을 기반으로 예측하기 때문에 데이터 편향을 반영하거나 존재하지 않는 콘텐츠를 생성할 가능성이 있으며, 이러한 사회적 영향에 대한 추가 연구가 필요하다고 언급한다.
**self-supervised learning과 unsupervised learning의 개념이 명확하지 않았는데, 아래와 같이 정리할 수 있을 것 같다.
- self-supervised learning
→ 라벨 없이 학습하지만 명확한 예측 task가 존재
- unsupervised learning
→ 라벨도 없고 명시적인 예측 task도 없는 경우가 많음
'ML&DL > 논문리뷰' 카테고리의 다른 글
| NeRF: Representing Scenes asNeural Radiance Fields for View Synthesis (0) | 2026.03.11 |
|---|---|
| I-JEPA: Self-Supervised Learning from Images with aJoint-Embedding Predictive Architecture (0) | 2026.03.10 |
| SAM: Segment Anything (0) | 2026.03.09 |
| ViT: Transformers For Image Recognition At Scale (0) | 2026.02.09 |
| Transformer: Attention Is All You Need (0) | 2026.01.18 |