'ML&DL' 카테고리의 글 목록

Abstract이 연구는 대규모 비디오 기반 self-supervised 학습과 소량의 로봇 데이터를 결합해, 물리 세계를 이해하고 예측하며 행동까지 계획할 수 있는 world model을 구축한다. V-JEPA 2는 비디오 이해와 행동 예측에서 높은 성능을 달성하고, V-JEPA 2-AC는 추가 학습 없이도 로봇에서 pick-and-place와 같은 작업을 수행한다. 1. Introduction이 논문은 비디오 기반 self-supervised 학습을 통해 물리 세계를 이해하고, 미래를 예측하며, 행동까지 계획할 수 있는 world model을 구축하는 것을 목표로 한다. 기존 방법들은 주로 상태-행동 데이터와 보상에 의존하지만, 실제 로봇 상호작용 데이터는 제한적이어서 확장성이 떨어진다. 반면 이 연..

AbstractV-JEPA는 입력 비디오의 일부만 관측한 뒤, 보이지 않는 영역의 표현을 feature space에서 직접 예측하도록 설계된 구조이다. 이를 통해 픽셀 단위의 재구성이 아닌 의미적이고 구조적인 정보를 중심으로 학습할 수 있도록 한다. 실험 결과, 제안한 방식은 다양한 비디오 및 이미지 downstream task에서 기존 방법들을 능가하는 성능을 보이며, 특히 적은 라벨 환경에서도 높은 효율성을 유지한다. 또한 학습 속도와 데이터 효율 측면에서도 강점을 보인다. 1. Introduction기존의 self-supervised 비디오 학습은 주로 픽셀 복원이나 생성 기반 목표에 의존해왔으며, 이러한 방식은 입력의 저수준 세부 정보까지 함께 재현하도록 요구한다. 그러나 이러한 학습 목표는 의미..

OVERVIEW기존 NeRF 기반 방법들은 장면을 continuous volumetric density field로 표현하고 MLP를 통해 density와 color(radiance)를 예측한다. 이 방식은 높은 품질을 얻을 수 있지만, 렌더링 과정에서 많은 샘플을 ray marching으로 계산해야 하므로 학습과 렌더링 속도가 매우 느리다는 문제가 있다. 이 논문은 이러한 문제를 해결하기 위해 장면을 신경망이 아니라 명시적인 3차원 Gaussian들의 집합으로 표현하는 방법을 제안한다. 3DGS의 입력은 하나의 정적인 장면을 다양한 시점에서 촬영한 여러 장의 이미지와, Structure-from-Motion(SfM)을 통해 추정된 카메라 파라미터이다. SfM 과정에서는 카메라 포즈뿐 아니라 sparse..

AbstractNeRF는 소수의 입력 이미지로부터 복잡한 장면의 새로운 시점을 합성하는 방법을 제안한다. 장면의 3D 위치 (x,y,z)와 시선 방향 (θ,ϕ)을 입력으로 받아 부피 밀도와 view-dependent 색을 출력하는 5차원 neural radiance field로 표현하며, 이는 fully-connected 신경망으로 구현된다. 새로운 이미지는 카메라 광선을 따라 여러 5D 좌표를 샘플링한 뒤 volume rendering을 통해 색과 밀도를 이미지로 투영하여 생성된다. 이 렌더링 과정은 미분 가능하기 때문에 카메라 위치가 알려진 이미지들만으로 모델을 학습할 수 있다. 실험 결과 제안한 방법은 복잡한 기하 구조와 재질을 가진 장면에서도 사실적인 새로운 시점을 생성하며, 기존 neural r..

Abstract이 논문은 수작업으로 설계된 데이터 증강에 의존하지 않고 의미 있는 이미지 표현을 학습할 수 있는 self-supervised 방법인 I-JEPA(Image-based Joint-Embedding Predictive Architecture)를 제안한다. I-JEPA는 하나의 context block을 기반으로 동일한 이미지 내 여러 target block의 표현을 예측하도록 학습된다. 이때 의미적 표현을 효과적으로 학습하기 위해 비교적 큰 target block과 공간적으로 분산된 context block을 사용하는 masking 전략을 사용한다. 실험 결과 Vision Transformer와 결합한 I-JEPA는 높은 확장성을 보였으며, ImageNet 사전학습 모델은 linear cla..

Abstract이 논문은 Masked Autoencoder(MAE)가 컴퓨터 비전에서 확장성이 높은 self-supervised 학습 방법임을 보여준다. MAE의 기본 아이디어는 입력 이미지의 일부 패치를 무작위로 가리고, 가려진 픽셀을 복원하는 방식으로 표현을 학습하는 것이다. MAE는 두 가지 핵심 설계를 기반으로 한다. 첫째, 비대칭 encoder–decoder 구조를 사용한다. encoder는 마스크된 토큰을 포함하지 않고 보이는 패치만 처리하며, 이후 경량 decoder가 latent representation과 mask token을 이용해 원래 이미지를 복원한다. 둘째, 입력 이미지의 약 75%와 같은 높은 비율로 패치를 마스킹하여 학습 과제를 더 의미 있고 어려운 self-supervised..

Abstract저자들은 Segment Anything 프로젝트를 통해 promptable segmentation task, 이를 수행하는 모델인 SAM, 11M 이미지와 1B개 이상의 마스크로 구성된 SA-1B를 함께 제안한다. SAM은 다양한 prompt에 따라 적절한 마스크를 예측할 수 있도록 설계되었으며, 새로운 데이터와 작업에도 zero-shot transfer가 가능하다. 실험 결과 SAM은 여러 과제에서 강한 일반화 성능을 보였고, 저자들은 이를 바탕으로 모델과 데이터셋을 공개하여 segmentation foundation model 연구를 확장하고자 하였다. Introduction최근 NLP에서는 대규모 데이터로 학습된 모델이 prompt를 통해 다양한 작업을 수행하는 방식이 널리 사용되고 ..

ABSTRACT이 논문은 이미지 인식 분야의 기존 중심 구조인 CNN 대신, 이미지를 작은 패치로 나누고 이를 토큰처럼 처리하는 Transformer 기반 모델인 Vision Transformer(ViT)를 제안한다. ViT는 대규모 데이터로 사전 학습한 뒤 전이 학습을 적용하면, ImageNet, CIFAR-100, VTAB 등 다양한 벤치마크에서 기존 최첨단 CNN 모델과 비슷하거나 오히려 더 좋은 성능을 보이면서도 상대적으로 적은 계산 자원으로 학습할 수 있음을 보여준다. 1 INTRODUCTIONTransformer는 이미 자연어 처리 분야에서 압도적인 성과를 거두며 표준 모델로 자리 잡았지만, 컴퓨터 비전 분야에서는 여전히 CNN이 주로 사용되었다. 기존 연구들 역시 CNN 구조를 유지한 채 a..

Abstract기존의 시퀀스 변환 모델들은 주로 RNN이나 CNN 같은 구조에 의존해 왔습니다. 이런 모델들은 문장을 앞에서부터 순서대로 처리해야 했기 때문에, 계산이 느리고 한 번에 많은 단어를 동시에 처리하기가 어려웠습니다. 이에 비해 Transformer는 기존 방식과 달리, 어텐션만으로 문장을 처리하는 새로운 구조를 제안합니다. 이 구조에서는 문장 속 모든 단어가 서로를 한 번에 참고할 수 있어, 계산을 동시에 수행할 수 있고 그만큼 학습 속도와 효율이 크게 향상됩니다. 실제 실험 결과를 보면, Transformer는 WMT 2014 영어–독일어 번역에서 BLEU 28.4, 영어–프랑스어 번역에서 BLEU 41.8이라는 높은 성능을 기록하며, 기존 최고 성능 모델들을 넘어섰습니다. 특히 영어–프랑..

Abstract.Mask R-CNN은 Faster R-CNN에 마스크 예측 브랜치를 병렬로 추가해, 객체 검출과 인스턴스 마스크 생성을 동시에 수행하는 프레임워크다. 학습은 간단하고, Faster R-CNN 대비 오버헤드가 크지 않다. 또한 동일 프레임워크로 포즈 추정까지 일반화 가능하다고 말한다. 또한 COCO 챌린지의 instance segmentation / bbox detection / person keypoint detection 3가지 트랙에서 모두 최고 결과를 보여준다. Introduction. 인스턴스 세그멘테이션은 객체 탐지와 인스턴스 분할을 동시에 요구하므로 어렵지만, 의외로 단순한 확장으로 SOTA를 능가할 수 있다는 점에서 출발한다. 핵심 아이디어는 Faster R-CNN의 2-st..

티스토리툴바