'ML&DL/논문리뷰' 카테고리의 글 목록

Abstract해당 논문은 사람의 시선 정보가 1인칭 시점 영상 이해에 도움이 된다는 점을 보여준다. 사람은 행동하기 전에 관련 물체를 먼저 바라보는 경우가 많기에, 시선은 사용자의 주의, 단기적 의도, 미래 행동을 예측하는 중요한 단서가 된다. 그리해 논문은 VLM이 사람처럼 중요한 영역에 주목하도록 gaze-regularized attention 방식을 제안한다. 기존 연구는 이미지와 같은 시각 입력에만 의존하거나 시선 정보를 모델의 보조 입력으로 활용한 것과 달리, 이 논문은 시선 정보를 학습 단계에서만 사용한다. 따라서 실제 추론 단계에서는 시선 데이터 없이 영상 입력만으로 동작할 수 있다는 점이 핵심이다. 또한 gaze-regularized attention 방식은 특정 모델 구조에만 제한되지 ..

[ICLR 2025] Jiafei Duan et al., arXiv 2024https://arxiv.org/pdf/2410.00371https://aha-vlm.github.io/핵심 요약 : 로봇 조작 과정의 실패를 감지하고, 실패 원인을 자연어로 설명하여 이후 수행 개선에 활용하는 VLM을 제안한다.1 Introduction최근 LLM/VLM은 reward 생성, task planning, zero-shot manipulation에 활용됨 → 그러나 실제 로봇은 작은 변화에도 실패 발생기존 시스템은 행동 생성에는 강점, 실패 원인을 설명하는 능력은 부족 → 실패로부터 개선되려면 왜 실패했는지를 알아야함AHA는 sub-task 성공 여부를 판단 + 실패 원인을 자연어로 설명하는 VLM Contribut..

https://arxiv.org/abs/2402.10698 Question-Instructed Visual Descriptions for Zero-Shot Video Question AnsweringWe present Q-ViD, a simple approach for video question answering (video QA), that unlike prior methods, which are based on complex architectures, computationally expensive pipelines or use closed models like GPTs, Q-ViD relies on a single instruction-awarearxiv.orghttps://github.com/Dar..

Abstract이 연구는 대규모 비디오 기반 self-supervised 학습과 소량의 로봇 데이터를 결합해, 물리 세계를 이해하고 예측하며 행동까지 계획할 수 있는 world model을 구축한다. V-JEPA 2는 비디오 이해와 행동 예측에서 높은 성능을 달성하고, V-JEPA 2-AC는 추가 학습 없이도 로봇에서 pick-and-place와 같은 작업을 수행한다. 1. Introduction이 논문은 비디오 기반 self-supervised 학습을 통해 물리 세계를 이해하고, 미래를 예측하며, 행동까지 계획할 수 있는 world model을 구축하는 것을 목표로 한다. 기존 방법들은 주로 상태-행동 데이터와 보상에 의존하지만, 실제 로봇 상호작용 데이터는 제한적이어서 확장성이 떨어진다. 반면 이 연..

AbstractV-JEPA는 입력 비디오의 일부만 관측한 뒤, 보이지 않는 영역의 표현을 feature space에서 직접 예측하도록 설계된 구조이다. 이를 통해 픽셀 단위의 재구성이 아닌 의미적이고 구조적인 정보를 중심으로 학습할 수 있도록 한다. 실험 결과, 제안한 방식은 다양한 비디오 및 이미지 downstream task에서 기존 방법들을 능가하는 성능을 보이며, 특히 적은 라벨 환경에서도 높은 효율성을 유지한다. 또한 학습 속도와 데이터 효율 측면에서도 강점을 보인다. 1. Introduction기존의 self-supervised 비디오 학습은 주로 픽셀 복원이나 생성 기반 목표에 의존해왔으며, 이러한 방식은 입력의 저수준 세부 정보까지 함께 재현하도록 요구한다. 그러나 이러한 학습 목표는 의미..

OVERVIEW기존 NeRF 기반 방법들은 장면을 continuous volumetric density field로 표현하고 MLP를 통해 density와 color(radiance)를 예측한다. 이 방식은 높은 품질을 얻을 수 있지만, 렌더링 과정에서 많은 샘플을 ray marching으로 계산해야 하므로 학습과 렌더링 속도가 매우 느리다는 문제가 있다. 이 논문은 이러한 문제를 해결하기 위해 장면을 신경망이 아니라 명시적인 3차원 Gaussian들의 집합으로 표현하는 방법을 제안한다. 3DGS의 입력은 하나의 정적인 장면을 다양한 시점에서 촬영한 여러 장의 이미지와, Structure-from-Motion(SfM)을 통해 추정된 카메라 파라미터이다. SfM 과정에서는 카메라 포즈뿐 아니라 sparse..

AbstractNeRF는 소수의 입력 이미지로부터 복잡한 장면의 새로운 시점을 합성하는 방법을 제안한다. 장면의 3D 위치 (x,y,z)와 시선 방향 (θ,ϕ)을 입력으로 받아 부피 밀도와 view-dependent 색을 출력하는 5차원 neural radiance field로 표현하며, 이는 fully-connected 신경망으로 구현된다. 새로운 이미지는 카메라 광선을 따라 여러 5D 좌표를 샘플링한 뒤 volume rendering을 통해 색과 밀도를 이미지로 투영하여 생성된다. 이 렌더링 과정은 미분 가능하기 때문에 카메라 위치가 알려진 이미지들만으로 모델을 학습할 수 있다. 실험 결과 제안한 방법은 복잡한 기하 구조와 재질을 가진 장면에서도 사실적인 새로운 시점을 생성하며, 기존 neural r..

Abstract이 논문은 수작업으로 설계된 데이터 증강에 의존하지 않고 의미 있는 이미지 표현을 학습할 수 있는 self-supervised 방법인 I-JEPA(Image-based Joint-Embedding Predictive Architecture)를 제안한다. I-JEPA는 하나의 context block을 기반으로 동일한 이미지 내 여러 target block의 표현을 예측하도록 학습된다. 이때 의미적 표현을 효과적으로 학습하기 위해 비교적 큰 target block과 공간적으로 분산된 context block을 사용하는 masking 전략을 사용한다. 실험 결과 Vision Transformer와 결합한 I-JEPA는 높은 확장성을 보였으며, ImageNet 사전학습 모델은 linear cla..

Abstract이 논문은 Masked Autoencoder(MAE)가 컴퓨터 비전에서 확장성이 높은 self-supervised 학습 방법임을 보여준다. MAE의 기본 아이디어는 입력 이미지의 일부 패치를 무작위로 가리고, 가려진 픽셀을 복원하는 방식으로 표현을 학습하는 것이다. MAE는 두 가지 핵심 설계를 기반으로 한다. 첫째, 비대칭 encoder–decoder 구조를 사용한다. encoder는 마스크된 토큰을 포함하지 않고 보이는 패치만 처리하며, 이후 경량 decoder가 latent representation과 mask token을 이용해 원래 이미지를 복원한다. 둘째, 입력 이미지의 약 75%와 같은 높은 비율로 패치를 마스킹하여 학습 과제를 더 의미 있고 어려운 self-supervised..

Abstract저자들은 Segment Anything 프로젝트를 통해 promptable segmentation task, 이를 수행하는 모델인 SAM, 11M 이미지와 1B개 이상의 마스크로 구성된 SA-1B를 함께 제안한다. SAM은 다양한 prompt에 따라 적절한 마스크를 예측할 수 있도록 설계되었으며, 새로운 데이터와 작업에도 zero-shot transfer가 가능하다. 실험 결과 SAM은 여러 과제에서 강한 일반화 성능을 보였고, 저자들은 이를 바탕으로 모델과 데이터셋을 공개하여 segmentation foundation model 연구를 확장하고자 하였다. Introduction최근 NLP에서는 대규모 데이터로 학습된 모델이 prompt를 통해 다양한 작업을 수행하는 방식이 널리 사용되고 ..

티스토리툴바