Abstract
해당 논문은 사람의 시선 정보가 1인칭 시점 영상 이해에 도움이 된다는 점을 보여준다.
사람은 행동하기 전에 관련 물체를 먼저 바라보는 경우가 많기에, 시선은 사용자의 주의, 단기적 의도, 미래 행동을 예측하는 중요한 단서가 된다. 그리해 논문은 VLM이 사람처럼 중요한 영역에 주목하도록 gaze-regularized attention 방식을 제안한다. 기존 연구는 이미지와 같은 시각 입력에만 의존하거나 시선 정보를 모델의 보조 입력으로 활용한 것과 달리, 이 논문은 시선 정보를 학습 단계에서만 사용한다. 따라서 실제 추론 단계에서는 시선 데이터 없이 영상 입력만으로 동작할 수 있다는 점이 핵심이다. 또한 gaze-regularized attention 방식은 특정 모델 구조에만 제한되지 않고, attention을 활용하는 여러 VLM에 적용될 수 있어 일반화 가능성도 보여준다.
이 방법은 두 가지 테스크에서 성능을 높였다. 하나는 사용자의 미래 행동 예측, 다른 하나는 현재 활동 이해이다. 실험 결과, 기존 모델보다 미래 사건 예측 성능은 최대 11%, 현재 활동 이해 성능은 약 7% 향상되었다.
결론적으로 이 연구는 사람의 시선이 모델이 장면에서 어떤 영역에 주목해야 하는지 알려주는 유용한 학습 신호가 될 수 있음을 보여준다. 보조 로봇 및 인간-기계 협업과 같은 실제 사용자의 시점과 의도를 이해해야 하는 환경에 적용 가능성이 크다.
1 Introduction
Vision-Language Model(VLM)은 이미지와 텍스트를 함께 처리하며, 이미지 캡셔닝, VQA, 멀티모달 검색 등 다양한 작업에서 활용되어 왔다. 최근에는 보조 로봇, 접근성 도구, 자율주행처럼 사람과 기계가 함께 작동하는 실제 환경에서도 VLM의 활용 가능성이 커지고 있다. 이러한 환경에서는 현재 장면을 이해하는 능력과 함께, 사용자가 곧 어떤 행동을 할지 예측하는 능력이 중요하다.
1인칭 시점 영상은 사용자의 시야에서 행동과 주변 환경을 기록하기 때문에, 현재 활동 이해와 미래 행동 예측에 유용한 정보를 제공한다. 예를 들어 "커피를 만들고 있다"는 수준의 활동 인식보다, "오른쪽 위 선반의 커피 캡슐을 집으려 한다"처럼 구체적인 행동을 예측하는 것이 시스템에서는 더 중요하다. 이때 시선은 사용자의 주의 집중과 단기 의도, 앞으로의 행동을 반영하는 중요한 단서가 된다. 사람은 어떤 행동을 하기 전에 관련된 물체나 위치를 먼저 바라보는 경우가 많다. 따라서 시선 정보는 모델이 장면에서 행동과 관련된 영역을 더 잘 찾도록 돕는 학습 신호로 활용될 수 있다.
기존 연구들은 시선을 모델의 추가 입력으로 사용하는 경우가 많았다. 그러나 이 방식은 실제 추론 단계에서도 시선 추적 데이터가 필요하다는 한계가 있다. 실제 환경에서는 항상 eye-tracking 장비를 사용할 수 없고, gaze 데이터의 품질도 안정적이지 않을 수 있기 때문에 배포 측면에서 제약이 생긴다.
이를 해결하기 위해 저자들은 시선을 학습 단계에서만 attention을 정렬하는 regularization 신호로 사용한다. 사람의 시선 heatmap과 모델의 attention map이 비슷해지도록 학습시키며, 학습이 끝난 뒤에는 시선 없이 RGB 영상 프레임만으로 현재 활동 이해와 미래 행동 예측을 수행할 수 있다. 또한 이 방식은 transformer attention 구조를 사용하는 여러 VLM에 적용할 수 있도록 설계되었으며, 논문에서는 OpenFlamingo, LaViLa, InternVL, OpenLLaVA 등 다양한 모델에서 성능 향상을 확인했다.
2 Related Work
Attention mechanism은 이미지나 영상에서 중요한 특징을 찾기 위해 널리 사용되어 왔고, 1인칭 시점 환경에서는 사람의 시선이 중요한 단서로 활용될 수 있다. 이전 연구들은 시선을 활용해 다음에 상호작용할 물체를 예측하거나, 현재 작업과 관련된 정보를 추출하는 데 사용했다. 또한 transformer 기반 모델을 이용해 시선 변화를 예측하거나, 시선와 행동을 함께 모델링하려는 시도도 있었다.
Gaze-VLM은 이와 달리, optical flow를 움직임이나 가려짐으로 인해 부정확한 시선 위치가 섞이지 않도록 시선 heatmap을 구성하는 전처리 단계에서만 활용한다. 따라서 실제 추론 단계에서는 시선이나 optical flow 없이 RGB 영상만으로 동작할 수 있다. 이로 인해 추가 센서나 복잡한 입력에 대한 의존성이 줄어들고 실제 배포 환경에서 활용하기 쉬워진다. 또한 시선을 모델의 입력으로 직접 넣는 대신 attention을 정렬하는 학습 신호로 사용하기 때문에, 사람의 시각적 주의 패턴을 VLM 내부 표현에 반영할 수 있다. 이 방식은 생성 결과를 나중에 보정하는 접근과 달리, 학습 과정에서부터 모델이 행동과 관련된 영역에 집중하도록 유도한다. 나아가 특정 모델 구조에만 고정되지 않고 transformer 기반 VLM에 비교적 유연하게 적용할 수 있다는 장점도 가진다.
VLM의 attention을 사람의 시선과 맞추려는 연구도 있었다. 예를 들어 Voila-A는 모델의 cross-attention을 사용자의 시선과 맞춰 예측을 조정했다. 하지만 이 방식은 학습할 때뿐만 아니라 실제 사용할 때도 시선 입력이 필요하다. 반면 Gaze-VLM은 시선을 학습 단계에서만 사용하기 때문에, 실제 추론 단계에서는 일반 VLM처럼 RGB 영상만 입력해도 동작할 수 있다.
또 다른 연구들은 모델이 만든 답변이나 캡션을 나중에 확인하고 수정하는 방식에 가깝다. OPERA나 Perception in Reflection은 모델이 엉뚱한 영역을 보고 답을 만들었는지 확인한 뒤 잘못된 출력을 보정하려고 한다. Gaze-VLM은 결과를 만든 뒤 고치는 방식이 아니라, 학습 과정에서부터 모델이 사람의 시선과 비슷한 영역을 보도록 유도한다. 이를 통해 language decoder로 전달되는 visual representation이 처음부터 행동과 관련된 영역을 더 잘 반영하게 된다.
1인칭 시점 영상에서 현재 활동 이해와 미래 행동 예측이 왜 중요한지도 다룬다. 보조 로봇이나 웨어러블 AI가 사람을 제대로 도와주려면, 사용자가 지금 무엇을 하고 있는지 이해하는 것뿐 아니라 곧 어떤 행동을 할지도 예측할 수 있어야 한다. 기존에는 LSTM 기반 모델, intention-conditioned 모델, transformer 기반 모델 등이 사용되었다. Gaze-VLM은 이러한 흐름에서 시선 기반 attention regularization을 추가해, 현재 활동 이해와 미래 행동 예측 성능을 높이고자 한다.
3 Method
방법론의 목표는 사람의 시선 데이터를 활용해 egocentric 활동 이해와 미래 행동 예측을 더 잘 수행하는 VLM을 학습시키는 것이다. 핵심 아이디어는 학습 과정에서 transformer의 attention이 사람의 시선과 비슷한 영역을 보도록 regularization signal로 활용하는 것이다. 이렇게 하면 모델은 사람의 시각적 집중과 의도 행동 사이의 관계를 학습할 수 있고, 추론 단계에서는 시선 없이 일반 RGB 영상만으로 동작할 수 있다.

Figure 1은 Gaze-VLM의 전체 파이프라인을 보여준다. 추론 단계에서는 1인칭 비디오 프레임이 vision encoder를 거쳐 visual token으로 변환되고, transformer encoder는 attention mechanism을 통해 visual token들 사이의 관계를 계산한다. 이를 바탕으로 language decoder는 현재 활동을 설명하거나 미래 행동을 예측하는 문장을 생성한다.
학습 단계에서는 여기에 시선 정보가 추가된다. 사람의 시선 heatmap을 모델 attention과 비교할 수 있도록 patch 단위로 변환하고, 모델이 중요하게 보는 영역이 사람이 실제로 바라본 영역과 가까워지도록 KL divergence를 이용해 학습한다. 이를 통해 모델은 추론 단계에서 시선 정보가 없더라도 행동 이해에 중요한 영역을 더 잘 찾도록 학습된다.
3.1 Gaze Representation with Temporal Aggregation
먼저 시선 데이터를 정규화에 사용할 수 있는 supervision signal로 바꿔야 한다. 데이터셋의 시선 정보는 원래 텍스트 형태의 좌표로 주어지기에, 이를 바로 attention과 비교하기 어렵다. 그리해 저자들은 각 시선 좌표를 먼저 공간적인 시선 heatmap으로 변환하고, 이후 시간적으로 여러 시선 정보를 모아 더 안정적인 supervision signal을 만든다.
각 시점 t에서 시선 좌표는 다음과 같이 표현된다.

여기서 w와 h는 이미지의 너비와 높이이며, 시선 좌표 하나를 Gaussian smoothing을 통해 2D 확률 분포 형태의 heatmap으로 바꾼다.
* Gaussian smoothing은 이산적인 시선 좌표를 바로 사용하지 않고, 해당 좌표를 중심으로 주변 픽셀까지 가중치를 부여해 부드러운 2D 시선 heatmap으로 변환하는 과정이다. 중심에 가까울수록 높은 값을 갖고, 멀어질수록 낮은 값을 갖도록 만들어 사람의 시각적 주의가 공간적으로 퍼져 있다고 표현한다. σ가 작으면 좁게 퍼지고, σ가 크면 더 넓게 퍼진다.

여기서 1(g_t)는 시선 위치 g_t에서만 1이고 나머지는 0인 indicator function이다. G_σ는 표준편차 σ를 가지는 Gaussian kernel이고, *는 convolution을 의미한다. π는 heatmap 전체 합이 1이 되도록 정규화하는 함수다.
이후 한 프레임의 시선만 사용하지 않고, 짧은 시간 구간의 시선을 함께 모은다. 사람의 시선은 fixation과 saccade로 이루어져 있는데, saccade는 빠르게 이동하는 눈 움직임이므로 실제 집중 지점이라고 보기 어렵다. 따라서 한 순간의 시선 좌표만 사용하면 이러한 노이즈가 supervision signal에 포함될 수 있다. 이를 줄이기 위해 약 200ms 정도의 시간 구간에서 시선 heatmap을 모아 더 안정적인 supervision signal을 만든다.
이렇게 시간적으로 집계된 시선 heatmap은 다음과 같이 정의된다.

δ는 temporal window 크기로, 예로 200ms 정도의 구간을 의미한다. f_{τ→t}는 시점 τ에서 현재 시점 t로의 pixel motion을 나타내는 warping function(과거 프레임의 시선 heatmap을 현재 프레임의 위치에 맞게 이동시키는 함수)이며, optical flow로 계산된다. m_τ는 과거 시점 τ의 시선 heatmap이고, 이를 현재 프레임 기준으로 이동시켜 모은다.

이 식에서 핵심이 되는 값은 o_τ다. 1인칭 영상에서는 카메라가 움직이거나 물체가 이동하면서, 과거 프레임에서 바라본 위치가 현재 프레임에서는 화면 밖으로 벗어나거나 다른 물체에 가려질 수 있다. 이런 시선 정보를 그대로 포함하면 모델이 잘못된 영역을 학습하게 될 수 있다. 이를 방지하기 위해 저자들은 bidirectional optical flow consistency를 이용해 가려짐 여부를 확인한다. 가려짐이 크다고 판단되는 프레임의 시선은 o_τ를 통해 제외하고, 현재 시점에서도 실제로 보이는 유효한 시선만 temporal aggregation에 사용한다.
결과적으로 H_t는 시간적으로 더 안정적이며, 가려진 지점으로 인한 노이즈가 줄어든 시선 supervision heatmap이 된다.
*모델 학습에 사용할 시선 heatmap은 프레임마다 하나씩 만들어진다. 다만 각 H_t는 현재 프레임의 시선 좌표만으로 만든 것이 아니라, 짧은 시간 구간의 시선 heatmap들을 현재 프레임 기준으로 정렬하고 가려진 시선을 제외해 만든 더 안정적인 supervision signal이다.
3.2 Problem Formulation
이 연구가 다루는 문제는 1인칭 시점 영상 egocentric video을 바탕으로 현재 활동을 이해하고, 가까운 미래 행동을 예측하는 것이다. 모델의 입력은 관찰 구간 τₒ초 동안의 1인칭 영상 프레임 시퀀스({I_t}ₜ₌₁^τₒ)이다. 모델은 이 프레임 시퀀스를 보고 텍스트 설명 ℓ을 생성한다. 이때 ℓ은 현재 활동을 설명하는 문장일 수도 있고, 앞으로 일어날 행동을 예측하는 문장일 수도 있다.
첫 번째 테스크인 Activity Understanding은 관찰 구간 τₒ 초 안에서 현재 어떤 활동이 일어나고 있는지 설명하는 작업이다. 예를 들어 사용자가 컵을 집고 있는지, 책장을 넘기고 있는지, 음식을 준비하고 있는지와 같은 현재 행동을 문장으로 생성한다.
두 번째 테스크인 Future Activity Prediction은 관찰된 영상 프레임을 바탕으로 앞으로 τₐ초 뒤에 어떤 행동이 일어날지 예측하는 작업이다. 예를 들어 사용자가 컵을 바라보고 손을 뻗는 장면을 보고, 곧 컵을 집을 것이라고 예측하는 방식이다.
이를 수식으로 표현하면, 모델은 관찰된 프레임 시퀀스가 주어졌을 때 텍스트 설명 ℓ이 생성될 조건부 확률을 학습한다.

해당 모델의 기본 입력은 RGB 프레임이며, 시선 정보는 학습 중 attention을 조정하는 regularization signal로만 사용된다. 따라서 실제 추론 단계에서는 eye-tracking 데이터 없이도 RGB 영상만으로 현재 활동 이해와 미래 행동 예측을 수행할 수 있다.
3.3 Gaze-Regularized Attention Mechanism

Transformer 기반 VLM은 일반적으로 세 단계로 동작한다. 먼저 vision encoder가 이미지에서 visual feature를 추출하고, attention mechanism이 이 feature들 사이의 관계를 계산한 뒤, language decoder가 이를 바탕으로 텍스트를 생성한다. Gaze-VLM은 이 구조에서 vision encoder와 language decoder는 크게 변경하지 않고, attention mechanism이 사람의 시선과 더 잘 맞도록 학습시킨다.
대부분의 VLM은 입력 이미지에서 다음과 같은 visual feature token을 추출한다.

여기서 각 ψ_i ∈ ℝᵈ는 이미지의 patch에 대응하는 feature vector (token) 이다. 이 feature들은 attention module에서 key와 value를 만드는 데 사용된다.
query는 개별 프레임에만 의존하도록 만들지 않고, 전체 입력 시퀀스의 장면 맥락과 활동 정보를 담는 global query로 구성한다. 이는 특정 프레임의 시각적 특징에 과하게 맞춰지는 것을 줄이고 전체 활동 흐름을 반영할 수 있다. 일반적인 attention 계산은 다음과 같다.

여기서 Q, K, V는 visual feature로부터 만들어진 query, key, value다. d_k는 key vector의 dimension이고, A는 attention weight를 의미한다. A는 모델이 이미지의 어떤 patch를 중요하게 보는지 나타내는 분포라고 볼 수 있다.
이제 목표는 모델의 attention weight A_t (시점 t에서의 attention weight)를 사람의 시선 분포와 맞추는 것이다. 다만 시선 heatmap H_t는 pixel 단위로 구성되고, transformer attention은 patch 단위로 계산된다. 두 분포를 비교하기 위해서는 시선 heatmap을 attention과 같은 단위인 patch-wise gaze distribution으로 변환해야 한다. 이를 위해 이미지 영역 Ω를 vision encoder의 patch 구조와 동일하게 P개의 patch로 나눈다.

각 patch p_i에 해당하는 시선 점수는 다음과 같이 계산된다.

여기서 i ∈ {1, 2, ..., P}는 patch index이고, Z = Σx,y Ht(x, y)는 전체 합이 1이 되도록 만드는 정규화 상수다. 이 과정을 거치면 pixel 단위의 시선 heatmap H_t가 transformer attention과 같은 patch 단위 분포 H̃_t로 변환된다.
그 다음은 모델의 attention distribution A_t와 patch-wise gaze distribution H̃_t의 차이를 줄인다. 이를 위해 KL divergence loss를 사용한다.

이 정규화 항은 모델의 attention이 사람이 실제로 바라본 영역과 가까워지도록 유도한다. 그렇다고 모델의 attention을 시선에만 고정하는 것은 아니다. 모델은 사람의 시선 분포를 참고하면서도, task 수행에 필요한 attention pattern을 함께 학습한다. 최종 학습 objective는 텍스트 생성을 위한 cross-entropy loss와 시선 기반 regularization loss를 함께 사용한다.

여기서 L_CE는 모델이 생성한 예측 설명와 ground-truth 설명 간의 cross-entropy loss다.

λ는 gaze regularization의 강도를 조절하는 하이퍼파라미터이다. λ가 크면 모델 attention을 사람의 시선에 더 강하게 맞추고, 작으면 텍스트 생성 loss의 영향이 상대적으로 커진다. 이 학습 목표를 통해 모델은 정확한 텍스트 설명을 생성하는 동시에 사람의 시각적 집중과 비슷한 attention pattern을 학습한다.
4 Experiments
이 논문의 실험 목적은 Gaze-VLM의 실제 효율성과 일반화 성능을 평가하기 위한 것이다. 실험은 Ego4D의 시선 주석이 있는 영상 클립을 기반으로 진행했고, 테스트 시에는 gaze 없이 RGB 영상만 입력으로 사용한다. 실험 설정에서 τₒ는 모델이 관찰하는 과거 영상 구간, τa는 모델이 예측해야 하는 미래 구간을 의미한다. Future activity prediction에서는 τₒ=5초 동안의 영상을 보고 τₐ=2초 뒤의 활동을 예측하도록 설정했으며, current activity understanding에서는 현재 활동을 이해하기 위해 τₒ=3초의 관찰 구간을 사용했다.
4.1 Dataset Construction
실험 데이터는 Ego4D에서 시선 주석이 포함된 egocentric 비디오를 사용해 구성했다. 계산량을 줄이기 위해 비디오는 1초에 1프레임으로 다운샘플링했고, raw gaze coordinate는 Gaussian filtering을 통해 spatial heatmap으로 변환했다. 또한 기존 Ego4D gaze subset에는 사람이 무엇을 하고 있는지에 대한 자세한 설명이 부족했기에, GPT-4V를 사용해 이미지 시퀀스마다 더 구체적인 설명 문장을 새로 만들었다. 이때 객체, 행동, 공간적 움직임이 포함되도록 prompt를 여러 번 수정했고, 최종적으로 RGB 영상 프레임, 사람의 시선을 나타내는 gaze heatmap, 그리고 세밀한 activity caption이 함께 포함된 형태로 구성되었다.
4.2 Gaze-Regularized Model Evaluation Across Architectures
해당 실험은 여러 VLM에서 gaze regularization이 효과가 있는지 확인하기 위한 것이다. 실험 대상 모델은 OpenFlamingo, Perceiver Resampler가 없는 OpenFlamingo, LaViLa Narrator, InternVL, OpenLLaVA이다. 각 모델은 Ego4D 기반 데이터셋으로 훈련되었으며, 두 가지 작업에 대해 RGB-only 입력으로 평가된다.

결과적으로 모든 모델에서 gaze-regularized version이 baseline보다 성능이 높았다. Future prediction에서는 약 8.9%~10.5%의 향상이 있었고, current activity understanding에서는 약 4.9%~6.9%의 향상이 있었다. 이 결과는 Gaze-VLM이 attention 구조를 사용하는 다양한 VLM에 폭넓게 적용될 수 있는 방식임을 보여준다.


4.3 Sensitivity to Gaze Regularization Scale
정규화 항의 영향을 평가하기 위해, gaze regularization의 세기를 조절하는 λ 값을 바꿔가며 ablation study를 진행했다. λ=0으로 gaze supervision 없이 cross-entropy loss만 사용하는 설정과, λ=100과 λ=1000을 비교했다.

Table 2와 같이 대부분의 모델에서 λ=100일 때 가장 좋은 성능을 보였다. λ=0에서는 성능이 확실히 낮았고, λ=1000은 여전히 baseline보다는 좋지만 λ=100보다 약간 떨어지는 경우가 있었다. 논문은 이 결과를 통해 gaze 정보가 모델 성능 향상에 효과적이라는 점을 보여준다. 다만 gaze regularization을 지나치게 강하게 적용하면 모델이 사람의 시선이 향한 영역에만 과도하게 의존할 수 있으므로, 장면 전체를 함께 고려할 수 있도록 적절한 강도로 조절하는 것이 중요하다고 시사한다.
4.4 Impact of Anticipation Window Length on Predictive Accuracy
Future activity prediction에서 예측해야 하는 미래 시간이 길어졌을 때도 gaze regularization이 효과적인지 확인했다. 관찰 구간인 τₒ=5초로 고정하고, 예측 구간인 τₐ를 2초 후와 5초 후로 비교했다.

Table 3과 같이, 2초 예측뿐 아니라 5초 예측에서도 gaze-regularized model이 baseline보다 좋은 성능을 보였다. 다만 baseline과 gaze-regularized model인 두 모델 모두 2초보다 5초 예측에서 성능이 떨어졌다. 이는 미래가 멀어질수록 가능한 행동의 범위가 넓어지고, 현재 장면만으로 다음 행동을 예측하기 어려워지기 때문이다.
4.5 Evaluating Generalization on Out-of-Distribution Egocentric Data
Gaze-VLM의 일반화 성능을 확인하기 위해, 논문에서는 학습에 사용한 Ego4D와 다른 EGTEA+ Gaze dataset에서 평가를 진행했다. 모델은 Ego4D 기반 데이터로만 학습하고, 추가 fine-tuning 없이 EGTEA+에서 평가했다.

그 결과 gaze-regularized model이 baseline보다 전반적으로 높은 성능을 보이며, 학습 중 얻은 gaze 기반 attention alignment가 다른 데이터셋에서도 어느 정도 일반화될 수 있음을 확인했다. 다만 모델별 성능 향상 폭에는 차이가 있었는데, 논문은 이를 각 VLM 구조를 동일한 입력 파이프라인에 맞추는 과정에서 필요한 adaptation 차이 때문일 수 있다고 설명한다. 따라서 이 실험은 어떤 VLM이 더 좋은 모델인지 비교하려는 목적보다는, gaze regularization이 학습에 쓰지 않은 새로운 데이터셋에서도 효과가 있는지 확인하기 위한 실험에 가깝다.
4.6 Runtime–Performance Analysis
해당 절에서는 Gaze-VLM의 실제 적용 가능성을 보기 위해 성능과 실행 시간 사이의 trade-off를 평가하였다. OpenFlamingo는 앞선 실험에서 전반적으로 가장 높은 성능을 보였기 때문에 대표 모델로 선택되었다. 실험에서는 baseline, gaze-regularized model w/o occl., gaze-regularized model w/ occl.을 비교했다. w/o occl.은 occlusion filtering 없이 gaze heatmap을 만든 경우이고, w/ occl.은 optical flow를 이용해 현재 프레임에서 가려졌거나 사라진 gaze point를 제외한 경우이다.

논문은 실제 적용 가능성을 확인하기 위해 실행 시간도 비교하였다. OpenFlamingo 기준으로 baseline model은 τo에 해당하는 하나의 관찰 구간을 처리하는 데 약 1.7초가 걸렸고, gaze-regularized model은 약 2.3초가 걸렸다. 실행 시간은 조금 증가했지만, 성능은 0.6525에서 0.7505로 향상되었다. 또한 추론 단계에서는 gaze 정보나 optical flow 계산이 필요하지 않고 RGB 영상만 입력하면 되기 때문에, wearable AI나 assistive robot 같은 실제 환경에서도 적용 가능성이 있다고 설명한다.
4.7 Reducing Visual Hallucinations
Gaze regularization이 VLM의 visual hallucination을 줄이는 데 도움이 되는지도 추가로 확인했다. 기존 hallucination benchmark들은 gaze annotation을 포함하지 않기 때문에, 논문은 별도의 human evaluation을 진행했다. 데이터셋에서 200개의 예시를 선택한 뒤, baseline model과 gaze-regularized model이 생성한 답변을 평가자에게 제시했다. 이때 평가자는 어떤 답변이 어떤 모델에서 나온 것인지 모르는 상태에서, ground-truth video context를 보고 각 답변에 명확한 hallucination이 있는지 판단했다.

평가 결과, baseline model은 200개 중 41개에서 hallucination이 발생해 C_I score가 0.205로 나타났다. 반면 gaze-regularized model은 hallucination case가 28개로 줄어 C_I score가 0.140이 되었다. 이로 gaze regularization을 적용했을 때 모델이 실제 영상에 없는 내용을 만들어내는 비율이 감소했다.
논문은 이를 gaze regularization이 모델의 attention을 사람이 실제로 바라본 시각적 영역에 더 잘 맞추기 때문이라고 해석한다. 모델이 장면에서 중요한 물체나 행동이 있는 영역에 더 집중하게 되면, 언어 모델에만 의존해 그럴듯하지만 실제로는 없는 내용을 생성할 가능성이 줄어든다.5
4.8 Quantifying Attention-Gaze Alignment
Gaze regularization이 모델의 attention을 실제 사람의 시선과 더 가깝게 만드는지도 정량적으로 확인했다. 이를 위해 모델의 final-layer attention map과 ground-truth human gaze heatmap을 비교했고, 모델이 가장 강하게 주목한 상위 10개의 image patch가 실제 gaze region과 얼마나 겹치는지를 측정했다. 이 값을 top-10 overlap으로 정의했다.
실험 결과, baseline model의 top-10 overlap은 42%였지만, gaze-regularized model은 68%로 증가했다. 이는 gaze regularization을 적용한 모델이 사람이 실제로 바라본 영역에 더 가까운 위치에 attention을 두게 되었음을 보여준다. 이는 모델이 학습 과정에서 사람의 시선 분포를 따라가도록 유도되었고, 실제로 더 사람과 유사한 방식으로 중요한 영역에 집중하게 되었음을 보여준다.
5 Conclusion
이 논문은 인간의 시선 데이터를 학습 단계의 supervision으로 활용해 egocentric video understanding에서 VLM의 성능을 높일 수 있음을 보였다. Gaze-VLM은 시선 정보를 추론 단계의 입력으로 사용하지 않고, 학습 과정에서 모델의 attention이 사람의 시선 분포와 가까워지도록 regularization을 적용한다. 이 덕분에 실제 사용 단계에서는 일반 VLM처럼 RGB 영상만 입력해도 동작할 수 있다.
실험 결과, Gaze-VLM은 future activity prediction과 current activity understanding 두 과제 모두에서 baseline보다 높은 성능을 보였다. 여러 VLM architecture에서 비슷한 성능 향상이 나타났다는 점도 중요하다. 이는 제안 방법이 특정 모델에 맞춘 방식이 아니라 attention 구조를 가진 다양한 VLM에 적용될 수 있음을 보여준다.
Gaze regularization은 성능 향상뿐 아니라 모델 출력의 신뢰성 개선에도 영향을 주었다. Human evaluation에서는 hallucination이 줄어들었고, attention-gaze alignment 실험에서는 모델의 attention이 실제 사람의 gaze region과 더 많이 겹치는 것으로 나타났다. 이를 통해 시선 정보가 모델이 장면 속 중요한 영역에 집중하도록 돕고, 시각적 근거가 부족한 내용을 생성하는 경향을 줄일 수 있음을 확인했다.
결과적으로 이 논문은 gaze가 VLM의 attention을 사람의 시각적 주의와 맞추는 효과적인 학습 신호가 될 수 있음을 보여준다. 이러한 접근은 assistive system, wearable AI, human-robot collaboration처럼 사용자의 의도와 행동을 빠르게 파악해야 하는 환경에서 활용될 가능성이 있다. 향후에는 더 크고 정확한 gaze annotation dataset을 구축하고, task-specific gaze modeling이나 gaze-action joint modeling으로 확장하는 연구가 필요하다.