YOLO — MINYOY

Abstract

용어 정리

해당 사진에서

객체 확률이 0.5 이상인 박스만 탐지 성공으로 인정한다고 할 때, 0.5에 해당하는 임계값을 높이거나 낮추면 Precision과 Recall이 변화한다.

그래서 다양한 threshold 값에 대해 Precision과 Recall을 계산해 그린 곡선이 PR Curve(Precision–Recall 곡선)이다.

이 PR Curve의 곡선 아래 면적 값이 AP(Area Under PR Curve)이다.

즉, AP 값이 높을수록, 모델이 높은 Precision과 높은 Recall을 동시에 달성했다는 뜻이다.

YOLO의 경우 클래스가 여러 개이기에, 각 클래스마다 AP를 계산하고 평균을 낸다.

즉, mAP는 모든 클래스의 AP 평균이다.

(예) PASCAL VOC에는 20개 클래스가 있으니까 각 클래스(person, car, dog, tv, ...)의 AP를 계산한 뒤 평균을 내면 mAP 이다.

모델이 얼마나 박스를 잘 결정했는지 평가하기 위해 나온 수치로, 합집합의 면적 분의 중첩된 면적이 IoU 값이다.

이미지를 S×S 격자로 나눔; 그림에서는 S=7로, 7×7인 49개의 셀로 분할됨
(1) 각 셀은 B개의 바운딩 박스 예측; 그림에서는 B=2로, 각 셀마다 2개의 바운딩 박스 예측

각 바운딩 박스는 (x, y, w, h)와 confidence 값을 가짐
(x, y): 셀 기준의 상대적인 중심 좌표 값
(w, h): 이미지 전체에 대한 상대 크기
confidence는 이 박스 안에 객체가 있을 확률 × 예측 박스와 실제 박스의 IOU(Pr(Object) × IOU(pred, truth))

(2) 각 셀은 클래스 확률 Pr(Class_i | Object) 를 예측
모든 셀의 예측 종합 시, 하나의 7×7×30 텐서가 만들어짐. (뒤에서 더 자세히 설명)
테스트 시,
1. 클래스 확률 x confidence = 이 위치에 특정 클래스가 있을 확률 = 최종신뢰도 계산
2. 최종신뢰도 바탕으로 NMS 연산 진행
3. 클래스별 바운딩 박스의 위치 결정

하나의 CNN
- 초반부의 합성곱 계층: 이미지의 특징 추출
- 마지막 완전연결 계층: 각 셀의 바운딩 박스 좌표와 클래스 확률 예측
GoogLeNet의 영향을 받음
- GoogLeNet의 Inception 모듈 대신, 1×1 합성곱과 3×3 합성곱을 사용
- → 모델의 깊이를 유지하면서 계산 효율을 높여줌
24개의 합성곱 계층 + 2개의 완전연결 계층
입력 이미지: 448×448
마지막 출력: 7×7×30 텐서

ImageNet 데이터셋으로 사전학습 → 이후에 탐지용으로 합성곱 층 4개+완전연결 층 2개 추가
입력 해상도: 224x224 → 448x448
활성함수: 대부분 Leaky ReLU, 마지막 출력층만 선형 함수 사용
*죽은 뉴런 문제: ReLU의 음수 입력에서 출력과 기울기가 0이 되어 그 이후로 어떤 입력을 받아도 항상 0만 출력하는 문제

대부분의 셀에 객체가 존재하지 않음
→ confidence가 0인 셀의 손실이 지나치게 커짐
→ 객체가 없는 셀의 손실 가중치 $λ_{noobj}$를 0.5로 줄임, 좌표 손실 가중치 $λ_{coord}$는 5로 높임
큰 박스와 작은 박스의 오차를 동일하게 취급
→ 너비와 높이에 루트를 씌워 예측
가장 IOU가 높은 박스가 책임 박스
→ 각 박스가 전문화되어 전반적인 탐지 성능 향상
학습: 135 epoch, Batch Size 64, 모멘텀 0.9, 드롭아웃 0.5, 데이터 증강(이미지의 크기와 위치를 ±20% 범위에서 랜덤하게 변형, HSV 색공간에서 밝기와 채도를 최대 1.5배까지 조정)