VGGNet

1. Introduction

특징:
- 모든 합성곱 층: 3×3 필터 (가장 작은 receptive field)
- 1x1 필터는 선형 변환이랑 같음
- stride = 1, padding = 1로 공간 해상도 유지
- 5개의 max-pooling 층 (2×2, stride 2)
- 마지막: 3개의 Fully Connected (4096, 4096, 1000 softmax)
- ReLU 비선형 활성화 함수 적용
- Local Response Normalization(LRN)은 사용하지 않음 (효과 없음, 메모리 사용량 및 계산량만 증가)
구성은 같으나 깊이에 따른 모델 버전:
- A (11층) ~ E (19층)
- 가장 얕은 모델은 conv 8개 + FC 3개 = 11층
- 가장 깊은 모델은 conv 16개 + FC 3개 = 19층
7x7 한 층 대신 3x3 세 층을 사용하는 것의 장점:
- ReLU 비선형성이 3번 들어가므로 결정 함수가 더 강력
- 파라미터 수가 줄어듦.
  - 입력과 출력이 C채널일 때:
  - 3×3 세 층 = 27C²
  - 7×7 한 층 = 49C²
- 즉, 7×7 필터를 3×3 필터 조합으로 분해하도록 정규화 효과를 부여

multinomial logistic regression objective 미니배치 SGD 이용, 모멘텀(0.9)으로 설정
배치 크기: 256
weight decay(L2), dropout(0.5, FC에만 적용)으로 정규화
learning rate: 0.01 → 검증 정확도가 개선되지 않을 때마다 10배 감소
가중치 초기화
- 네트워크 A를 무작위 초기화로 학습 후, 더 깊은 네트워크를 학습할 때는 앞쪽 4개의 Conv 층과 마지막 3개의 FC 층을 네트워크 A에서 학습한 가중치로 초기화했고, 중간층은 무작위 초기화
- 무작위 초기화 시에는 평균 0, 분산 10⁻²의 정규분포에서 샘플링했으며, bias는 0으로 설정
데이터 증강:
- 랜덤 크롭 (224×224)
- 좌우 반전, 색상 변화
- 두 가지 학습 방식
  - 단일 스케일 학습 (Single-scale training): S를 고정
    - S=256, S=384 두 경우 실험
    - S=384 학습 시, 먼저 S=256으로 학습 후 가중치를 초기화로 사용, learning rate는 10⁻³
  - 다중 스케일 학습 (Multi-scale training, scale jittering): S를 [256, 512] 범위에서 랜덤으로 선택
    - 실제 학습은 S=384 모델을 사전 학습 후 fine-tuning 방식으로 진행

다중 GPU 학습은 데이터 병렬 처리 방식으로 수행:
- 배치를 GPU별로 분할 → 병렬 처리 → 기울기 평균
- 결과는 단일 GPU 학습과 동일
4-GPU 시스템에서 단일 GPU 대비 3.75배 속도 향상

고정 스케일 학습 모델: Q={S-32, S, S+32}, 다중 스케일 학습 모델: Q={Smin, 0.5(Smin+Smax), Smax}
- 다중 스케일 테스트가 단일 스케일보다 더 나은 성능
- 가장 깊은 D, E 모델이 최고 성능
- 최고 성능 (단일 모델): Top-1 24.8%, Top-5 7.5% (검증 셋)

Dense와 Multi-crop은 보완적 → 함께 쓰면 성능 향상
- Multi-crop 단독 성능은 Dense보다 약간 좋음
- Dense + Multi-crop 결합 → 가장 성능 좋음 (Top-5 7.1% → 7.0% 수준)

여러 모델의 softmax 출력을 평균 → 성능 개선
- ILSVRC 제출 당시: 7개 모델 앙상블 → Top-5 에러 7.3%
- 이후, 단 두 모델(D, E)만 앙상블 → Top-5 에러 6.8% (Dense + Multi-crop 결합 시)
- 단일 최고 모델(E)도 7.0% 성능 달성

VGGNet 결과는 이전 세대 모델(AlexNet, Zeiler & Fergus, OverFeat 등)을 크게 능가했으며, GoogLeNet과 비슷한 수준(GoogLeNet 6.7%, VGGNet 6.8%)
단일 모델 기준: VGGNet E (7.0%) > GoogLeNet (7.9%)

네트워크 깊이는 성능 향상에 매우 중요함
고전적인 ConvNet 아키텍처를 크게 변경하지 않고 단순히 깊이를 증가시키는 것만으로도 state-of-the-art을 달성할 수 있음을 보여줌

[참조]