Abstract
합성곱 신경망은 보통 주어진 자원 안에서 먼저 만들어진 후, 더 많은 계산 자원이 생기면 성능을 높이기 위해 모델을 크게 키우곤 했다. 이 논문에서는 이런 모델 확장 방식을 연구한 끝에, 깊이, 너비, 해상도 중 하나만 키우는 것이 아니라 세 요소를 균형 있게 함께 키우는 것이 성능 향상에 더 효과적이라는 점을 밝혀냈다. 관찰을 바탕으로 단순한 복합 계수(compound coefficient) 를 이용해 모델의 깊이, 너비, 해상도를 동시에 일정한 비율로 키우는 새로운 스케일링 방법을 제안했다. 실험을 통해 이 방식이 MobileNet과 ResNet 같은 기존 모델을 확장하는 데도 효과적임을 확인했다.
또한 신경망 구조 검색 기법을 이용해 새로운 기준 모델을 만든 뒤, 이를 위에서 언급한 스케일링 방법으로 단계적으로 확장해 EfficientNet이라는 모델 계열을 개발했다. EfficientNet은 기존 ConvNet보다 훨씬 더 높은 정확도와 더 좋은 효율성을 동시에 달성했다. 특히 EfficientNet-B7은 ImageNet에서 당시 최고 성능 모델보다 8.4배 작고 6.1배 빠른 추론 속도를 보였다. 또한 CIFAR-100, Flowers 등 여러 전이 학습 데이터셋에서도 적은 파라미터로 최고 수준의 정확도를 보여 다양한 상황에서 효율적이고 성능이 뛰어난 모델임을 입증했다.
*신경망 구조 검색(NAS, Neural Architecture Search)
: 신경망의 구조를 사람이 직접 설계하지 않고, 알고리즘이 가장 성능이 좋은 구조를 자동으로 찾아주는 기법
1. Introduction
본 논문은 더 높은 정확도를 얻기 위해 합성곱 신경망을 확장하는 과정이 널리 사용되어 왔음을 먼저 설명한다. 예를 들어 ResNet은 레이어 수를 늘려 ResNet-18에서 ResNet-200까지 확장될 수 있고, GPipe는 기본 모델을 네 배 이상 크게 만들어 ImageNet에서 84.3%의 정확도를 달성했다. 그러나 지금까지의 모델 확장은 깊이만 늘리거나 너비만 늘리거나 입력 해상도만 키우는 식으로 한 가지 차원만 조정하는 경우가 대부분이었고, 세 차원을 동시에 조정하더라도 경험적으로 임의로 조합해 조정하는 방식이 많았다. 이러한 방식은 많은 수작업 튜닝이 필요해, 비효율적이고 최적 성능을 얻기 어렵다는 문제가 있었다.
이에 저자들은 합성곱 신경망을 확장하는 과정을 다시 살펴보며, 정확도와 효율성을 함께 높이기 위해서는 네트워크의 깊이, 너비, 해상도 세 요소를 균형 있게 조절하는 것이 중요하다는 점을 발견했다. 실험을 통해 세 차원을 일정한 비율로 동시에 확장하는 것이 더 나은 성능을 가져온다는 사실을 확인하고, 이를 기반으로 간단하면서도 효과적인 복합 스케일링 방법을 제안했다. 이 방법은 사용자 지정 계수 하나로 깊이, 너비, 해상도에 추가 자원을 어떻게 배분할지 결정하며, 복잡한 튜닝 없이 모델을 확장할 수 있게 한다.
저자들은 이 스케일링 기법을 MobileNet과 ResNet 같은 기존 모델에 적용해도 성능이 향상되는 것을 확인했으며, 신경망 구조 검색 기법을 이용해 새로운 기준 모델인 EfficientNet-B0을 설계하고, 이를 복합 스케일링 규칙에 따라 확장해 EfficientNet 계열을 만들었다. EfficientNet은 기존의 대형 모델에 비해 매우 적은 파라미터와 FLOPS로 더 높은 정확도를 달성했다.

특히 EfficientNet-B7은 GPipe와 동일한 84.3%의 ImageNet 정확도를 유지하면서도 파라미터 수는 8.4배, 추론 속도는 6.1배 개선된 성능을 보였다.
*FLOPS : 모델이 한 번 추론할 때 총 몇 번의 연산이 필요한가를 의미하는 딥러닝 연산량 지표
2. Related Work
먼저 합성곱 신경망 정확도 측면에서는 AlexNet 이후 모델들이 점점 더 커지면서 성능을 높여왔다는 점을 설명한다. 예를 들어 GoogleNet, ResNet, SENet 같은 모델들은 레이어 수와 파라미터를 늘려 ImageNet 정확도를 높였고, 최근의 GPipe는 557M 파라미터를 사용해 매우 높은 정확도를 기록했다. 하지만 이러한 대형 모델은 하드웨어 메모리 한계에 부딪혀 효율성 문제가 심각해지고 있다고 언급했다.
한편 합성곱 신경망 효율성을 높이기 위한 연구도 많이 진행되어 왔다. 모델 압축 기법으로 파라미터를 줄여, SqueezeNet, MobileNet, ShuffleNet처럼 모바일 환경에 맞게 수작업으로 설계된 경량 모델들도 제안되어 왔다. 최근에는 신경망 구조 검색(NAS)을 활용하여 모바일 환경에서 더 효율적인 구조를 자동으로 찾아내는 접근이 주목받고 있다. 그러나 이러한 NAS 기반 모델도 주로 작은 모델 설계에 초점을 두기 때문에 대형 모델을 효율적으로 설계하고 확장하는 방법은 여전히 어려운 문제로 남아 있다.
마지막으로 모델 스케일링 연구에서는 합성곱 신경망을 다양한 자원 제약에 맞게 확장하는 기존 방식을 설명한다. ResNet처럼 깊이를 조절하거나 MobileNet처럼 너비를 조절하거나, 혹은 입력 해상도를 높이는 방식들이 일반적이지만, 대부분 세 요소 중 하나만을 조정하며 확장하는 방식이었다. 이들 방식은 특정 조건에서는 효과적이지만 세 요소 사이의 관계를 고려하지 않아 정확도와 효율성 면에서 한계가 있다. 기존 이론과 연구들은 깊이와 너비가 표현력에 중요하다는 점을 보여줬지만, 깊이, 너비, 해상도 세 요소를 함께 고려해 체계적으로 스케일링하는 원칙적인 방법은 아직 제시되지 않았다. EfficientNet 논문은 이러한 부족한 부분을 해결하기 위해 세 차원을 동시에 고려하는 새로운 스케일링 방식을 제안한다고 밝힌다.
3. Compound Model Scaling
3.1. Problem Formulation
합성곱 신경망의 각 레이어 i는 입력 텐서(X_i)를 받아 연산을 수행해 출력 텐서(Y_i)를 만드는 함수(F_i)로 볼 수 있다. 입력 텐서는 <H_i, W_i, C_i>와 같이 높이, 너비 같은 공간적 크기와 채널 수로 구성되며, N = Fk * ... * F2 * F1(X1) = *j=1...k Fj(X1)과 같이 여러 레이어가 순차적으로 연결되어 전체 네트워크를 이룬다. 실제 신경망에서는 이러한 레이어들이 여러 단계로 나누어지고, 각 단계에 속한 레이어들은 동일한 구조를 반복한다. 따라서 아래와 같이 합성곱 신경망을 정의할 수 있다. {F^{L_i}}_i는 F_i를 L_i번 반복한다는 뜻이며, L_i는 레이어 i의 입력 텐서 X의 모양을 나타낸다. 아래 오른쪽 그림은 대표적인 합성곱 신경망을 보여준다.


일반적인 합성곱 신경망 설계는 레이어 구조 자체를 어떻게 만들지에 초점을 두지만, 모델 스케일링에서는 기본 레이어 구조는 그대로 두고 레이어 깊이와 너비, 입력 해상도 같은 요소를 확장하는 방식을 사용한다. 그러나 각 레이어마다 깊이, 너비, 해상도를 다르게 조절하려 하면 조합이 매우 많아져 설계 공간이 지나치게 커진다. 이를 해결하기 위해 논문에서는 모든 레이어를 동일한 비율로 확장한다는 제약을 둔다. 즉 네트워크 전체의 깊이는 d배, 너비는 w배, 해상도는 r배로 일정하게 확대되도록 제한한다. 이렇게 하면 설계 공간이 크게 줄어들어 현실적인 최적화가 가능해지기 때문에 아래와 같은 최적화 문제로 공식화 할 수 있다.


3.2. Scaling Dimensions

(가운데 그래프) 먼저 깊이(d)를 늘리면 더 복잡한 표현을 학습할 수 있어 정확도가 오르지만, 네트워크가 지나치게 깊어지면 기울기 소실과 같은 문제로 학습이 어려워지며 정확도 향상 폭도 점점 줄어든다.
(왼쪽 그래프) 너비(w)를 늘리면 더 많은 채널을 사용해 세밀한 특징을 캡처할 수 있지만, 너무 넓기만 한 모델은 세밀한 특징을 포착하는 데 한계가 있어 정확도 증가가 어느 시점부터 거의 멈춘다.
(오른쪽 그래프) 입력 해상도(r)를 높이면 더 많은 픽셀 정보가 들어와 더 세밀한 패턴을 학습할 수 있지만, 해상도가 너무 커지면 계산량이 크게 늘어나면서 역시 정확도 개선이 포화되는 현상이 나타난다.
이러한 실험 결과는 깊이, 너비, 해상도 중 하나만 확장하는 방식은 큰 모델일수록 한계에 빨리 도달한다는 점을 보여주며, 세 요소의 균형을 고려해야 한다는 첫 번째 관찰을 시사한다.
3.3. Compound Scaling
3.3에서는 세 차원이 서로 독립적이지 않다는 점을 강조한다.

해상도가 커지면 더 넓은 수용영역이 필요하기 때문에 깊이도 늘려야 하고, 더 많은 픽셀을 처리해 세밀한 패턴을 학습하려면 너비 또한 필요해진다. 즉 깊이, 너비, 해상도를 따로 조정하면 균형이 무너져 효율적으로 확장하기 어렵고, 세 요소를 함께 조정해야 더 높은 정확도와 효율을 얻을 수 있다는 것이다. 이를 검증하기 위해 위 그래프와 같이 너비 확장 실험을 여러 깊이, 해상도 조합에서 수행한 결과 깊이와 해상도가 충분히 확보된 상태에서 너비를 늘릴 때 훨씬 좋은 성능이 나타났다. 이는 세 가지 요소가 서로 의존적이며 균형 있게 확장되어야 한다는 두 번째 관찰로 이어진다.

이러한 관찰을 바탕으로 논문은 복합 스케일링 방법을 제안한다. 이 방식은 하나의 계수 φ를 통해 네트워크 깊이, 너비, 해상도를 각각 고정된 비율로 동시에 확대하는 방법이다. 각 차원에 얼마만큼 자원을 배분할지는 α, β, γ라는 세 개의 상수로 결정되며, 이 값들은 작은 모델을 대상으로 한 그리드 탐색으로 찾는다. 이후에는 φ만 조절해 원하는 크기의 모델을 쉽게 확장할 수 있다. 또한 깊이 증가, 너비 증가, 해상도 증가가 FLOPs에 미치는 영향을 고려해 α·β²·γ²가 대략 2가 되도록 설정함으로써, φ가 1 증가할 때마다 전체 연산량이 약 두 배가 되도록 설계했다. 이 방법은 임의의 조합으로 세 차원을 조절하는 기존 방식보다 훨씬 체계적이고 효율적이며, 대형 모델에서도 일관적으로 좋은 성능을 얻을 수 있게 한다.
*그리드 탐색: 가능한 후보들을 일정 간격으로 나열해 전부 실험해보는 방식
4. EfficientNet Architecture
모델 스케일링은 기본적으로 레이어 구조 자체는 바꾸지 않고 깊이, 너비, 해상도만 확장하는 방식이기 때문에, 좋은 성능을 내려면 처음에 사용하는 베이스라인 모델이 매우 중요하다. 따라서 저자들은 기존 합성곱 신경망을 그대로 사용하는 대신, 더 효율적인 출발점을 만들기 위해 신경망 구조 검색(NAS)을 이용해 EfficientNet-B0라는 기본 모델을 설계했다. 이 NAS는 작은 연산량 안에서 효율적인 모델을 찾도록 구성되었다.
EfficientNet-B0는 연산량은 적으면서 성능이 높도록 구성요소를 조합한 구조로 입력 해상도는 224×224, 첫 번째 단계에서 32채널을 사용하며, 이후 단계마다 해상도는 줄어들고 채널 수는 증가하는 전형적인 ConvNet 구조를 따른다.

이 베이스라인 모델을 만든 뒤, 논문에서 제안한 복합 스케일링 방식을 적용해 EfficientNet-B1부터 B7까지 점차적으로 확장한다. 먼저 φ=1일 때 사용할 최적의 비율(α=1.2, β=1.1, γ=1.15)을 작은 모델에서 그리드 탐색으로 찾고, 이를 고정한 뒤 φ 값을 증가시키면서 모델을 점점 크게 확장한다. 이렇게 하면 많은 자원을 들이지 않고도 일관성 있게 작은 모델에서 큰 모델까지 확장할 수 있다. 그 결과 EfficientNet 계열은 모든 크기의 모델에서 기존 ConvNet들보다 훨씬 높은 정확도와 효율성을 동시에 달성하게 되었다.
5. Experiments
실험 파트에서는 먼저 제안한 복합 스케일링 방법이 실제로 기존 모델들과 새로운 EfficientNet 모델에서 얼마나 효과적인지를 검증한다.
5.1. Scaling Up MobileNets and ResNets

우선 MobileNet이나 ResNet과 같은 널리 사용되는 기존 ConvNet들에 복합 스케일링을 적용한 결과, 깊이, 너비, 해상도 중 하나만 키우는 기존 방식보다 정확도가 일관되게 더 높아짐을 확인했다. 이는 복합 스케일링이 특정 모델에만 특화된 방식이 아니라 다양한 구조에 일반적으로 적용해도 성능을 향상시키는 유효한 방법임을 보여준다.
5.2. ImageNet Results for EfficientNet

다음으로 EfficientNet 계열을 평가했다. 우선 EfficientNet-B0을 기준으로 φ 값을 증가시키며 B1부터 B7까지 확장한 모델을 ImageNet에서 학습시켰다. EfficientNet은 SiLU 활성화, RMSProp, AutoAugment, 증가하는 dropout, stochastic depth, 최적화된 batch norm 설정 등을 조합해 높은 정확도를 얻었다. 그 결과 EfficientNet 모델들은 기존의 합성곱 신경망보다 훨씬 적은 파라미터와 연산량으로 더 높은 정확도를 달성했다.

또한 실제 하드웨어에서도 효율성을 검증하기 위해 CPU에서 추론 속도를 측정한 결과, EfficientNet은 다른 합성곱 신경망보다 훨씬 더 빠르게 동작했다. 이는 단순히 연산량만 적은 것이 아니라 실제 장비에서도 빠르게 실행된다는 점을 의미한다.
5.3. Transfer Learning Resuls for EfficientNet


전이 학습 실험에서도 CIFAR-100, Flowers, Stanford Cars 등 다양한 데이터셋에서 EfficientNet이 기존 모델보다 적은 파라미터로 최고 성능을 달성했다. 이로써 EfficientNet 모델들은 크기, 속도, 정확도 모든 면에서 기존 모델들을 뛰어넘는 성능을 보여주며, 복합 스케일링 방법의 효과가 다양한 문제와 조건에서 지속적으로 유지된다는 사실을 입증했다.
6. Discussion

EfficientNet-B0을 기준으로 깊이만 늘리거나, 너비만 늘리거나, 해상도만 늘리는 방식과 성능을 비교한 결과, 복합 스케일링이 동일한 연산량에서도 최대 2.5% 더 높은 정확도를 기록했다. 이는 단일 차원을 키우는 방식이 가진 한계를 보여주며, 깊이와 너비, 해상도를 함께 늘
릴 때 모델이 더 균형 잡히고 성능이 더 높아진다는 점을 확인해준다.

논문에서는 CAM을 통해 이러한 차이를 시각적으로도 보여주는데, 복합 스케일링 모델은 이미지의 더 핵심적인 영역과 세부 구조를 정확하게 포착하는 반면, 단일 차원 스케일링 모델들은 일부 정보만 강조하거나 객체 전체를 포착하지 못하는 경향을 보였다. 이를 통해 복합 스케일링 방식이 단순히 정확도 향상뿐 아니라 모델이 실제로 더 풍부한 특징을 학습한다는 사실을 강조한다.
7. Conclusion
기존 ConvNet은 깊이, 너비, 해상도 중 한 가지만 키우는 방식이 많아 성능 향상에 한계가 있었다. EfficientNet은 이 세 요소를 균형 있게 함께 늘리는 복합 스케일링 방법을 제안해, 자원 제약에 맞춰 효율적으로 모델을 확장할 수 있는 원칙적인 방식을 제시했다. 이 방법을 적용해 만든 EfficientNet 계열은 기존 대형 모델보다 훨씬 적은 파라미터로 더 높은 정확도를 달성했으며 다양한 전이 학습에서도 우수한 성능을 보였다.
'ML&DL > 논문리뷰' 카테고리의 다른 글
| R-CNN: Regions with CNNfeatures (0) | 2025.11.18 |
|---|---|
| GAN: Generative Adversarial Nets (0) | 2025.11.17 |
| ResNet (0) | 2025.11.11 |
| BLIP (0) | 2025.11.03 |
| CLIP (0) | 2025.11.03 |