Faster R-CNN: Towards Real-Time ObjectDetection with Region Proposal Networks
·
ML&DL/논문리뷰
Abstract당시 객체 탐지의 성능이 region proposal 단계에 크게 의존하면서, Fast R-CNN/SPPnet처럼 탐지 네트워크의 실행 시간을 줄일려는 시도가 있었다. 그럼에도 proposal 생성이 전체 속도의 병목이었다. 이를 해결하기 위해 본 논문은 Region Proposal Network(RPN)를 제안한다. 이는 검출 네트워크와 전체 이미지의 convolution feature를 공유해 proposal을 거의 추가 비용 없이 생성하는 것이다. RPN은 fully-convolutional 구조로 각 위치에서 물체일 확률(objectness)과 경계상자(bbox)를 동시에 예측하며, end-to-end로 학습되어 고품질 proposal을 만든다. 이렇게 생성된 proposal을 Fa..
VAE: Auto-Encoding Variational Bayes
·
ML&DL/논문리뷰
1. Introduction해당 논문은 연속 잠재 변수 또는 파라미터가 있는 생성모델에서 사후 분포가 intractable(다루기 어려울 때), 큰 데이터에서도 효율적으로 근사 추론+학습을 어떻게 하냐?는 물음에서 시작한다. 추론(inference)은 입력값 x로 z를 추정하는 과정으로, p(z)로 p_θ(x|z)인 x를 만든다. 학습을 위해서는 z를 알아내야하는데, 이를 사후분포라 한다.논문의 2.1 에서도 언급하지만, 사후분포는 p_θ(z|x)로 나타낼 수 있으며, 이는 베이즈 정리로 p_θ(z|x) = p_θ(x|z)p(z)/ p_θ(x)로 나타낼 수 있다. 이를 구하기 위해선, 분모의 p_θ(x) 값이 필요한데, p_θ(x) = ∫p_θ(x|z)p(z)dz라 적분을 사용해야해 매우 비싼 연산이다...
StyleGAN: A Style-Based Generator Architecture for Generative Adversarial Networks
·
ML&DL/논문리뷰
StyleGAN 논문은 PGGAN 구조에 Style transfer 개념을 적용하여 재구성한 논문이다. 그리해 StyleGAN을 정리하기 앞서 PGGAN을 간단하게나마 정리해보았다. [PGGAN] PGGAN는 낮은 해상도부터 높은 해상도까지 점진적으로 생성하는 생성모델로, z(노이즈 벡터, latent vector)를 정규화 후에 바로 Generator에 입력해 이미지 생성한다. 즉 z가 가진 모든 차원이 이미지의 모든 요소를 동시에 책임진다.z의 1번 값이 머리카락에만 영향을 주고z의 2번 값이 안경 여부에만 영향을 주고…이런 식의 역할 분담이 없다. 이러한 역할 분담이 없는 것을 latent space가 뒤엉켜 특징 구분이 어려운 상태로, entangled라고 한다. PGGAN의 Generator는 ..
CycleGAN: Unpaired Image-to-Image Translationusing Cycle-Consistent Adversarial Networks
·
ML&DL/논문리뷰
AbstractCycleGAN은 매칭된 이미지 쌍 없이(unpaired) 두 도메인 간의 이미지 변환을 학습하는 새로운 방식의 모델이다. 기존의 이미지 변환 기법들은 대부분 입력–정답 이미지가 1:1로 묶인 paired data가 필요했지만, CycleGAN은 X→Y로의 변환 G과 Y→X의 역변환 F을 함께 학습하고, cycle-consistency loss로 두 변환이 서로 모순되지 않도록 제약을 준다. Adversarial loss로 변환된 이미지가 목표 도메인 분포를 따르도록 만들고, cycle consistency는 개별 입력–출력(F(G(X)) ≈ X)간의 일관성을 유지하도록 강제한다. 이를 통해 페어링이 없는 데이터셋에서도 스타일 변환, 사물 변환, 계절 변환 등 다양한 이미지 변환을 수행하며..
R-CNN: Regions with CNNfeatures
·
ML&DL/논문리뷰
AbstractR-CNN은 기존 객체 검출 성능이 수년간 정체되어 있던 문제를 해결하기 위해, 복잡한 특징 조합이나 다양한 부가 정보 없이도 높은 성능을 달성하는 단순하고 확장 가능한 객체 검출 알고리즘을 제안한다. 이 방법은 약 2000개의 region proposal을 생성하고, 각 영역에 고용량 CNN을 적용하여 특징을 추출한 뒤, 클래스별 SVM으로 분류하는 구조를 사용한다. 또한 라벨이 적은 detection 데이터셋의 한계를 극복하기 위해 대규모 ImageNet 데이터셋에서 CNN을 지도 학습으로 사전학습한 후, detection용으로 미세조정(fine-tuning)하는 전략을 도입해 성능을 크게 향상시킨다. 이러한 접근을 통해 VOC 2012에서 기존 최고 성능 대비 mAP를 30% 이상 개..
GAN: Generative Adversarial Nets
·
ML&DL/논문리뷰
AbstractGAN은 생성 모델을 학습하기 위한 새로운 적대적 학습 프레임워크를 제안한다. 이 방식은 데이터 분포를 찾아내려는 생성기 G와, 입력이 실제 데이터인지 생성된 데이터인지 판별하려는 판별기 D를 동시에 학습시키며, 두 모델은 미니맥스 게임 구조를 이룬다. 이론적으로는 무한한 표현력을 가정할 때 G와 D의 최적해가 존재하며, 최적해가 존재하는 지점에서 G는 실제 데이터 분포를 재현하고 D는 모든 입력에 대해 0.5의 확률을 출력한다. 또한 제안된 방식은 MCMC나 복잡한 추론 절차 없이 단순히 역전파만으로 학습과 샘플 생성이 가능하다. 실험에서는 이 프레임워크가 다양한 데이터셋에서 생성 모델로서 유의미한 품질을 보여줌을 확인했다. *MCMC(Markov Chain Monte Carlo): 확..
EfficientNet
·
ML&DL/논문리뷰
Abstract합성곱 신경망은 보통 주어진 자원 안에서 먼저 만들어진 후, 더 많은 계산 자원이 생기면 성능을 높이기 위해 모델을 크게 키우곤 했다. 이 논문에서는 이런 모델 확장 방식을 연구한 끝에, 깊이, 너비, 해상도 중 하나만 키우는 것이 아니라 세 요소를 균형 있게 함께 키우는 것이 성능 향상에 더 효과적이라는 점을 밝혀냈다. 관찰을 바탕으로 단순한 복합 계수(compound coefficient) 를 이용해 모델의 깊이, 너비, 해상도를 동시에 일정한 비율로 키우는 새로운 스케일링 방법을 제안했다. 실험을 통해 이 방식이 MobileNet과 ResNet 같은 기존 모델을 확장하는 데도 효과적임을 확인했다. 또한 신경망 구조 검색 기법을 이용해 새로운 기준 모델을 만든 뒤, 이를 위에서 언급한 ..
ResNet
·
ML&DL/논문리뷰
Abstract깊은 신경망의 훈련을 용이하게 하기 위해 잔차 학습(residual learning) 프레임워크가 제안되었다. 이 프레임워크는 레이어가 참조되지 않은 함수를 학습하는 대신 레이어 입력을 기준으로 잔차 함수를 학습하도록 재구성하였다. 휴리스틱 증거에 따르면 이러한 잔차 네트워크는 최적화가 더 용이했으며, 깊이를 상당히 증가시켜도 정확도를 높일 수 있었다. ImageNet 데이터셋에서 최대 152개 레이어 깊이의 residual net을 평가하였는데, 이는 VGGNets보다 8배 더 깊으면서도 복잡도는 더 낮았다. 이러한 residual net의 앙상블은 ImageNet 테스트 세트에서 3.57%의 오류율을 달성하며, ILSVRC 2015 분류 작업에서 1위를 차지하였다. 또한 CIFAR-10..
BLIP
·
ML&DL/논문리뷰
Abstract기존의 VLP 모델들은 주로 이해 기반 또는 생성 기반 작업 중 한 분야에서만 뛰어났고, 성능 향상은 노이즈가 많은 웹 이미지-텍스트 쌍 데이터셋을 확장하는 방식으로 이루어졌다. 하지만 이는 최적의 감독 소스가 아니었다. 본 논문에서는 이러한 한계를 극복하기 위해 BLIP이라는 새로운 프레임워크를 제안한다. BLIP은 시각/언어 이해 및 생성 작업 모두에 유연하게 전이될 수 있다. 캡션 부트스트래핑(bootstrapping the captions) 방식을 통해 노이즈가 많은 웹 데이터를 효과적으로 활용하며, 이 과정에서 캡셔너(captioner)가 합성 캡션을 생성하고, 필터(filter)가 노이즈 있는 캡션을 제거한다. BLIP은 이미지-텍스트 검색, 이미지 캡셔닝, 시각 질문 응답(VQ..
CLIP
·
ML&DL/논문리뷰
AbstractSOTA CV 시스템은 미리 정의된 고정된 객체 범주를 예측하도록 훈련된다. 이러한 제한된 형태의 감독은 시스템의 일반성과 유용성을 제약하고, 새로운 시각적 개념을 인식하려면 추가적인 라벨링 데이터가 필요하다. 본 논문은 어떤 캡션이 어떤 이미지에 속하는지를 예측하는 단순한 사전 훈련 작업이 인터넷에서 수집한 4억 개의 (이미지, 텍스트) 쌍 데이터셋으로부터 최첨단 이미지 표현을 처음부터 학습할 수 있는 효율적이고 확장 가능한 방법임을 입증하였다. 사전 훈련이 완료된 후에는 자연어를 활용하여 학습된 시각적 개념을 참조하거나 새로운 개념을 설명함으로써 모델이 다양한 다운스트림 작업에 zero-shot transfer할 수 있도록 한다.*zero-shot transfer: 모델이 특정 훈련 데..