Mask R-CNN
·
ML&DL/논문리뷰
Abstract.Mask R-CNN은 Faster R-CNN에 마스크 예측 브랜치를 병렬로 추가해, 객체 검출과 인스턴스 마스크 생성을 동시에 수행하는 프레임워크다. 학습은 간단하고, Faster R-CNN 대비 오버헤드가 크지 않다. 또한 동일 프레임워크로 포즈 추정까지 일반화 가능하다고 말한다. 또한 COCO 챌린지의 instance segmentation / bbox detection / person keypoint detection 3가지 트랙에서 모두 최고 결과를 보여준다. Introduction. 인스턴스 세그멘테이션은 객체 탐지와 인스턴스 분할을 동시에 요구하므로 어렵지만, 의외로 단순한 확장으로 SOTA를 능가할 수 있다는 점에서 출발한다. 핵심 아이디어는 Faster R-CNN의 2-st..
U-Net: Convolutional Networks for Biomedical Image Segmentation
·
ML&DL/논문리뷰
Abstract.본 논문은 딥러닝은 보통 많은 양의 정답 데이터가 필요하다는 통념에서 시작해, 적은 수의 라벨 이미지로도 의료 영상 분할을 잘 학습시키기 위한 네트워크 구조와 학습 전략을 제시합니다. 핵심은 데이터 증강으로 제한된 라벨 데이터를 효율적으로 쓰는 것이고, 구조적으로는 문맥을 넓게 잡는 contracting path와 픽셀 단위 위치를 정밀하게 복원하는 대칭 expanding path를 결합해 분류와 localization을 동시에 해결한다는 점입니다. Introduction.본 논문은 최근 2년간 CNN이 시각 인식 테스크에서 SOTA를 달성한 건 ImageNet과 같은 대규모 데이터와 큰 모델을 감당할 수 있었기 때문이라 말합니다. 그러나 의료 영상의 경우, 이미지 1장에 대한 분류가 아..
Faster R-CNN: Towards Real-Time ObjectDetection with Region Proposal Networks
·
ML&DL/논문리뷰
Abstract당시 객체 탐지의 성능이 region proposal 단계에 크게 의존하면서, Fast R-CNN/SPPnet처럼 탐지 네트워크의 실행 시간을 줄일려는 시도가 있었다. 그럼에도 proposal 생성이 전체 속도의 병목이었다. 이를 해결하기 위해 본 논문은 Region Proposal Network(RPN)를 제안한다. 이는 검출 네트워크와 전체 이미지의 convolution feature를 공유해 proposal을 거의 추가 비용 없이 생성하는 것이다. RPN은 fully-convolutional 구조로 각 위치에서 물체일 확률(objectness)과 경계상자(bbox)를 동시에 예측하며, end-to-end로 학습되어 고품질 proposal을 만든다. 이렇게 생성된 proposal을 Fa..
VAE: Auto-Encoding Variational Bayes
·
ML&DL/논문리뷰
1. Introduction해당 논문은 연속 잠재 변수 또는 파라미터가 있는 생성모델에서 사후 분포가 intractable(다루기 어려울 때), 큰 데이터에서도 효율적으로 근사 추론+학습을 어떻게 하냐?는 물음에서 시작한다. 추론(inference)은 입력값 x로 z를 추정하는 과정으로, p(z)로 p_θ(x|z)인 x를 만든다. 학습을 위해서는 z를 알아내야하는데, 이를 사후분포라 한다.논문의 2.1 에서도 언급하지만, 사후분포는 p_θ(z|x)로 나타낼 수 있으며, 이는 베이즈 정리로 p_θ(z|x) = p_θ(x|z)p(z)/ p_θ(x)로 나타낼 수 있다. 이를 구하기 위해선, 분모의 p_θ(x) 값이 필요한데, p_θ(x) = ∫p_θ(x|z)p(z)dz라 적분을 사용해야해 매우 비싼 연산이다...
StyleGAN: A Style-Based Generator Architecture for Generative Adversarial Networks
·
ML&DL/논문리뷰
StyleGAN 논문은 PGGAN 구조에 Style transfer 개념을 적용하여 재구성한 논문이다. 그리해 StyleGAN을 정리하기 앞서 PGGAN을 간단하게나마 정리해보았다. [PGGAN] PGGAN는 낮은 해상도부터 높은 해상도까지 점진적으로 생성하는 생성모델로, z(노이즈 벡터, latent vector)를 정규화 후에 바로 Generator에 입력해 이미지 생성한다. 즉 z가 가진 모든 차원이 이미지의 모든 요소를 동시에 책임진다.z의 1번 값이 머리카락에만 영향을 주고z의 2번 값이 안경 여부에만 영향을 주고…이런 식의 역할 분담이 없다. 이러한 역할 분담이 없는 것을 latent space가 뒤엉켜 특징 구분이 어려운 상태로, entangled라고 한다. PGGAN의 Generator는 ..
CycleGAN: Unpaired Image-to-Image Translationusing Cycle-Consistent Adversarial Networks
·
ML&DL/논문리뷰
AbstractCycleGAN은 매칭된 이미지 쌍 없이(unpaired) 두 도메인 간의 이미지 변환을 학습하는 새로운 방식의 모델이다. 기존의 이미지 변환 기법들은 대부분 입력–정답 이미지가 1:1로 묶인 paired data가 필요했지만, CycleGAN은 X→Y로의 변환 G과 Y→X의 역변환 F을 함께 학습하고, cycle-consistency loss로 두 변환이 서로 모순되지 않도록 제약을 준다. Adversarial loss로 변환된 이미지가 목표 도메인 분포를 따르도록 만들고, cycle consistency는 개별 입력–출력(F(G(X)) ≈ X)간의 일관성을 유지하도록 강제한다. 이를 통해 페어링이 없는 데이터셋에서도 스타일 변환, 사물 변환, 계절 변환 등 다양한 이미지 변환을 수행하며..
R-CNN: Regions with CNNfeatures
·
ML&DL/논문리뷰
AbstractR-CNN은 기존 객체 검출 성능이 수년간 정체되어 있던 문제를 해결하기 위해, 복잡한 특징 조합이나 다양한 부가 정보 없이도 높은 성능을 달성하는 단순하고 확장 가능한 객체 검출 알고리즘을 제안한다. 이 방법은 약 2000개의 region proposal을 생성하고, 각 영역에 고용량 CNN을 적용하여 특징을 추출한 뒤, 클래스별 SVM으로 분류하는 구조를 사용한다. 또한 라벨이 적은 detection 데이터셋의 한계를 극복하기 위해 대규모 ImageNet 데이터셋에서 CNN을 지도 학습으로 사전학습한 후, detection용으로 미세조정(fine-tuning)하는 전략을 도입해 성능을 크게 향상시킨다. 이러한 접근을 통해 VOC 2012에서 기존 최고 성능 대비 mAP를 30% 이상 개..
GAN: Generative Adversarial Nets
·
ML&DL/논문리뷰
AbstractGAN은 생성 모델을 학습하기 위한 새로운 적대적 학습 프레임워크를 제안한다. 이 방식은 데이터 분포를 찾아내려는 생성기 G와, 입력이 실제 데이터인지 생성된 데이터인지 판별하려는 판별기 D를 동시에 학습시키며, 두 모델은 미니맥스 게임 구조를 이룬다. 이론적으로는 무한한 표현력을 가정할 때 G와 D의 최적해가 존재하며, 최적해가 존재하는 지점에서 G는 실제 데이터 분포를 재현하고 D는 모든 입력에 대해 0.5의 확률을 출력한다. 또한 제안된 방식은 MCMC나 복잡한 추론 절차 없이 단순히 역전파만으로 학습과 샘플 생성이 가능하다. 실험에서는 이 프레임워크가 다양한 데이터셋에서 생성 모델로서 유의미한 품질을 보여줌을 확인했다. *MCMC(Markov Chain Monte Carlo): 확..
EfficientNet
·
ML&DL/논문리뷰
Abstract합성곱 신경망은 보통 주어진 자원 안에서 먼저 만들어진 후, 더 많은 계산 자원이 생기면 성능을 높이기 위해 모델을 크게 키우곤 했다. 이 논문에서는 이런 모델 확장 방식을 연구한 끝에, 깊이, 너비, 해상도 중 하나만 키우는 것이 아니라 세 요소를 균형 있게 함께 키우는 것이 성능 향상에 더 효과적이라는 점을 밝혀냈다. 관찰을 바탕으로 단순한 복합 계수(compound coefficient) 를 이용해 모델의 깊이, 너비, 해상도를 동시에 일정한 비율로 키우는 새로운 스케일링 방법을 제안했다. 실험을 통해 이 방식이 MobileNet과 ResNet 같은 기존 모델을 확장하는 데도 효과적임을 확인했다. 또한 신경망 구조 검색 기법을 이용해 새로운 기준 모델을 만든 뒤, 이를 위에서 언급한 ..
ResNet
·
ML&DL/논문리뷰
Abstract깊은 신경망의 훈련을 용이하게 하기 위해 잔차 학습(residual learning) 프레임워크가 제안되었다. 이 프레임워크는 레이어가 참조되지 않은 함수를 학습하는 대신 레이어 입력을 기준으로 잔차 함수를 학습하도록 재구성하였다. 휴리스틱 증거에 따르면 이러한 잔차 네트워크는 최적화가 더 용이했으며, 깊이를 상당히 증가시켜도 정확도를 높일 수 있었다. ImageNet 데이터셋에서 최대 152개 레이어 깊이의 residual net을 평가하였는데, 이는 VGGNets보다 8배 더 깊으면서도 복잡도는 더 낮았다. 이러한 residual net의 앙상블은 ImageNet 테스트 세트에서 3.57%의 오류율을 달성하며, ILSVRC 2015 분류 작업에서 1위를 차지하였다. 또한 CIFAR-10..