MINYOY

Abstract기존의 VLP 모델들은 주로 이해 기반 또는 생성 기반 작업 중 한 분야에서만 뛰어났고, 성능 향상은 노이즈가 많은 웹 이미지-텍스트 쌍 데이터셋을 확장하는 방식으로 이루어졌다. 하지만 이는 최적의 감독 소스가 아니었다. 본 논문에서는 이러한 한계를 극복하기 위해 BLIP이라는 새로운 프레임워크를 제안한다. BLIP은 시각/언어 이해 및 생성 작업 모두에 유연하게 전이될 수 있다. 캡션 부트스트래핑(bootstrapping the captions) 방식을 통해 노이즈가 많은 웹 데이터를 효과적으로 활용하며, 이 과정에서 캡셔너(captioner)가 합성 캡션을 생성하고, 필터(filter)가 노이즈 있는 캡션을 제거한다. BLIP은 이미지-텍스트 검색, 이미지 캡셔닝, 시각 질문 응답(VQ..

AbstractSOTA CV 시스템은 미리 정의된 고정된 객체 범주를 예측하도록 훈련된다. 이러한 제한된 형태의 감독은 시스템의 일반성과 유용성을 제약하고, 새로운 시각적 개념을 인식하려면 추가적인 라벨링 데이터가 필요하다. 본 논문은 어떤 캡션이 어떤 이미지에 속하는지를 예측하는 단순한 사전 훈련 작업이 인터넷에서 수집한 4억 개의 (이미지, 텍스트) 쌍 데이터셋으로부터 최첨단 이미지 표현을 처음부터 학습할 수 있는 효율적이고 확장 가능한 방법임을 입증하였다. 사전 훈련이 완료된 후에는 자연어를 활용하여 학습된 시각적 개념을 참조하거나 새로운 개념을 설명함으로써 모델이 다양한 다운스트림 작업에 zero-shot transfer할 수 있도록 한다.*zero-shot transfer: 모델이 특정 훈련 데..

Abstract기존의 객체 탐지 연구들은 주로 분류기를 재활용하여 속도 느림, 구조 복잡YOLO는 이와 다르게 이미지를 한 번만 보고, 그 안의 모든 객체의 위치와 클래스 확률을 동시에 예측전체 탐지 과정을 하나의 신경망으로 통합 → 모델 전체 최적화 가능 → 초당 45프레임으로 작동, Fast YOLO 155프레임으로 작동위치 오차↑, 배경을 객체로 잘못 인식↓미술 작품 같은 전혀 다른 도메인에서 훨씬 더 잘 일반화용어 정리AP, mAP란?해당 사진에서Precision(정밀도): 모델이 검출해낸 박스 중에 정답 박스가 몇개 존재하는지에 대한 값Recall(재현율): 실제 객체 중에서 모델이 맞게 탐지한 비객체 확률이 0.5 이상인 박스만 탐지 성공으로 인정한다고 할 때, 0.5에 해당하는 임계값을 높이..

1. IntroductionGoogLeNet은 AlexNet보다 12배 적은 파라미터를 사용하면서 더 높은 정확도 달성성능 향상은 딥러닝과 전통적 CV(R-CNN)의 결합에서 옴모바일·임베디드 환경을 고려해, 효율성도 고려Inception 아키텍처:이름은 Network in Network + “We need to go deeper” 밈에서 유래Deep은 (1) 새로운 모듈 구조(Inception module) 도입, (2) 네트워크 깊이 증가 두 가지 의미ILSVRC 2014 classification & detection에서 기존 SOTA를 크게 능가2. Related Work기본 CNN은 Conv layer(normalization, pooling) + fully-connected layer의 구조를..

1. Introduction2012년 AlexNet 이후 CNN은 이미지 인식 분야에서 큰 성공을 거뒀음본 논문에서는 네트워크의 깊이(depth)를 크게 늘리면 성능이 향상되는가? 를 집중적으로 연구모든 layer에 3X3 Conv filter를 사용하면서 depth를 점진적으로 늘려감2. Convnet Configurations입력은 고정 크기 224×224 RGB 이미지, 학습 데이터셋 전체에서 계산된 평균 RGB 값을 픽셀에서 빼주어 전처리특징:모든 합성곱 층: 3×3 필터 (가장 작은 receptive field)1x1 필터는 선형 변환이랑 같음stride = 1, padding = 1로 공간 해상도 유지5개의 max-pooling 층 (2×2, stride 2)마지막: 3개의 Fully Conn..

Abstract본 논문의 모델은 ImageNet LSVRC-2010 대회에서 120만 장의 고해상도 이미지를 1,000개의 클래스로 분류하기 위한 대규모 CNN이다. 모델은 5개의 convolutional layers(일부는 max-pooling layers)과 3개의 fully-connected layers(최종 1,000-way softmax)로 이루어져 있다.학습 속도를 높이기 위해 non-saturating 함수(ReLU)를 사용하고, 컨볼루션 연산을 GPU로 구현했으며, fully-connected layers의 과적합을 줄이기 위해 Dropout을 적용했다. 그 결과 LSVRC-2010에서 top-1 오류율 37.5%, top-5 오류율 17%를 달성했다. 이어 ILSVRC-2012에서도 15..

https://www.acmicpc.net/problem/1339 정답코드import sysinput = sys.stdin.readlinen = int(input())alphabet = {}a = [input().rstrip() for _ in range(n)]for i in a: x = len(i)-1 for j in i: if j in alphabet: alphabet[j] += 10**x else: alphabet[j] = 10**x x -= 1sort_values = sorted(alphabet.values(), reverse=True)result = 0num = 9for k in sort_values: ..

티스토리툴바