MobileNetV2: Inverted Residuals and Linear Bottlenecks - Mark Sandler Andrew Howard Menglong Zhu Andrey Zhmoginov Liang-Chieh Chen Google Inc. 이번 포스팅에서는 구글에서 발표한 Mobilenet v1에 이어서 Mobilenet v2(2018)에 대해 살펴보려고 한다. Mobilenet v1에서의 핵심 아이디어인 Depthwise separable convolution을 역시 그대로 사용하되 Inverted Residual 구조를 제시하였다. 1. What has changed? Mobilenet v1 일반적인 Convolution구조를 Depthwise separable convolution로..
YOLO v3: An Incremental Improvement - Joseph Redmon, Ali Farhadi (8 Apr 2018) 1. Introduction 저자 Joseph Redmon은 이 논문은 단지 Tech Report라고 하였다. YOLO v3는 기존 YOLO v2보다 Better, Not Faster, Stronger(?) 를 주장하며 여러가지 시도를 하였다. 2. The Deal 위 사진을 보면 알 수 있듯이 당시 SOTA 였던 RetinaNet을 비교하며 그래프 형식을 무시하면서 YOLO v3의 속도를 과시하고 있다. 2.1 Bounding Box Prediction YOLO v3 에서는 YOLO v2에서 처음 사용하였던 Anchor box를 그대로 가져와서 사용을 하게된다. t..
You Only Look Once: Unified, Real-Time Object Detection (2016) 1. Introduction 기존의 R-CNN 계열의 detection 모델들은 localization과 classification 파트가 분리 되있는 2-stage-detector였지만 YOLO는 bounding box 예측과 classificaion을 동시에 수행하는 1-stage-detector를 제시하였다. YOLO의 장점은 다음과 같다. Object detection을 regression 문제로 변환해 단순화 하여 실시간으로 detection이 가능해졌다. (엄청나게 빠른 속도) 기존 detection 방식은 예측된 bounding box 내부만을 이용해서 클래스를 예측하는데 YOLO..
Linear Regression이란? 독립변수와 종속변수의 관계를 분석하는 것. 데이터의 분포경향을 학습하여 새로운 데이터가 들어왔을 때 결과값을 예측하는 것 결과값이 연속적인 수로 나타난다. -> 회귀 예를 들면 학생들의 성적을 좌우하는 요소에는 공부시간이 있을 것이다. 공부 시간이 길수록 상대적으로 성적이 잘 나올 것이고 공부 시간이 짧다면 성적도 좋지 않을 확률이 높다. 이렇듯 공부시간 즉 정보가 변함에 따라 성적이 변하게 되는 것이다. 그러므로 우리는 정보를 독립변수라고 하고 성적을 종속변수라고 할 수 있다. 선형회귀는 이 독립변수 X를 이용해서 종속변수 Y를 예측하고 설명하는 작업을 한다. Linear Regression에서의 핵심은 데이터를 나타내는 하나의 직선을 찾아내는 것이고 이 직선은 어..
SSD : Single Shot Multibox Detector는 2016년 ECCV(European Conference on Computer Vision) 학회에서 발표되었다. 이름에서부터 알 수 있듯이 Object Detection 논문이며 당시 SOTA였던 Faster_RCNN 과 YOLO v1의 단점들을 보완하면서 화제가 된 논문이다. 1. Introduction Faster_RCNN 과 YOLO v1은 다음과 같은 단점들을 가지고 있었다. Faster_RCNN 단점 : 이름은 Faster이지만 그에 걸맞지 않게 연산량이 많고 너무 느리다. (only 7 FPS with mAP 73.2%) YOLO v1 단점 : 다른 Object Detector에 비해 빠르지만 accuracy가 낮다. (45 F..
mAP(Mean Average Precision) 저번 mAP(Mean Average Precision) [1] : visionhong.tistory.com/5 포스팅 에서는 MAP를 알기위해 필요한 지식에 대해 주로 다루었고 이번 포스팅에서는 MAP계산 과정을 실제 코드와 함께 알아보자. Review 우선 강아지라는 1개의 클래스에 대해서만 생각해보자. mAP를 계산하기 위해서는 prediction box와 test set의 ground truth가 필요하다. 3개의 이미지에는 4개의 Ground truth가 있으며 7개의 prediction이 confidence와 함께 주어진다. 그리고 각 이미지에 대해 ground truth와 prediction의 IOU가 0.5 이상인 것은 TP(True Posi..