본문 바로가기

논문리뷰3

FaceNet 논문 리뷰 개요이 논문에서는 face verification, recognition,  clustering을 위한 통합된 시스템을 제안하고 있다. 간단히 말해서 Deep convolutional network을 통해 Euclidean embedding을 학습하여 Euclidean distance를 통해 사람의 얼굴을 구분하는 아이디어이다. 여기서 말하는 embedding은 triplet loss를 통해서 훈련된다. 즉, 이 논문에서 제안하는 핵심 개념은 embedding이 아니라 triplet loss인 것이다. Triplet LossFaceNet 모델은 triplet loss를 통해서 128차원 embedding을 직접 훈련시키고 이 embedding의 distance를 통해서 얼굴 identifying을 수행하.. 2022. 9. 5.
YOLOv1 논문 리뷰 이번 논문은 물체 인식에서 아주 유명한 YOLO의 첫번째 논문이다. 글을 쓰는 현재 기준으로 YOLOv5가 가장 최신의 모델이다. 논문의 원 저자가 개발에 참여한 것은 YOLOv3까지로, 이후에는 YOLO 및 Computer Vision 연구에 손을 뗐다. 그 이유는 군사적/사생활 문제 관련에서 자신이 개발한 기술이 사용되는 것을 원치 않아서이다. 개요 YOLO는 기존의 object detection 모델과 달리 하나의 Neural network로 bounding box를 찾고 classify까지 하는 모델이다. YOLO의 저자는 이 모델의 주요 장점과 그 이유를 다음과 같이 설명했다. YOLO는 굉장히 빠르다. Detection 작업을 regression으로 바라보면서 더 이상의 복잡한 파이프라인이 필.. 2022. 8. 17.
VGG 논문 리뷰 공부를 하기 위해 여기에 논문 리뷰를 적기로 했다. 이번에 리뷰할 논문은 VGG이다. 옥스포드 대학교에서 개발한 모델로, 2014년 ILSVRC에서 준우승을 하였다. 매우 유명한 모델이니 자세한 설명은 생략하고 바로 본문으로 들어가겠다. VGG 모델 구조 input은 224x224의 고정된 크기를 사용하고 모델에 들어가기 전에 각 픽셀값을 전체 트레이닝셋의 RGB 평균값을 빼는 preprocessing 단계를 수행한다. 즉, P`(x, y) = P(x, y) – M (P = x, y의 원래 픽셀값, M = 전체 픽셀의 평균값) 몇단계의 conv layer 후에 max pooling을 수행하는 것이 특징이다. 깊이에 상관없이 max pooling은 5번을 수행한다. 그 후에는 3개의 FC layer를 거쳐.. 2022. 8. 9.