SPP-net : 이미지 인식을위한 CNN에서의 공간 피라미드 풀링

 

기존의 CNN은 고정 크기 (예 : 224×224)의 입력 이미지를 필요로 합니다. 이 요구 사항은 “인공적”이며 임의의 크기/스케일의 이미지 또는 하위 이미지에 대한 인식 정확도를 떨어 뜨릴 수 있습니다.

이 작업에서는 위의 요구 사항을 없애기 위해 네트워크에 다른 풀링 전략인 “공간 피라미드 풀링”을 갖추고 있습니다. SPP-net이라고 불리는 새로운 네트워크 구조는 이미지 크기/규모에 관계없이 고정 길이 표현을 생성할 수 있습니다. 피라미드 풀링은 객체 변형에도 견고합니다.

이러한 장점으로 인해 SPP-net은 일반적으로 모든 CNN 기반 이미지 분류 방법을 개선합니다. ImageNet 2012 데이터 세트에서 우리는 SPP-net이 다양한 설계에도 불구하고 다양한 CNN 아키텍처의 정확성을 향상 시킨다는 것을 입증합니다. Pascal VOC 2007 및 Caltech101 데이터 세트에서, SPP-net은 하나의 풀 이미지 표현과 미세 조정을 사용하여 최첨단 분류 결과를 얻습니다.

SPP-net의 힘은 물체 감지에서도 중요합니다. SPP-net을 사용하여 전체 이미지에서 기능 맵을 한 번만 계산 한 다음 임의의 영역(하위 이미지)에 기능을 풀링하여 감지 교육을 위한 고정 길이 표현을 생성합니다. 이 방법은 CNN 특징을 반복적으로 계산하는 것을 피합니다. 테스트 이미지 처리에서 이 방법은 R-CNN 방법보다 24-102배 빠르며 Pascal VOC 2007에서 더 우수하거나 비슷한 정확도를 얻습니다.

자세한 설명
https://arxiv.org/abs/1406.4729
http://funmv2013.blogspot.kr/2015/06/spp-net.html?m=1 (쉬운 한글 설명)

Paper
https://arxiv.org/format/1406.4729

깃허브
https://github.com/ShaoqingRen/SPP_net

Tags:

SPP-net

CNN

공간피라미드폴링

ImageNet

Pascal VOC