중화사전망 - 자전 검색 - [표적 탐지] 논문 추천-심층 신경망에 기반한 표적 탐지

[표적 탐지] 논문 추천-심층 신경망에 기반한 표적 탐지

오리지널: 깊이 신경망을 이용한 확장 가능한 객체 탐지-학술 패러다임

최근 심층 컨볼 루션 신경망은 ImageNet 대규모 시각 인식 과제 (ILVRC-20 12) 를 포함한 많은 이미지 인식 벤치마크에서 가장 앞선 성능을 발휘했다. 하위 작업에서 승리 모델을 찾는 것은 이미지의 각 오브젝트 범주에 대한 단일 경계 상자 및 신뢰도 점수를 예측하는 네트워크입니다. 이 모델은 객체 주위의 전체 이미지 컨텍스트를 캡처하지만 각 인스턴스의 출력 번호를 순진하게 복사하지 않으면 이미지에 있는 동일한 객체의 여러 인스턴스를 처리할 수 없습니다. 본 논문에서는 중요한 휴리스틱 신경망 검출 모델을 제시한다. 이 모델은 범주와 무관한 경계 상자 세트를 예측하는데, 각 상자에는 관심 있는 객체가 포함될 가능성에 해당하는 점수가 있다. 이 모델은 자연스럽게 각 클래스에 대해 가변 수의 인스턴스를 처리하고 네트워크의 최고 수준에서 클래스 간 일반화를 허용합니다.

표적 탐지는 컴퓨터 비전의 기본 임무 중 하나이다. 이 문제를 해결하는 일반적인 예는 하위 이미지에서 작동하는 객체 탐지기를 교육하고 모든 장소와 치수에 자세하게 적용하는 것입니다. 이 예는 DPM (변형 가능 부품 모델) 에 차동 교육을 성공적으로 적용하여 검사 작업의 최신 결과를 달성했습니다. 가능한 모든 위치와 비율에 대한 철저한 검색은 계산상의 도전을 가져왔다. 대부분의 방법은 각 범주에 대해 별도의 탐지기를 교육하기 때문에 클래스 수가 증가함에 따라 이 문제가 더욱 어려워집니다. 이 문제를 해결하기 위해 검출기에서 분할을 사용하여 소량의 객체 가정을 제시하는 여러 가지 방법이 제시되었습니다.

표적 검사에 관한 많은 문헌이 있다. 이 섹션에서는 클래스 불가지론의 사용과 확장성 해결 방법에 대해 중점적으로 설명합니다.

제안 된 많은 검출 방법은 구성 요소 기반 모델을 기반으로합니다. 최근 차별화된 학습과 세심한 디자인의 특징으로 인상적인 성능을 달성했습니다. 그러나 이러한 방법은 여러 축척에서 부품 템플릿의 상세 적용에 의존하므로 비용이 많이 듭니다. 또한 클래스 수에 따라 확장이 가능하므로 ImageNet 과 같은 최신 데이터 세트에는 어려움이 있습니다.

이전 문제를 해결하기 위해 Lampert 등은 분기 바인딩 전략을 사용하여 가능한 모든 오브젝트 위치를 계산하지 않도록 합니다. 후자의 문제를 해결하기 위해 Song 등은 모든 객체 클래스에서 공유하는 저차원 구성원 라이브러리를 사용했습니다. 해시 알고리즘에 기반한 부품 검사도 좋은 결과를 얻었다.

우리의 작업에 더 가까운 또 다른 작업은 객체가 해당 클래스를 모르는 상태에서 현지화될 수 있다는 생각에 기반을 두고 있습니다. 이러한 방법 중 일부는 상향식 클래스 없는 분할 [9] 을 기반으로 합니다. 이런 방식으로 얻은 클립은 하향식 피드백을 통해 점수를 매길 수 있습니다. 같은 동기에 따라 알렉샤 등은 값싼 분류기를 사용하여 물체가 대상이어야 하는지 여부를 분류하고, 이런 방식으로 후속 검사 단계에서 위치 수를 줄였다. 이러한 방법은 첫 번째 레이어로 분할되고 후속 레이어로 분할되고 분류된 다중 레이어 모델로 간주될 수 있습니다. 검증된 인식 원칙을 코딩하지만, 보다 심층적인 모델을 통해 충분히 학습하면 더 나은 결과를 얻을 수 있다는 것을 알 수 있습니다.

마지막으로, 우리는 심화 학습의 최신 발전을 이용했는데, 가장 유명한 것은 Krizhevsky 와 다른 사람들의 일이다. 우리는 확장 가능한 방식으로 여러 개체를 처리할 수 있도록 경계 상자 회귀 감지 방법을 확장했습니다. 그러나 Szegedy 등은 이미 dnn 기반 회귀를 객체 마스크에 적용했습니다. 마지막 방법은 가장 앞선 감지 성능을 구현하지만 단일 마스크 회귀 비용으로 인해 여러 범주로 확장할 수 없습니다.

Dell 의 목표는 잠재적 오브젝트를 나타내는 경계 상자 세트를 예측하여 범주와 무관한 확장 가능한 객체 감지를 달성하는 것입니다. 더 정확히 말하자면, 우리는 고정된 수의 경계 상자를 출력하는 깊이 신경망 (DNN) 을 사용합니다. 또한 각 상자에 대한 점수를 출력하여 상자에 객체에 대한 네트워크 신뢰가 포함되어 있음을 나타냅니다.

이러한 아이디어를 형식화하기 위해 i-thobject 상자와 관련 신뢰도를 마지막 네트워크 계층의 노드 값으로 인코딩했습니다.

경계 상자: 각 상자의 왼쪽 위 구석과 오른쪽 아래 구석의 좌표를 4 개의 노드 값으로 인코딩하여 vectorli∈R4 로 쓸 수 있습니다. 이러한 좌표는 이미지의 절대 크기의 불변성을 달성하기 위해 표준화된 W.R.T. 이미지 치수입니다. 각 정규화된 좌표는 마지막 레이어의 선형 변환에 의해 생성됩니다.

신뢰도: 개체가 포함된 상자의 신뢰도 점수는 단일 노드 값인 CI [0, 1] 으로 인코딩됩니다. 이 값은 마지막으로 숨겨진 레이어의 선형 변환에 의해 생성되고 그 뒤에 시그마 (sigmoid) 가 옵니다.

경계 상자 위치 sli, I {1,... k} 를 선형 레이어로 결합할 수 있습니다. 마찬가지로 모든 신뢰 구간 ci, I {1,... K} 를 S 자 모양의 출력으로 사용할 수 있습니다. 두 출력 레이어 모두 마지막 숨겨진 레이어에 연결됩니다.

추리 과정에서 우리의 알고리즘은 지식 포위 상자를 생성합니다. 저희 실험에서 우리는 ek = 100 과 K= 200 을 사용했습니다. 필요한 경우 추론에서 신뢰도 점수와 비최대 억제를 사용하여 더 적은 수의 높은 신뢰도 프레임을 얻을 수 있습니다. 이 상자들은 물체를 대표해야 한다. 따라서 대상 탐지를 위해 후속 분류자에 의해 분류할 수 있습니다. 상자의 수가 매우 적기 때문에, 우리는 강력한 분류기를 제공할 수 있다. 우리의 실험에서, 우리는 다른 dnn 을 사용하여 분류했다.

우리는 DNN 을 훈련시켜 각 훈련 이미지의 경계 상자와 신뢰도 점수를 예측하여 점수가 가장 높은 상자가 이미지의 groundtruth 개체 상자와 잘 일치하도록 합니다. 특정 교육 샘플의 경우 대상은 boundingboxesgj, j {1,..., M} 으로 표시되어 있다고 가정합니다. 실제로 사전 사전의 수는 기본 사전보다 훨씬 큽니다. 따라서 지면 실황과 가장 일치하는 예측 프레임의 하위 집합만 최적화하려고 합니다. 우리는 그들의 위치를 최적화하여 그들의 일치도를 높이고 그들의 자신감을 극대화했다. 또한 실제 객체를 잘 찾을 수 없는 것으로 간주되는 오차 예측의 신뢰도를 최소화합니다. 이러한 목표를 달성하기 위해 각 교육 샘플에 대한 할당 문제를 개발했습니다. Wexij ∩ {0, 1} 는 할당: xij= 1, I 번째 예측을 j 번째 실제 객체에 할당하는 경우 xij =1. 이 임무의 목표는 다음과 같이 설명할 수 있다

여기서 표준화된 경계 상자 좌표 사이의 el2 거리를 사용하여 경계 상자 간의 차이를 수량화합니다. 또한 할당 X 에 따라 상자의 신뢰성을 최적화하고자 합니다. 주어진 예측의 신뢰도를 최대화하는 것은 다음과 같이 표현할 수 있습니다

-응? 최종 손실 목표는 일치 손실과 신뢰 손실을 결합합니다.

방정식 1 에 구속되다. α는 다른 손실 조항의 기여도를 균형있게 조정합니다.

각 교육 사례에 대해 실제 상자의 최적 할당 x* 에 대한 예측을 해결했습니다.

배부 솔루션 실행을 제한합니다. 이것은 이진 일치의 변형이며 다항식 복잡도 일치입니다. 응용 프로그램에서는 일치가 매우 저렴합니다. 각 이미지에 표시된 객체 수가 10 개 미만이며 대부분의 경우 몇 개의 객체만 표시됩니다. 그런 다음 역방향 전파를 통해 네트워크 매개변수를 최적화합니다. 예를 들어 역방향 전파 알고리즘의 1 차 미분은 W, R, T, L 및 C 를 계산합니다.

위에서 정의한 손실은 원칙적으로 충분하지만, 세 번의 수정으로 더 빠른 정확도를 얻을 수 있습니다. 첫 번째 수정은 지상의 실제 위치를 클러스터링하고 이러한 클러스터/질량 중심을 찾는 것입니다. 이를 각 예측 위치에 대한 선험적으로 사용할 수 있습니다. 따라서 학습 알고리즘이 각 예측 위치에 대한 선험적 오차를 배우도록 권장합니다.

두 번째 수정은 일치 과정에서 이러한 선험적 사용을 포함한다. N 개의 지상 진상 위치를 K 개 예측에 일치시키는 것이 아니라 K 개 선험과 지상 진상 사이에서 최적의 일치를 찾는 것이다. 일치가 완료되면 목표의 신뢰도가 이전과 같이 계산됩니다. 또한 위치 예측의 손실은 변경되지 않습니다. 일치하는 (목표, 예측된) 위치 쌍의 경우 손실은 지면 실황과 일치 선험적 좌표 간의 차이로 정의됩니다. 우리는 선험적 일치를 선험적 일치라고 부르며, 그것이 예측의 다양성을 촉진시킨다고 가정한다.

-응? 클래스와 독립적으로 메서드를 정의하더라도 이를 적용하여 특정 클래스의 객체 상자를 예측할 수 있다는 점에 유의해야 합니다. 이를 위해, 우리는 단지 클래스의 경계에서 우리의 모델을 훈련시킬 필요가 있다. 또한 각 클래스의 kbox 를 예측할 수 있습니다. 불행히도 이 모델의 매개변수 수는 클래스 수에 따라 선형으로 증가합니다. 또한 일반적인 설정에서는 지정된 범주의 오브젝트 수가 상대적으로 적으며 이러한 매개변수 대부분은 해당 그라데이션 기여도가 거의 없는 교육 샘플을 볼 수 있습니다. 따라서, 우리는 우리의 두 단계 프로세스, 즉 먼저 찾은 다음 인식하는 것이 더 좋은 선택이라고 생각합니다. 왜냐하면 같은 이미지에서 여러 개체 유형의 데이터를 활용할 수 있도록 몇 가지 매개 변수를 사용할 수 있기 때문입니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 예술명언)

우리가 사용하는 로컬라이제이션 및 분류 모델의 네트워크 아키텍처는 [10] 과 동일합니다. Dell 은 Adagrad 를 사용하여 학습률 감쇄, 소량 배치 128 을 제어하고 동일한 네트워크의 여러 복사본을 사용하여 병렬 분산 교육을 수행함으로써 빠른 수렴을 실현했습니다. 앞서 언급했듯이, 우리는 위치 손실에 선험을 사용합니다. 이들은 훈련 세트의 평균을 사용하여 계산됩니다. 우리는 또한 국지화와 신뢰도 손실의 균형을 맞추기 위해 0.3 을 사용한다. 로케이터는 심기 영역 외부의 좌표를 출력하여 추정할 수 있습니다. 좌표가 매핑되어 마지막 이미지 영역으로 잘립니다. 또한 최대값이 아닌 억제를 통해 상자를 트리밍하면 Jaccard 의 유사성 임계값은 0.5 입니다. 그런 다음 두 번째 모형은 각 경계 상자를 관심 있는 객체 또는 "배경" 으로 분류합니다. 로케이터 네트워크를 교육하기 위해 교육 세트에서 약 3000 만 장의 이미지를 생성하고 교육 세트의 각 이미지에 다음 단계를 적용했습니다. 결국 샘플이 방해를 받았다. 지역화 네트워크를 교육하기 위해 교육 세트의 각 이미지에 다음 단계를 적용하여 교육 세트에서 약 3000 만 장의 이미지를 생성했습니다. 각 이미지에 대해 총 샘플 수가 약 654.38+000 만 개로 동일한 수의 사각형 샘플을 생성합니다. 각 이미지에 대해 0-5%, 5- 15%, 15-50% 및 50-1에 대한 샘플을 통에 채웁니다. 교육 세트와 대부분의 하이퍼매개 변수 선택은 과거에 비공개 데이터 세트를 사용한 경험을 바탕으로 합니다. 다음 실험에서는 비표준 데이터 생성 또는 정규화 옵션을 탐색하지 않았습니다. 모든 실험에서, 모든 초매개 변수는 훈련 세트를 통해 얻은 것이다.

파스칼 비주얼 객체 클래스 (VOC) 과제는 가장 일반적으로 사용되는 객체 탐지 알고리즘의 벤치마크입니다. 주로 20 개의 서로 다른 오브젝트 범주에 대한 경계 상자가 포함된 복잡한 장면 이미지로 구성됩니다. Dell 의 평가에서는 2007 년 VOC 에 초점을 맞추고 이를 위한 테스트 세트를 발표했습니다. VOC 20 12 교육을 통해 대략적인 결과를 보여 주었습니다. 1 1000 장의 사진. 우리는 100 프레임이 있는 로케이터와 깊이 네트워크 기반 분류자를 훈련시켰다.

우리는 654.38+000 만 작물로 구성된 데이터 세트에서 분류자를 훈련시켰는데, 데이터 세트의 겹치는 대상은 최소한 0.5 jaccard 중복 유사성이다. 이 작물들은 20 종의 휘발성 유기 화합물 객체 범주 중 하나로 표기되어 있다. -응? 2 천만 개의 음수 자르기는 모든 오브젝트 상자와 최대 0.2 개의 Jaccard 유사성을 가집니다. 이 작물들은 특별한' 배경' 범주로 표기되어 있다. 스키마 및 수퍼 매개 변수 선택은 다음과 같습니다.

1 라운드에서 로케이터 모델은 이미지에서 가장 크고 가장 작은 가운데 사각형 자르기에 적용됩니다. 작물 크기를 네트워크 입력 크기 220×220 으로 조정합니다. 우리는 이 네트워크를 통해 한 번에 수백 개의 후보 날짜 틀을 얻을 수 있다. 겹치는 임계값이 0.5 인 비최대 억제 후 점수가 가장 높은 상위 10 개의 감지 항목을 유지하고 네트워크를 통해 2 1 분류자 모델로 분류합니다. 최종 테스트 점수는 주어진 상자의 위치 점수에 분류기가 작물 주변의 가장 큰 사각형 영역에서 평가하는 점수를 곱한 것입니다. 이 점수들은 평가되어 정확한 추억 곡선을 계산하는 데 사용된다.

먼저 격리 상태에서 로케이터의 성능을 분석했습니다. Pascal 검사 기준에 의해 정의된 감지된 객체 수를 생성된 경계 상자 수와 비교합니다. 그림 1 에서는 VOC20 12 를 사용한 교육 결과를 보여 줍니다. 또한 이미지의 최대 중심 영역 (최대 중심 사각형 자르기) 을 입력으로 사용하고 두 번째 비율, 즉 최대 중심 영역의 두 번째 비율 (선택 3×3 창 크기는 이미지 크기의 60%) 을 사용하여 결과를 제공합니다.

보시다시피 10 경계 상자의 예산을 사용할 때 첫 번째 모델을 사용하여 객체의 45.3% 를 배치하고 두 번째 모델을 사용하여 객체의 48% 를 배치할 수 있습니다. 이는 객체 각도 알고리즘이 42% [1] 에 달하는 등 다른 보고 결과보다 더 나은 성능을 보여 줍니다. 또한 이 차트는 다양한 해상도로 이미지를 관찰하는 것의 중요성을 보여 줍니다. 우리의 알고리즘은 최대 중심 자르기를 사용하여 많은 오브젝트를 얻었지만, 더 높은 해상도의 이미지 자르기를 사용할 때 추가적인 개선이 이루어졌다. 또한 위에서 설명한 대로 2 1 분류자를 사용하여 결과 경계 상자를 분류합니다. 표 1 에는 VOC 2007 의 APs (평균 정확도) 가 나와 있습니다. 평균 AP 는 0.29 로 고급 수준에 해당합니다. 우리의 런타임 복잡성은 매우 낮습니다. top 10 상자만 사용했습니다. 그림 2 와 그림 3 은 각각 샘플 감지 및 전체 정밀도 리콜 곡선을 보여 줍니다. 시각적 탐지는 전체 이미지를 사용하는 최대 중심 정사각형 이미지 자르기만 사용하여 얻을 수 있다는 점에 유의해야 합니다. 그러나 우리는 비교적 작은 물체, 예를 들면 두 번째와 두 번째 줄의 배, 세 번째 행과 세 번째 줄의 양을 얻을 수 있었다.

이 작업에서는 여러 경계 상자의 시간을 예측할 수 있는 새로운 방법을 제시했습니다. 이 방법은 심도 컨볼 루션 신경망을 기본 피쳐 추출 및 학습 모델로 사용합니다. 다양한 수의 groundtruth 위치를 사용할 수 있는 다중 상자 위치 지정 비용을 설정합니다. 클래스, 상자' 메서드의 경우 1000 개의 상자는 최대값이 아닌 값으로 억제되고 지정된 이미지에서 관심 있는 DeepMulti-Box 메서드와 동일한 표준을 사용하며 보이지 않는 이미지에서 이러한 위치를 예측하는 방법을 배웁니다.

두 가지 도전적인 벤치마크 VOC2007 과 ILSVRC-20 12 결과를 제시했습니다. 이 두 가지 기준에서 제시된 방법은 경쟁력이 있다. 또한 이 방법은 후속 분류자가 감지할 위치를 잘 예측할 수 있습니다. Deepmultibox 의 접근 방식은 두 데이터 세트 간에 확장될 수 있어 관심 있는 위치, 심지어 그에 대한 교육 범주도 예측할 수 있는 것으로 나타났습니다. 또한 이미지를 더 잘 이해할 수 있도록 설계된 알고리즘의 중요한 특징인 동일한 객체 유형의 많은 경우를 포착할 수 있습니다.

앞으로 위치 및 인식 경로를 단일 네트워크로 축소하여 네트워크를 통해 위치 및 레이블 정보를 한 번에 추출할 수 있습니다. 현재 상태에서도 듀얼 채널 프로세스 (지역화된 네트워크 후 분류 네트워크) 는 5- 10 회 네트워크 평가를 생성하며, 각 평가의 속도는 약 1 CPU-sec (현대기계) 입니다. 중요한 것은 이 숫자가 인식할 클래스 수와 선형적으로 관련이 없기 때문에 제시된 방법이 DPM 과 유사한 방법에 비해 매우 경쟁력이 있다는 것입니다.