스케일 불변 피쳐 변환

Scale-Invariant Feature Transform(SIFT; 스케일 불변 피쳐 변환)은 이미지 내의 로컬 피쳐를 검출, 기술 및 대조하기 위한 컴퓨터 비전 알고리즘으로 ^[1]1999년에 David Lowe에 의해 발명되었습니다.애플리케이션에는 객체 인식, 로봇 매핑 및 내비게이션, 이미지 스티치, 3D 모델링, 제스처 인식, 비디오 추적, 야생동물 개체 식별 및 성냥 이동이 포함됩니다.

오브젝트의 SIFT 키포인트는 우선 참조^[1] 화상 세트로부터 추출되어 데이터베이스에 격납된다.새로운 화상으로부터의 각 특징을 이 데이터베이스에 개별적으로 비교하고, 그 특징 벡터의 유클리드 거리에 근거해 후보 매칭 특징을 구함으로써, 새로운 화상에서 오브젝트를 인식한다.전체 일치 항목에서 새 이미지에서 개체와 개체 위치, 축척 및 방향에 일치하는 키 포인트의 하위 집합을 식별하여 적합한 일치 항목을 필터링합니다.일관성 있는 클러스터의 판정은 일반화된 Hough 변환의 효율적인 해시 테이블 구현을 사용하여 신속하게 수행됩니다.오브젝트와 그 포즈가 일치하는 3개 이상의 피쳐의 각 클러스터는 더 상세한 모델 검증의 대상이 되고 이후 특이치는 폐기된다.마지막으로, 적합도의 정확성과 가능한 거짓 일치의 수를 고려하여 특정 특징 집합이 물체의 존재를 나타낼 확률이 계산된다.이러한 테스트를 모두 통과한 오브젝트 일치는 높은 ^[2]신뢰도로 올바른 것으로 식별할 수 있습니다.

개요

이미지 내의 모든 객체에 대해 객체의 흥미로운 점을 추출하여 객체의 "특징 설명"을 제공할 수 있습니다.교육용 이미지에서 추출한 이 설명은 다른 많은 개체를 포함하는 테스트 이미지에서 개체를 찾을 때 개체를 식별하는 데 사용할 수 있습니다.신뢰할 수 있는 인식을 실시하려면 , 트레이닝 이미지로부터 추출한 특징이, 이미지 스케일, 노이즈, 및 조도가 변화하고 있는 경우에서도 검출 가능한 것이 중요합니다.이러한 점은 일반적으로 객체의 가장자리와 같이 대비가 높은 이미지의 영역에 있습니다.

이러한 특징의 또 다른 중요한 특징은 원래 장면에서 이들 사이의 상대적 위치가 이미지 간에 바뀌어서는 안 된다는 것입니다.예를 들어, 문의 네 모서리만 피쳐로 사용하면 문의 위치에 관계없이 작동하지만, 프레임의 포인트도 사용되면 문이 열리거나 닫히면 인식이 실패합니다.마찬가지로 처리 중인 세트의 두 이미지 간에 내부 지오메트리가 변경되면 관절형 또는 유연한 객체에 위치한 피쳐는 일반적으로 작동하지 않습니다.그러나 실제로는 SIFT가 이미지에서 훨씬 더 많은 기능을 검출하고 사용하기 때문에 모든 기능 일치 오류의 평균 오류에서 이러한 로컬 변화로 인해 발생하는 오류가 감소합니다.

SIFT 피쳐 기술자는 균일한 스케일링, 방향, 조명 변화에 불변하고 부분적으로 아핀 ^[1]왜곡에 불변하기 때문에 SIFT는 어수선한 곳이나 부분적인 폐색 상태에서도 물체를 확실하게 식별할 수 있다^[3].이 절에서는 원래의 SIFT 알고리즘을 요약하고 난잡한 부분 폐색 상태에서 객체 인식에 사용할 수 있는 몇 가지 경쟁 기술에 대해 설명합니다.

SIFT 설명자는 로컬 스케일 ^[10]^[11]^[9]선택을 통해 로컬 스케일 불변 참조^[8]^[9] 프레임이 설정되는 수용^[4]^[5]^[6]^[7] 필드 측면에서 영상 측정을 기반으로 합니다.이에 대한 일반적인 이론적 설명은 ^[12]SIFT에 관한 Scholarpedia 기사에 나와 있습니다.

문제	기술.	장점
주요 국소화/규모화/회전	가우시안/축척 피라미드/방향 할당의 차이	정확도, 안정성, 확장성 및 회전 불변성
기하학적 왜곡	로컬 이미지 방향 평면의 흐림/재샘플링	아핀 불변성
인덱싱 및 일치	가장 가까운 네이버 / Best Bin First 검색	효율성/속도
클러스터 식별	Hough Transform 투표	신뢰할 수 있는 포즈 모델
모델 검증/이상치 검출	선형 최소 제곱	일치하는 항목이 적어 오류 허용성이 향상됨
가설 수용	베이지안 확률 분석	신뢰성.

기능의 종류

로컬 이미지 기능의 검출과 설명은 객체 인식에 도움이 됩니다.SIFT 기능은 로컬이며 특정 관심 지점의 개체 모양에 기반하며 영상 스케일 및 회전에 따라 변경되지 않습니다.또한 조명, 소음 및 시점의 사소한 변화에도 강력하다.이러한 특성 외에도 매우 독특하고 비교적 쉽게 추출할 수 있으며 불일치 가능성이 낮은 정확한 객체 식별이 가능합니다.이러한 알고리즘은 로컬 기능의 (대규모) 데이터베이스에 비해 비교적 쉽게 일치시킬 수 있지만, 고차원성이 문제가 될 수 있으며, 일반적으로 최상의 빈 우선 검색을 가진 k-d 나무와 같은 확률론적 알고리즘이 사용된다.SIFT 피쳐 세트에 의한 오브젝트 기술도 부분 폐색에 대해 견고합니다.개체의 SIFT 피쳐는 위치 및 포즈를 계산하기에 충분합니다.인식은 적어도 소규모 데이터베이스와 최신 컴퓨터 ^{[citation needed]}하드웨어에서 거의 실시간으로 수행할 수 있습니다.

메인 스테이지

스케일 불변 피쳐 검출

Lowe의 이미지 피쳐 생성 방법은 이미지를 다수의 피쳐 벡터 집합으로 변환합니다.각각은 이미지 변환, 스케일링 및 회전에 불변하고 부분적으로 조명 변화에 불변하며 로컬 기하학적 왜곡에 강합니다.이러한 특징은 영장류 시력에서 ^[13]물체 탐지를 위해 기본 형태, 색상 및 움직임을 코드하는 1차 시각 피질의 뉴런과 유사한 특성을 공유합니다.주요 위치는 일련의 평활화 및 재샘플링된 영상에 스케일 공간에서 적용된 가우시안 함수의 차이 결과의 최대값과 최소값으로 정의된다.가장자리를 따라 저콘트라스트 후보점과 가장자리 응답점이 폐기됩니다.우세한 방향은 현지화된 주요 포인트에 할당됩니다.이러한 단계를 통해 일치 및 인식에 있어 키포인트가 보다 안정적입니다.다음으로 키 위치 반경 주변의 픽셀을 고려하여 로컬 이미지 방향 평면을 흐리게 하고 재샘플링함으로써 로컬 아핀 왜곡에 견고한 SIFT 기술자를 얻는다.

기능 매칭 및 인덱싱

인덱싱은 SIFT 키를 저장하고 새 이미지에서 일치하는 키를 식별하는 작업으로 구성됩니다.Lowe는 제한된 양의 계산만을 사용하여 높은 확률로 가장 가까운 이웃을 식별할 수 있는 best-bin-first 검색^[14] 방법이라고 불리는 k-d 트리 알고리즘의 수정을 사용했다.BBF 알고리즘은 k-d 트리 알고리즘에 수정된 검색 순서를 사용하여 피쳐 공간의 빈이 쿼리 위치로부터 가장 가까운 거리 순서로 검색되도록 합니다.이 검색 순서에서는 검색 순서를 효율적으로 판별하기 위해 힙 기반 priority 큐를 사용해야 합니다.각 키 포인트의 최적의 후보 일치는 트레이닝 이미지에서 키 포인트의 데이터베이스 내에서 가장 가까운 네이버를 특정함으로써 찾을 수 있습니다.가장 가까운 이웃은 주어진 기술자 벡터로부터의 최소 유클리드 거리를 갖는 키포인트로 정의된다.일치하는 확률은 가장 가까운 인접 라우터로부터의 거리 대 두 번째로 가까운 거리의 비율을 구함으로써 확인할 수 있습니다.

Lowe는^[2] 거리비가 0.8보다 큰 모든 매치를 거부했습니다.이로 인해 잘못된 매치의 90%가 제거되고 올바른 매치의 5% 미만이 폐기됩니다.best-bin-first 알고리즘 검색의 효율을 한층 더 향상시키기 위해서, 최초로 가장 가까운 200개의 인접 라우터의 후보를 체크한 후에, 검색이 끊어졌습니다.100,000개의 키포인트를 가진 데이터베이스의 경우 가장 가까운 네이버 검색보다 약2배 고속화됩니다만, 올바른 일치의 수는 5%미만입니다.

Hough 변환 투표에 의한 클러스터 식별

Hough 변환은 신뢰할 수 있는 모델 가설을 군집화하여 특정 모델 포즈에 일치하는 키를 검색하는 데 사용됩니다.Hough 변환은 각 기능을 사용하여 기능과 일치하는 모든 객체 포즈에 투표함으로써 일관된 해석으로 피쳐 클러스터를 식별합니다.피쳐 클러스터가 객체의 동일한 포즈로 투표하는 경우 해석이 정확할 확률은 단일 피쳐보다 훨씬 높아집니다.일치 가설에서 모델 위치, 방향 및 축척을 예측하는 해시 테이블의 엔트리가 작성된다.해시 테이블을 검색하여 빈에 3개 이상의 엔트리가 있는 모든 클러스터를 식별하고 빈은 크기 내림차순으로 정렬됩니다.

각 SIFT 키포인트는 2D 위치, 축척 및 방향을 지정하며 데이터베이스의 일치된 각 키포인트는 발견된 교육 영상에 상대적인 파라미터의 레코드를 가집니다.이 4가지 매개변수에 의해 암시되는 유사성 변환은 3D 물체에 대한 전체 6자유도 포즈 공간에 대한 근사치일 뿐이며 비강성 변형도 설명하지 않는다.따라서 Lowe는^[2] 방향에 대해 30도, 축척에 대해서는 2의 배율, 위치에 대해서는 최대 투영 교육 영상 치수(예측 축척 사용)의 0.25배의 넓은 빈 크기를 사용했습니다.더 큰 스케일로 생성된 SIFT 키 샘플에는 더 작은 스케일로 생성된 샘플의 두 배의 무게가 부여됩니다.즉, 규모가 클수록 실제로 가장 가능성이 높은 인접 라우터를 필터링하여 소규모로 체크할 수 있습니다.또한 최소 소음 스케일에 무게를 더하여 인식 성능을 향상시킵니다.빈 할당에서 경계 효과의 문제를 피하기 위해 각 키포인트는 각 차원에서 가장 가까운 2개의 빈에 대한 투표와 일치하며, 각 가설에 대해 총 16개의 항목을 제공하고 포즈 범위를 더욱 넓힌다.

선형 최소 제곱에 의한 모형 검증

다음으로 식별된 각 클러스터는 모델을 화상에 관련짓는 아핀 변환의 파라미터에 대해 선형 최소 제곱해가 실행되는 검증 절차를 거친다.모델 포인트 [x y]^T에서 이미지 포인트 [u v]^T로의 아핀 변환은 다음과 같이 쓸 수 있습니다.

{bmatrix}u\v\end {bmatrix}=m1&m2\m3&m4\end {bmatrix}{\displaystyle {bmatrix}x\y\end {bmatrix}+{\ty\end {bmatrix}

여기서 모델 변환은 [context ty]^T이고 아핀 회전, 스케일 및 스트레치는 m1, m2, m3 및 m4 매개변수로 표시됩니다.변환 매개변수를 해결하기 위해 위의 방정식을 다시 작성하여 알 수 없는 것을 열 벡터로 모을 수 있습니다.

{bmatrix}x&y&0&1&0&0&x&1\}\......\end{bmatrix}{\m2\m3\m4\ty\end{bmatrix}=cisco{bmatrix}u\v\\\.\.\end{bmatrix}

이 방정식은 1개의 일치를 나타내지만, 임의의 수의 일치를 추가할 수 있으며, 각 일치는 첫 번째 및 마지막 매트릭스에 2개의 행을 추가할 수 있습니다.솔루션을 제공하려면 적어도 3개의 일치 항목이 필요합니다.우리는 이 선형 시스템을 다음과 같이 쓸 수 있다.

A{\hat {mathbf {x}}}\about \mathbf {b},

여기서 A는 알려진 m-by-n 행렬(일반적으로 m > n)이고, x는 알려지지 않은 n차원 파라미터 벡터이며, b는 알려진 m차원 측정 벡터입니다.

따라서 최소 ${\hat {\mathbf {x} }}$ x $^($ {x $}})$ 는 ${\hat {\mathbf {x} }}$ 정규 방정식의 해이다.

(\displaystyledisplay style A^{T}\!A{\hat {mathbf {x}}}=A^{T}\mathbf {b} .}

선형 방정식 계통의 해는 $(A^{T}A)^{-1}A^{T}$ T $(A^{T}A)^{-1}A^{T}$ A $(A^{T}A)^{-1}A^{T}$ ) - $(A^{T}A)^{-1}A^{T}$ T { $displaystyle$ ( $A^{T}A)^{-1}$ A^{{ $T$ A의 의사 역행이라고 불립니다.

(\displaystyle\hat\mathbf {x}}=(A^{T)\!A)^{-1}A^{T}\mathbf {b} .}

투영된 모델 위치에서 해당 이미지 위치까지의 거리의 제곱합이 최소화됩니다.

이상치 검출

이제 파라미터 솔루션이 지정된 경우 각 영상 피쳐와 모델 간의 일치 여부를 확인하여 특이치를 제거할 수 있습니다.선형 최소 제곱 솔루션을 지정하면 각 일치는 Hough 변환 빈의 모수에 사용된 오차 범위의 절반 내에서 일치해야 합니다.특이치가 폐기되면 선형 최소 제곱 솔루션이 나머지 점으로 다시 해결되고 공정이 반복됩니다.특이치를 폐기한 후 3점 미만이 남아 있으면 일치가 거부됩니다.또한 하향식 일치 단계를 사용하여 투영된 모델 위치와 일치하는 모든 일치 항목을 추가합니다. 이러한 일치 항목은 유사도 변환 근사 또는 기타 오류로 인해 Hough 변환 빈에서 누락되었을 수 있습니다.

모델 가설을 수용하거나 거부하는 최종 결정은 상세한 확률론적 ^[15]모델에 기초한다.이 방법은 먼저 모델의 예상 크기, 영역 내 특징 수 및 적합도의 정확성을 고려하여 모델 포즈에 대한 예상 거짓 일치 수를 계산합니다.그러면 베이지안 확률 분석은 발견된 일치 피쳐의 실제 수에 따라 개체가 존재할 확률을 제공합니다.올바른 해석에 대한 최종 확률이 0.98보다 크면 모형이 합격됩니다.Lowe의 SIFT 기반 객체 인식은 광폭한 조명 변화 및 비강성 변환을 제외하고 우수한 결과를 제공합니다.

알고리즘.

축척 공간 극치 검출

우선 SIFT 프레임워크에서 키포인트라고 하는 관심 포인트를 검출한다.이미지는 다른 스케일의 가우스 필터로 컨볼루션된 다음 연속된 가우스 블러링된 이미지의 차이를 촬영합니다.키포인트는 여러 척도에서 발생하는 가우시안 차이(DoG)의 최대/최소값으로 간주된다.구체적으로는 DoG $D\left(x,y,\sigma \right)$ D ( $D\left(x,y,\sigma \right)$ , $D\left(x,y,\sigma \right)$ , $D\left(x,y,\sigma \right)$ $){$ $displaystyle$ D \ left $( x$ , $y$ , \ $sigma$ \ $right$ )는 $D\left(x,y,\sigma \right)$ 다음과 같이 표시됩니다.

D\left(x,y,\sigma \right)=L\left(x,y,k_{i}\sigma \right)-L\left(x,y,k_{j}\sigma \right)

L\left(x,y,k_{i}\sigma \right)-L\left(x,y,k_{j}\sigma \right

L\left(x,y,k\sigma \right)

서

L\left(x,y,k\sigma \right)

L (

L\left(x,y,k\sigma \right)

, y ,

L\left(x,y,k\sigma \right)

)

) ( \

displaystyle

L \

left ( x

,

y

, k \

sigma \

right )는

L\left(x,y,k\sigma \right)

원본

I\left(x,y\right)

I (

I\left(x,y\right)

,

I\left(x,y\right)

) \

displaystyle

I \

left

G\left(x,y,k\sigma \right)

(

x

G\left(x,y,k\sigma \right)

,

y

, k \ right

)

를

I\left(x,y\right)

G\left(x,y,k\sigma \right)

가우스

G\left(x,y,k\sigma \right)

G (

x

,

G\left(x,y,k\sigma \right)

,

k

) \

displaysty

, k \ sigma \

scale

\

rightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightrightright

\displaystyle L\left(x,y,k\sigma\right)=G\left(x,y,k\sigma\right)*I\left(x,y\right)}

따라서 $k_{i}\sigma$ $k_{j}\sigma$ 와 $k_{i}\sigma$ $k_{i}\sigma$ $kj 사이$ 의 $k_{j}\sigma$ DoG 이미지는 $k_{i}\sigma$ $k_{i}\sigma$ 와 $k_{i}\sigma$ $k_{i}\sigma$ kj $사이$ 의 $스케일 ki와$ $kj의$ blured 이미지의 차이일 뿐입니다 $k_{j}\sigma$ 영상은 먼저 다른 척도의 가우스 블러로 합성됩니다.컨볼루션 영상은 옥타브(옥타브는 ${\$ 의 두 배에 해당)로 그룹화되고 $(\$ $})$ $k_{i}$ 은 $k_{i}$ 옥타브당 고정된 컨볼루션 영상 수를 얻기 위해 선택된다.그런 다음 인접 가우스 블러링된 옥타브당 이미지에서 가우스 차이 영상을 가져옵니다.

DoG 영상이 획득되면 키포인트는 스케일 전체에 걸쳐 DoG 영상의 로컬 최소/최대값으로 식별됩니다.이것은 DoG 영상의 각 픽셀을 같은 척도의 8개의 인접 픽셀과 각각의 인접 스케일에서 대응하는 9개의 인접 픽셀과 비교함으로써 이루어집니다.비교된 모든 화소 중 화소 값이 최대 또는 최소일 경우 후보 키포인트로 선택된다.

한 원 탐지 방법 Lindeberg이 규모의scale-space extrema 정규화된Laplacian을 감지함으로써 개발된 이 keypoint 탐지 단계는 변화;[10][11]그것은, 둘 다 우주와 규모로 관련하여 이산 경우에 대비한 discretized에 가장 가까운 26일 이웃과의 비교에 의해 지역적 extrema 점을 검출한다. scale-sp에이스 볼륨가우스 연산자의 차이는 피라미드의 암묵적 정규화가 척도 정규화된 라플라시안의 ^[12]이산적 근사치를 구성하면서 라플라시안에 대한 근사치로 볼 수 있다.Laplacian 연산자의 스케일 공간 극단의 또 다른 실시간 구현은 Bretzner 등에서의 실시간 제스처 인식에 의한 인간-컴퓨터 상호작용에 사용된 하이브리드 피라미드 ^[16]표현에 기반하여 린데버그와 브레츠너에 의해 제시되었다.(2002).^[17]

키포인트 현지화

축척 공간 극단값이 감지된 후(가장 위 영상에 위치가 표시됨), SIFT 알고리즘은 대비가 낮은 키포인트(중간 영상에 나머지 포인트가 표시됨)를 폐기한 다음 가장자리에 위치한 키포인트를 필터링합니다.결과 키포인트 세트는 마지막 이미지에 표시됩니다.

축척 공간 극단 탐지는 너무 많은 키포인트 후보를 생성하며, 그 중 일부는 불안정합니다.알고리즘의 다음 단계는 주곡선의 정확한 위치, 척도 및 비율을 위해 인근 데이터에 대한 자세한 적합을 수행하는 것입니다.이 정보를 통해 대비가 낮거나(따라서 노이즈에 민감함) 가장자리를 따라 국소화되지 않은 점을 제거할 수 있습니다.

정확한 위치를 위해 인근 데이터 보간

우선, 후보 키포인트 마다, 그 위치를 정확하게 판단하기 위해서, 근방 데이터의 보간을 이용한다.초기 접근법은 후보 ^[1]키포인트의 위치와 규모에서 각 키포인트를 찾는 것이었습니다.새로운 접근법은 극단의 보간 위치를 계산하여 일치와 안정성을 ^[2]크게 향상시킨다.보간은 후보 키포인트를 원점으로 하여 D $D\left(x,y,\sigma \right)$ , $D\left(x,y,\sigma \right)$ , $D\left(x,y,\sigma \right)$ ) $D\left(x,y,\sigma \right)$ { $displaystyle$ D $\left(x , y$ , \ $sigma \right$ )의 $D\left(x,y,\sigma \right)$ 2차 테일러 확장을 사용하여 수행됩니다.이 Taylor의 확장은 다음과 같습니다.

\displaystyle D({\textbf {x})= D+{\frac D}{\partial {\textbf {x}}}^{T} {\textbf {x} + {\frac {1} {x} {\textbf {x} {\textbf {x} {\frac {\partial ^{2}D} {\textbf {x}}} {\textbf {x}}

여기서 D와 그 도함수는 후보 키포인트에서 ${\textbf {x}}=\left(x,y,\sigma \right)^{T}$ 되며 x ${\textbf {x}}=\left(x,y,\sigma \right)^{T}$ ( ${\textbf {x}}=\left(x,y,\sigma \right)^{T}$ , y , ${\textbf {x}}=\left(x,y,\sigma \right)^{T}$ ) ${\textbf {x}}=\left(x,y,\sigma \right)^{T}$ T {\ $display {textbf$ {x} $= \left(x$ , $y$ , \ $display \right$ )^ ${T}}$ 은 ${\textbf {x}}=\left(x,y,\sigma \right)^{T}$ (는) 이 지점으로부터의 오프셋입니다.극한의 ${\hat {\textbf {x}}}$ x $^$ { $displaystyle {x}}$ 는 x ${\textbf {x}}$ ${\hat {\textbf {x}}}$ $displaystyle {x}}$ 에 ${\textbf {x}}$ 대해 이 함수의 도함수를 취하여 0으로 설정하여 구합니다. ${\hat {\textbf {x}}}$ x $(\$ { $x}})$ 가 ${\hat {{\textbf {x}}}}$ 어느 차원에서도 $0$ .5 $(\displaystyle$ 0.5 $)$ 보다 $0.5$ 크면 극단이 다른 후보 키포인트에 가깝다는 것을 나타냅니다.이 경우 후보 키포인트가 변경되고 대신 그 포인트에 대해 보간이 실행된다.그렇지 않으면 끝의 위치에 대한 보간 추정치를 얻기 위해 오프셋이 후보 키포인트에 추가됩니다.린데버그와 그의 ^[16]동료에 의해 개발된 하이브리드 피라미드에 기초한 실시간 구현에서 스케일 공간 극단의 위치에 대한 유사한 서브픽셀 결정이 이루어진다.

저콘트라스트 키포인트 폐기

저콘트라스트의 키포인트를 폐기하려면 2차 Taylor $D({\textbf {x}})$ D $x$ )(\ $displaystyle$ D $({\textbf$ {x}})의 $D({\textbf {x}})$ 값이 $^$ $displaystyle {\textbf {x$ 로 계산됩니다.이 값이 0. $(\displaystyle$ 0. $03$ $0.03$ 일 경우 후보 키포인트는 폐기됩니다.그렇지 않으면 최종 축척 공간 ${\textbf {y}}+{\hat {\textbf {x}}}$ y + $^$ { $displaystyle {textbf {y}}+{\hat {textbf {x}}}$ 이 ${\textbf {y}}+{\hat {\textbf {x}}}$ $가)$ 유지되며, ${\textbf {y}}$ 서 ${\textbf {y}}$ y {\style { $textbf {y}}}$ 는 ${\textbf {y}}$ 키포인트의 원래 위치입니다.

에지 응답 제거

후보 키포인트가 소량의 노이즈에 대해 견고하지 않더라도 DoG 함수는 에지를 따라 강력한 반응을 보입니다.따라서 안정성을 높이기 위해서는 위치가 제대로 결정되지 않았지만 엣지 응답이 높은 키포인트를 배제해야 합니다.

DoG 함수의 피크가 제대로 정의되지 않은 경우 모서리의 주 곡률은 모서리의 주 곡률보다 훨씬 커집니다.이러한 주요 곡선을 찾는 것은 2차 헤시안 행렬의 고유값인 H:

(\displaystyle\textbf {H}}=(begin{bmatrix}D_{x}&D_{xy}\D_{xy}&)D_{y}\end {bmatrix}}

H의 고유값은 D의 주요 곡선에 비례합니다.두 고유값의 $\alpha$ 인 $\alpha$ α(\ $displaystyle \$ $alpha$ $\alpha$ })와 $\alpha$ $r=\alpha /\beta$ $β$ (\ $displaystyle$ \alpha $}$ r $\beta$ $r=\alpha /\beta$ ' purposes $=$ β ${\$ $displaystyle$ r $=\alpha$ /\display } {\ } } } } = } } } } } } } } } } } } } } } } } α $r=\alpha /\beta$ α α α αH의 트레이스( $D_{xx}+D_{yy}$ : $D_{xx}+D_{yy}$ D $D_{xx}+D_{yy}$ + $D_{xx}+D_{yy}$ y $D_{xx}+D_{yy}$ \ $displaystyle D_{xx}+)$ $D_{y$ 는 두 고유값의 합계를 나타내며, $D_{xx}D_{yy}-D_{xy}^{2}$ $D_{xx}D_{yy}-D_{xy}^{2}$ $D_{xx}D_{yy}-D_{xy}^{2}$ y $D_{xx}D_{yy}-D_{xy}^{2}$ - $D_{xx}D_{yy}-D_{xy}^{2}$ $D_{xx}D_{yy}-D_{xy}^{2}$ $D_{xx}D_{yy}-D_{xy}^{2}$ 2(\ $display D_{xx} D_{y}-D_{xy}^2$ 라는 행렬식이 곱을 산출합니다. ${\text{R}}=\operatorname {Tr} ({\textbf {H}})^{2}/\operatorname {Det} ({\textbf {H}})$ ${\text{R}}=\operatorname {Tr} ({\textbf {H}})^{2}/\operatorname {Det} ({\textbf {H}})$ ${\text{R}}=\operatorname {Tr} ({\textbf {H}})^{2}/\operatorname {Det} ({\textbf {H}})$ ${\text{R}}=\operatorname {Tr} ({\textbf {H}})^{2}/\operatorname {Det} ({\textbf {H}})$ ( ${\text{R}}=\operatorname {Tr} ({\textbf {H}})^{2}/\operatorname {Det} ({\textbf {H}})$ ) ${\text{R}}=\operatorname {Tr} ({\textbf {H}})^{2}/\operatorname {Det} ({\textbf {H}})$ / ${\text{R}}=\operatorname {Tr} ({\textbf {H}})^{2}/\operatorname {Det} ({\textbf {H}})$ ${\text{R}}=\operatorname {Tr} ({\textbf {H}})^{2}/\operatorname {Det} ({\textbf {H}})$ ( ${\text{R}}=\operatorname {Tr} ({\textbf {H}})^{2}/\operatorname {Det} ({\textbf {H}})$ ) \ $displaystyle \$ { $R}}=\operatorname {Tr}({\textbf {H}})^{2}/\operatorname {Det}({\textbf {H}}))$ 은 ${\text{R}}=\operatorname {Tr}({\textbf {H}})^{2}/\operatorname {Det}({\textbf {H}})$ (는 $(r+1)^{2}/r$ + 1) $(r+1)^{2}/r$ 2 / $(r+1)^{2}/r$ {\ $displaystyle (r+1)^2}/$ r $(r+1)^{2}/r$ 과(으)로 나타나며, 개별 값이 아니라 고유값의 비율에만 의존합니다.R은 고유값이 서로 같을 때 최소값입니다.따라서 D의 두 주요 곡선 사이의 절대적 차이에 해당하는 두 고유값 사이의 절대적 차이가 클수록 R의 값이 높아집니다.따라서 후보 키포인트의 R이 ( $r$ th $(r_{\text{th}}+1)^{2}/r_{\text{th}}$ + $(r_{\text{th}}+1)^{2}/r_{\text{th}}$ ) $(r_{\text{th}}+1)^{2}/r_{\text{th}}$ / $(r_{\text{th}}+1)^{2}/r_{\text{th}}$ ( $r_{\text{$ th $}+1)^{2}/r_{\text{th$ 보다 크면 어떤 임계값 $r_{\text{th}}$ $r_{\text{th}}$ r $th$ {th $r_{\text{th}}$ 에 대해 해당 키포인트는 현지화되지 않아 거부됩니다.새로운 접근법에서는 r $r_{\text{th}}=10$ $=$ $r_{\text{th}}=10$ {\ $displaystyle r_{\text{th$ }}= $10$ ^[2]을 $r_{\text{th}}=10$ 합니다.

모서리에서의 응답을 억제하기 위한 이 처리 단계는 모서리 검출을 위한 Harris 연산자의 해당 접근 방식을 전송하는 것입니다.차이점은 임계값화에 대한 측정값이 두 번째 순간 행렬 대신 헤시안 행렬에서 계산된다는 것입니다.

오리엔테이션 할당

이 단계에서 각 키포인트는 로컬 이미지 구배 방향에 따라 하나 이상의 방향을 할당받는다.키포인트 디스크립터가 이 방향에 대해 표현될 수 있으므로 이미지 회전에 대한 불변성을 달성할 수 있는 중요한 단계입니다.

우선 키포인트 $스케일θ$ 의 가우스 $L\left(x,y,\sigma \right)$ L $L\left(x,y,\sigma \right)$ $)$ {{ $displaystyle$ $\sigma$ L $\left(x,y,\sigma$ $\right$ $}}$ 을 $L\left(x,y,\sigma \right)$ $\sigma$ 취하여 모든 연산을 스케일 불변으로 실시한다. $이미지$ $L\left(x,y\right)$ L ( x $L\left(x,y\right)$ , $L\left(x,y\right)$ ) \ $displaystyle$ $L$ \ left ( $x$ , $L\left(x,y\right)$ $m\left(x,y\right)$ , $right$ $\sigma$ )의 $L\left(x,y\right)$ 경우, 구배 $m$ ( x $m\left(x,y\right)$ , $m\left(x,y\right)$ y ) $\theta \left(x,y\right)$ 방향 $\theta \left(x,y\right)$ ( $\theta \left(x,y\right)$ , y $\theta \left(x,y\right)$ ){ $displaystyle$ \ $theta \ left$ ( $x$ $,$ y $m\left(x,y\right)$ right $\theta \left(x,y\right)$ 픽셀의 차이는 미리 계산되어 있습니다.

(\displaystyle m\left(x,y\right)={left(L\left(x+1,y\right)-L\left(L\left(x,y+1\right))-L\left(x,y-1\right)\right(x,y-1\right)})-L\left(x,y-1\right)^{2}}}}}}

\displaystyle \theta \left(x,y\right)=\mathrm {atan2} \left(L\left(x,y+1\right)-L\left(x,y-1\right),L\left(x+1, y\right)-L\left(x-1, y\right)}

그라데이션의 크기 및 방향 계산은 가우스 블러 이미지 L의 키포인트 주변 인접 영역의 모든 픽셀에 대해 수행됩니다.36개의 빈이 있는 방향 히스토그램이 형성되며, 각 빈은 10도를 커버합니다.히스토그램 빈에 추가된 인접 창의 각 샘플은 기울기 크기에 따라 가중치가 부여되며 키포인트 스케일의 1.5배인 $\sigma$ (\ $displaystyle \sigma)$ 가 $\sigma$ 있는 가우스 가중 원형 창에 의해 가중치가 부여됩니다.이 히스토그램의 피크는 지배적인 방향에 해당합니다.히스토그램이 채워지면 가장 높은 피크와 가장 높은 피크의 80% 이내인 로컬 피크에 해당하는 방향이 키포인트에 할당됩니다.복수의 방향이 할당되어 있는 경우, 추가 방향마다 원래 키포인트와 동일한 위치 및 축척을 가진 추가 키포인트가 작성된다.

키포인트 기술자

이전 단계에서는 특정 축척에서 키포인트 위치를 찾아 방향을 지정했습니다.이것에 의해, 이미지의 위치, 스케일, 회전에 대한 불변성이 보증되었습니다.이제 각 키포인트에 대한 설명자 벡터를 계산하여 설명자가 매우 독특하고 조명, 3D 시점 등의 나머지 변형에 부분적으로 불변하도록 합니다.이 단계는 키포인트 축척에 가장 가까운 영상에서 수행됩니다.

먼저 각각 8개의 빈이 있는 4×4픽셀 이웃에 방향 히스토그램 세트가 생성됩니다.이러한 히스토그램은 각 히스토그램이 원래 인근 영역의 4×4 하위 영역에서 샘플을 포함하도록 키포인트 주변의 16×16 영역에 있는 샘플의 크기와 방향 값으로 계산된다.이미지의 그라데이션 크기와 방향은 키포인트 위치를 중심으로 샘플링되며, 키포인트 스케일을 사용하여 이미지의 가우스 흐림 수준을 선택합니다.방향 불변성을 달성하기 위해 기술자의 좌표와 경사 방향은 키포인트 방향에 대해 회전한다.진폭은 가우스 함수에 의해 추가 가중치가 부여됩니다. 가우스 함수는 $\sigma$ { $displaystyle \sigma }$ 은 $\sigma$ 디스크립터 창의 절반 폭과 동일합니다.그러면 설명자는 이러한 히스토그램의 모든 값의 벡터가 됩니다.각각 8개의 빈이 있는 4 × 4 = 16개의 히스토그램이 있으므로 벡터는 128개의 요소를 가집니다.이 벡터는 조명의 변화에 대한 불변성을 높이기 위해 단위 길이로 정규화된다.비선형 조명의 영향을 줄이기 위해 0.2의 임계값이 적용되고 벡터가 다시 정규화됩니다.클램핑이라고도 하는 임계값 처리 프로세스는 비선형 조명 효과가 ^[18]없는 경우에도 일치 결과를 개선할 수 있습니다.0.2 임계값은 경험적으로 선택되었으며 고정 임계값을 체계적으로 계산된 임계값으로 대체함으로써 일치 결과를 ^[18]개선할 수 있다.

기술자의 차원, 즉 128은 높아 보이지만, 이것보다 낮은 차원을 가진 기술자는 일치하는^[2] 태스크의 범위 전체에서 잘 수행되지 않으며, 계산 비용은 가장 가까운 이웃을 찾기 위해 사용되는 대략적인 BBF(아래 참조) 방법 때문에 낮은 상태로 유지됩니다.디스크립터가 길수록 성능이 향상되지만 그다지 향상되지는 않으며 왜곡 및 폐색에 대한 민감도가 높아질 위험이 있습니다.또한 최대 50도의 시점 변경에 대해 특징 일치 정확도가 50%를 넘는 것으로 나타났다.따라서 SIFT 기술자는 사소한 아핀 변경에도 불변합니다.SIFT 기술자의 구별성을 테스트하기 위해 테스트 데이터베이스의 다양한 키포인트 수에 대해 일치 정확도가 측정되며, 일치하는 정확도는 매우 큰 데이터베이스 크기에서 매우 약간만 감소하므로 SIFT 기능이 매우 구별됨을 알 수 있습니다.

SIFT 피쳐와 다른 로컬 피쳐의 비교

다양한 ^[19]검출기를 사용하여 SIFT를 포함한 다양한 국소 설명자의 성능 평가에 대해 광범위한 연구가 수행되었다.주요 결과는 다음과 같습니다.

SIFT 및 SIFT와 유사한 GLOH 기능은 50도의 아핀 변환에 대해 가장 높은 일치 정확도(호출 속도)를 나타냅니다.이 변환 제한 후에는 결과를 신뢰할 수 없게 됩니다.
설명자의 구별성은 분산에 의해 정규화된 설명자의 주성분 분석에 의해 얻어진 설명자의 고유값을 합산하여 측정됩니다.따라서 이는 서로 다른 설명자에 의해 포착된 분산의 양에 해당하므로 그 구별성에 대응합니다.PCA-SIFT(SIFT 기술자에 적용되는 주요 성분 분석), GLOH 및 SIFT 기능은 가장 높은 값을 제공합니다.
SIFT 기반 기술자는 질감 있는 장면과 구조화된 장면 모두에서 다른 현대 로컬 기술자를 능가하며, 질감 있는 장면에서 성능 차이가 더 큽니다.
2 ~ 2.5 범위의 스케일 변화와 30 ~ 45도 범위의 이미지 회전의 경우, SIFT 및 SIFT 기반 설명자는 텍스처 및 구조화된 장면 콘텐츠 모두에서 다른 현대 로컬 설명자보다 성능이 우수합니다.
흐림 현상이 발생하면 가장자리가 사라지기 때문에 흐림 현상이 모든 로컬 기술자, 특히 모양 컨텍스트와 같은 가장자리에 기반한 기술자에 영향을 미칩니다.하지만 GLOH, PCA-SIFT, 그리고 SIFT는 여전히 다른 것들보다 더 잘했다.이는 조명 변화의 경우 평가에도 해당된다.

수행된 평가는 지역 기반인 SIFT 기반 기술자가 가장 견고하고 독특하므로 기능 일치에 가장 적합하다는 것을 강력히 시사합니다.그러나 이 연구에서는 SUFF와 같은 최신 피쳐 기술자는 평가되지 않았습니다.

SUFF는 나중에 SIFT와 유사한 성능을 가지면서도 훨씬 ^[20]더 빠른 것으로 나타났습니다.다른 연구 때 속도 중요하지 않다, SIFT 특히, 불연속화 효과 SIFT의 순수한 이미지 기술자 크게 SURF은 반면에 그 순수한 이미지 기술자보다 낫다. 무시하 SURF.[21][22]를 압도하다는 결론이 헤세 행렬식의 결정기 SU의 순수한 관심 지점 탐지기 내부의scale-space extrema.RF부편SIFT의 관심점 검출기가 수치 ^[21]근사치를 구성하는 라플라시안 축척 공간 극단에 비해 훨씬 더 나은 관심점을 적정한다.

SIFT 기술자에 의한 영상 매칭의 성능은 원래 SIFT에서 가우시안 차분 연산자의 축척 공간 극단을 헤시안 결정자의 축척 공간 극단으로 대체하거나 보다 일반적으로 보다 일반적인 패밀리를 고려함으로써 더 높은 효율성 점수 및 더 낮은 1 정밀도 점수를 달성한다는 의미에서 개선될 수 있다.일반화된 축척 공간 관심점의 ^[21]ily.

최근 불규칙 히스토그램 그리드를 사용하는 설명자의 약간의 변화가 제안되어 성능이 ^[23]크게 향상되었다.모든 빈은 히스토그램 빈의 4×4 그리드를 사용하는 대신 기능의 중앙까지 확장됩니다.이렇게 하면 척도 변경에 대한 설명자의 견고성이 향상됩니다.

SIFT-Rank^[24] 기술자는 아핀 기능 매칭을 위한 표준 SIFT 기술자의 성능을 향상시키는 것으로 나타났습니다.SIFT-Rank 기술자는 각 히스토그램 빈을 정렬된 빈 배열의 해당 등급으로 설정하여 표준 SIFT 기술자에서 생성됩니다.SIFT-Rank 설명자 사이의 유클리드 거리는 히스토그램 빈 값의 임의 단조로운 변화에 불변하며 스피어맨의 순위 상관 계수와 관련이 있다.

적용들

SIFT 기능을 사용한 객체 인식

위치, 스케일 및 회전에 불변하고 변형(스케일, 회전, 전단 및 위치의 변화)과 조명의 변화에 강한 SIFT의 기능을 고려할 때 객체 인식에 사용할 수 있다.스텝은 다음과 같습니다.

첫째, SIFT 피쳐는 위에서 설명한 알고리즘을 사용하여 입력 이미지에서 얻습니다.
이러한 피쳐는 교육용 영상에서 얻은 SIFT 피쳐 데이터베이스와 일치합니다.이 피쳐 매칭은 유클리드 거리에 기초한 가장 가까운 근접접근접근접근접근접근접근접근접근접근접근접건전성을 높이기 위해 두 번째 근접 근접 근접 거리에 대한 근접 근접 근접 거리 비율이 0.8보다 큰 키 포인트에 대한 일치는 거부됩니다.이렇게 하면 백그라운드 어수선함에서 발생한 잘못된 일치가 대부분 폐기됩니다.마지막으로, 유클리드 거리 기반 가장 가까운 이웃을 찾는 데 필요한 값비싼 검색을 피하기 위해, best-bin-first 알고리즘이라고 불리는 근사 알고리즘이 사용된다.^[14]이는 가장 가까운 네이버를 높은 확률로 반환하는 빠른 방법으로, 가장 가까운 네이버(대상)를 95% 검색하면서 1000배 속도를 높일 수 있습니다.
위에서 설명한 거리 비율 테스트는 백그라운드 클러터에서 발생하는 잘못된 일치의 많은 부분을 폐기하지만, 여전히 다른 개체에 속하는 일치 항목이 있습니다.따라서 개체 식별의 견고성을 높이기 위해 동일한 개체에 속하는 기능을 클러스터링하고 클러스터링 프로세스에서 누락된 일치 항목을 거부합니다.이것은 Hough 변환을 사용하여 수행됩니다.이를 통해 동일한 객체 포즈에 투표하는 피쳐 클러스터가 식별됩니다.피쳐 클러스터가 객체의 동일한 포즈로 투표하는 경우 해석이 정확할 확률은 단일 피쳐보다 훨씬 높아집니다.각 키포인트는 키포인트의 위치, 축척 및 방향과 일치하는 객체 포즈 세트에 투표합니다.최소 3개의 투표가 누적된 빈은 후보 객체/포즈 일치로 식별됩니다.
후보 클러스터별로 트레이닝 화상과 입력 화상을 관련짓는 최선의 추정 아핀 투영 파라미터의 최소 제곱해를 구한다.이러한 파라미터를 통한 키포인트 투영이 Hough 변환빈의 파라미터에 사용된 오차 범위의 절반 이내일 경우 키포인트 일치가 유지됩니다.빈에 대한 특이치를 삭제한 후 3개 미만의 점이 남아 있으면 개체 일치가 거부됩니다.최소 제곱 피팅은 더 이상 거부가 발생하지 않을 때까지 반복됩니다.평면 표면 인식에서는 아핀 모델이 3D 개체에 대해 더 이상 정확하지 않기 때문에 3D 개체 인식보다 더 잘 작동합니다.
이 ^[25]저널에서 저자들은 다중 물체 감지 목적으로 SIFT 기술자를 사용하는 새로운 접근법을 제안했다.제안된 다중 물체 감지 접근법은 항공 및 위성 이미지에서 테스트된다.

SIFT 기능은 기본적으로 이미지 간에 일치하는 위치를 식별해야 하는 작업에 적용할 수 있습니다.2D 영상에서 특정 객체 범주 인식, 3D 재구성, 모션 트래킹 및 분할, 로봇 현지화, 영상 파노라마 스티치 및 에피폴라 보정 등의 애플리케이션에 대한 작업이 수행되었습니다.이들 중 일부는 아래에서 자세히 설명합니다.

로봇 현지화 및 매핑

이 ^[26]응용 프로그램에서는 삼각형 스테레오 시스템을 사용하여 키포인트 위치의 3D 추정치를 결정합니다.키포인트는 3개의 영상에 모두 일관된 차이가 있을 때만 사용되므로 특이치가 거의 발생하지 않습니다.로봇이 이동하면서 기존 3D 지도와 일치하는 피쳐를 사용하여 자체 위치를 파악한 다음 Kalman 필터를 사용하여 3D 위치를 업데이트하면서 맵에 피쳐를 점진적으로 추가합니다.이를 통해 알 수 없는 환경에서 발생하는 로봇 위치 파악 문제에 대한 강력하고 정확한 솔루션을 제공합니다.최근 3D 솔버는 키포인트 방향을 사용하여 3개의^[27] 키포인트에서 삼각형 기하학을 해결하고 2개의 ^[28]키포인트에서만 절대적인 자세를 취하고 있습니다. 이 측정은 종종 무시되지만 SIFT에서 사용할 수 있습니다.이러한 방향 측정은 필요한 대응의 수를 감소시켜 견고성을 기하급수적으로 증가시킵니다.

파노라마 스티치

SIFT 기능 일치는 비파노라마 영상에서 완전히 자동화된 파노라마 재구성을 위해 영상 연결에서 사용할 수 있습니다.입력 영상에서 추출된 SIFT 피쳐가 서로 일치하여 각 피쳐에 대해 k개의 가장 가까운 이웃을 찾습니다.그런 다음 이러한 대응은 각 이미지에 대해 m개의 일치하는 후보 이미지를 찾는 데 사용됩니다.그런 다음 LANSAC을 사용하여 영상 쌍 간의 호모그래피를 계산하고 검증을 위해 확률적 모델을 사용한다.입력 화상에 제한이 없기 때문에, 그래프 검색을 실시해, 각 접속 컴퍼넌트가 파노라마에 대응하도록, 일치하는 화상의 접속 컴퍼넌트를 찾는다.마지막으로 접속된 각 부품 묶음 조정을 실시하여 조인트 카메라 파라미터를 해결하고 멀티밴드 블렌딩을 사용하여 파노라마를 렌더링한다.파노라마 스티치에 대한 SIFT에서 영감을 받은 객체 인식 접근 방식 때문에 결과 시스템은 이미지의 순서, 방향, 스케일 및 조명에 민감하지 않습니다.입력 이미지에는 여러 파노라마 및 노이즈 이미지(그 중 일부는 합성 이미지의 일부가 아닐 수도 있음)가 포함될 수 있으며 파노라마 시퀀스가 인식되어 ^[29]출력으로 렌더링됩니다.

3D 장면 모델링, 인식 및 추적

이 애플리케이션은 3D 객체 인식과 증강현실에서의 3D 모델링에 SIFT 기능을 활용, 정확한 포즈로 합성된 물체를 실제 영상 위에 겹치는 방식이다.SIFT 매칭은 여러 각도에서 촬영한 장면 또는 물체의 여러 2D 영상에 대해 수행됩니다.이는 본 장면의 희박한 3D 모델을 구축하고 카메라 포즈와 보정 파라미터를 동시에 복구하기 위해 필수 매트릭스 또는 3초점 텐서에서 초기화된 번들 조정과 함께 사용됩니다.그런 다음 복구된 모델의 좌표 프레임을 기준으로 가상 객체의 위치, 방향 및 크기가 정의됩니다.온라인 경기 이동의 경우, SIFT 기능이 현재 비디오 프레임에서 다시 추출되어 월드 모드에 대해 이미 계산된 기능과 일치하므로 2D에서 3D로 대응됩니다.그런 다음 이러한 대응은 가상 투영 및 최종 렌더링을 위한 현재 카메라 포즈 계산에 사용됩니다.정규화 기술은 가상 ^[30]투영에서의 지터를 줄이기 위해 사용됩니다.이 공정의 견고성을 높이기 위해 ^[27]^[28]SIFT 방향도 사용되었습니다.SIFT의 3D 확장은 진정한 3D 객체 인식 및 검색에도 ^[31]^[32]평가되었습니다.

인간의 동작 인식을 위한 3D SIFT와 같은 기술자

비디오 시퀀스에서 인간 동작 인식의 맥락에서 2+1차원 시공간 데이터에 대한 SIFT 기술자의 확장이 ^[31]^[33]^[34]^[35]연구되었다.2D SIFT 알고리즘의 로컬 위치 의존 히스토그램 연산은 시공간 영역의 SIFT 특징을 설명하기 위해 2차원에서 3차원으로 확장된다.비디오 시퀀스의 인간 행동 인식에 적용하기 위해, 훈련 비디오의 샘플링은 시공간 관심 지점 또는 랜덤으로 결정된 위치, 시각 및 스케일로 이루어진다.그런 다음 3D SIFT 설명자를 사용하여 관심 지점 주변의 시공간 영역을 설명합니다.그런 다음 이러한 기술자를 군집화하여 시공간적 단어 가방 모델을 형성합니다.그 후 테스트 비디오에서 추출한 3D SIFT 기술자를 이들 단어와 대조하여 인간의 행동을 분류합니다.

저자들은 단순한 2D SIFT 기술자 및 Gradient ^[36]Midgength와 같은 다른 접근법보다 3D SIFT 기술자 접근법이 훨씬 더 나은 결과를 제공한다고 보고했습니다.

3D 자기공명영상에서의 인간의 뇌 분석

FBM(Feature-based Morphometry) 기술은^[37] 가우스 스케일 공간의 차이에 있는 극치를 사용하여 인간 뇌의 3D 자기공명영상(MRI)을 분석하고 분류합니다.FBM은 이미지 기하학 및 그룹 레이블(예: 건강한 피험자 및 알츠하이머병(AD)이 있는 피험자)에 따라 달라지는 독립적인 피험자의 콜라주로서 이미지를 확률적으로 모델링합니다.특징은 먼저 가우스 축척 공간의 4D 차이에서 개별 영상에서 추출된 후 이미지 세트 전체에 걸친 모양, 기하학 및 그룹 공존 통계 측면에서 모델링됩니다.FBM은 인간 뇌의 최대 200개의 체적 MRI 세트를 사용하여 AD 분석에서 검증되었으며, 뇌에서 AD의 확립된 지표를 자동으로 식별하고 80%^[37]의 비율로 새로운 영상에서 가벼운 AD를 분류했다.

경쟁 방식

클러터/부분 폐색 상태에서 스케일 불변 객체 인식을 위한 경쟁 방법에는 다음이 포함된다.

리프트는^[38] SIFT의 회전 불변 일반화입니다.LIFT 설명자는 동일한 폭의 동심원 링으로 분할된 원형 정규화된 패치를 사용하여 구성되며 각 링 내에서 경사 방향 히스토그램이 계산됩니다.회전 불변성을 유지하기 위해 중심에서 바깥쪽으로 향하는 방향을 기준으로 각 점에서 방향이 측정됩니다.

RootSIFT는 기술자의 정규화를 변경하는 SIFT의 변형입니다.SIFT 기술자는 히스토그램(및 확률 분포)이기 때문에 유사성을 결정하기 위해 유클리드 거리를 사용하는 것은 자연스러운 선택이 아닙니다.이러한 기술자를 Bhattacharya 계수(Hellinger 커널이라고도 함)와 같은 확률 분포에 맞춘 유사성 측도를 사용하여 비교하는 것이 더 유익하다는 것이 밝혀졌다.이를 위해 원래 $(\displaystyle$ \ $ell ^{$ 2}) 정규화된 $\ell ^{2}$ 디스크립터는 먼저 $\ell ^{1}$ (\ $displaystyle \ell$ ^{ $1})$ 정규화된 $\ell ^{1}$ 후 각 요소의 제곱근은 $\ell ^{2}$ (\ $displaystyle \ell$ ^{ $2})$ 로 $\ell ^{2}$ 계산됩니다.이러한 대수적 조작 후, RootSIFT 기술자는 원래 SIFT 기술자의 Hellinger 커널을 사용하는 것과 동등한 유클리드 거리를 사용하여 일반적으로 비교될 수 있습니다."L1-sqrt"라는 이름의 이 정규화 스킴은 직각 블록 배열 기술자 변형(R-HOG)이 SIFT 기술자와 개념적으로 유사한 HOG 기능의 블록 정규화를 위해 이전에 도입되었습니다.

G-RIF:^[40] Generalized Robust Universant Feature는 지각 정보와 공간 인코딩을 결합하여 가장자리 방향, 가장자리 밀도 및 색상 정보를 통합 형식으로 인코딩하는 일반적인 컨텍스트 기술자입니다.객체 인식 방식은 인접 컨텍스트 기반 투표를 사용하여 객체 모델을 추정합니다.

"SURF:^[41] Speeded Up Robust Features"는 고성능 스케일 및 회전 불변 관심점 검출기/설명자로 반복성, 구별성 및 견고성과 관련하여 이전에 제안한 체계에 근사하거나 심지어 이를 능가한다고 주장한다.SUFF는 계산 시간을 단축하기 위해 영상 회전을 위한 통합 이미지에 의존하며, 기존의 선도적인 검출기와 설명자의 강점을 기반으로 한다(검출기에 대한 빠른 헤시안 매트릭스 기반 측정 및 분포 기반 설명자 사용).관심점 근린 내 Haar 웨이브릿 응답의 분포를 설명합니다.통합 이미지를 사용하여 속도를 높이고 64차원만 사용하여 피쳐 계산 및 매칭 시간을 단축합니다.인덱싱 단계는 Laplacian 기호를 기반으로 하며, 이 기호에 따라 기술자의 일치 속도와 견고성이 향상됩니다.

PCA-SIFT 및 GLOH는^[19] SIFT의 변형입니다.PCA-SIFT 기술자는 지원 영역 내에서 계산된 x 및 y 방향의 이미지 구배 벡터입니다.구배 영역은 39×39 위치에서 샘플링되므로, 벡터는 차원 3042이다.PCA를 사용하면 치수가 36으로 감소합니다.GLOH(Gradient Location-Orientation Histogram)는 견고성과 구별성을 높이기 위해 설계된 SIFT 기술자의 확장입니다.SIFT 설명자는 반경 방향(반경이 6, 11, 15로 설정)에 3개의 빈이 있고 각도 방향으로 8개가 있는 로그 극점 위치 그리드에 대해 계산되며, 결과적으로 17개의 위치 빈이 생성됩니다.중앙 빈은 각도 방향으로 분할되지 않습니다.그라데이션 방향은 16개의 빈으로 양자화되어 272개의 빈 히스토그램이 생성됩니다.이 디스크립터의 사이즈는 PCA에 의해 작아집니다.PCA에 대한 공분산 행렬은 다양한 영상에서 수집된 영상 패치를 통해 추정됩니다.가장 큰 128개의 고유 벡터가 설명에 사용됩니다.

Gauss-SIFT는 일반 SIFT와 같이 이미지 피라미드 내의 파생 근사가 아닌 가우스 미분 응답에 의해 SIFT의 순수 이미지 기술자의 기초가 되는 모든 이미지 측정을 수행하여 정의된 순수 이미지 기술자입니다.이렇게 하면 공간 및 규모에 대한 이산화 효과를 최소화할 수 있으므로 잠재적으로 더 정확한 이미지 기술자가 될 수 있습니다.린데버그(2015)^[21]에서 그러한 순수한 가우스-SIFT 영상 기술자는 헤시안 결정 요인인 가우스의 라플라시안, 4개의 새로운 서명 또는 서명되지 않은 헤시안 특징 강도 측정 및 해리스-라플라스 및 시앤드토마시 관심 지점과 결합되었다.12개 포스터의 여러 뷰로 구성된 포스터 데이터 세트에 대한 광범위한 실험 평가에서 최대 6배까지 변형을 스케일링하고 45도의 경사각까지 보는 방향 변화를 통해 이미지 매칭 성능(높은 효율성 점수 및 낮은 1정밀 점수)이 크게 증가한 것으로 나타났다.d는 가우스 관심점의 라플라시안을 헤시안 관심점의 결정 인자로 대체하여 구한다.가우스 관심점의 차이점이 가우스 관심점의 라플라시안 수치 근사치를 구성하므로, 이는 SIFT의 가우스 관심점의 차이점을 헤시안 관심점의 결정식으로 대체함으로써 일치 성능의 상당한 증가가 가능하다는 것을 보여준다.또한 검출된 $D_{1}L=\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL\,{\mbox{if}}\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL>0\,{\mbox{or 0 otherwise}}$ 부호 없는 Hessian 특징 강도 $D_{1}L=\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL\,{\mbox{if}}\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL>0\,{\mbox{or 0 otherwise}}$ $D_{1}L=\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL\,{\mbox{if}}\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL>0\,{\mbox{or 0 otherwise}}$ $D_{1}L=\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL\,{\mbox{if}}\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL>0\,{\mbox{or 0 otherwise}}$ $=$ 검출 $D_{1}L=\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL\,{\mbox{if}}\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL>0\,{\mbox{or 0 otherwise}}$ $D_{1}L=\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL\,{\mbox{if}}\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL>0\,{\mbox{or 0 otherwise}}$ $D_{1}L=\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL\,{\mbox{if}}\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL>0\,{\mbox{or 0 otherwise}}$ - $D_{1}L=\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL\,{\mbox{if}}\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL>0\,{\mbox{or 0 otherwise}}$ k $D_{1}L=\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL\,{\mbox{if}}\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL>0\,{\mbox{or 0 otherwise}}$ $D_{1}L=\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL\,{\mbox{if}}\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL>0\,{\mbox{or 0 otherwise}}$ $D_{1}L=\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL\,{\mbox{if}}\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL>0\,{\mbox{or 0 otherwise}}$ L $D_{1}L=\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL\,{\mbox{if}}\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL>0\,{\mbox{or 0 otherwise}}$ 0 $D_{1}L=\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL\,{\mbox{if}}\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL>0\,{\mbox{or 0 otherwise}}$ 0 \ $display style$ D_ ${1}L$ =\ $opername$ {\ $det} H$ 를 고려함으로써 추가적인 성능 향상을 얻을 수 있다 $.$ $HL, {\mbox{if}}\operatorname {det} HL-k,\operatorname {trace}^{$ $HL>0,{\mbox{or 0other$ 가우스-SIFT 설명자와 해당 가우스-SURF 설명자 간의 정량적 비교에서도 가우스-SIFT가 다수의 다른 스케일 공간 관심 지점 검출기에서 일반적으로 가우스-SURF보다 훨씬 더 나은 성능을 발휘하는 것으로 나타났다.따라서 이 연구는 이산화 효과와 관련하여 SIFT의 순수 영상 설명자가 SUFF의 순수 영상 설명자보다 훨씬 나은 반면, 헤시안 결정자의 축척 공간 극단에 대한 수치 근사치로 볼 수 있는 SURF의 기본 관심점 검출기가 훨씬 낫다는 것을 보여준다.SIFT의 기본 관심점 검출기보다 높다.

Wagner 등은 현재 휴대폰의 한계를 염두에 ^[43]두고 특별히 설계된 두 가지 물체 인식 알고리즘을 개발했다.전형적인 SIFT 접근법과 대조적으로, Wagner 등.기능 검출에는 FAST 코너 디텍터를 사용합니다.또한 이 알고리즘은 기능이 다른 스케일레벨로 작성되는 오프라인 준비 단계와 기능이 전화기의 카메라 이미지의 현재 고정 스케일레벨로만 작성되는 온라인 단계를 구분합니다.또, 15×15 픽셀의 고정 패치 사이즈로부터 피쳐를 작성해, 36 차원만의 SIFT 디스크 리프터를 형성합니다.접근법은 ^[44]인식 파이프라인에 확장 가능한 어휘 트리를 통합함으로써 더욱 확장되었다.이것에 의해, 휴대 전화상에서 보다 많은 물체를 효율적으로 인식할 수 있습니다.이 방법은 주로 사용 가능한 RAM의 양에 의해 제한됩니다.

KAZE 및 A-KAZE(KAZE Features and Accelerated-Kaze Features)는 SIFT 및 SURF에 비해 성능이 뛰어난 새로운 2D 기능 검출 및 설명 방법입니다.오픈 소스 코드 때문에 많은 인기를 얻고 있다.KAZE는 원래 파블로 F에 의해 만들어졌다.알칸타리야, 에이드리언 바톨리, 앤드류 J.^[45] 데이비슨입니다.

「」를 참조해 주세요.

레퍼런스

^ ^a ^b ^c ^d Lowe, David G. (1999). "Object recognition from local scale-invariant features" (PDF). Proceedings of the International Conference on Computer Vision. Vol. 2. pp. 1150–1157. doi:10.1109/ICCV.1999.790410.
^ ^a ^b ^c ^d ^e ^f Lowe, David G. (2004). "Distinctive Image Features from Scale-Invariant Keypoints". International Journal of Computer Vision. 60 (2): 91–110. CiteSeerX 10.1.1.73.2924. doi:10.1023/B:VISI.0000029664.99615.94. S2CID 221242327.
^ 미국 특허 6,711,293 "이미지 내의 스케일 불변 특성을 식별하고 이미지 내의 객체를 특정하기 위한 방법 및 장치", 데이비드 로의 SIFT 알고리즘 특허, 2004년 3월 23일
^ Koenderink, Jan and van Doorn, Ans: "시각 시스템에서의 국소 기하학 표현", 생물학적 사이버네틱스, vol 3, 페이지 383-396, 1987
^ Koenderink, Jan and van Doorn, Ans: "일반적인 인근 연산자", 패턴 분석 및 머신 인텔리전스에 관한 IEEE 트랜잭션, vol 14, 페이지 597-605, 1992
^ 린데버그, T. 시각수용영역의 컴퓨터 이론, 생물사이버네틱스, 107(6) : 589-635, 2013
^ Lindeberg, T. Generalized axious scale-space theory, 영상 및 전자물리학의 발전, Elsevier, 178권, 1-96쪽, 2013.
^ Lindeberg, T. 수용 영역 수준의 시각적 조작 불변성, PLoS ONE 8(7): e66990, 2013
^ ^a ^b T. Lindeberg(2014), "스케일 선택", 컴퓨터 비전: 참조 가이드, (K). 이케우치 편집자), 스프링거(701-713페이지).
^ ^a ^b Lindeberg, T., Kluwer Academic Publishers, 1994, 컴퓨터 비전의 스케일 공간 이론ISBN 0-7923-9418-6
^ ^a ^b Lindeberg, Tony (1998). "Feature detection with automatic scale selection". International Journal of Computer Vision. 30 (2): 79–116. doi:10.1023/A:1008045108935. S2CID 723210.
^ ^a ^b Lindeberg, Tony (2012). "Scale invariant feature transform". Scholarpedia. 7 (5): 10491. Bibcode:2012SchpJ...710491L. doi:10.4249/scholarpedia.10491.
^ Serre, T., Kouh, M., Cadieu, C., Noblich, U., Kreiman, G., Poggio, T. "물체 인식 이론: 영장류 시각 피질의 복부류 피드포워드 경로 연산 및 회로", 컴퓨터 과학 및 인공지능 연구소 기술 보고서, 2005년 12월 19일 MIT-CSAIL-TR-2005-082.
^ ^a ^b Beis, J.; Lowe, David G. (1997). "Shape indexing using approximate nearest-neighbour search in high-dimensional spaces" (PDF). Conference on Computer Vision and Pattern Recognition, Puerto Rico: sn. pp. 1000–1006. doi:10.1109/CVPR.1997.609451.
^ Lowe, D.G. 3D 객체 인식을 위한 로컬 기능 뷰 클러스터링.컴퓨터 비전과 패턴 인식에 관한 IEEE 컨퍼런스, 하와이 카우아이, 2001, 페이지 682-688.
^ ^a ^b Lindeberg, Tony & Bretzner, Lars (2003). Real-time scale selection in hybrid multi-scale representations. Proc. Scale-Space'03, Springer Lecture Notes in Computer Science. Vol. 2695. pp. 148–163. doi:10.1007/3-540-44935-3_11. ISBN 978-3-540-40368-5.
^ Lars Bretzner, Ivan Laptev, Tony Lindeberg, "다단계 색채 특징, 계층적 모델 및 입자 필터링을 사용한 손 제스처 인식", 제5회 IEEE 국제 자동 얼굴 및 제스처 인식 회의의 진행, 워싱턴 DC, 2002년 5월 21일~21일자, 4234쪽.ISBN 0-7695-1602-5, doi:10.1109/AFGR.2002.1004190
^ ^a ^b Kirchner, Matthew R. "SIFT 기술자의 자동 임계값 설정"이미지 처리(ICIP), 2016 IEEE 국제회의, 페이지 291-295.IEEE, 2016.
^ ^a ^b Mikolajczyk, K.; Schmid, C. (2005). "A performance evaluation of local descriptors" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 27 (10): 1615–1630. CiteSeerX 10.1.1.230.255. doi:10.1109/TPAMI.2005.188. PMID 16237996.
^ TU-Chemnitz.데
^ ^a ^b ^c ^d ^e T. 린데버그, "일반화된 축척 공간의 관심점을 이용한 이미지 매칭", 수학 이미징 및 비전 저널, 52권, 1번, 3-36쪽, 2015년.
^ Edouard Oyallon, Julien Rabin, "SURF 메서드의 분석과 구현 및 SIFT와의 비교", 이미지 처리 온라인
^ Cui, Y.; Hasler, N.; Thormaehlen, T.; Seidel, H.-P. (July 2009). "Scale Invariant Feature Transform with Irregular Orientation Histogram Binning" (PDF). Proceedings of the International Conference on Image Analysis and Recognition (ICIAR 2009). Halifax, Canada: Springer.
^ Matthew Toews; William M. Wells III (2009). "SIFT-Rank: Ordinal Descriptors for Invariant Feature Correspondence" (PDF). IEEE International Conference on Computer Vision and Pattern Recognition. pp. 172–177. doi:10.1109/CVPR.2009.5206849.
^ Beril Sirmacek & Cem Unsalan (2009). "Urban Area and Building Detection Using SIFT Keypoints and Graph Theory". IEEE Transactions on Geoscience and Remote Sensing. 47 (4): 1156–1167. Bibcode:2009ITGRS..47.1156S. doi:10.1109/TGRS.2008.2008440. S2CID 6629776.
^ Se, S.; Lowe, David G.; Little, J. (2001). "Vision-based mobile robot localization and mapping using scale-invariant features". Proceedings of the IEEE International Conference on Robotics and Automation (ICRA). Vol. 2. p. 2051. doi:10.1109/ROBOT.2001.932909.
^ ^a ^b Fabbri, Ricardo; Duff, Timothy; Fan, Hongyi; Regan, Margaret; de Pinho, David; Tsigaridas, Elias; Wampler, Charles; Hauenstein, Jonathan; Kimia, Benjamin; Leykin, Anton; Pajdla, Tomas (23 Mar 2019). "Trifocal Relative Pose from Lines at Points and its Efficient Solution". arXiv:1903.09755 [cs.CV].
^ ^a ^b Fabbri, Ricardo; Giblin, Peter; Kimia, Benjamin (2012). "Camera Pose Estimation Using First-Order Curve Differential Geometry" (PDF). Lecture Notes in Computer Science (ECCV 2012). Lecture Notes in Computer Science. 7575: 231–244. doi:10.1007/978-3-642-33765-9_17. ISBN 978-3-642-33764-2. S2CID 15402824.
^ Brown, M.; Lowe, David G. (2003). "Recognising Panoramas" (PDF). Proceedings of the ninth IEEE International Conference on Computer Vision. Vol. 2. pp. 1218–1225. doi:10.1109/ICCV.2003.1238630.
^ Iryna Gordon과 David G. Lowe, "무엇과 장소: 정확한 포즈로 3D 물체 인식", 범주 수준 물체 인식, (Springer-Verlag, 2006), 67-82페이지
^ ^a ^b Flitton, G.; Breckon, T. (2010). "Object Recognition using 3D SIFT in Complex CT Volumes" (PDF). Proceedings of the British Machine Vision Conference. pp. 11.1–12. doi:10.5244/C.24.11.
^ Flitton, G.T., Breckon, T.P., Megherbi, N. (2013). "A Comparison of 3D Interest Point Descriptors with Application to Airport Baggage Object Detection in Complex CT Imagery". Pattern Recognition. 46 (9): 2420–2436. Bibcode:2013PatRe..46.2420F. doi:10.1016/j.patcog.2013.02.008. hdl:1826/15213.{{cite journal}}: CS1 maint: 여러 이름: 작성자 목록(링크)
^ Laptev, Ivan & Lindeberg, Tony (2004). "Local descriptors for spatio-temporal recognition". ECCV'04 Workshop on Spatial Coherence for Visual Motion Analysis, Springer Lecture Notes in Computer Science, Volume 3667. pp. 91–103. doi:10.1007/11676959_8.
^ Ivan Laptev, Barbara Caputo, Christian Schuldt and Tony Lindeberg (2007). "Local velocity-adapted motion events for spatio-temporal recognition". Computer Vision and Image Understanding. 108 (3): 207–229. CiteSeerX 10.1.1.168.5780. doi:10.1016/j.cviu.2006.11.023.{{cite journal}}: CS1 maint: 여러 이름: 작성자 목록(링크)
^ Scovanner, Paul; Ali, S; Shah, M (2007). "A 3-dimensional sift descriptor and its application to action recognition". Proceedings of the 15th International Conference on Multimedia. pp. 357–360. doi:10.1145/1291233.1291311.
^ Niebles, J. C. Wang, H. and Li, Fei-Fei (2006). "Unsupervised Learning of Human Action Categories Using Spatial-Temporal Words". Proceedings of the British Machine Vision Conference (BMVC). Edinburgh. Retrieved 2008-08-20.{{cite conference}}: CS1 maint: 여러 이름: 작성자 목록(링크)
^ ^a ^b Matthew Toews; William M. Wells III; D. Louis Collins; Tal Arbel (2010). "Feature-based Morphometry: Discovering Group-related Anatomical Patterns" (PDF). NeuroImage. 49 (3): 2318–2327. doi:10.1016/j.neuroimage.2009.10.032. PMC 4321966. PMID 19853047.
^ Lazebnik, S., Schmid, C. 및 Ponce, J., "물체 인식을 위한 반 로컬 아핀 부품", Proceedings of the British Machine Vision Conference, 2004.
^ Arandjelović, Relja; Zisserman, Andrew (2012). "Three things everyone should know to improve object retrieval". 2012 IEEE Conference on Computer Vision and Pattern Recognition. pp. 2911–2918. doi:10.1109/CVPR.2012.6248018.
^ 김성호, 윤국진, 소유권, "일반화된 견고한 불변성 특징과 게슈탈트의 근접성과 유사성의 법칙을 이용한 물체 인식", 컴퓨터 비전 및 패턴 인식 워크숍 (CVPRW'06),
^ Bay, H., Tuytelaars, T., Van Gool, L., "SURF: Speeded Up Robust Features", 제9회 유럽 컴퓨터 비전 회의 진행, 2006년 5월
^ Ke, Y. 및 Sukthankar, R., "PCA-SIFT: A More Distinctive Representation for Local Image Descriptors", Computer Vision and Pattern Recognition, 2004.
^ D. Wagner, G. Reitmayr, A.멀로니, T. 드러몬드, D.Schmalstieg, "휴대전화의 자연적 특징에서 추적하기 2009-06-12년 웨이백 머신에서 보관" 혼합 증강 현실 국제 심포지엄, 2008년.
^ N. Hense, T. Schinke, S. Boll "그게 뭐야? 휴대 전화의 자연적 특징으로부터의 물체 인식」「실제와의 모바일 상호 작용에 관한 워크숍의 진행, 2009년.
^ "KAZE Features".

외부 링크

'관련 연구:

점 세트의 3D 투사로부터 2D 투사까지의 불변 관계, JPRR(Journal of Pattern Recognition Research), 제3권, No.1, 2008.
Lowe, D. G., "스케일 불변 키포인트의 구별 이미지 특징", International Journal of Computer Vision, 60, 2, 페이지 91-110, 2004.
Mikolajczyk, K. 및 Schmid, C., "A performance a performance of local descriptors", IEEE Transactions on Pattern Analysis and Machine Intelligence, 10, 27, 페이지 1615--1630, 2005.
PCA-SIFT: 로컬 이미지 기술자의 보다 독특한 표현
Lazebnik, S., Schmid, C. 및 Ponce, J., Semi-Local Affine Parts for Object Recognition, BMVC, 2004.

튜토리얼:

Scholarpedia의 스케일 불변 기능 변환(SIFT)
SIFT에 대한 간단한 단계별 가이드
다중 객체 감지용 SIFT
이미지 처리 온라인의 "SIFT 메서드의 해부학" - 오픈 소스 구현과 다양한 파라미터를 시도하기 위한 웹 데모를 통해 알고리즘의 모든 단계를 자세히 연구합니다.

구현:

Rob Hess의 SIFT 구현은 2012년 11월 21일에 접속되었습니다.
ASIFT (Affine SIFT) : SIFT와 일치하는 큰 시점, 소스 코드와 온라인 데모
C의 오픈 소스 컴퓨터 비전 라이브러리(MATLAB에 대한 MEX 인터페이스 포함)인 VLFeat은 SIFT 구현을 포함합니다.
LIP-VIREO, 키포인트 기능 추출용 툴킷(Windows, Linux 및 SunOS용 바이너리), SIFT 구현 포함
(Parallel) C#의 SIFT, Emgu CV를 사용한 C#의 SIFT 알고리즘 및 알고리즘의 수정 병행 버전.
SIFT 툴박스에서 채택된 DoH & LoG + 아핀, Blob 검출기
ezSIFT: C/C++에서 사용하기 쉬운 독립형 SIFT 구현.다른 라이브러리가 필요 없는 자체 오픈 소스 SIFT 구현.
3D SIFT 구현: 볼륨 이미지에서 감지 및 일치.

[Lowe1999-1] Lowe, David G. (1999). "Object recognition from local scale-invariant features" (PDF). Proceedings of the International Conference on Computer Vision. Vol. 2. pp. 1150–1157. doi:10.1109/ICCV.1999.790410.

[Lowe2004-2] ^ ^a ^b ^c ^d ^e ^f Lowe, David G. (2004). "Distinctive Image Features from Scale-Invariant Keypoints". International Journal of Computer Vision. 60 (2): 91–110. CiteSeerX 10.1.1.73.2924. doi:10.1023/B:VISI.0000029664.99615.94. S2CID 221242327.

[patent-3] 미국 특허 6,711,293 "이미지 내의 스케일 불변 특성을 식별하고 이미지 내의 객체를 특정하기 위한 방법 및 장치", 데이비드 로의 SIFT 알고리즘 특허, 2004년 3월 23일

[KoeDoo87-4] Koenderink, Jan and van Doorn, Ans: "시각 시스템에서의 국소 기하학 표현", 생물학적 사이버네틱스, vol 3, 페이지 383-396, 1987

[KoeDoo92-5] Koenderink, Jan and van Doorn, Ans: "일반적인 인근 연산자", 패턴 분석 및 머신 인텔리전스에 관한 IEEE 트랜잭션, vol 14, 페이지 597-605, 1992

[Lin13BICY-6] 린데버그, T. 시각수용영역의 컴퓨터 이론, 생물사이버네틱스, 107(6) : 589-635, 2013

[Lin13-AdvImgPhy-7] Lindeberg, T. Generalized axious scale-space theory, 영상 및 전자물리학의 발전, Elsevier, 178권, 1-96쪽, 2013.

[Lin13PONE-8] Lindeberg, T. 수용 영역 수준의 시각적 조작 불변성, PLoS ONE 8(7): e66990, 2013

[Lin14CompVis-9] T. Lindeberg(2014), "스케일 선택", 컴퓨터 비전: 참조 가이드, (K). 이케우치 편집자), 스프링거(701-713페이지).

[Lin94Book-10] Lindeberg, T., Kluwer Academic Publishers, 1994, 컴퓨터 비전의 스케일 공간 이론ISBN 0-7923-9418-6

[Lindeberg1998-11] Lindeberg, Tony (1998). "Feature detection with automatic scale selection". International Journal of Computer Vision. 30 (2): 79–116. doi:10.1023/A:1008045108935. S2CID 723210.

[Lindeberg2012-12] Lindeberg, Tony (2012). "Scale invariant feature transform". Scholarpedia. 7 (5): 10491. Bibcode:2012SchpJ...710491L. doi:10.4249/scholarpedia.10491.

[Serre2005-13] Serre, T., Kouh, M., Cadieu, C., Noblich, U., Kreiman, G., Poggio, T. "물체 인식 이론: 영장류 시각 피질의 복부류 피드포워드 경로 연산 및 회로", 컴퓨터 과학 및 인공지능 연구소 기술 보고서, 2005년 12월 19일 MIT-CSAIL-TR-2005-082.

[Beis1997-14] Beis, J.; Lowe, David G. (1997). "Shape indexing using approximate nearest-neighbour search in high-dimensional spaces" (PDF). Conference on Computer Vision and Pattern Recognition, Puerto Rico: sn. pp. 1000–1006. doi:10.1109/CVPR.1997.609451.

[Lowe2001-15] Lowe, D.G. 3D 객체 인식을 위한 로컬 기능 뷰 클러스터링.컴퓨터 비전과 패턴 인식에 관한 IEEE 컨퍼런스, 하와이 카우아이, 2001, 페이지 682-688.

[Lindenberg2003-16] Lindeberg, Tony & Bretzner, Lars (2003). Real-time scale selection in hybrid multi-scale representations. Proc. Scale-Space'03, Springer Lecture Notes in Computer Science. Vol. 2695. pp. 148–163. doi:10.1007/3-540-44935-3_11. ISBN 978-3-540-40368-5.

[17] Lars Bretzner, Ivan Laptev, Tony Lindeberg, "다단계 색채 특징, 계층적 모델 및 입자 필터링을 사용한 손 제스처 인식", 제5회 IEEE 국제 자동 얼굴 및 제스처 인식 회의의 진행, 워싱턴 DC, 2002년 5월 21일~21일자, 4234쪽.ISBN 0-7695-1602-5, doi:10.1109/AFGR.2002.1004190

[:0-18] Kirchner, Matthew R. "SIFT 기술자의 자동 임계값 설정"이미지 처리(ICIP), 2016 IEEE 국제회의, 페이지 291-295.IEEE, 2016.

[Mikolajczyk2005-19] Mikolajczyk, K.; Schmid, C. (2005). "A performance evaluation of local descriptors" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 27 (10): 1615–1630. CiteSeerX 10.1.1.230.255. doi:10.1109/TPAMI.2005.188. PMID 16237996.

[SURF-20] TU-Chemnitz.데

[Lin15JMIV-21] T. 린데버그, "일반화된 축척 공간의 관심점을 이용한 이미지 매칭", 수학 이미징 및 비전 저널, 52권, 1번, 3-36쪽, 2015년.

[SURFvsSIFT-22] Edouard Oyallon, Julien Rabin, "SURF 메서드의 분석과 구현 및 SIFT와의 비교", 이미지 처리 온라인

[IrrGrid-23] Cui, Y.; Hasler, N.; Thormaehlen, T.; Seidel, H.-P. (July 2009). "Scale Invariant Feature Transform with Irregular Orientation Histogram Binning" (PDF). Proceedings of the International Conference on Image Analysis and Recognition (ICIAR 2009). Halifax, Canada: Springer.

[Toews2009-24] Matthew Toews; William M. Wells III (2009). "SIFT-Rank: Ordinal Descriptors for Invariant Feature Correspondence" (PDF). IEEE International Conference on Computer Vision and Pattern Recognition. pp. 172–177. doi:10.1109/CVPR.2009.5206849.

[Sirmacek2009-25] Beril Sirmacek & Cem Unsalan (2009). "Urban Area and Building Detection Using SIFT Keypoints and Graph Theory". IEEE Transactions on Geoscience and Remote Sensing. 47 (4): 1156–1167. Bibcode:2009ITGRS..47.1156S. doi:10.1109/TGRS.2008.2008440. S2CID 6629776.

[Se2001-26] Se, S.; Lowe, David G.; Little, J. (2001). "Vision-based mobile robot localization and mapping using scale-invariant features". Proceedings of the IEEE International Conference on Robotics and Automation (ICRA). Vol. 2. p. 2051. doi:10.1109/ROBOT.2001.932909.

[SIFTOrientationTrifocal-27] Fabbri, Ricardo; Duff, Timothy; Fan, Hongyi; Regan, Margaret; de Pinho, David; Tsigaridas, Elias; Wampler, Charles; Hauenstein, Jonathan; Kimia, Benjamin; Leykin, Anton; Pajdla, Tomas (23 Mar 2019). "Trifocal Relative Pose from Lines at Points and its Efficient Solution". arXiv:1903.09755 [cs.CV].

[SIFTOrientationPose-28] Fabbri, Ricardo; Giblin, Peter; Kimia, Benjamin (2012). "Camera Pose Estimation Using First-Order Curve Differential Geometry" (PDF). Lecture Notes in Computer Science (ECCV 2012). Lecture Notes in Computer Science. 7575: 231–244. doi:10.1007/978-3-642-33765-9_17. ISBN 978-3-642-33764-2. S2CID 15402824.

[Brown2003-29] Brown, M.; Lowe, David G. (2003). "Recognising Panoramas" (PDF). Proceedings of the ninth IEEE International Conference on Computer Vision. Vol. 2. pp. 1218–1225. doi:10.1109/ICCV.2003.1238630.

[Gordon2006-30] Iryna Gordon과 David G. Lowe, "무엇과 장소: 정확한 포즈로 3D 물체 인식", 범주 수준 물체 인식, (Springer-Verlag, 2006), 67-82페이지

[Flitton2010-31] Flitton, G.; Breckon, T. (2010). "Object Recognition using 3D SIFT in Complex CT Volumes" (PDF). Proceedings of the British Machine Vision Conference. pp. 11.1–12. doi:10.5244/C.24.11.

[flitton13interestpoint-32] Flitton, G.T., Breckon, T.P., Megherbi, N. (2013). "A Comparison of 3D Interest Point Descriptors with Application to Airport Baggage Object Detection in Complex CT Imagery". Pattern Recognition. 46 (9): 2420–2436. Bibcode:2013PatRe..46.2420F. doi:10.1016/j.patcog.2013.02.008. hdl:1826/15213.{{cite journal}}: CS1 maint: 여러 이름: 작성자 목록(링크)

[Laptev2004-33] Laptev, Ivan & Lindeberg, Tony (2004). "Local descriptors for spatio-temporal recognition". ECCV'04 Workshop on Spatial Coherence for Visual Motion Analysis, Springer Lecture Notes in Computer Science, Volume 3667. pp. 91–103. doi:10.1007/11676959_8.

[Laptev2007-34] Ivan Laptev, Barbara Caputo, Christian Schuldt and Tony Lindeberg (2007). "Local velocity-adapted motion events for spatio-temporal recognition". Computer Vision and Image Understanding. 108 (3): 207–229. CiteSeerX 10.1.1.168.5780. doi:10.1016/j.cviu.2006.11.023.{{cite journal}}: CS1 maint: 여러 이름: 작성자 목록(링크)

[Scovanner2007-35] Scovanner, Paul; Ali, S; Shah, M (2007). "A 3-dimensional sift descriptor and its application to action recognition". Proceedings of the 15th International Conference on Multimedia. pp. 357–360. doi:10.1145/1291233.1291311.

[Niebles2006-36] Niebles, J. C. Wang, H. and Li, Fei-Fei (2006). "Unsupervised Learning of Human Action Categories Using Spatial-Temporal Words". Proceedings of the British Machine Vision Conference (BMVC). Edinburgh. Retrieved 2008-08-20.{{cite conference}}: CS1 maint: 여러 이름: 작성자 목록(링크)

[Toews2010-37] Matthew Toews; William M. Wells III; D. Louis Collins; Tal Arbel (2010). "Feature-based Morphometry: Discovering Group-related Anatomical Patterns" (PDF). NeuroImage. 49 (3): 2318–2327. doi:10.1016/j.neuroimage.2009.10.032. PMC 4321966. PMID 19853047.

[Lazebnik2004-38] Lazebnik, S., Schmid, C. 및 Ponce, J., "물체 인식을 위한 반 로컬 아핀 부품", Proceedings of the British Machine Vision Conference, 2004.

[Arandjelovic2012-39] Arandjelović, Relja; Zisserman, Andrew (2012). "Three things everyone should know to improve object retrieval". 2012 IEEE Conference on Computer Vision and Pattern Recognition. pp. 2911–2918. doi:10.1109/CVPR.2012.6248018.

[Sungho2006-40] 김성호, 윤국진, 소유권, "일반화된 견고한 불변성 특징과 게슈탈트의 근접성과 유사성의 법칙을 이용한 물체 인식", 컴퓨터 비전 및 패턴 인식 워크숍 (CVPRW'06),

[Bay2006-41] Bay, H., Tuytelaars, T., Van Gool, L., "SURF: Speeded Up Robust Features", 제9회 유럽 컴퓨터 비전 회의 진행, 2006년 5월

[Ke2004-42] Ke, Y. 및 Sukthankar, R., "PCA-SIFT: A More Distinctive Representation for Local Image Descriptors", Computer Vision and Pattern Recognition, 2004.

[Wagner2008-43] D. Wagner, G. Reitmayr, A.멀로니, T. 드러몬드, D.Schmalstieg, "휴대전화의 자연적 특징에서 추적하기 2009-06-12년 웨이백 머신에서 보관" 혼합 증강 현실 국제 심포지엄, 2008년.

[Henze2009-44] N. Hense, T. Schinke, S. Boll "그게 뭐야? 휴대 전화의 자연적 특징으로부터의 물체 인식」「실제와의 모바일 상호 작용에 관한 워크숍의 진행, 2009년.

[45] "KAZE Features".

[1]

[2]

[3]

[10]

[11]

[9]

[8]

[4]

[5]

[6]

[7]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[40]

[41]

[43]

[44]

[45]

Search

스케일 불변 피쳐 변환

네임스페이스

더

목차

개요

기능의 종류

메인 스테이지

스케일 불변 피쳐 검출

기능 매칭 및 인덱싱

Hough 변환 투표에 의한 클러스터 식별

선형 최소 제곱에 의한 모형 검증

이상치 검출

알고리즘.

축척 공간 극치 검출

키포인트 현지화

정확한 위치를 위해 인근 데이터 보간

저콘트라스트 키포인트 폐기

에지 응답 제거

오리엔테이션 할당

키포인트 기술자

SIFT 피쳐와 다른 로컬 피쳐의 비교

적용들

SIFT 기능을 사용한 객체 인식

로봇 현지화 및 매핑

파노라마 스티치

3D 장면 모델링, 인식 및 추적

인간의 동작 인식을 위한 3D SIFT와 같은 기술자

3D 자기공명영상에서의 인간의 뇌 분석

경쟁 방식

「」를 참조해 주세요.

레퍼런스

외부 링크

Search

스케일 불변 피쳐 변환

개요

기능의 종류

메인 스테이지

스케일 불변 피쳐 검출

기능 매칭 및 인덱싱

Hough 변환 투표에 의한 클러스터 식별

선형 최소 제곱에 의한 모형 검증

이상치 검출

알고리즘.

축척 공간 극치 검출

키포인트 현지화

정확한 위치를 위해 인근 데이터 보간

저콘트라스트 키포인트 폐기

에지 응답 제거

오리엔테이션 할당

키포인트 기술자

SIFT 피쳐와 다른 로컬 피쳐의 비교

적용들

SIFT 기능을 사용한 객체 인식

로봇 현지화 및 매핑

파노라마 스티치

3D 장면 모델링, 인식 및 추적

인간의 동작 인식을 위한 3D SIFT와 같은 기술자

3D 자기공명영상에서의 인간의 뇌 분석

경쟁 방식

「 」를 참조해 주세요.

레퍼런스

외부 링크

「」를 참조해 주세요.