비주얼 워드
Visual Word화상 검색 [1]시스템에서 사용되는 비주얼 워드는, 특징(색상, 모양, 텍스처 등)이나, 필터링, 저레벨의 특징 기술자(SIFT, 서프 등)의 픽셀의 변경에 관한 정보를 포함한, 이미지의 작은 부분을 가리킵니다.
역사
40년에 걸쳐 개발된 텍스트 검색 시스템(또는 정보 검색 IR 시스템)의 접근 방식은 키워드 또는 용어를 기반으로 합니다.이러한 접근법의 장점은 특히 효과적이고 빠르다는 사실에 있습니다.텍스트 검색 엔진은 벡터 공간[2] 모델을 사용하여 수억 또는 수백만 개의 문서를 빠르게 찾을 수 있습니다.동시에 텍스트 검색 시스템은 큰 성공을 거두고 표준 이미지 검색 시스템(색상, 모양 등에 의한 단순 검색 등)은 많은 제약이 있다.그 결과, 연구자들은 텍스트 검색 기술을 이용하여 이미지 검색에 적용하려고 한다.이미지를 텍스트 문서로 이해하려는 새로운 종류의 비전이 있을 수 있습니다. 시각적인 단어 [3]접근법입니다.
유추 텍스트 이미지
디지털 이미지에서 가장 작은 부분(작은 부분으로 나눌 수 없음)인 이미지의 픽셀은 알파벳 언어의 문자와 같다고 생각해 봅시다.그런 다음 이미지 내의 픽셀 세트(패치 또는 픽셀 배열)가 단어가 됩니다.그 후 각 단어는 형태학적 시스템으로 재처리되어 해당 단어와 관련된 용어를 추출할 수 있다.그러면 여러 단어가 동일한 의미를 공유할 수 있으며, 각 단어는 (어느 언어에서나) 동일한 용어를 참조할 수 있습니다.두 개 이상의 단어가 동일한 의미와 동일한 용어에 속합니다(같은 정보를 가지고 있습니다).이것에 의해, 연구자는 텍스트 검색 기술을 이용해 화상 검색 시스템에 적용할 수 있다.
시각적 정의
이 원리를 이미지에 적용하면 이미지에서 어떤 단어와 용어가 나올지 찾아야 합니다.그 아이디어는 이미지를 "시각적 단어" 모음처럼 이해하려고 노력하는 것입니다.
정의 1: 비주얼 워드: 이미지상의 작은 패치(픽셀 배열)로, 임의의 특징 공간(색상의 변화, 텍스처 변화 등)에서 모든 종류의 흥미로운 정보를 전달할 수 있습니다.
일반적으로 비주얼 워드(VW)는 연속적인 가치의 특징 공간에 존재하며 이는 엄청난 수의 단어를 의미하며, 따라서 거대한 언어를 의미합니다.이미지 검색 시스템은 자연어에 의존하는 텍스트 검색 기술을 사용해야 하고, 이는 용어와 단어 수에 제한이 있기 때문에 시각적인 단어 수를 줄여야 하는 중요한 필요성이 있다.
이 문제를 해결하기 위해 많은 솔루션이 존재합니다.그 중 하나는 기능 공간을 범위로 분할하는 것입니다.각각의 공통적인 특성(같은 단어로 간주할 수 있습니다)을 가지는 것입니다만, 이 솔루션에는 분할 전략, 기능 공간의 범위 크기 등, 많은 문제가 있습니다.연구자들이 제안한 또 다른 해결책은 한정된 수의 용어로 공통 정보를 전달하는 단어를 분류하고 병합하는 클러스터링 메커니즘을 사용하는 것이다.
정의 2: 비주얼 용어: 기능 공간(클러스터의 중심)의 클러스터링 결과입니다.여러 패치가 기능 공간에서 가장 가까운 정보를 제공할 수 있으므로 같은 용어로 검토할 수 있습니다.
텍스트 내의 용어(무한 동사, 명사, 기사 등)는 많은 공통어, 시각적 용어(클러스터링 결과로서)를 의미하기 때문에 특징 공간에서 동일한 정보를 공유하는 모든 공통어를 의미한다.
또한 모든 이미지가 동일한 시각적 용어 집합을 참조하는 경우 모든 이미지가 동일한 언어(또는 시각적 언어)를 사용할 수 있습니다.
정의 3: 시각 언어: 시각적인 단어와 시각적인 용어 세트입니다(시각적인 용어만 참조가 되는 "시각적인 어휘"로 간주할 수 있으며, 검색 시스템은 이미지를 검색하기 위해 이 단어에 의존합니다.
그리고 모든 이미지는 비주얼 워드(VW) 또는 비주얼 워드의 집합으로 이 비주얼 언어로 표시됩니다.
정의 4: 비주얼 워드의 가방: 이미지(또는 이미지의 일부)의 의미에 대한 정보를 함께 제공할 수 있는 비주얼 워드의 집합입니다.
이러한 이미지 표현을 바탕으로 텍스트 검색 기술을 사용하여 이미지 검색 시스템을 설계할 수 있습니다.그러나 모든 텍스트 검색 시스템은 용어에 의존하므로 사용자의 쿼리 이미지는 시스템에서 시각적 용어의 세트로 변환되어야 합니다.그런 다음 이러한 시각적 용어를 데이터베이스의 모든 시각적 용어와 비교합니다.
「 」를 참조해 주세요.
레퍼런스
- ^ a b BAEZA-YATES, R. A.; RIBEIRO-NETO, B. A. (1999), Modern Information Retrieval, ACM Press Addison-Wesley
- ^ SALTON, G. (1971), The SMART Retrieval System
- ^ JURIE, F.; TRIGGS, B. (2005), Creating Efficient Codebooks for Visual Recognition
- ^ a b Yang, Jun; Jiang, Yu-Gang; Yu-Gang, Hauptmann; Ngo, Chong-Wah (2007). "Evaluating bag-of-visual-words representations in scene classification". Proceedings of the international workshop on Workshop on multimedia information retrieval. Augsburg, Bavaria, Germany: ACM.