비주얼 디스크립터

Visual descriptor

컴퓨터 비전에서 시각적 설명자 또는 이미지 설명자는 이미지, 비디오, 알고리즘 또는 그러한 설명을 생성하는 응용 프로그램에서 컨텐츠의 시각적 특징을 설명하는 것입니다.모양, 색상, 질감, 움직임 등 기본적인 특성을 설명합니다.

서론

새로운 통신 기술과 우리 사회의 거대한 인터넷 사용의 결과로, 디지털 형식으로 이용 가능한 시청각 정보의 양은 상당히 증가하고 있다.따라서 멀티미디어 정보를 검색하고 분류하기 위해 몇 가지 유형의 멀티미디어 정보를 기술할 수 있는 시스템을 설계해야 했습니다.

시청각 디스크립터는 내용 설명을 담당합니다.이러한 디스크립터는 비디오, 이미지 또는 오디오에 있는 오브젝트 및 이벤트에 대한 충분한 지식을 갖추고 있어 빠르고 효율적으로 오디오-비주얼 콘텐츠를 검색할 수 있습니다.

이 시스템은 텍스트 콘텐츠 검색 엔진과 비교할 수 있습니다.컴퓨터로 텍스트를 찾는 것이 비교적 쉽다는 것은 확실하지만, 구체적인 오디오와 비디오 부분을 찾는 것은 훨씬 더 어렵다.예를 들어, 누군가가 행복한 사람의 장면을 찾는다고 상상해 보세요.행복은 느낌이며 이미지에서 형태, 색상, 텍스처 묘사가 명확하지 않습니다.

시청각 콘텐츠의 설명은 피상적인 작업이 아니며 이러한 유형의 아카이브를 효과적으로 사용하기 위해 필수적입니다.시청각 기술자를 다루는 표준화 시스템은 MPEG-7(동영상 전문가 그룹 - 7)입니다.

종류들

기술자는 디지털 이미지에 포함된 픽셀 간의 연관성과 몇 분 후 이미지 또는 이미지 그룹을 관찰한 후 사람들이 기억하는 것을 알아내는 첫 번째 단계입니다.

시각적 설명자는 두 가지 주요 그룹으로 나뉩니다.

  • 일반 정보 기술자: 색상, 모양, 영역, 텍스처 및 동작에 대한 설명을 제공하는 낮은 수준의 기술자가 포함되어 있습니다.
  • 특정 도메인 정보 설명자: 장면의 개체 및 이벤트에 대한 정보를 제공합니다.구체적인 예는 얼굴 인식입니다.

일반 정보 기술자

일반 정보 기술자는 색상, 텍스처, 모양, 모션, 위치 등 다양한 기본 및 기본 기능을 포함하는 기술자 세트로 구성됩니다.이 설명은 신호 처리를 통해 자동으로 생성됩니다.

색.

비주얼 콘텐츠의 가장 기본적인 품질입니다.색상을 기술하기 위해 5가지 도구가 정의됩니다.첫 번째 세 가지 도구는 색상 분포를 나타내고 마지막 도구는 시퀀스 또는 이미지 그룹 간의 색상 관계를 나타냅니다.

  • 주요 색 기술자(DCD)
  • 스케일러블 컬러 디스크립터(SCD)
  • 색구조기술자(CSD)
  • 컬러 레이아웃 기술자(CLD)
  • 프레임 그룹(GoF) 또는 사진 그룹(GoP)

식감

이미지를 묘사하기 위한 중요한 자질입니다.텍스처 디스크립터는 이미지의 텍스처 또는 영역을 특징짓습니다.이들은 지역 동질성과 지역 경계 히스토그램을 관찰합니다.디스크립터 세트는 다음과 같이 구성됩니다.

  • 균질 텍스처 기술자(HTD)
  • 텍스처 브라우징 기술자(TBD)
  • 에지 히스토그램 기술자(EHD)

모양.

그것은 모양을 통해 사물을 인식할 수 있는 인간의 능력으로 인해 중요한 의미 정보를 담고 있다.그러나 이 정보는 인간의 시각 시스템이 구현하는 과 유사한 분할을 통해서만 추출할 수 있습니다.오늘날에는 이러한 분할 시스템을 아직 사용할 수 없지만, 좋은 근사치로 간주되는 일련의 알고리즘이 존재한다.이러한 설명자는 2D 영상 및 3D 볼륨의 영역, 윤곽선 및 모양을 설명합니다.형상 설명자는 다음과 같습니다.

  • RSD(Region-based shape descriptor)
  • 등고선 기반 형상 설명자(CSD)
  • 3차원 형상 기술자(3-D SD)

운동

비디오 시퀀스로 움직임을 설명하는 네 가지 설명자에 의해 정의됩니다.움직임은 시퀀스의 물체 움직임 및 카메라 움직임과 관련이 있습니다.이 마지막 정보는 캡처 장치에 의해 제공되고 나머지는 이미지 처리에 의해 구현됩니다.디스크립터 세트는 다음과 같습니다.

  • 모션 액티비티 디스크립터(MAD)
  • 카메라 모션 기술자(CMD)
  • 움직임 궤적 기술자(MTD)
  • 뒤틀림 및 파라미터 모션 기술자(WMD 및 PMD)

위치

영상의 요소 위치는 공간 영역의 요소를 설명하는 데 사용됩니다.또한 요소는 시간 도메인에도 배치할 수 있습니다.

  • Region Locator Descriptor(RLD; 지역 로케이터 기술자)
  • Spaceio Temporal Locator Descriptor(STLD)

특정 도메인 정보 기술자

씬(scene)의 객체 및 이벤트에 대한 정보를 제공하는 이러한 설명자는 추출이 자동으로 수행되어야 하는 경우에는 더더욱 쉽게 추출할 수 없습니다.단, 수동으로 처리할 수 있습니다.

앞에서 설명한 바와 같이 얼굴 인식은 이 정보를 자동으로 얻으려는 어플리케이션의 구체적인 예입니다.

디스크립터 응용 프로그램

모든 애플리케이션 중에서 가장 중요한 것은 다음과 같습니다.

  • 멀티미디어는 검색 엔진과 분류자를 문서화합니다.
  • 디지털 라이브러리: 비주얼 디스크립터는 다양한 검색 파라미터를 사용하여 비디오 또는 이미지를 매우 상세하고 구체적으로 검색할 수 있습니다.예를 들면, 유명한 배우가 나오는 영화 검색, 에베레스트 산을 포함한 비디오 검색 등입니다.
  • 개인화된 전자 뉴스 서비스.
  • 예를 들어 선수가 골대에 접근할 때마다 축구 경기를 중계하는 TV 채널에 자동으로 연결할 수 있습니다.
  • 폭력적 또는 포르노 자료와 같은 구체적인 시청각 콘텐츠의 제어 및 필터링또한 일부 멀티미디어 콘텐츠에 대한 권한 부여.

「 」를 참조해 주세요.

레퍼런스

  • B.S. Manjunath(편집자), Philippe Salembier(편집자), Thomas Sikora(편집자):MPEG-7 개요: 멀티미디어 콘텐츠 설명 인터페이스.Wiley & Sons, 2002년 4월 - ISBN0-471-48678-7