비디오 검색 엔진

Video search engine

비디오 검색 엔진비디오 콘텐츠를 위해 웹을 기어 다니는 웹 기반 검색 엔진이다. 일부 비디오 검색 엔진은 외부적으로 호스팅된 컨텐츠를 분석하는 반면, 다른 엔진은 자신의 서버에 컨텐츠를 업로드하고 호스팅할 수 있도록 허용한다. 또한 일부 엔진은 사용자가 비디오 형식 유형과 클립 길이별로 검색할 수 있도록 한다. 비디오 검색 결과는 대개 동영상의 축소판 그림 보기와 함께 나타난다.

비디오 검색 엔진은 인터넷 서버를 통해 디지털 기기에 저장된 영상을 찾거나 같은 컴퓨터로부터 저장 장치에 저장된 영상을 찾을 수 있도록 설계된 컴퓨터 프로그램이다. 이러한 검색은 시청각 자료에서 정보를 추출해 메타데이터로 기록할 수 있는 시청각 색인을 통해 할 수 있으며, 이는 검색엔진에 의해 추적될 것이다.

효용

이러한 검색엔진의 주된 용도는 시청각 콘텐츠의 제작 증가와 이를 적절히 관리할 필요성이다. 시청각 자료실의 디지털화와 인터넷의 구축으로 인해 큰 데이터베이스에 저장되는 비디오 파일이 대량으로 발생하게 되었는데, 방대한 양의 데이터와 의미격차의 존재로 인해 복구가 매우 어려울 수 있다.

검색 기준

각 검색엔진이 사용하는 검색 기준은 검색의 성격과 목적에 따라 달라진다.

메타데이터

메타데이터는 사실에 관한 정보다. 비디오의 작성자가 누구인지, 제작 날짜, 기간 및 추출하여 동일한 파일에 포함할 수 있는 모든 정보에 대한 정보일 수 있다. 인터넷은 종종 메타데이터를 인코딩하기 위해 XML이라는 언어로 사용되는데, 이는 웹을 통해 매우 잘 작동하며 사람들이 읽을 수 있다. 그러므로, 이 파일들에 포함된 이 정보를 통해, 우리에게 관심 있는 데이터를 찾는 가장 쉬운 방법이다.

비디오에는 비디오 코드 자체에 통합할 수 있는 메타데이터와 비디오가 있는 페이지의 외부 메타데이터 두 종류가 있다. 두 경우 모두 인덱싱했을 때 이상적이 되도록 최적화한다.

내부 메타데이터

모든 비디오 형식은 그들 자신의 메타데이터를 통합한다. 내용의 제목, 설명, 코딩 품질 또는 전사 등이 가능하다. 이러한 데이터를 검토하기 위해 FLV MetaData Injector, Sorenson Squid 또는 Castfire와 같은 프로그램이 존재한다. 각각의 것들은 약간의 유틸리티와 특별한 사양을 가지고 있다.

한 형식에서 다른 형식으로 변환하면 이 데이터의 많은 부분이 손실될 수 있으므로 새 형식 정보가 올바른지 확인하십시오. 따라서 동영상을 여러 형식으로 만드는 것이 바람직하므로 모든 검색 로봇은 동영상을 찾아 인덱싱할 수 있을 것이다.

외부 메타데이터

대부분의 경우 영상 또는 텍스트 콘텐츠의 위치설정에서와 동일한 메커니즘을 적용해야 한다.

제목 및 설명

그것들은 비디오를 배치할 때 가장 중요한 요소인데, 필요한 대부분의 정보를 포함하고 있기 때문이다. 제목은 명확하게 서술되어야 하며 유용하지 않은 모든 단어나 구절을 제거해야 한다.

파일 이름

동영상의 제목이나 설명을 볼 필요 없이 동영상을 설명하는 키워드를 포함하여 설명해야 한다. 단어들을 대시 "-"로 구분하는 것이 이상적이다.

태그

동영상이 있는 페이지에는 마이크로포맷 "rel-tag"에 연결된 키워드 목록이 되어야 한다. 이 단어들은 검색엔진들이 정보를 정리하는 근거로 쓰일 것이다.

필사 및 자막

완전히 표준화된 것은 아니지만, 정보를 시간적 구성요소에 저장하는 두 가지 형식이 있는데, 하나는 자막용이고 다른 하나는 대본용이며, 이 형식은 자막용으로도 사용할 수 있다. 형식은 자막의 경우 SRT 또는 SUB, 대본의 경우 TTXT이다.

음성인식

음성 인식은 동영상 오디오 트랙의 음성 대본으로 구성되어 텍스트 파일을 만든다. 이러한 방식으로 그리고 구문의 도움을 받아 비디오 콘텐츠가 관심 있는지 쉽게 검색할 수 있다. 일부 검색 엔진은 음성 인식을 사용하여 동영상을 검색하는 것 외에, 특정 단어 또는 구문이 위치한 멀티미디어 파일의 특정 지점을 찾기 위해 이 지점을 직접 검색하기도 한다. 구글랩스가 개발한 프로젝트인 가우디(구글 오디오 인덱싱)는 음성인식 기술을 이용해 오디오 내에서 하나 이상의 단어가 사용되는 정확한 순간을 포착해 사용자가 해당 단어가 사용된 정확한 순간으로 바로 갈 수 있도록 했다. 검색 쿼리가 유튜브의 일부 동영상과 일치하면 위치가 노란색 마커로 표시되며 마우스를 넘겨야 번역된 텍스트를 읽을 수 있다.

스피커 인식

전사 외에도, 분석은 다른 스피커를 감지할 수 있고 때로는 스피커의 식별된 이름에서 연설의 원인을 찾을 수 있다.

문자 인식

텍스트 인식은 "치론"을 통해 비디오 속의 캐릭터들을 인식하는 데 매우 유용할 수 있다. 음성 인식기와 마찬가지로 (문자 인식을 통해) 특정 지점에서 동영상을 재생할 수 있는 검색 엔진이 있다.

텍스트 인식으로 동영상의 특정 파편을 검색하는 사례인 TalkMiner는 슬라이드의 형태와 정적 특성 등 식별자 표시를 찾아 초당 1회씩 각 영상을 분석, 슬라이드의 이미지를 캡처하고 OCR(Optical Person Acception)을 사용해 슬라이드의 단어를 검출한다. 그리고 나서, 이러한 단어들은 현재 스탠포드 대학, 버클리 캘리포니아 대학, TED와 같은 기관으로부터 2만 개 이상의 동영상을 이용자들에게 제공하는 토크마이너의 검색 엔진에 색인화된다.

프레임 분석

시각적 설명자를 통해 우리는 비디오의 프레임을 분석하고 메타데이터로 채점될 수 있는 정보를 추출할 수 있다. 설명은 자동으로 생성되며 색상, 질감, 모양, 동작, 상황 등 프레임의 다양한 측면을 설명할 수 있다.

챕터링

비디오 분석은 카메라 각도 변경, 오디오 징글 식별 등의 기술을 사용하여 자동 장으로 이어질 수 있다. 동영상 문서의 전형적인 구조를 파악함으로써, 광고 휴식기의 시작과 종료 크레딧, 내용 부분, 시작과 끝을 식별할 수 있다.

순위기준

검색 엔진의 유용성은 반환된 결과 집합의 관련성에 따라 달라진다. 특정 단어나 구를 포함하는 동영상이 수백만 개에 달할 수 있지만, 일부 동영상은 다른 동영상보다 더 관련성이 있거나 인기가 있거나 권한이 더 많을 수 있다. 이 배열은 검색 엔진 최적화와 많은 관련이 있다.

대부분의 검색 엔진은 다른 방법을 사용하여 결과를 분류하고 첫 번째 결과에서 최상의 비디오를 제공한다. 그러나 대부분의 프로그램은 몇 가지 기준으로 결과를 분류할 수 있다.

관련성순번

이 기준은 더 모호하고 덜 객관적이지만, 때로는 우리가 원하는 것에 가장 가까운 것이다; 전적으로 소유자가 선택한 검색기와 알고리즘에 의존한다. 그렇기 때문에 늘 논의돼 왔고 이제 검색 결과가 우리 사회에 너무 깊이 스며들면서 더욱 논의된 것이다. 이런 유형의 관리는 검색어가 나오는 횟수, 조회 수, 이 내용에 연결되는 페이지 수, 이를 본 사용자가 부여한 등급 등에 따라 달라지는 경우가 많다.[1]

업로드 날짜별 주문

이것은 완전히 타임라인에 기반을 둔 기준이다. 결과는 리포지토리의 상급자에 따라 분류할 수 있다.

조회수순순서

각 동영상의 인기를 짐작하게 할 수 있다.

길이순서

이것은 비디오의 길이이며 어떤 비디오인지 맛볼 수 있다.

사용자 등급별 주문

저장소의 일반적인 관행은 사용자가 비디오의 등급을 매길 수 있도록 하기 때문에 품질과 관련성이 높은 콘텐츠가 가시성을 얻는 결과 목록에서 높은 순위를 차지하게 된다. 이 관행은 가상 커뮤니티와 밀접한 관련이 있다.

인터페이스

우리는 두 가지 기본적인 인터페이스 유형을 구분할 수 있는데, 어떤 인터페이스는 인터넷에 접속되어 네트워크를 통해 검색되는 서버에 호스팅되는 웹 페이지와 다른 인터페이스는 사설망 내에서 검색하는 컴퓨터 프로그램이다.

인터넷

인터넷 인터페이스 내에서 우리는 자신의 데이터베이스만 검색하는 검색엔진을 포함하는 비디오 파일을 호스팅하는 리포지토리와 외부 소프트웨어의 소스를 검색하는 리포지토리 없이 비디오 검색기를 찾을 수 있다.

비디오 검색기가 있는 리포지토리

서버에 저장된 비디오 파일에 숙소를 제공하며, 대개 사용자가 업로드한 비디오를 통해 검색하는 통합 검색 엔진을 가지고 있다. 최초의 웹 저장소 중 하나, 혹은 적어도 가장 유명한 것은 포털 비메오, 데일리모션, 유튜브다.

그들의 검색은 종종 사용자가 자신의 동영상에 할당한 메타데이터 태그, 제목 및 설명을 읽는 것에 기초한다. 이러한 검색 결과의 폐기 및 순서 기준은 일반적으로 파일 업로드 날짜, 조회 수 또는 소위 관련성 사이에서 선택할 수 있다. 여전히, 비디오의 위치가 홍보 면에서 중요하기 때문에, 분류 기준은 오늘날 이러한 웹사이트의 주요 무기다.

비디오 검색기 저장소

그것들은 네트워크를 통해 동영상을 검색하거나 미리 선택된 특정 저장소를 검색하는 데 특화된 웹사이트들이다. 그들은 방문한 웹사이트의 복사본을 만들기 위해 자동화된 방법으로 네트워크를 검사하는 웹 거미에 의해 작동하고, 그들은 더 빠른 검색을 제공할 수 있도록 검색 엔진에 의해 색인화될 것이다.

사설망

기능 구성표

때때로 검색 엔진은 컴퓨터 내에 저장된 시청각 파일이나 텔레비전에서 일어나는 것처럼 사용자가 로컬 영역 네트워크를 통해 접속하는 개인 서버에서만 검색한다. 이러한 검색자들은 보통 결과를 제시할 때 최대 속도와 효율성을 위해 매우 구체적인 검색 옵션을 가진 소프트웨어 또는 풍부한 인터넷 애플리케이션이다. 그것들은 일반적으로 큰 데이터베이스에 사용되기 때문에 텔레비전 회사들의 요구를 만족시키는 데 매우 집중되어 있다. 이러한 유형의 소프트웨어의 예로는 Digition Suite가 있을 것이다. Digition Suite는 이러한 종류의 인터페이스에서 벤치마크가 되는 것 외에도 Commonacio Catalana de Mitjans Audiovisuals의 저장 및 검색 파일 시스템에 대해 우리와 매우 가깝다.[2]

이 특정 제품군과 아마도 가장 큰 장점은 생성, 인덱싱, 저장, 검색, 편집 및 복구의 전체 프로세스를 통합하는 것이다. 일단 디지털화된 시청각 콘텐츠는 콘텐츠의 중요성에 따라 수준별로 다른 기법으로 인덱싱되고 저장된다. 사용자가 특정 파일을 검색하려면 프로그램 제목, 발행일, 연기하는 캐릭터 또는 제작자 이름 등의 검색 필드를 채워야 하고, 로봇은 검색을 시작한다. 결과가 나타나고 선호도에 따라 정렬되면 사용자는 저화질 비디오를 재생하여 가능한 한 신속하게 작업할 수 있다. 그가 원하는 콘텐츠를 찾으면 좋은 정의로 다운받아서 편집하고 재생산한다.[3]

설계 및 알고리즘

비디오 검색은 오늘날 존재하고 모두 키워드를 사용하는 몇 가지 기본적인 검색 형식을 통해 천천히 진화해왔다. 각 검색의 키워드는 미디어의 제목, 미디어에 첨부된 모든 텍스트 및 컨텐츠 링크된 웹 페이지에서 찾을 수 있으며, 또한 비디오 호스팅된 리소스의 작성자와 사용자에 의해 정의된다.

어떤 비디오 검색은 인간 동력 검색을 사용하여 수행되고, 다른 것들은 비디오에 무엇이 있는지 감지하고 검색자들이 필요로 하는 것을 맞추기 위해 자동으로 작동하는 기술 시스템을 만든다. 비디오 검색 기능뿐만 아니라 비디오 안에 무엇이 들어있는지 인식하는 쓰기 알고리즘을 포함한 비디오 검색을 개선하려는 많은 노력이 검색 노력의 완전한 재개를 의미했다.

최근 Everzing의 신임 CEO Thomas Wilde는 Everzing이 음악, 주변 소음 또는 한 사람 이상의 연설이 있을 때 70%의 시간을 일한다는 것을 인정했지만, 텍스트로의 연설이 가능하다는 것은 일반적으로 인정된다. 뉴스캐스트 스타일 스피킹(1인, 명료하게 말하기, 주변 잡음 없음)이 가능하다면 93%까지 상승할 수 있다. (2007년 6월 27일, CA 산호세 웹 비디오 서밋으로부터)

모든 언어에는 약 40개의 음소가 존재하며, 모든 구어에는 약 400개의 음소가 존재한다. 음성 대 텍스트 처리가 완료된 후 텍스트 검색 알고리즘을 적용하는 대신 음성 검색 알고리즘을 사용해 구어 내에서 결과를 찾는 엔진도 있다. 또 어떤 사람들은 말 그대로 전체 팟캐스트를 듣고 정교한 음성-텍스트 프로세스를 사용하여 텍스트 전사를 만드는 일을 한다. 텍스트 파일이 생성되면 해당 파일은 검색 단어와 구문을 원하는 수만큼 검색할 수 있다.

영상으로의 시각적 검색이 잘 되지 않고 공개적으로 사용하고 있는 회사가 없다는 것은 일반적으로 인정되고 있다. UC 샌디에이고와 카네기 멜론대 연구진은 15년 넘게 시각적 검색 문제를 연구해왔으며, 2007년 봄 UC 버클리에서 열린 '미래의 검색' 컨퍼런스에서 단순 검색에서도 생존가능성이 몇 년이나 떨어져 있음을 인정했다.

비디오 검색 엔진

불가지론적 검색

비디오 호스팅에 영향을 받지 않는 검색. 비디오의 위치에 관계없이 결과에 영향을 미치지 않는 검색:

  • 블링크스는 2004년에 출시되었으며, 메타데이터에만 의존하지 않고 음성 인식과 시각적 분석을 사용하여 색칠된 비디오를 처리한다. 블링크스는 웹 상에 가장 큰 비디오 아카이브를 가지고 있으며, 수집된 콘텐츠는 약 2,600만 시간이다.
  • 캐스트TV(CastTV)는 2006년 설립돼 드레이퍼 피셔 쥬베트슨, 론 콘웨이, 마크 안드레센이 후원한 웹 와이드 비디오 검색 엔진이다.
  • 무낙스는 2005년에 첫 번째 버전 올 콘텐트 검색 엔진을 출시하고 비디오 검색으로 전국 및 전 세계 검색 엔진에 전력을 공급한다.
  • Picsearch Video Search는 2006년부터 포털 검색 허가를 받았다. Picsearch는 전 세계 100개 이상의 주요 검색 엔진에 대한 이미지, 비디오, 오디오 검색 기능을 제공하는 검색 기술 제공업체다.

불가지론적 검색

검색 결과에서 호스트된 대형 동영상이 우선시되어 검색 결과가 수정되거나 의심됨:

  • AOL Video는 웹을 통해 인기 있는 비디오 여행지에 위치한 비디오를 찾는 데 사용할 수 있는 비디오 검색 엔진을 제공한다. 2005년 12월, AOL은 Truveo Video Search를 인수했다.
  • 빙 비디오 검색은 이 구동하고 야후에서도 사용하는 검색 엔진이다. 비디오 검색
  • 구글 비디오는 구글비디오 검색 엔진이다.
  • 텐센트 비디오텐센트에서 비디오 검색을 제공한다.

참고 항목

참조

외부 링크

검색 엔진의 작업 방식 (영어)