샷 이행 검출

Shot transition detection

검출이라고도 불리는전이 검출(또는 단순 검출)은 비디오 처리의 연구 분야입니다.그 주제는 [1]비디오의 시간 분할을 목적으로 디지털 비디오의 촬영전환을 자동으로 감지하는 것이다.

사용하다

숏 천이 검출은, 필름을 이라고 불리는 기본적인 시간 단위로 분할하기 위해서 사용됩니다.은, 1대의 카메라로 연속해 촬영해, [2]시공간에서의 연속적인 동작을 나타내는 일련의 상호 관련하는 연속 사진입니다.

이 조작은 비디오의 포스트 프로덕션용 소프트웨어에서 매우 유용합니다.이것은 또한 거대한 비디오 아카이브에 대한 효율적인 접근을 제공하는 자동화된 인덱싱 및 컨텐츠 기반 비디오 검색 또는 요약 애플리케이션의 기본 단계입니다. 예를 들어 애플리케이션은 영화 전체의 시각적 개요를 만들기 위해 각 장면에서 대표 이미지를 선택할 수 있으며 이러한 인덱스를 처리함으로써 검색 엔진은 이를 처리할 수 있습니다."사자가 나오는 모든 영화를 보여줘"와 같은 검색 항목.

컷 검출은 인간 에디터가 수동으로 할 수 없는 것은 아무것도 할 수 없지만, 시간을 절약할 수 있기 때문에 유리합니다.또, 디지털 비디오의 이용의 증가와 그 결과, 상기의 인덱싱 애플리케이션의 중요성에 의해, 자동 컷 검출은 오늘날 매우 중요하다.

기본 기술 용어

갑작스런 이행
용해제는 투명 효과와 함께 한 샷을 다른 샷으로 서서히 혼합합니다.

간단히 말해서 컷 검출은 비디오에서 한 장면이 다른 시각적 콘텐츠를 가진 다른 장면으로 대체되는 위치를 찾는 것입니다.엄밀히 말하면 다음과 같은 용어가 사용됩니다.

디지털 비디오는 보는 이의 눈에 연속적으로 나타나는 프레임으로 구성되어 움직임의 인상을 만들어 냅니다.이 맥락에서 "디지털"은 단일 프레임이 픽셀로 구성되고 데이터가 이진 데이터로 존재하여 컴퓨터로 처리할 수 있다는 것을 의미합니다.디지털 비디오내의 각 프레임은, 그 프레임 인덱스(시리얼 번호)에 의해서 일의로 식별됩니다.

촬영은 한 대의 카메라에 의해 중단 없이 촬영된 일련의 프레임입니다.일반적으로 필름 편집에 사용되는 여러 필름 전환은 인접한 샷을 병렬로 배치하기 위해 사용됩니다. 샷 전환 감지에서는 일반적으로 두 가지 [3]유형으로 그룹화됩니다.

  • 갑작스러운 전환 - 한 샷에서 다른 샷으로 갑자기 전환됩니다. 즉, 한 프레임은 첫 번째 샷에 속하고 다음 프레임은 두 번째 샷에 속합니다.그것들은 하드컷 또는 단순컷으로도 알려져 있다.
  • 점진적 전환 - 이러한 종류의 전환에서는 두 샷이 색채, 공간 또는 공간 색채 효과를 사용하여 결합되어 한 샷이 다른 샷으로 점차 대체됩니다.이것은 종종 소프트 트랜지션이라고도 하며, 물티슈, 용해, 페이드다양한 타입이 될 수 있습니다.

「컷의 검출」은, 컷의 위치를 얻는 것을 의미하며, 보다 정확하게는 「프레임 i와 프레임 i+1 사이의 하드 컷」, 「프레임 i에서 프레임 j로의 소프트 컷」의 소프트 컷을 취득한다.

올바르게 검출된 전이를 히트라고 하고, 거기에 있지만 검출되지 않은 컷을 히트라고 하며, 소프트웨어가 컷을 상정하고 있지만 실제로는 컷이 존재하지 않는 위치를 히트라고 합니다.

필름 편집에 대한 소개와 샷 전환 기술의 포괄적인 목록은 필름 편집에서 찾을 수 있습니다.

문제의 광범위성

절단 감지는 인간의 간단한 작업처럼 보이지만 컴퓨터에게는 그리 간단한 작업이 아닙니다.비디오의 각 프레임에 언제 어떤 카메라로 촬영했는지에 대한 추가 정보가 더해진다면 컷 검출은 사소한 문제가 될 것입니다.강력한 인공지능이 [citation needed]제공되지 않는 한 절단 검출을 위한 알고리즘은 모든 절단 부분을 확실하게 검출할 수 없습니다.

대부분의 알고리즘은 하드컷을 통해 좋은 결과를 얻지만 많은 알고리즘은 소프트컷을 인식하지 못합니다.하드컷은 일반적으로 비주얼 콘텐츠의 갑작스럽고 광범위한 변화와 함께 진행되며 소프트컷은 느리고 점진적인 변화를 특징으로 합니다.인간은 장면의 의미를 이해함으로써 이러한 시각적 다양성의 부족을 보완할 수 있다.컴퓨터가 샷을 지우는 검은 선을 "진행 중인 장면에서 느리게 움직이는 또 다른 일반 물체"로 가정하는 동안, 한 사람은 장면이 끝나고 검은 화면으로 대체되는 것을 이해한다.

방법들

절단 검출의 각 방법은 2상 원리로 동작합니다.

  1. 스코어링 – 디지털 비디오의 연속된 각 프레임 쌍에는 유사성/차이를 나타내는 특정 점수가 부여됩니다.
  2. 결정 – 이전에 계산된 모든 점수가 평가되고 점수가 높다고 간주되면 컷이 감지됩니다.

이 원칙은 오류가 발생하기 쉽습니다.첫째, 임계값의 사소한 초과라도 히트를 생성하기 때문에 1단계에서 "컷"과 "컷 없음" 점수 간의 평균 차이를 최대화하기 위해 값을 넓게 분산시켜야 한다.둘째, 임계값을 신중하게 선택해야 한다. 일반적으로 유용한 값은 통계 방법을 사용하여 얻을 수 있다.

컷 검출 (1) 히트: 검출된 하드 컷 (2) 미스 히트: 검출되지 않은 소프트 컷(디졸브) (3) 폴스 히트: 2개의 다른 하드 컷으로 잘못 해석되는 싱글 소프트 컷.

스코어링

비주얼 컨텐츠의 차이에 액세스 하기 위해서 사용할 수 있는 스코어는 많이 있습니다.가장 일반적인 스코어는 다음과 같습니다.

  • 절대차이의 합계(SAD).이것은 가장 명확하고 간단한 알고리즘입니다.연속된 두 프레임은 픽셀별로 비교되며, 대응하는 두 픽셀의 차이에 대한 절대값을 합산합니다.결과는 점수로 사용되는 양수입니다.SAD는 장면 내의 사소한 변화에도 매우 민감하게 반응합니다. 즉, 카메라의 빠른 움직임, 폭발 또는 어두운 장면에서 라이트의 단순한 점등으로 인해 잘못된 히트가 발생합니다.반면 SAD는 소프트 컷에 거의 반응하지 않습니다.그러나 SAD는 가시적인 모든 하드컷을 최고의 확률로 감지하기 때문에 기본적인 "가능한 히트" 세트를 생성하는 데 자주 사용됩니다.
  • 히스토그램 차이(HD). 히스토그램 차이는 절대 차이의 합과 매우 유사합니다.HD는 연속된 두 프레임의 히스토그램 간의 차이를 계산합니다. 히스토그램은 프레임 내의 각 색상에 대해 해당 색상으로 음영 처리된 픽셀 수를 포함하는 표입니다.HD는 장면 내의 사소한 변경에도 SAD만큼 민감하지 않기 때문에 오타가 적습니다.HD의 한 가지 주요 문제는 두 이미지가 정확하게 동일한 히스토그램을 가질 수 있지만 표시된 내용은 매우 다르다는 것입니다. 예를 들어 바다와 해변의 사진은 옥수수 밭과 하늘 중 하나와 동일한 히스토그램을 가질 수 있습니다.HD는 하드컷을 인식한다는 보장은 없다.
  • Edge Change Ratio(ECR; 에지 변경비).ECR은 두 프레임의 실제 내용을 비교하려고 합니다.두 프레임을 모두 가장자리 사진으로 변환합니다. 즉, 사진 내 개체의 가능한 윤곽을 추출합니다(자세한 내용은 가장자리 감지 참조).그런 다음 확장을 사용하여 이러한 가장자리 사진을 비교하여 두 번째 프레임이 첫 번째 프레임과 동일한 개체를 포함할 확률을 계산합니다.ECR은 스코어링을 위한 가장 뛰어난 성능의 알고리즘 중 하나입니다.하드컷에 매우 민감하게 반응하여 많은 소프트컷을 자연스럽게 검출할 수 있습니다.기본적인 형태에서는 ECR조차 페이딩인 객체를 씬(scene)을 통과하는 일반 객체로 간주하기 때문에 와이프와 같은 소프트 컷을 감지할 수 없습니다.그러나 ECR을 수동으로 확장하여 특수한 형태의 소프트 컷을 인식할 수 있습니다.

마지막으로, 이러한 점수 중 두 개 이상을 조합하면 성능을 향상시킬 수 있습니다.

결정

의사결정 단계에서는 보통 다음과 같은 접근방식이 사용됩니다.

  • [Fixed Threshold](고정 임계값) – 이 접근법에서는 스코어가 이전에 설정된 임계값과 비교되며 스코어가 임계값보다 높을 경우 컷이 선언됩니다.
  • Adaptive Threshold(적응 임계값) – 이 접근법에서는 점수는 비디오의 다양한 점수를 고려하여 현재 비디오의 속성에 맞게 임계값을 조정하는 임계값과 비교됩니다.앞의 경우와 마찬가지로 점수가 해당 임계값보다 높으면 컷이 선언됩니다.
  • 머신러닝 - 머신러닝 기술을 의사결정 프로세스에도 적용할 수 있습니다.

비용.

위의 알고리즘은 모두 O(n)로 완료됩니다.즉, 선형 시간으로 실행됩니다.n은 입력 비디오 내의 프레임 수입니다.알고리즘은 영상의 해상도에 따라 결정되는 상수 계수가 다릅니다.

품질에 대한 척도

일반적으로 절단 검출 알고리즘의 품질을 측정하기 위해 다음 세 가지 척도가 사용됩니다.

  • 리콜은 기존 절단이 탐지될 확률입니다.
  • 정밀도는 가정된 절단이 실제로 절단이 될 확률입니다.
  • F1정밀도와 호출이 모두 높은 값을 산출하는 경우에만 높은 값을 산출하는 결합된 측정값입니다.


기호는 C, 정확하게 검출된 의 수("올바른 히트") M, 검출되지 않은 의 수("실패 히트") F, 잘못 검출된 컷의 수("잘못된 히트")를 나타냅니다.이 모든 척도는 수학적 척도로, 즉 0과 1 사이의 값을 제공합니다.기본 규칙은 값이 클수록 알고리즘 성능이 향상된다는 것입니다.

벤치마크

벤치마크 비교
벤치마크 비디오 몇시간. 프레임 샷의 이행 참가자 몇 해
TRCVid 12 - 42 4.8 - 7.5 545,068 - 744,604 2090 - 4806 57 2001 - 2007
MSU SBD 31 21.45 1,900,000+ 10883 7 2020 - 2021

TRCVid SBD 벤치마크 2001-2007[4]

자동 샷 전환 감지는 2001년부터 2007년까지의 연례 TECVid 벤치마크 연습에서 활동 흔적 중 하나였다.서로 다른 연구 그룹의 57개의 알고리즘이 있었다.②데이터셋의 알고리즘별로 F점수를 계산하여 매년 보충하였습니다.

톱 리서치 그룹
그룹. F 스코어 처리 속도
(실시간으로 변경)
오픈 소스 사용된 측정 기준 및 기술
칭화 U.[5] 0.897 ×0.23 아니요. 평균 픽셀 명암 평균
픽셀 강도의 표준 편차
색상 히스토그램
픽셀 단위의 차이
움직임 벡터
NICTA[6] 0.892 ×2.30 아니요. 기계 학습
IBM[7] 리서치 0.876 ×0.30 아니요. 색상 히스토그램
국소화된 모서리 방향 히스토그램
그레이 레벨 썸네일 비교
프레임 휘도

MSU SBD 벤치마크 2020-2021

벤치마크에서는 RAI 및 MSU CC 데이터 세트의 120개 이상의 비디오에 대해 6가지 방법을 서로 다른 유형의 장면 변경으로 비교했으며, 그 중 일부는 수동으로 [9]추가되었다.저자들은 이 벤치마크의 주요 특징이 데이터 집합에서 샷 전환의 복잡성이라고 말한다.이를 증명하기 위해 샷의 SI/TI 메트릭을 계산하고 이를 공개적으로 사용 가능한 다른 데이터 세트와 비교합니다.

상위 알고리즘
알고리즘. F 스코어 처리 속도
(FPS)
오픈 소스 사용된 측정 기준 및 기술
사이드 다드하[10] 0.797 86 네. 색상 히스토그램
적응 임계값
맥스[11] 레이먼 0.787 76 네. 절단용 SVM
그라데얼 전환용 뉴럴 네트워크
색상 히스토그램
VQMT[12] 0.777 308 아니요. 모서리 히스토그램
움직임 보정
컬러 히스토그램
PySceneDetect(파이씬[13] 검출) 0.776 321 네. 프레임 강도
FFmpeg[14] 0.772 165 네. 색상 히스토그램

레퍼런스

  1. ^ P. Balasubramaniam; R Uthayakumar (2 March 2012). Mathematical Modelling and Scientific Computation: International Conference, ICMMSC 2012, Gandhigram, Tamil Nadu, India, March 16-18, 2012. Springer. pp. 421–. ISBN 978-3-642-28926-2.
  2. ^ Weiming Shen; Jianming Yong; Yun Yang (18 December 2008). Computer Supported Cooperative Work in Design IV: 11th International Conference, CSCWD 2007, Melbourne, Australia, April 26-28, 2007. Revised Selected Papers. Springer Science & Business Media. pp. 100–. ISBN 978-3-540-92718-1.
  3. ^ Joan Cabestany; Ignacio Rojas; Gonzalo Joya (30 May 2011). Advances in Computational Intelligence: 11th International Work-Conference on Artificial Neural Networks, IWANN 2011, Torremolinos-Málaga, Spain, June 8-10, 2011, Proceedings. Springer Science & Business Media. pp. 521–. ISBN 978-3-642-21500-1. Shot detection is performed by means of shot transition detection algorithms. Two different types of transitions are used to split a video into shots: – Abrupt transitions, also referred as cuts or straight cuts, occur when a sudden change from one ...
  4. ^ Smeaton, A. F., Over, P. 및 Doherty, A. R. (2010)비디오 샷 경계 검출:TECVID 활동 7년.컴퓨터 비전 및 이미지 이해, 114(4), 411~418.doi:10.1016/j.cviu.2009.03.011
  5. ^ 위안, J, 정, W, 천, L, 딩, D, 왕, D, 통, Z, 왕, H, 우, J, 리, J, 린, F, 장, B.(2004)TECVID 2004의 칭화 대학:샷 경계 검출 및 개략적인 피쳐 추출.TRECVID
  6. ^ Yu, Zhenghua, S. Vishwanathan, Alex Smola."NICTA at TRECVID 2005 Shot Boundary Detection Task." TRECVID(2005).
  7. ^ A. Amir, TRECVID 2003의 IBM Shot Boundary Detection System, TRECVID 2005 Workshop Notebook Papers, 국립표준기술연구소, MD, USA, 2003에 수록되어 있습니다.
  8. ^ http://videoprocessing.ml/benchmarks/sbd.html[데드링크]
  9. ^ https://videoprocessing.ml/benchmarks/sbd.html#methodology[데드링크]
  10. ^ "SaeidDadkhah/Shot-Boundary-Detection". GitHub. 19 September 2021.
  11. ^ "Shot-Boundary-Detection". GitHub. 11 September 2021.
  12. ^ "MSU Scene Change Detector (SCD)".
  13. ^ "Home - PySceneDetect".
  14. ^ https://ffmpeg.org/ffprobe-all.html#Main-options