시각 정보 충실도

Visual information fidelity

VIF(Visual Information Perfidence, VIF)는 자연 장면 통계와 인간 시각 시스템에서 추출한 영상 정보의 개념을 바탕으로 한 완전한 기준 영상 화질 평가 지수다.[1]2006년 하미드 R 셰이크와 앨런 보빅텍사스 오스틴 대학 영상영상공학연구소(LIVE)에서 개발했다.넷플릭스가 스트리밍한 인코딩된 모든 동영상의 화질을 제어하는 넷플릭스 VMAF 영상 화질 모니터링 시스템의 핵심에 배치된다.

모델 개요

3차원 시각 환경의 영상과 비디오는 공통의 클래스인 자연 장면에서 나온다.모든 가능한 신호의 공간에 있는 아주 작은 아공간에서 나오는 자연적인 장면들, 그리고 연구자들은 이러한 통계를 특징 짓기 위한 정교한 모델을 개발했다.대부분의 실제 왜곡 과정은 이러한 통계를 방해하고 이미지나 비디오 신호를 부자연스럽게 만든다.VIF 지수는 왜곡(채널) 모델과 함께 자연 장면 통계(NSS) 모델을 채택하여 테스트와 기준 영상 사이에 공유된 정보를 정량화한다.또한 VIF 지수는 이러한 공유 정보가 시각적 품질과 잘 관련되는 충실도의 한 측면이라는 가설에 기초한다.사전 접근법 이 통계적 방법이information-theoretic 설정 수익률 완전한 참조(FR)품질 평가해서 사용한 인간 시각 시스템(HVS)error-sensitivity과 structure,[2]의 측정에 따라 대조적으로(QA)법지 않는 의존에 대한 HVS하거나 또는 보는 기하학 매개 변수 무엇이 있으며, 상수 필요한 최적화, a알몬드최신 QA 방식과 경쟁할 수 있다.[citation needed]

구체적으로 기준 영상은 HVS 채널을 통과하여 나중에 뇌에 의해 처리되는 확률적 '자연' 선원의 출력물로 모델링된다.기준 영상의 정보 내용은 HVS 채널의 입력과 출력 사이의 상호 정보로서 정량화된다.이것은 뇌가 HVS의 출력에서 이상적으로 추출할 수 있는 정보다.그런 다음 HVS 채널을 통과하기 전에 자연 발생원의 출력을 왜곡하는 영상 왜곡 채널이 있는 곳에서 동일한 측정을 정량화하여 뇌가 테스트 영상으로부터 이상적으로 추출할 수 있는 정보를 측정한다.이것은 그림 1에 그림으로 나타나 있다.그런 다음 두 가지 정보 조치를 결합하여 시각적 품질과 상대적 이미지 정보를 연관시키는 시각적 정보 충실도 측정을 형성한다.

그림 1

시스템 모델

소스 모델

가우스 척도 혼합물(GSM)은 조향 가능한 이미지의 피라미드 분해의 파장 계수를 통계적으로 모형화하는 데 사용된다.[3]모델은 멀티 스케일 다중 방향 분해의 특정 서브밴드에 대해 아래에 설명되며, 다른 서브밴드에도 비슷하게 확장될 수 있다.Let the wavelet coefficients in a given subband be where denotes the set of spatial indices across the subband and each is an 치수 벡터차원 벡터.서브밴드는 M 계수 비 겹치지 않는 블록으로 분할되며, 여기서 각 블록은 i 에 해당한다 GSM 모델에 따르면

where is a positive scalar and is a Gaussian vector with mean zero and co-variance. Further the non-overlapping blocks are assumed to be independent of each other and that the random field 은(는) {\과(와) 독립적이다

왜곡 모형

왜곡 프로세스는 파월 영역에서의 신호 감쇠와 첨가 노이즈의 조합을 사용하여 모델링.Mathematically, if denotes the random field from a given subband of the distorted image, is a deterministic scalar field and , where is a zero mean Gaussian vector with co-variance , then

은(는) S 과(와) 독립적으로 모델링

HVS 모델

HVS 모델과 NSS의 이중성은 HVS의 여러 측면이 소스 모델에서 이미 설명되었음을 의미한다.여기서 HVS는 시각 신호의 인식의 불확실성으로 인해 소스로부터 추출할 수 있는 정보의 양이 제한되고 영상이 왜곡된다는 가설을 바탕으로 추가 모델링된다.이 불확실성의 원천은 HVS 모델에서 시각적 노이즈로 모델링할 수 있다.특히, 파장 분해의 특정 서브밴드에서의 HVS 노이즈는 가우스 노이즈를 첨가한 화이트 가우스 노이즈로 모델링한다.Let and be random fields, where and are zero mean Gaussian vectors with co-variance and . Further, let and denote the visual signal at the output ofHVS.Mathematically, we have and . Note that and are random fields that a 과(와) 독립적으로 다시 연결하십시오

VIF지수

Let denote the vector of all blocks from a given subband. E 의 N S F의 등도 이와 유사하게 정의되도록 한다. Let N C 주어진 N {\최대우도 추정치를 나타내며 참조에서 추출한 정보량을 구한다.

시험 영상에서 추출한 정보의 양은 다음과 같이 주어진다.

, 에 의한 파장 분해의 j N{\ 블록을 나타내며 다른 변수에 대해서도 마찬가지로 VIF 인덱스는 다음과 같이 정의된다.

퍼포먼스

라이브 이미지 품질 평가 데이터베이스에 있는 왜곡된 이미지의 VIF 지수 점수와 해당 인간 의견 점수 사이의 스피어맨의 순위 상관 계수(SROCC)는 0.96으로 평가된다.[citation needed]

참조

  1. ^ Sheikh, Hamid; Bovik, Alan (2006). "Image Information and Visual Quality". IEEE Transactions on Image Processing. 15 (2): 430–444. Bibcode:2006ITIP...15..430S. doi:10.1109/tip.2005.859378. PMID 16479813.
  2. ^ Wang, Zhou; Bovik, Alan; Sheikh, Hamid; Simoncelli, Eero (2004). "Image quality assessment: From error visibility to structural similarity". IEEE Transactions on Image Processing. 13 (4): 600–612. Bibcode:2004ITIP...13..600W. doi:10.1109/tip.2003.819861. PMID 15376593. S2CID 207761262.
  3. ^ Simoncelli, Eero; Freeman, William (1995). "The steerable pyramid: A flexible architecture for multi-scale derivative computation". IEEE Int. Conference on Image Processing. 3: 444–447. doi:10.1109/ICIP.1995.537667. ISBN 0-7803-3122-2. S2CID 1099364.

외부 링크