비디오 품질

비디오 품질은 비디오 전송 또는 처리 시스템을 통과하는 비디오의 특성으로, 인식된 비디오 열화를 나타냅니다(일반적으로 원본 비디오와 비교).비디오 처리 시스템은 비디오 신호에 사용자의 시스템 인식에 부정적인 영향을 미치는 왜곡 또는 아티팩트를 발생시킬 수 있습니다.비디오 제작 및 배포의 많은 이해관계자에게 비디오 품질 보장은 중요한 작업입니다.

비디오 품질 평가는 연구 대상 비디오 시퀀스 세트의 품질을 기술하기 위해 수행됩니다.비디오 품질은 객관적으로 평가할 수 있습니다(수학적 모델에 의해). 또는 주관적으로 평가할 수 있습니다(사용자에게 등급을 물어봄).또, 시스템의 품질은 오프라인(즉, 새로운 코덱이나 서비스를 개발하기 위한 실험실 환경에서) 또는 인서비스(일정 수준의 품질을 감시하고 보증하기 위해)로 판정할 수 있습니다.

아날로그 비디오에서 디지털 비디오로

세계 최초의 비디오 시퀀스가 녹화되어 전송 된 이후, 많은 비디오 처리 시스템이 설계되었다.이러한 시스템은 비디오 스트림을 인코딩하여 다양한 종류의 네트워크 또는 채널을 통해 전송합니다.아날로그 비디오 시스템의 시대에는 테스트 신호(예를 들어, 색상 막대와 원의 집합)를 사용하여 시스템의 주파수 응답을 계산함으로써 비디오 처리 시스템의 품질 측면을 평가할 수 있었습니다.

디지털 비디오 시스템은 아날로그 시스템을 거의 완전히 대체했고 품질 평가 방법도 바뀌었습니다.디지털 비디오 처리 및 전송 시스템의 성능은 크게 다를 수 있으며 입력 비디오 신호의 특성(동작의 양 또는 공간 상세 등), 인코딩 및 전송에 사용되는 설정, 채널 충실도 또는 네트워크 성능 등 많은 요소에 따라 달라집니다.

객관적인 비디오 품질

객관적 비디오 품질 모델은 ^[1]인간 관찰자에게 비디오 품질을 평가하도록 요청하는 주관적 품질 평가의 결과에 근사한 수학적 모델이다.이 맥락에서, 모델이라는 용어는 회귀 기법을 사용한 주관적 품질 평가 테스트에서 얻은 결과에 대해 복수의 독립 변수(예를 들어 네트워크상의 패킷 손실률 및 비디오 부호화 파라미터)가 적합한 단순한 통계 모델을 참조할 수 있다.모델은 소프트웨어 또는 하드웨어에서 구현되는 보다 복잡한 알고리즘일 수도 있습니다.

용어.

모델 및 메트릭이라는 용어는 현장에서 서로 바꿔서 사용되는 경우가 많습니다.그러나 메트릭에는 엄밀한 정의에 따라 모든 비디오 품질 모델에 적용되는 것은 아닌 특정 수학적 속성이 있습니다.

"객관적"이라는 용어는 일반적으로 품질 모델이 객관적으로 측정될 수 있는 기준, 즉 인간의 해석으로부터 자유롭다는 사실과 관련이 있다.그것들은 컴퓨터 프로그램에 의해 자동으로 평가될 수 있다.인간 관찰자 패널과는 달리, 객관적 모델은 항상 주어진 입력 매개변수 집합에 대해 결정적으로 동일한 품질 점수를 출력해야 한다.

객관적 품질 모델은 측정 기기로서의 적용을 강조하기 위해 계측(^[2]^[3]품질) 모델이라고도 합니다.일부 저자는 "계기적 측정이 객관성을 지녀야 한다는 것을 암시한다"^[4]며 "객관적"이라는 용어가 오해를 불러일으킬 수 있다고 제안한다.

객관적인 영상 품질 모델의 분류

객관적인 비디오 품질 모델을 전체 기준, 감소 기준 및 비기준으로 분류합니다.

참조 이미지 및 비디오 품질 평가 방법 없음.

목표 모델은 원래 신호, 수신 신호에 대해 사용 가능한 정보의 양 또는 신호가 ^[5]존재하는지 여부에 따라 분류할 수 있습니다.

FR(Full Reference Methods) : FR 모델은 원본 비디오 신호를 수신 비디오 신호와 비교하여 품질 차이를 계산합니다.통상, 소스로부터의 모든 픽셀은, 수신한 비디오의 대응하는 픽셀과 비교됩니다만, 그 사이에 부호화나 전송 프로세스에 대해서는 아무것도 모릅니다.보다 상세한 알고리즘에서는, 픽셀 베이스의 추정을, 이하와 같은 다른 어프로치와 조합하는 것을 선택할 수 있습니다.FR 모델은 일반적으로 높은 계산 능력을 희생하면서 가장 정확합니다.송신 또는 부호화 전에 원래의 비디오의 가용성을 요구하기 때문에, 모든 상황(예를 들면, 클라이언트 디바이스로부터 화질을 측정하는 경우)에서 사용할 수 없습니다.
RR(Reduced Reference Methods): RR 모델은 두 비디오의 일부 기능을 추출하고 이를 비교하여 품질 점수를 부여한다.모든 원본 비디오를 사용할 수 없거나 대역폭이 제한된 전송에서와 같이 실제로 사용할 수 없는 경우에 사용됩니다.따라서 FR 모델보다 더 효율적이면서도 정확도가 낮습니다.
No-Reference Methods(NR; 참조 없음 방법): NR 모델은 원래 신호를 참조하지 않고 왜곡된 비디오의 품질을 평가하려고 합니다.원래 신호가 없기 때문에 FR 또는 RR 접근법보다 정확도는 떨어지지만 계산에는 더 효율적입니다.
- 픽셀 기반 방법(NR-P): 픽셀 기반 모델은 디코딩된 신호 표현을 사용하여 픽셀 정보를 기반으로 품질을 분석합니다.이들 중 일부는 흐림이나 기타 코딩 아티팩트와 같은 특정 열화 유형만 평가합니다.
- 파라미터/비트스트림 방식(NR-B): 이러한 모델은 전송 컨테이너 및/또는 비디오 비트스트림에서 추출된 기능(예: MPEG-TS 패킷 헤더, 모션 벡터 및 양자화 파라미터)을 사용합니다.원래의 신호에 액세스 할 수 없고, 비디오의 디코딩이 필요 없기 때문에, 효율이 향상됩니다.NR-P 모델과 달리 최종 디코딩된 신호에 액세스할 수 없습니다.그러나 그들이 제공하는 화질 예측은 그리 정확하지 않습니다.
- 하이브리드 방식(하이브리드 NR-P-B): 하이브리드 모델은 비트스트림에서 추출된 파라미터를 디코딩된 비디오 ^[6]신호와 결합합니다.따라서 NR-P 모델과 NR-B 모델의 혼재입니다.

영상 품질 평가를 위한 화질 모델 사용

비디오 품질 평가에 사용되는 일부 모델(PSNR이나 SSIM 등)은 단순히 비디오시퀀스의 모든 프레임에 대해 출력이 계산되는 이미지 품질 모델입니다.그런 다음 모든 프레임의 이 품질 측정치를 기록하여 시간에 따라 풀링하여 전체 비디오 시퀀스의 품질을 평가할 수 있습니다.이 방법은 구현이 간단하지만 패킷 손실이나 패킷 은폐에 의한 이동 아티팩트 등 시간이 지남에 따라 발생하는 특정 종류의 열화는 고려하지 않습니다.VQM 또는 MOVIE Index와 같이 품질 저하를 시간적으로 고려하는 비디오 품질 모델은 인간이 인지하는 품질에 대한 보다 정확한 예측을 생성할 수 있을 것이다.

예

미터법		사용.	묘사
풀 레퍼런스	PSNR(피크 신호 대 잡음 비)	이미지	원본 비디오 신호의 모든 프레임과 열화된 비디오 신호 사이에서 계산됩니다.PSNR은 가장 널리 사용되는 객관적인 이미지 품질 지표입니다.그러나 인간 시각 시스템의 복잡하고 매우 비선형적인 동작으로 인해 PSNR 값은 인식된 화질과 잘 관련되지 않는다.
	SSIM^[7](구조 SIM)	이미지	SSIM은 이미지 저하를 구조 정보의 지각 변화로 간주하는 지각 기반 모델이며, 휘도 마스킹 및 대비 마스킹 용어를 모두 포함한 중요한 지각 현상을 통합한다.
	MOVIE^[8] Index Motion 기반의 비디오 무결성 평가	비디오	MOVIE 색인은 (압축 또는 왜곡 가능성이 있는) 영화 또는 비디오의 지각 품질을 원시 참조 비디오에 대해 예측하는 신경 과학 기반 모델입니다.
	VMAF^[9] 비디오 멀티 모드 평가 퓨전	비디오	VMAF는 비디오 품질 VIF, DLM, MCPD, AN-SNR의 4가지 기능을 사용하여 예측합니다.위의 기능은 SVM 기반 회귀 분석을 사용하여 융합되어 단일 출력 점수를 제공합니다.그런 다음 이러한 점수는 전체 비디오 시퀀스에 걸쳐 산술 평균을 사용하여 일시적으로 풀링되어 전체 차등 평균 의견 점수(DMOS)를 제공합니다.
레퍼런스 감소	SRR^[10](SSIM 감소 기준)	비디오	SRR 값은 수신(목표) 비디오 신호 SSIM과 기준 비디오 패턴 SSIM 값의 비율로 산출된다.
레퍼런스 감소	ST-RED^[11]	비디오	비디오 시퀀스(GSM에 의해 모델링됨)에서 인접한 프레임 간의 프레임 차이에 대한 웨이브릿 계수를 계산합니다.임시 RRED로 이어지는 RR 엔트로픽 차이를 평가하는 데 사용된다.비디오의 모든 프레임에 RRED 지수를 적용하여 평가한 공간적 RRED 지수와 함께 시공간적 RRED를 산출한다.
참조 없음	NIQE^[12] 자연도 이미지 품질 평가기	이미지	이 IQA 모델은 자연 영상의 필수 하위 통계를 효과적으로 캡처하는 로컬 이미지 패치에서 추출한 지각적으로 관련된 공간 영역 n 자연 장면 통계(NSS) 기능에 기초한다.
	BRISQE^[13] 블라인드/기준 없는 이미지 공간 품질 평가기	이미지	방법은 국소 정규화된 휘도 신호의 포인트 와이즈 통계량을 추출하여 자연 화상 모델로부터의 측정된 편차에 근거해 화상 자연도(또는 그 결여)를 측정한다.또한 왜곡 지향 정보를 제공하는 인접 정규화된 휘도 신호의 쌍별 통계 분포도 모델링합니다.
	비디오-블라이언스^[14]	비디오	프레임 차이의 DCT 계수에 대한 통계 모델을 계산하고 모션 특성화를 계산합니다.SVM을 사용하여 이러한 기능을 기반으로 점수를 계산한다.

게다가.

Shahid et al.^[5]의 저널 논문에 최근 참조되지 않은 화질 모델의 개요가 제시되어 있다.전술한 바와 같이, 이것들은 비디오 애플리케이션에도 사용할 수 있습니다.Video Quality Experts Group은 NORM(No-Reference Metrics)을 개발하기 위한 전담 작업 그룹을 가지고 있습니다.

비트스트림 기반 메트릭

전체 또는 축소 기준 메트릭은 전송 전 또는 적어도 일부의 원본 비디오 비트스트림에 대한 액세스가 여전히 필요합니다.실제로는 예를 들어 사용자 측에서 품질을 측정할 때 원본 스트림을 비교할 수 없는 경우가 있습니다.네트워크 오퍼레이터는 네트워크를 통과하는 비디오스트림을 완전히 디코딩하지 않고 품질을 측정하는 경우가 있습니다.이러한 경우 비디오 품질을 보다 효율적으로 평가하기 위해 파라미터/비트스트림 기반 메트릭도 표준화되었습니다.

ITU-T Rec. P.1201, 2012
ITU-T Rec. P.1202, 2012
ITU-T Rec. P.1203.1, 2016
ITU-T Rec. P.1204.3, 2020

트레이닝 및 퍼포먼스 평가

객관적인 비디오 품질 모델은 인간 관찰자에 의해 주어진 결과를 예측할 것으로 예상되기 때문에 주관적인 테스트 결과를 이용하여 개발된다.목표 모델을 개발하는 동안, 종종 평균 의견 점수(MOS)로 이용할 수 있는 객관적으로 예측된 값과 주관적인 점수 간에 최상의 상관 관계를 달성할 수 있도록 매개변수를 훈련해야 한다.

가장 널리 사용되는 주관적 테스트 자료는 공개 영역에 있으며 스틸 사진, 동영상, 스트리밍 비디오, 고화질, 3-D(스테레오스코픽) 및 특수 용도 사진 품질 관련 데이터 ^[15]세트가 포함됩니다.소위 데이터베이스라고 불리는 이 데이터베이스는 전 세계 여러 연구소에서 만들어졌습니다.이미지 및 비디오 엔지니어링 연구소(LIVE)가 작성 및 관리하는 퍼블릭 도메인 주관 화질 데이터베이스와 Tampere Image Database 2008을 포함한 사실상의 표준이 된 것도 있습니다.데이터베이스 모음은 Qualinet Databases 저장소에 있습니다.Consumer Digital Video Library(CDVL; 소비자 디지털 비디오 라이브러리)는 모델 개발을 위해 자유롭게 사용할 수 있는 비디오 테스트 시퀀스를 호스팅합니다.

이론적으로 모델은 데이터 집합에서 완벽하게 일치하는 점수를 생성하는 방식으로 교육될 수 있습니다.그러나 이러한 모델은 과도하게 교육되므로 새 데이터 집합에서는 성능이 좋지 않습니다.따라서 새 데이터에 대해 모형을 검증하고 결과 성능을 모형의 예측 정확도를 나타내는 실제 지표로 사용하는 것이 좋습니다.

모델의 성능을 측정하기 위해 자주 사용되는 메트릭으로는 선형 상관 계수, Spearman의 순위 상관 계수 및 RMSE(Root Mean Square Error)가 있습니다.다른 메트릭으로는 카파 계수와 특이치 비율이 있습니다.ITU-T Refer. P.1401은 객관적 모델을 평가하고 비교하기 위한 통계적 절차의 개요를 제공한다.

객관적 모델의 사용 및 적용

객관적인 비디오 품질 모델은 다양한 응용 영역에서 사용할 수 있습니다.비디오 코덱 개발에서는 코덱의 퍼포먼스는 PSNR 또는 SSIM의 관점에서 평가되는 경우가 많습니다.서비스 프로바이더의 경우 객관적인 모델을 사용하여 시스템을 감시할 수 있습니다.예를 들어 IPTV 프로바이더는 사용자에게 의견을 묻거나 비디오 품질이 나쁘다는 고객 불만을 기다리는 대신 객관적인 모델을 사용하여 서비스 품질을 모니터링하는 방법을 선택할 수 있습니다.PEVQ 및 VQuad-HD를 포함하여 이러한 표준 중 상용화된 것은 거의 없습니다.SSIM은 시판되는 비디오 품질 도구 세트(SSIMWAVE)의 일부이기도 합니다.VMAF는 Netflix에서 인코딩 및 스트리밍 알고리즘을 조정하고 스트리밍된 ^[16]^[17]모든 콘텐츠의 품질을 제어하는 데 사용됩니다.또한 비트모빈과^[18] 같은 다른 기술 회사에서도 사용되고 있으며 FFmpeg와 같은 소프트웨어에 통합되었습니다.

객관적 모델은 개발된 컨텍스트에서만 사용해야 합니다.예를 들어 특정 비디오코덱을 사용하여 개발된 모델은 다른 비디오코덱에 대해 정확성을 보증하지 않습니다.마찬가지로, 대형 TV 화면에서 수행되는 테스트에서 훈련받은 모델은 휴대폰으로 시청되는 비디오의 화질을 평가하는 데 사용되어서는 안 된다.

기타 접근법

비디오 코덱의 품질을 추정할 때, 상기의 모든 목적의 방법에서는, 필요한 수준의 비주얼 품질을 만족시키는 부호화 파라미터를 판별하기 위해서, 부호화 후의 테스트를 반복할 필요가 있는 경우가 있습니다.따라서 실제 상용 어플리케이션에서의 실장에 시간이 많이 걸리고 복잡하며 실용적이지 않습니다.실제 인코딩이 ^[19]수행되기 전에 인코딩된 비디오의 인식 품질 수준을 예측할 수 있는 새로운 객관적 평가 방법을 개발하는 연구가 진행 중이다.