ZPEG
ZPEG![]() | 이 글은 대부분의 독자들이 이해하기에는 너무 기술적인 것일 수도 있다..(2020년 2월) (이 및 정보를 할 수 하십시오 |
![]() | 이 기사의 주요 기고자는 그 주제와 밀접한 관련이 있는 것으로 보인다. (2021년 1월) |
파일 이름 확장명 | zpeg[citation needed] |
---|---|
유형코드 | zpg1 |
개발자 | ZPEG, Inc. |
초기 릴리즈 | 2020 |
형식 유형 | 비디오 압축 형식 |
웹사이트 | www |
ZPEG는 인간의 시력 모델을 장식과 관련된 변환 영역 공간에 적용하여 주관적으로 감지할 수 없는 부분을 제거함으로써 모션 비디오의 중복을 최적으로 줄여주는 모션 비디오 기술이다. 이 기술은 비디오 최적화, 실시간 모션 비디오 압축, 주관적 품질 모니터링, 포맷 전환 등 광범위한 비디오 처리 문제에 적용할 수 있다.
ZPEG 회사는 ZPEG 엔진이라는 이름으로 x264, x265, AV1, FFmPEG의 수정된 버전을 생산한다(§ 비디오 최적화 참조).
픽셀 분포는 확률적 프로세스로 잘 변형되며, 이상적인 장식 관련 표현으로의 변환은 카루넨-로브 정리에 의해 정의된 카루넨-로브 변환(KLT)에 의해 이루어진다. 이산 코사인 변환(DCT)은 흔히 비디오 프레임의 전형적인 픽셀 공간에서의 강한 상관관계로 인해 비디오 데이터의 카루넨-로브 변환에 근접한 계산적으로 효율적인 변환으로 사용된다...[1] 시간방향의 상관관계가 공간방향의 상관관계만큼이나 높기 때문에, 3차원 DCT를 사용하여 모션 비디오를[2] 장식할 수 있다.
휴먼 비주얼 모델
인간 시각 모델은 시각적 지각 시스템의 대조 민감도에 기초하여 형성될 수 있다.[3] 시간 변동 대비 민감도 모델을 지정할 수 있으며, 3차원 이산 코사인 변환(DCT)에 적용할 수 있다.[4] 3차원 콘트라스트 민감도 모델은 3차원 기본 벡터 각각에 대한 정량자를 생성하기 위해 사용되며, 감지할 수 없는 모션 비디오[5] 아티팩트의 시각적 손실에 가까운 제거를 초래한다.
VisiBels의 지각 강도
인간 시각적 모델 정량기 생성 프로세스의 지각 강도는 화면 높이에서 측정된 지각 가능성에 대략 해당하는 로그 척도인 vB(visiBels)로 보정된다. 눈이 화면에서 멀어질수록 영상의 세부 사항을 인지할 수 없게 된다. ZPEG 모델은 또한 시간적 구성요소를 포함하므로 가시거리로는 충분히 설명되지 않는다. 가시거리 면에서는 화면 거리가 절반으로 줄어들수록 visiBel 강도가 6배 증가한다. 표준 정의 텔레비전의 표준 시청 거리(화면 높이 약 7개)는 0vB로 정의된다. 약 4개의 화면 높이인 고화질 비디오의 정상 가시거리는 약 -6 vB(3.5 화면 높이)로 정의된다.
영상 최적화
ZPEG 프리프로세서는 AVC(Advanced Video Coding) (H.264), HEVC(High Efficiency Video Coding) (H.265)와 같은 기존 모션 추정 기반 비디오 압축기에 의한 모션 비디오 시퀀스를 최적화한다. 인간의 시력 모델은 모션 비디오 시퀀스의 3차원 변환 블록에 직접 적용하기 위해 정량기로 변환되며, 그 후 동일한 정량자에 의한 역 정량화(신호 처리) 단계를 따른다. 이 프로세스에서 반환된 모션 비디오 시퀀스는 기존 압축기에 대한 입력으로 사용된다.
압축 부스트 강도
블록 기반 이산 코사인 변환에 휴먼 비주얼 시스템 생성 정량제를 적용하면 스트림에서 감지할 수 없는 콘텐츠를 제거하여 모션 비디오 스트림의 압축성을 높일 수 있다. 그 결과 압축기가 재생산해야 하는 상세한 공간 및 시간적 세부 사항을 제거하게 된 큐레이션 스트림이다. 이 스트림은 또한 움직임 추정 알고리즘에 대해 더 나은 매칭을 만들어낸다. 퀀텀라이저는 visiBels에 명시된 지정된 가시거리에서 감지할 수 없도록 생성된다. 일반적으로 사용되는 일반적인 전처리 보기 조건은 다음과 같다.
- 표준 정의 비디오는 -6 vB에서 처리됨
- 고화질 비디오는 -12vB에서 처리
- UHD, 4K(Ultra-High Definition Video)는 -12 vB로 처리됨
- 몰입형 초고화질(Virtual Reality) 비디오는 -18 vB로 처리됨
-12vB로 처리할 때 x.264 코덱을 사용하는 6Mbs HD 비디오의 평균 압축 절감률은 21.88%이다. -12vB에서 처리된 x.264 코덱을 사용하는 16Mbs 넷플릭스 4K 테스트 스위트 비디오의 평균 압축 절감률은 29.81%이다. 몰입감 있는 보기를 위해 압축했을 때(-18vB) 동일한 넷플릭스 테스트 제품군은 25.72%의 절감 효과를 낸다. 이러한 결과는 공개적으로 액세스할 수 있는 테스트 베드를[6] 사용하여 재현할 수 있다.
디블록킹
ZPEG 전처리의 영향은 지정된 가시거리에서 평균 시청자에게 인식되지 않지만, 블록 기반 변환 처리에 의해 도입된 에지 효과는 여전히 비디오 최적화 프로세스의 성능 장점에 영향을 미친다. 이 성능을 개선하기 위해 기존 디블록 필터를 적용할 수 있지만, 다중 평면 디블록 알고리즘을 사용하여 최적의 결과를 얻는다. 8x8 블록과 4 평면의[7] 경우 평면의 오프셋이 (0,0), (0,4), (4,0), (4,0), (4,4) 중 하나일 정도로 각 평면은 4개 방향에서 블록 크기의 1/2로 오프셋된다. 그런 다음 픽셀 값은 블록 가장자리까지의 거리에 따라 선택되며 내부 픽셀 값은 경계 픽셀 값보다 선호된다. 결과적으로 폐쇄된 비디오는 광범위한 전처리 강도에 비해 훨씬 더 나은 최적화를 생성한다.
실시간 비디오 압축
기존의 모션 압축 솔루션은 모션 추정 기술을 기반으로 한다.[8] 일부 변환 도메인 비디오 코덱 기술이 존재하지만, ZPEG는 3차원 이산 코사인 변환(DCT)을 기반으로 하는데,[9] 여기서 3차원은 선 내 픽셀, 프레임 내 선, 프레임 내 시간적 순서가 된다. 중복 영상 데이터의 추출은 블록 간 객체 일치를 검색하는 훨씬 더 많은 컴퓨팅 비용이 드는 프로세스보다는 비디오의 변환 영역 표현을 정량화하는 계산 효율적 프로세스에 의해 수행된다. Quantizer 값은 미리 결정된 지각 처리 강도로 DCT 계수 기본 집합에 Human Visual Model을 적용하여 도출한다. 따라서 모든 지각적으로 중복되는 정보는 비디오의 변환 도메인 표현에서 제거된다. 그런 다음 압축은 엔트로피 제거 프로세스에 의해 수행된다.[10]
수량화
압축된 콘텐츠를 볼 수 있는 보기 조건을 선택한 후 휴먼 비주얼 모델은 3차원 이산 코사인 변환(DCT)에 적용할 정량자를 생성한다.[11] 이러한 정량기는 모션 비디오 스트림에서 감지할 수 없는 모든 콘텐츠를 제거하도록 조정되어 표현 엔트로피를 크게 감소시킨다. visiBels로 표현된 보기 조건과 변환 전 픽셀의 상관관계는 엔트로피 인코딩에 의해 참조하기 위해 생성된다.
컨텍스트 기반 엔트로피 부호화
정량화된 DCT 계수는 전통적으로 라플라스 분포로 모델링되었지만,[12] 보다 최근의 연구는 Cauchy 분포가 정량화된 계수 분포를 더 잘 모형화한다는 것을 시사했다.[13] ZPEG 엔트로피 인코더는 정량화 매트릭스와 픽셀 상관관계로 완전히 특징지어지는 분포에 따라 정량화된 3차원 DCT 값을 암호화한다. 압축된 스트림에 전달되는 이 측면 대역 정보를 통해 디코더는 내부 상태를 인코더와[14] 동기화할 수 있다.
서브밴드 분해
각 DCT 대역은 다른 모든 대역에 대해 개별적으로 엔트로피 코딩된다. 이러한 계수는 DC 성분부터 시작하여 대역 순서에 따라 전송되며, 이어 저 분해능에서 고 분해능 순으로 연속적인 대역들이 파월트 패킷 분해와 유사하게 전송된다.[15] 이 규칙을 준수하면 수신기가 항상 모든 대역 통과 파이프에 대해 가능한 최대 분해능을 수신하여 버퍼링 없는 전송 프로토콜을 사용할 수 있도록 보장한다.
주관적 품질 지표
참조 비디오와 비디오 표시 성능 저하 간의 인식된 품질 차이에 대한 금색 척도는 ITU-R 권장사항 BT-500에 정의되어 있다.[16] DSCQS(Double Stimulus Continuous Quality-scale) 방법은 기준 영상과 왜곡 영상 간의 인식 차이를 평가하여 -3에서 3까지의 개별 점수에서 도출된 전체 차이 점수를 생성한다.
- -3: 손상된 비디오는 훨씬 더 나쁘다.
- -2: 손상된 비디오는 더 나쁘다.
- -1: 손상된 비디오는 약간 더 나쁘다.
- 0: 비디오가 동일함
- 1: 손상된 비디오가 약간 더 낫다.
- 2: 손상된 비디오가 더 낫다.
- 3: 손상된 비디오가 훨씬 낫다.
단일점 연속 품질 척도(SSCQS) 표준화 메트릭 평균 의견 점수(MOS)[17]와 유사하게 전체 DSCQS 점수를 범위(-100, 100)로 정규화하고 주관적 영상 화질의 척도인 차등 평균 의견 점수(DMOS)라고 한다. 이상적인 객관적 측정은 기준/손상된 비디오 쌍에 적용할 때 DMOS 점수와 강한 상관관계가 있을 것이다. 기존 기법과 그 전반적인 장점에 대한 조사는 넷플릭스 블로그에서 찾을 수 있다.[18] ZPEG는 다양한 지각 강도(visiBels)로 사전 처리한 후 기준 비디오와 손상된 비디오 간의 차이에 대한 평균 제곱 오차 메트릭을 비교하여 생성된 주관적인 품질 메트릭을 제공함으로써 사용 가능한 기법의 목록을 확장한다. 손상차이를 더 이상 인식할 수 없는 유효시점거리를 손상계측으로 보고한다.
포맷 변환
통계적으로 이상적인 포맷 변환은 이산 코사인 변환 공간에서 비디오 콘텐츠를 보간함으로써 이루어진다.[19] 변환 프로세스, 특히 업샘플링의 경우, 픽셀이 재샘플링되는 일련의 픽셀에서 갑작스러운 연속성이 발생할 때 발생하는 링잉 아티팩트를 고려해야 한다. 결과 알고리즘은 프레임 치수, 픽셀 가로 세로 비율 및 프레임률을 변경하여 비디오 형식을 하향 샘플링하거나 상향 샘플링할 수 있다.
참조
- ^ Rao, Kamisetty; Yip, P (1990). Discrete Cosine Transform: Algorithms, Advantages, Applications. Academic Press. ISBN 0080925340.
- ^ Westwater, Raymond; Fuhrt, Borko (1997). Real Time Video Compression – Techniques and Algorithms. Springer. ISBN 978-0-585-32313-8.
- ^ Glenn, William (1993). Digital Image Compression Based on Visual Perception. MIT Press. pp. 63–71. ISBN 0-262-23171-9.
- ^ Barten, Peter (1999). Contract Sensitivity of the Human Eye and its Effects on Image Quality. SPIE Press. ISBN 0-8194-3496-5.
- ^ Watson, A.B. (1993). "A technique for visual optimization of DCT quantization matrices for individual images". Society for Information Display Digest of Technical Papers. XXIV: 946–949.
- ^ "ZPEG Demonstration Page". ZPEG. Retrieved 27 January 2017.
- ^ "Why was the 8x8 DCT size chosen?". experts123. Retrieved 27 January 2017.
- ^ Furht, Borko; Greenberg, Jeffry; Westwater, Raymond (1997). Motion Estimation Algorithms for Video Compression. Springer. ISBN 978-1-4613-7863-1.
- ^ Hatim, Anas; Belkouch, Said; Hassani, Moha (May 2014). "Fast 8x8x8 RCF 3D_DCT/IDCT transform for real time video compression and its FPGA Implementation". International Journal of Advances in Engineering & Technology. Retrieved 27 January 2017.
- ^ Westwater, Raymond. "Transform-Based Video Coding – Motivation for use of the Three-Dimensional Discrete Cosine Transform". researchgate.net. Retrieved 27 January 2017.
- ^ Westwater, Raymond. "Transform-Based Video Coding – Computation of Quantizers for the Three-Dimensional Discrete Cosine Transform". researchgate.net. Retrieved 27 January 2017.
- ^ Smoot, Stephen; Rowe, Lawrence A (1996). "Study of DCT coefficient distributions". Proceedings of the SPIE Symposium on Electronic Imaging. 2657. Retrieved 27 January 2017.
- ^ Kamaci, Nejat; Ghassan, Al-Rejib (February 2012). Said, Amir; Guleryuz, Onur G; Stevenson, Robert L (eds.). "Impact of Video Parameters on The DCT Coefficient Distribution for H.264-Like Video Coders" (PDF). Proceedings of SPIE. Visual Information Processing and Communication III. 8305:3: 830505. doi:10.1117/12.908719. Retrieved 27 January 2017.
- ^ Westwater, Raymond. "Transform-Based Video Coding – Correlation-Based Compression Using the Three-Dimensional Discrete Cosine Transform". researchgate.net. Retrieved 27 January 2017.
- ^ Gu, Junfeng; Jiang, Yimin; Baras, John. "3D wavelet based video codec with human perceptual model". US Patent 7006568. U S Patent Office. Retrieved 27 January 2017.
- ^ "Methodology for the subjective assessment of the quality of television pictures" (PDF). itu.int. ITU-R. Retrieved 27 January 2017.
- ^ "Mean Opinion Score (MOS) Terminology". itu.int. ITU-T. Retrieved 27 January 2017.
- ^ Li, Zhi; Aaron, Ane; Katsavounidis, Ioannis; Moorthy, Anush; Manohara, Megha. "Toward A Practical Perceptual Video Quality Metric". The Netflix Tech Blob. Retrieved 27 January 2017.
- ^ Westwater, Raymond. "Method for converting the resolution and frame rate of video data using Discrete Cosine Transforms". uspto.gov.