구조 유사성

Structural similarity

구조 유사지수 측정(SSIM)은 디지털 텔레비전과 영화화면뿐만 아니라 다른 종류의 디지털 영상과 비디오의 인식 품질을 예측하는 방법이다.SSIM은 두 영상 사이의 유사성을 측정하는 데 사용된다.SSIM 지수는 완전한 기준 메트릭이다. 즉, 영상 화질의 측정 또는 예측은 초기 압축되지 않았거나 왜곡되지 않은 영상을 기준으로 한다.null

SSIM은 이미지 저하를 구조 정보의 인식 변화로 간주하는 동시에 휘도 마스킹과 대비 마스킹 항을 모두 포함하는 중요한 지각 현상을 통합하는 인식 기반 모델이다.MSE 또는 PSNR과 같은 다른 기법과의 차이는 이러한 접근법이 절대 오류를 추정한다는 것이다.구조정보는 화소가 특히 공간적으로 가까이 있을 때 상호의존성이 강하다는 생각이다.이러한 의존성은 시각적 장면에서 물체의 구조에 관한 중요한 정보를 전달한다.휘도 마스킹은 밝은 영역에서 이미지 왜곡(이러한 맥락에서)이 잘 보이지 않는 경향이 있는 반면 대비 마스킹은 이미지에 유의한 활동이나 "혼합물"이 있는 곳에서 왜곡이 잘 보이지 않는 현상이다.null

역사

SSIM의 전신인 범용품질지수(UQI) 또는 왕-보빅지수(Wang-Bobik Index)로 불렸는데, 2001년 저우왕과 앨런 보빅이 개발했다.이것은 하미드 셰이크, 에로 사이먼첼리와의 협업을 통해 2004년 4월에 IEEE Transactions on Image Processing에 발표된 SSIM의 현재 버전으로 진화했다.[1]이 논문은 SSIM 품질 지수를 정의하는 것 외에도 인간 시각 신경 생물학 및 인식과의 연계, 인간 대상 등급에 대한 지수의 직접 검증 등 지각 품질 측정치를 개발하고 평가하기 위한 일반적인 맥락을 제공한다.null

기본 모델은 오스틴에 있는 텍사스 대학교의 이미지 및 비디오 엔지니어링 연구소(LIVE)에서 개발되었으며, 나아가 뉴욕 대학교의 컴퓨터 비전 연구소(LCV)와 공동으로 개발되었다.이 모델의 추가 변형들은 워털루 대학의 이미지 및 시각 컴퓨팅 실험실에서 개발되었고 상업적으로 판매되었다.null

SSIM은 이후 이미지 처리 커뮤니티와 텔레비전 및 소셜 미디어 산업에서 강력한 채택을 발견했다.2004 SSIM 논문은 구글 스콜라(Google Scholar)에 따르면 2만 번 이상 인용돼 이미지 처리 및 영상 엔지니어링 분야에서 가장 높은 인용 논문으로 손꼽히고 있다.[2]2009년 IEEE 신호 처리 협회 최우수 논문 상으로 선정되었다.[3]또한 2016년 IEEE 신호처리학회 지속영향상을 수상하였는데, 이는 발표 후 최소 10년간 비정상적으로 높은 영향을 미치는 논문을 나타낸다.텔레비전 산업의 높은 채택으로 인해, SSIM 논문의 원작자들은 텔레비전 아카데미에서 2015년에 각각 황금시간 공학 에미상을 받았다.null

알고리즘.

SSIM 지수는 이미지의 다양한 창에서 계산된다.공통 크기 N×N 두 창 사이의 측정값은 다음과 같다.[4]

다음 항목 포함:

  • 평균 x ;
  • 평균
  • 분산 {\;
  • 분산
  • y 공분산
  • =( ) =( k L) 약분모로 분열을 안정화하기 위한 변수 2개;
  • 픽셀 값의 동적 범위(일반적으로 이 은 2# i i - 2
  • = k = 기본적으로.

수식 성분

SSIM 공식은 의 표본 간 세 가지 비교 측정을 기반으로 한다 휘도( 대비( c 구조( 개별 비교 함수는 다음과 같다.[4]

위 정의 외에 다음을 포함:

SSIM은 그러한 비교 측정의 가중 조합이다.

가중치 , , (를) 1로 설정하면 공식을 위에 표시된 형태로 줄일 수 있다.null

수학적 특성

SSIM은 불분명한 것과 대칭적인 성질의 정체성을 만족시키지만 삼각형 불평등이나 비부정성은 만족시키지 못하므로 거리 함수가 아니다.그러나 특정 조건에서 SSIM은 거리 함수인 정규화된 루트 MSE 측정으로 변환될 수 있다.[5]그러한 기능의 사각형은 볼록한 것이 아니라 국소적으로 볼록하고 퀘이콘벡스여서 SSIM은 최적화를 위한 실현 가능한 대상이 된다.[5]null

공식의 적용

영상 화질을 평가하기 위해, 이 공식은 색상(예: RGB) 값이나 색도(예: YCbCr) 값에도 적용될 수 있지만, 일반적으로 루마에만 적용된다.결과물 SSIM 지수는 0과 1 사이의 소수점 값이며, 두 개의 동일한 데이터 집합의 경우에만 값 1에 도달할 수 있으므로 완벽한 구조적 유사성을 나타낸다.값이 0이면 구조 유사성이 없음을 나타낸다.영상의 경우 일반적으로 크기가 11x11인 슬라이딩 가우스 창이나 크기가 8×8인 블록 창을 사용하여 계산한다.영상의 SSIM 품질 지도를 만들기 위해 영상에서 픽셀 단위로 창을 바꿀 수 있다.영상 화질 평가의 경우, 저자들은 계산의 복잡성을 줄이기 위해 가능한 창의 부분군만 사용할 것을 제안한다.[6]null

변형

멀티스케일 SSIM

멀티스케일 SSIM(MS-SSIM)[4]이라 불리는 보다 발전된 형태의 SSIM은 초기 비전 시스템에서 멀티스케일 처리를 연상시키는 서브샘플링의 여러 단계를 거쳐 여러 척도로 진행된다.다른 주관적인 영상과 비디오 데이터베이스에서 SSIM과 동등하게 또는 더 나은 성능을 보이는 것으로 나타났다.[4][7][8]null

다중 구성 요소 SSIM

3성분 SSIM(3-SSIM)은 사람의 눈이 부드러운 부위보다 질감이나 가장자리 부위에서 차이를 더 정확하게 볼 수 있다는 점을 고려한 SSIM의 일종이다.[9]결과 메트릭은 에지, 텍스처 및 부드러운 영역의 세 가지 영역에 대한 SSIM의 가중 평균으로 계산된다.제안된 가중치는 가장자리의 경우 0.5이고 질감이 좋고 매끄러운 영역의 경우 0.25이다.저자들은 1/0/0 가중치 부여(가장자리 왜곡 이외에는 무시)가 주관적인 시청률에 가까운 결과로 이어진다고 언급한다.이는 이미지 품질 인식에서 가장자리 영역이 지배적인 역할을 한다는 것을 시사한다.null

3-SSIM의 저자는 또한 모델을 4-구성 요소 SSIM(4-SSIM)으로 확장했다.가장자리 유형은 왜곡 상태에 따라 보존 및 변경된 가장자리로 더욱 세분된다.제안된 가중치는 네 가지 구성 요소 모두에 대해 0.25이다.[10]null

구조 차이

구조 차이(DSSIM)는 삼각형 불평등이 반드시 충족되는 것은 아니므로 거리 함수를 구성하지는 않지만 SSIM에서 도출할 수 있다.null

비디오 품질 측정 기준 및 임시 변종

정품 SSIM은 정품 이미지의 품질을 측정하기 위해 설계되었다는 점에 주목할 필요가 있다.그것은 인간의 지각과 인간의 판단의 일시적 효과와 직접적으로 관련된 어떤 매개변수도 포함하고 있지 않다.[7]일반적인 방법은 비디오 시퀀스의 모든 프레임에 대한 평균 SSIM 값을 계산하는 것이다.그러나 SSIM의 몇 가지 임시 변형이 개발되었다.[11][6][12]null

복합 웨이브렛 SSIM

SSIM(CW-SSIM)의 복잡한 파장 변환 변형은 이미지 스케일링, 변환 및 회전 문제를 다루도록 설계되었다.CW-SSIM은 그러한 조건의 영상에 낮은 점수를 주는 대신 복잡한 웨이브릿 변환을 활용하므로 해당 영상에 더 높은 점수를 산출한다.CW-SSIM은 다음과 같이 정의된다.

여기서 x 복잡한 파장 변환이고 는 신호 y에 대한 복잡한 파장 변환이며 은 기능 안정성을 위해 사용되는 작은 양수이다.. 이상적으로는 0이어야 한다.SSIM과 마찬가지로 CW-SSIM은 최대 값이 1이다.최대값 1은 두 신호가 구조적으로 완벽하게 유사하다는 것을 나타내고, 값이 0이면 구조 유사성이 없음을 나타낸다.[13]null

SSIMPLUS

SSIMPLUS 지수는 SSIM을 기반으로 하며 상업적으로 사용할 수 있는 툴이다.[14]주로 비디오 애플리케이션을 대상으로 SSIM의 기능을 확장한다.인간의 주관적 등급과 선형적으로 일치하는 0-100 범위의 점수를 제공한다.그것은 또한 다른 해상도와 내용에서 비디오를 비교하면서, 의도된 보기 장치에 점수를 맞추는 것을 허용한다.null

이 회사의 저자들에 따르면, SSIMPLUS는 다른 이미지 및 비디오 품질 지표보다 더 높은 정확도와 높은 속도를 달성한다.그러나 알고리즘 자체는 공개적으로 사용할 수 없기 때문에 SSIMPLUS에 대한 독립적인 평가는 수행되지 않았다.null

cSSIM

이론적 관점에서 표준 이산 SSIM을 보다 자세히 조사하기 위해 연속 SSIM([15]CSSIM)을 도입하여 방사상 기준 함수 보간이라는 맥락에서 연구하였다.null

기타 간단한 수정

r* 교차 상관 메트릭은 SSIM의 분산 메트릭스를 기반으로 한다.그것은 r*(), y)로 계산.mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output.sfrac.tion,.mw-parser-output.sfrac .tion{디스플레이:inline-block, vertical-align:-0.5em, font-size:85%;text-align:센터}.mw-parser-output.sfrac.num,.mw-parser-output.sfrac .den{디스플레이:블록, line-height:1em, 마진:00.1em}.mw-parser-output.sfrac .den{인식된다.Border-top:1px 고체}.mw-parser-output .sr-only{국경:0;클립:rect(0,0,0,0), 높이:1px, 마진:-1px, 오버 플로: 숨어 있었다. 패딩:0;위치:절대, 너비:1px}σxy/σxσy 때σxσy ≠ 0,1는 양쪽 표준 편차 제로 있고, 00하나만 있다.그것은 대조 세부적인 팬텀에 대한 인간의 반응을 분석하는 데 유용하다는 것을 발견했다.[16]null

영상의 그라데이션에도 SSIM이 사용되어 「G-SSIM」이 되고 있으며, G-SSIM은 흐릿한 영상에 특히 유용하다.[17]null

위의 수정 사항을 조합할 수 있다.예를 들어 4-G-r*는 4-SSIM, G-SSIM, r*의 조합이다.시험한 다른 SSIM 변종보다 영상에 대한 방사선사 선호도를 훨씬 더 잘 반영할 수 있다.[18]null

적용

SSIM은 다양한 문제에 응용 프로그램을 가지고 있다.몇 가지 예는 다음과 같다.

  • 이미지 압축:손실된 이미지 압축에서는 이미지 및 비디오의 저장 공간을 줄이기 위해 정보를 의도적으로 폐기한다.MSE는 일반적으로 그러한 압축 체계에서 사용된다.그것의 저자들에 따르면, MSE 대신 SSIM을 사용하면 압축이 풀린 이미지에 더 나은 결과를 얻을 수 있다고 한다.[13]
  • 이미지 복원:이미지 복원 y= + (를 복구해야 하는 흐릿한 이미지, (는) 흐릿한 커널, (는) 첨가 노이즈, x 우리가 복구하고자 하는 원래 이미지인 문제 해결에 초점을 맞춘다.이 문제를 해결하기 위해 사용되는 전통적인 필터는 위너 필터다.그러나, 위너 필터 설계는 MSE를 기반으로 한다. SSIM 변종, 특히 Stat-SSIM을 사용하면 더 나은 시각적 결과를 얻을 수 있다고 한다.[13]
  • 패턴 인식:SSIM은 인간의 인식의 측면을 모방하기 때문에 패턴을 인식하는 데 사용될 수 있다.이미지 스케일링, 번역, 회전과 같은 문제에 직면했을 때, 알고리즘의 저자들은 이러한 변형에 둔감하고 훈련 샘플을 사용하지 않고 템플릿 매칭으로 직접 적용할 [19]수 있는 CW-SSIM을 사용하는 것이 더 낫다고 주장한다.데이터 기반 패턴 인식 접근방식은 많은 양의 데이터를 교육에 사용할 수 있을 때 더 나은 성능을 낼 수 있기 때문에, 저자들은 데이터 기반 접근방식에 CW-SSIM을 사용할 것을 제안한다.[19]

실적비교

SSIM은 인기 때문에 MSE, PSNR과 같은 보다 단순한 측정 기준과 기타 지각 이미지 및 비디오 품질 측정 기준을 포함한 다른 측정 기준과 비교되는 경우가 많다.SSIM은 MSE와 그 파생어를 정확도에서 현저하게 능가하는 것으로 반복적으로 보여져 왔으며, 여기에는 자체 저자 등의 연구도 포함된다.[7][20][21][22][23][24]null

Doselmann과 Yang의 논문은 SSIM의 수행이 "일반적으로 가정된 것보다 MSE의 수행에 훨씬 더 가깝다"고 주장한다.MSE에 대한 SSIM의 이점에 대해서는 이의를 제기하지 않지만, 두 메트릭스 사이에 분석적, 기능적 의존성을 명시한다.[8]그들의 연구에 따르면, SSIM은 MSE 기반 방법뿐만 아니라 SSIM의 창작자가 제공한 데이터베이스 이외의 주관적 데이터베이스와 상관관계가 있는 것으로 밝혀졌다.예를 들어, 그들은 Reibman과 Poole을 예로 들며, 그는 MSE가 패킷 손실-장애 비디오가 포함된 데이터베이스에서 SSIM을 능가한다는 것을 발견했다.[25]다른 논문에서는 PSNR과 SSIM 사이의 분석적 연계가 확인되었다.[26]null

참고 항목

참조

  1. ^ Wang, Zhou; Bovik, A.C.; Sheikh, H.R.; Simoncelli, E.P. (2004-04-01). "Image quality assessment: from error visibility to structural similarity". IEEE Transactions on Image Processing. 13 (4): 600–612. Bibcode:2004ITIP...13..600W. CiteSeerX 10.1.1.2.5689. doi:10.1109/TIP.2003.819861. ISSN 1057-7149. PMID 15376593.
  2. ^ "Google Scholar". scholar.google.com. Retrieved 2019-07-04.
  3. ^ "IEEE Signal Processing Society, Best Paper Award" (PDF).
  4. ^ a b c d Wang, Z.; Simoncelli, E.P.; Bovik, A.C. (2003-11-01). Multiscale structural similarity for image quality assessment. Conference Record of the Thirty-Seventh Asilomar Conference on Signals, Systems and Computers, 2004. Vol. 2. pp. 1398–1402 Vol.2. CiteSeerX 10.1.1.58.1939. doi:10.1109/ACSSC.2003.1292216. ISBN 978-0-7803-8104-9.
  5. ^ a b Brunet, D.; Vass, J.; Vrscay, E. R.; Wang, Z. (April 2012). "On the mathematical properties of the structural similarity index" (PDF). IEEE Transactions on Image Processing. 21 (4): 2324–2328. Bibcode:2012ITIP...21.1488B. doi:10.1109/TIP.2011.2173206. PMID 22042163.
  6. ^ a b Wang, Z.; Lu, L.; Bovik, A. C. (February 2004). "Video quality assessment based on structural distortion measurement". Signal Processing: Image Communication. 19 (2): 121–132. CiteSeerX 10.1.1.2.6330. doi:10.1016/S0923-5965(03)00076-6.
  7. ^ a b c Søgaard, Jacob; Krasula, Lukáš; Shahid, Muhammad; Temel, Dogancan; Brunnström, Kjell; Razaak, Manzoor (2016-02-14). "Applicability of Existing Objective Metrics of Perceptual Quality for Adaptive Video Streaming" (PDF). Electronic Imaging. 2016 (13): 1–7. doi:10.2352/issn.2470-1173.2016.13.iqsp-206.
  8. ^ a b Dosselmann, Richard; Yang, Xue Dong (2009-11-06). "A comprehensive assessment of the structural similarity index". Signal, Image and Video Processing. 5 (1): 81–91. doi:10.1007/s11760-009-0144-1. ISSN 1863-1703.
  9. ^ Li, Chaofeng; Bovik, Alan Conrad (2010-01-01). "Content-weighted video quality assessment using a three-component image model". Journal of Electronic Imaging. 19 (1): 011003–011003–9. Bibcode:2010JEI....19a1003L. doi:10.1117/1.3267087. ISSN 1017-9909.
  10. ^ Li, Chaofeng; Bovik, Alan C. (August 2010). "Content-partitioned structural similarity index for image quality assessment". Signal Processing: Image Communication. 25 (7): 517–526. doi:10.1016/j.image.2010.03.004.
  11. ^ "Redirect page". www.compression.ru.
  12. ^ Wang, Z.; Li, Q. (December 2007). "Video quality assessment using a statistical model of human visual speed perception" (PDF). Journal of the Optical Society of America A. 24 (12): B61–B69. Bibcode:2007JOSAA..24...61W. CiteSeerX 10.1.1.113.4177. doi:10.1364/JOSAA.24.000B61. PMID 18059915.
  13. ^ a b c Zhou Wang; Bovik, A.C. (January 2009). "Mean squared error: Love it or leave it? A new look at Signal Fidelity Measures". IEEE Signal Processing Magazine. 26 (1): 98–117. Bibcode:2009ISPM...26...98W. doi:10.1109/msp.2008.930649. ISSN 1053-5888.
  14. ^ Rehman, A.; Zeng, K.; Wang, Zhou (February 2015). Rogowitz, Bernice E; Pappas, Thrasyvoulos N; De Ridder, Huib (eds.). "Display device-adapted video quality-of-experience assessment" (PDF). IS&T-SPIE Electronic Imaging, Human Vision and Electronic Imaging XX. Human Vision and Electronic Imaging XX. 9394: 939406. Bibcode:2015SPIE.9394E..06R. doi:10.1117/12.2077917.
  15. ^ Marchetti, F. (January 2021). "Convergence rate in terms of the continuous SSIM (cSSIM) index in RBF interpolation" (PDF). Dolom. Res. Notes Approx. 14: 27–32.
  16. ^ Prieto, Gabriel; Guibelalde, Eduardo; Chevalier, Margarita; Turrero, Agustín (21 July 2011). "Use of the cross-correlation component of the multiscale structural similarity metric (R* metric) for the evaluation of medical images: R* metric for the evaluation of medical images". Medical Physics. 38 (8): 4512–4517. doi:10.1118/1.3605634.
  17. ^ Chen, Guan-hao; Yang, Chun-ling; Xie, Sheng-li (October 2006). "Gradient-Based Structural Similarity for Image Quality Assessment". 2006 International Conference on Image Processing: 2929–2932. doi:10.1109/ICIP.2006.313132.
  18. ^ Renieblas, Gabriel Prieto; Nogués, Agustín Turrero; González, Alberto Muñoz; Gómez-Leon, Nieves; del Castillo, Eduardo Guibelalde (26 July 2017). "Structural similarity index family for image quality assessment in radiological images". Journal of Medical Imaging. 4 (3): 035501. doi:10.1117/1.JMI.4.3.035501. PMC 5527267. PMID 28924574.
  19. ^ a b Gao, Y.; Rehman, A.; Wang, Z. (September 2011). CW-SSIM based image classification (PDF). IEEE International Conference on Image Processing (ICIP11).
  20. ^ Zhang, Lin; Zhang, Lei; Mou, X.; Zhang, D. (September 2012). A comprehensive evaluation of full reference image quality assessment algorithms. 2012 19th IEEE International Conference on Image Processing. pp. 1477–1480. CiteSeerX 10.1.1.476.2566. doi:10.1109/icip.2012.6467150. ISBN 978-1-4673-2533-2.
  21. ^ Zhou Wang; Wang, Zhou; Li, Qiang (May 2011). "Information Content Weighting for Perceptual Image Quality Assessment". IEEE Transactions on Image Processing. 20 (5): 1185–1198. Bibcode:2011ITIP...20.1185W. doi:10.1109/tip.2010.2092435. PMID 21078577.
  22. ^ Channappayya, S. S.; Bovik, A. C.; Caramanis, C.; Heath, R. W. (March 2008). SSIM-optimal linear image restoration. 2008 IEEE International Conference on Acoustics, Speech and Signal Processing. pp. 765–768. CiteSeerX 10.1.1.152.7952. doi:10.1109/icassp.2008.4517722. ISBN 978-1-4244-1483-3.
  23. ^ Gore, Akshay; Gupta, Savita (2015-02-01). "Full reference image quality metrics for JPEG compressed images". AEU - International Journal of Electronics and Communications. 69 (2): 604–608. doi:10.1016/j.aeue.2014.09.002.
  24. ^ Wang, Z.; Simoncelli, E. P. (September 2008). "Maximum differentiation (MAD) competition: a methodology for comparing computational models of perceptual quantities" (PDF). Journal of Vision. 8 (12): 8.1–13. doi:10.1167/8.12.8. PMC 4143340. PMID 18831621.
  25. ^ Reibman, A. R.; Poole, D. (September 2007). Characterizing packet-loss impairments in compressed video. 2007 IEEE International Conference on Image Processing. Vol. 5. pp. V – 77–V – 80. CiteSeerX 10.1.1.159.5710. doi:10.1109/icip.2007.4379769. ISBN 978-1-4244-1436-9.
  26. ^ Hore, A.; Ziou, D. (August 2010). Image Quality Metrics: PSNR vs. SSIM. 2010 20th International Conference on Pattern Recognition. pp. 2366–2369. doi:10.1109/icpr.2010.579. ISBN 978-1-4244-7542-1.

외부 링크