평균 의견 점수
Mean opinion score평균여론점수(MOS)는 경험의 질과 통신공학 영역에서 사용되는 척도로, 자극이나 시스템의 전반적인 품질을 나타낸다. 이것은 모든 개인에 대한 산술 평균이다. "시스템 품질의 성능에 대한 주체가 그의 의견에 할당하는 사전 정의된 척도의 값"[1] 이러한 등급은 대개 주관적인 품질 평가 시험에서 수집되지만 알고리즘적으로 추정할 수도 있다.
MOS는 비디오, 오디오, 시청각 품질 평가를 위해 일반적으로 사용되는 척도로, 그러한 양식에 제한되지 않는다. ITU-T는 시청각, 대화, 듣기, 말하기 또는 비디오 품질 테스트에서 점수를 획득했는지 여부에 따라 권장사항 P.800.1에서 MOS를 참조하는 여러 가지 방법을 정의했다.
등급 척도 및 수학적 정의
MOS는 단일 합리적 숫자로 표현되며, 일반적으로 1은 가장 낮은 인식 품질이고 5는 가장 높은 인식 품질이다. 다른 MOS 범위도 기본 테스트에 사용된 등급 척도에 따라 가능하다. 절대 범주 등급 척도는 아래 표와 같이 불량 등급과 우수 등급 사이의 등급을 1에서 5 사이의 숫자로 매핑하는 매우 보편적으로 사용된다.
순위 | 라벨 |
---|---|
5 | 훌륭하다 |
4 | 좋아 |
3 | 페어 |
2 | 가난하다 |
1 | 나쁘다 |
ITU-T 권장사항(P.800 또는 P.910 등)에는 다른 표준화된 품질 등급 척도가 존재한다. 예를 들어, 1-100 사이의 연속적인 척도를 사용할 수 있다. 어떤 척도를 사용하는지는 시험 목적에 따라 달라진다. 특정 맥락에서 동일한 자극에 대한 등급이 다른 척도를 사용하여 획득될 때 등급 간에는 통계적으로 유의한 차이가 없다.[2]
MOS는 주관적 품질 평가 시험에서 주어진 자극에 대해 인간 피험자가 수행하는 단일 등급에 대한 산술 평균으로 계산된다. 따라서 다음과 같다.
여기서 은(는) 피험자의 특정 자극에 대한 개별 등급이다.
MOS의 속성
MOS는 특정한 수학적인 특성과 편견을 가지고 있다. 일반적으로 경험의 질을 단일 스칼라 값으로 정량화하기 위한 MOS의 유용성에 대한 논의가 진행 중이다.[3]
범주형 등급 척도를 사용하여 MOS를 획득하는 경우, 이는 리커트 척도와 유사한 순서형 척도를 기반으로 한다. 이 경우 척도 항목의 순위는 알 수 있지만 그 간격은 알 수 없다. 따라서, 중심적인 경향을 얻기 위해 개별 등급에 대한 평균을 계산하는 것은 수학적으로 부정확하다. 대신 중위수를 사용해야 한다.[4] 그러나, 실제와 MOS의 정의에서는 산술 평균을 계산하는 것이 허용된다고 간주된다.
범주형 등급 척도(예: ACR)의 경우, 개별 항목은 피험자에 의해 등거리적으로 인식되지 않는 것으로 나타났다. 예를 들어, 좋은 것과 좋은 것 사이에 좋은 것과 훌륭한 것 사이에 있는 것보다 더 큰 "갭"이 있을 수 있다. 인식 거리는 또한 저울이 번역되는 언어에 따라 달라질 수 있다.[5] 그러나, 규모 번역이 획득한 결과에 미치는 중대한 영향을 증명할 수 없는 연구가 있다.[6]
MOS 등급이 일반적으로 획득되는 방식에는 몇 가지 다른 편견이 존재한다.[7] 비선형적으로 인식되는 척도에 대해 위에서 언급한 문제 외에도 소위 "범위 균등화 편향"이 있다: 주관적인 실험의 과정에서 피실험자들은 전체 등급 척도에 걸쳐 점수를 주는 경향이 있다. 이는 제시된 품질의 범위가 다를 경우 두 개의 다른 주관적 시험을 비교할 수 없게 한다. 즉, MOS는 결코 품질을 절대적으로 측정하는 것이 아니라, 획득한 시험에 상대적인 것에 지나지 않는다.
위의 이유와 주관적 시험에서 인지된 품질에 영향을 미치는 몇 가지 다른 상황적 요인으로 인해 MOS 값은 값이 수집된 맥락을 알고 보고되는 경우에만 보고되어야 한다. 따라서 서로 다른 맥락에서 수집된 MOS 값과 시험 설계를 직접 비교해서는 안 된다. ITU-T 권고안 P.800.2는 MOS 값이 보고되어야 하는 방법을 규정한다. 구체적으로 P.800.2는 다음과 같이 말하고 있다.
개별 실험에서 도출된 MOS 값을 직접 비교하도록 명시적으로 설계되지 않은 한, 그리고 그러한 비교가 유효한지 확인하기 위해 데이터를 통계적으로 분석하는 것은 의미가 없다.
음성 및 오디오 품질 평가를 위한 MOS
MOS는 역사적으로 청취자들이 "조용한 방"에 앉아 그들이 인지한 대로 전화 통화 품질을 평가하는 주관적인 측정에서 유래한다. 이러한 종류의 시험 방법론은 수십 년 동안 전화 산업에서 사용되어 왔으며 ITU-T 권장사항 P.800에서 표준화되었다. "말하는 사람은 30 ~ 120 m³의 부피와 500 ms 미만의 반향 시간(대개 200 ~ 300 ms 범위)의 조용한 방에 앉아 있어야 한다"고 명시되어 있다. 실내 소음 수준은 스펙트럼에 지배적인 피크가 없는 30dBA 미만이어야 한다." 다른 양식에 대한 요건은 후에 ITU 권고사항에서도 유사하게 명시되었다.
품질 모델을 이용한 MOS 추정
MOS 등급을 획득하는 것은 시간이 많이 걸리고 비용이 많이 들 수 있다. 왜냐하면 그것은 인간 평가자의 채용을 필요로 하기 때문이다. 코덱 개발이나 서비스 품질 모니터링 목적과 같은 다양한 사용 사례에서 - 반복적이고 자동으로 품질을 추정해야 하는 - 또한 객관적 품질 모델을 통해 MOS 점수를 예측할 수 있으며, MOS 점수는 일반적으로 인간 MOS 등급을 사용하여 개발 및 교육되었다. 이러한 모델을 사용함으로써 발생하는 질문은 생산된 MOS 차이가 사용자에게 눈에 띄는가 하는 것이다. 예를 들어 영상을 5점 MOS 척도로 평가할 때 MOS가 5인 이미지는 MOS가 1인 이미지보다 화질이 눈에 띄게 좋아질 것으로 예상된다. 이와는 대조적으로, MOS가 3.8인 이미지가 MOS가 3.6인 이미지보다 화질이 눈에 띄게 좋은지는 분명하지 않다. 디지털 사진에서 사용자가 인지할 수 있는 가장 작은 MOS 차이를 결정하기 위한 연구는 사용자의 75%가 더 높은 품질의 이미지를 감지할 수 있으려면 약 0.46의 MOS 차이가 필요하다는 것을 보여주었다. [8] 그럼에도 불구하고 이미지 품질 기대치, 즉 MOS는 사용자 기대치의 변화에 따라 시간이 지남에 따라 변화한다. 결과적으로, in과 같은 분석 방법을 사용하여 결정된 최소 눈에 띄는 MOS 차이는 시간이 지남에 따라 변할 수 있다.
참고 항목
참조
- ^ ITU-T Rec. P.10(2006) 성능 및 서비스 품질을 위한 어휘.
- ^ Huynh-Thu, Q.; Garcia, M. N.; Speranza, F.; Corriveau, P.; Raake, A. (2011-03-01). "Study of Rating Scales for Subjective Quality Assessment of High-Definition Video". IEEE Transactions on Broadcasting. 57 (1): 1–14. doi:10.1109/TBC.2010.2086750. ISSN 0018-9316.
- ^ Hoßfeld, Tobias; Heegaard, Poul E.; Varela, Martín; Möller, Sebastian (2016-12-01). "QoE beyond the MOS: an in-depth look at QoE via better metrics and their relation to MOS". Quality and User Experience. 1 (1): 2. arXiv:1607.00321. doi:10.1007/s41233-016-0002-1. ISSN 2366-0139.
- ^ 제이미슨, 수잔 "리커트 척도: 사용하는 방법(ab)." 의료교육 38.12(2004) : 1217-1218.
- ^ Streijl, Robert C, Stefan Winkler, David S. 손. "Mean Obdition Score (MOS) 재방문: 방법 및 적용, 제한 및 대안" 멀티미디어 시스템 22.2 (2016): 213-227.
- ^ Pinson, M. H.; Janowski, L.; Pepion, R.; Huynh-Thu, Q.; Schmidmer, C.; Corriveau, P.; Younkin, A.; Callet, P. Le; Barkowsky, M. (October 2012). "The Influence of Subjects and Environment on Audiovisual Subjective Tests: An International Study" (PDF). IEEE Journal of Selected Topics in Signal Processing. 6 (6): 640–651. doi:10.1109/jstsp.2012.2215306. ISSN 1932-4553.
- ^ 지엘린스키, 슬라워미르, 프랜시스 럼지, 쇠렌 베흐. "현대 오디오 음질 듣기 시험에서 마주친 일부 편견에 대하여- 리뷰." 56.6(2008) 오디오 엔지니어링 협회 저널: 427-451.
- ^ a b Katsigiannis, S.; Scovell, J. N.; Ramzan, N.; Janowski, L.; Corriveau, P.; Saad, M.; Van Wallendael, G. (2018-05-02). "Interpreting MOS scores, when can users see a difference? Understanding user experience differences for photo quality". Quality and User Experience. 3 (1): 6. doi:10.1007/s41233-018-0019-8. hdl:1854/LU-8581457. ISSN 2366-0139.