무슈라

MUSHRA

MUSHRAHidden Reference and Anchor가 있는 MULTiple Stuffices를 의미하며, 손실오디오 압축 알고리즘에서 나오는 출력의 인식된 품질을 평가하기 위한 코덱 듣기 테스트를 수행하는 방법론이다. ITU-R 권장사항 BS.1534-3에 의해 정의된다.[1] MUSHRA 방법론은 "중간 오디오 품질" 평가를 위해 권장된다. 매우 작은 오디오 손상의 경우 권장 ITU-R BS.1116-3(ABC/HR)가 대신 권장된다.

평균 의견 점수(MOS) 방법론(비슷한 목적을 제공하는)에 비해 주요한 장점은 MUSHRA가 통계적으로 유의미한 결과를 얻기 위해 더 적은 참가자를 필요로 한다는 것이다.[citation needed] 이는 모든 코덱이 동일한 샘플에 동시에 표시되기 때문에 쌍체 t-검정 또는 반복적인 분산 측정 분석을 통계 분석에 사용할 수 있기 때문이다. 또한 MUSHRA가 사용하는 0–100 척도로 매우 작은 차이를 평가할 수 있다.

MUSHRA에서 수신기는 기준(따라서 라벨로 표시됨), 특정 수의 시험 샘플, 기준의 숨겨진 버전 및 하나 이상의 앵커와 함께 제시된다. 권고안은 시험 신호에 저속 앵커와 중속 앵커를 포함하도록 명시하고 있다. 이것들은 일반적으로 기준의 7 kHz 및 3.5 kHz 저역 통과 버전이다. 닻의 목적은 경미한 유물이 과도하게 불이익을 받지 않도록 저울을 교정하는 것이다. 이것은 다른 연구소의 결과를 비교하거나 통합할 때 특히 중요하다.

청취자 행동

MUSHRA와 ITU BS.116 테스트는[2] 둘 다 전형적인 유물이 어떤 소리인지, 어디서 발생할지 알고 있는 숙련된 전문가 청취자를 필요로 한다. 전문가 청취자는 또한 교육받지 않은 청취자보다 더 반복 가능한 결과를 도출하는 등급 척도의 내실화가 더 잘 되어 있다. 따라서 훈련된 청취자가 있으면 통계적으로 유의미한 결과를 얻기 위해 필요한 청취자는 더 적다.

전문가 청취자와 순진한 청취자의 선호도가 비슷해 전문가 청취자의 결과도 소비자에게 예측된다고 가정한다. 이러한 가정과 일치하여, Shinkel-Bielefeld 외.는 음색만 포함하고 공간 아티팩트가 없는 시험 신호를 사용할 때 전문가 청취자와 훈련되지 않은 청취자 사이의 순위 순서 차이를 발견하지 못했다.[3] 그러나 [4]럼지 외 연구진은 공간 유물을 포함하는 신호의 경우 전문 청취자가 주로 음색 유물에 초점을 맞춘 훈련되지 않은 청취자보다 공간 유물을 약간 더 강하게 무게를 두고 있음을 보여주었다.

이 외에도, 전문 청취자는 테스트 대상 신호의 더 작은 부분을 반복적으로 청취하고 테스트 대상 신호와 기준 간의 비교를 더 많이 수행하는 옵션을 더 많이 활용하는 것으로 나타났다.[3] 따라서 선호도 등급을 산출하는 순진한 청취자와는 대조적으로, 전문가 청취자는 시험 중인 신호와 압축되지 않은 원본의 차이를 평가하여 오디오 품질 등급을 산출하는데, 이는 MUSHRA 시험의 실제 목표다.

사전 또는 사후 스크리닝

MUSHRA 지침은 청취자의 신뢰성을 평가할 수 있는 몇 가지 가능성을 언급하고 있다.

가장 쉽고 일반적인 것은 숨겨진 참조를 90 MUSHRA 포인트 이하로 평가한 청취자를 모든 시험 항목의 15% 이상에 대해 자격을 박탈하는 것이다. 숨겨진 참조는 100 MUSHRA 점수로 평가되어야 하므로 이것은 명백히 실수다. 숨겨진 기준과 고품질 신호가 혼동될 수 있지만, 90 미만의 정격은 수신자가 정격 신호가 원래 기준과 다르다고 확신할 때에만 부여해야 한다.

청취자의 성과를 평가할 수 있는 다른 가능성은 분산 분석에 기초한 프레임워크인 [5]eGauge이다. 사전 또는 사후 선별을 위해 후자 두 개만 권장되지만, 합치성, 반복성판별성을 계산한다. 동의는 청취자가 나머지 청취자들과 얼마나 잘 동의하는지 분석한다. 반복성은 청취자가 다른 조건의 시험 신호를 구별할 수 있는 경우 다른 시험 신호의 분산 및 판별성 분석과 비교하여 동일한 시험 신호의 등급을 다시 매길 때의 분산을 검토한다. eGauge는 모든 테스트 신호를 두 번 들어야 하므로 숨겨진 참조의 등급을 기준으로 화면 수신기를 게시하는 것보다 이를 적용하는 것이 더 큰 노력이다. 그러나, 만약 청취자가 eGauge를 사용하여 신뢰할 수 있는 청취자를 증명했다면, 시험의 성격이 변하지 않는다면, 그 또는 그녀는 미래의 청취 시험을 위한 신뢰할 수 있는 청취자로 간주될 수 있다; 스테레오 청취 시험을 위한 신뢰할 수 있는 청취자가 5.1 또는 22.2 형식 시험 항목의 유물을 지각하는데 반드시 동등하게 좋은 것은 아니다.

테스트 항목

인코딩이 어렵고 유물이 생성될 가능성이 높은 항목인 중요한 시험 항목을 선택하는 것이 중요하다. 동시에, 시험 항목은 생태학적으로 유효해야 한다; 그것들은 방송 자료를 대표해야 하며, 인코딩이 특별히 어렵도록 설계된 일부 합성 신호가 아니다. 중요한 물질을 선택하는 방법은 제거 절차에 의한 순위를 제안하는 에케루트 외 연구진이 제시한다.[6] 이것은 가장 중요한 시험 항목을 선택하는 좋은 방법이지만, 다른 유물을 발생시키기 쉬운 다양한 시험 항목을 포함시키는 것을 보장하지는 않는다.

이상적으로는 MUSHRA 시험 항목의 특성이 해당 항목의 전체 기간 동안 너무 많이 변경되지 않아야 한다. 그렇지 않으면 항목의 다른 부분이 다른 부분과 다르거나 강한 아티팩트를 표시할 경우 청취자가 등급을 결정하기가 어려울 수 있다.[7] 종종 짧은 품목은 더 고정되어 있기 때문에 긴 품목보다 덜 변동성으로 이어진다.[8] 그러나 정지해 있는 항목을 선택하려고 할 때에도 생태학적으로 유효한 자극은 신호의 나머지 부분보다 약간 더 중요한 부분을 갖는 경우가 매우 많다. 따라서, 신호의 다른 부분에 초점을 맞추는 청취자들은 그것을 다르게 평가할 수 있다. 이 경우에 더 비판적인 청취자는 덜 비판적인 청취자보다 자극의 가장 비판적인 영역을 식별하는 것이 더 나은 것 같다.[9]

테스트 항목 언어

일반적으로 전화 품질 코덱 평가에 사용되는 ITU-T P.800 시험에서[10] 시험된 음성 항목은 항상 청취자의 모국어로 되어 있어야 하지만, MUSHRA 시험에서는 이것이 필요하지 않다. 중국어와 독일어 청취자를 대상으로 한 연구에서는 외국어 등급과 원어민 시험 항목 간에 유의미한 차이가 없는 것으로 나타났다. 하지만 청취자들은 외국어 항목을 평가할 때 더 많은 시간이 필요했고 더 많은 시간을 비교했다.[11] 그래서 청취자들이 외국어 항목을 평가하는데 있어 그들이 겪을 수 있는 어려움에 대해 보상하는 것으로 보인다. 이러한 보상은 항목이 한 번만 들리고 기준과 비교가 불가능한 ITU-T P.800 ACR 시험에서는 불가능하다. 그곳에서 외국어 항목은 청취자의 언어능력이 낮을 때 품질이 낮은 것으로 평가된다.[12]

참조

  1. ^ ITU-R 권고 BS.1534
  2. ^ ITU-R BS.1116 (February 2015). "Methods for the subjective assessment of small impairments in audio systems". Cite 저널은 필요로 한다. journal= (도움말)
  3. ^ a b Schinkel-Bielefeld, N., Lotze, N. and Nagel, F. (May 2013). "Audio quality evaluation by experienced and inexperienced listeners". The Journal of the Acoustical Society of America. 133 (5): 3246. doi:10.1121/1.4805210.CS1 maint: 여러 이름: 작성자 목록(링크)
  4. ^ Rumsey, Francis; Zielinski, Slawomir; Kassier, Rafael; Bech, Søren (2005-05-31). "Relationships between experienced listener ratings of multichannel audio quality and naïve listener preferences". The Journal of the Acoustical Society of America. 117 (6): 3832–3840. doi:10.1121/1.1904305. ISSN 0001-4966.
  5. ^ Gaëtan, Lorho; Guillaume, Le Ray; Nick, Zacharov (2010-06-13). "eGauge—A Measure of Assessor Expertise in Audio Quality Evaluations". Proceedings of the Audio Engineering Society. 38th International Conference on Sound Quality Evaluation.
  6. ^ Jonas, Ekeroot; Jan, Berg; Arne, Nykänen (2014-04-25). "Criticality of Audio Stimuli for Listening Tests – Listening Durations During a Ranking Task". 136th Convention of the Audio Engineering Society.
  7. ^ Max, Neuendorf; Frederik, Nagel (2011-10-19). "Exploratory Studies on Perceptual Stationarity in Listening Test - Part I: Real World Signals from Custom Listening Tests". Cite 저널은 필요로 한다. journal= (도움말)
  8. ^ Frederik, Nagel; Max, Neuendorf (2011-10-19). "Exploratory Studies on Perceptual Stationarity in Listening Test - Part II: Synthetic Signals with Time Varying Artifacts". Cite 저널은 필요로 한다. journal= (도움말)
  9. ^ Nadja, Schinkel-Bielefeld (2017-05-11). "Audio Quality Evaluation in MUSHRA Tests–Influences between Loop Setting and a Listeners' Ratings". 142nd Convention of the Audio Engineering Society.
  10. ^ ITU-T P.800 (August 1996). "P.800 : Methods for subjective determination of transmission quality". Cite 저널은 필요로 한다. journal= (도움말)
  11. ^ Nadja, Schinkel-Bielefeld; Zhang, Jiandong; Qin, Yili; Katharina, Leschanowsky, Anna; Fu, Shanshan (2017-05-11). "Is it Harder to Perceive Coding Artifact in Foreign Language Items? – A Study with Mandarin Chinese and German Speaking Listeners". Cite 저널은 필요로 한다. journal= (도움말)
  12. ^ Blašková, Lubica; Holub, Jan (2008). "How do Non-native Listeners Perceive Quality of Transmitted Voice?" (PDF). Communications. 10.4: 11–15.

외부 링크