음성품질 지각평가에 관한 연구
Perceptual Evaluation of Speech Quality음성 품질의 지각 평가(PESQ)는 전화 시스템 사용자가 경험한 음성 품질의 자동 평가를 위한 시험 방법론으로 구성된 표준 제품군이다. 2001년에 권고 ITU-T P.862로[1] 표준화되었다. PESQ는 전화 제조업체, 네트워크 장비 공급업체 및 통신 사업자의 객관적인 음성 품질 테스트에 사용된다. 그것의 용도는 면허를 필요로 한다. PESQ의 후계자 POLQA(Privatementation ITU-T P.863[2])의 초판은 2011년에 발효되었다.
측정범위
PESQ는 통신에서 일반적으로 사용되는 주관적 시험(예: 권고 ITU-T P.800)을 모델링하여 인간이 인식하는 음성 품질을 평가하기 위해 개발되었다. 따라서 시험 신호로 참 음성 샘플을 사용한다. 사용자가 인식하는 청취 품질을 특징짓기 위해서는 현대적인 통신 장비에 음성과 같은 신호를 탑재하는 것이 무엇보다 중요하다. 많은 시스템이 음성에 최적화되어 있고 비음성 신호(예: 톤, 노이즈)에 예측할 수 없는 방식으로 반응한다. 음성 테스트 샘플의 적절한 적용에 대한 지침은 권고 ITU-T P.862.3에 포함된 PESQ 적용 가이드에 정의되어 있다.[3]
완전한 기준 객관적인 음성 품질 측정의 ITU-T의 가족던 1997년 ITU-TP.862(PESQ)[1]고 2001년에 점하고 있었다 추천 회의에서 ITU-TP.861(PSQM)으로 P.862 후에 권고 사항은 ITU-TP.862.1[4](PESQ 점수 MOS규모로 매핑), ITU-TP.862.2[5](광대역 측정)및 ITU-TP.862.3[3]국가 간의 교루를 통해 시작되었다.(application guide). ITU-T P.863(POLQA)[2] 초판은 2011년에 발효되었다. ITU-T P.863 권고안 적용지침은 2019년에 승인되어 ITU-T P.863.1로 간행되었다.[6]
위에서 열거한 전체 기준 방법 외에 ITU-T의 객관적 음성 품질 측정 표준 목록에는 ITU-T P.563[7](비참조 알고리즘)도 포함되어 있다.
시험유형
알고리즘에 제공되는 정보에 따라 음성 품질 테스트 알고리즘은 크게 두 가지 범주로 나눌 수 있다.
- "전체 기준"(FR) 알고리즘은 비교를 위해 원래 기준 신호에 접근하여 사용한다(즉, 차이 분석). 기준 신호(토커 측)의 각 샘플을 저하 신호(리스터 측)의 각 해당 샘플과 비교할 수 있다. FR 측정은 최고의 정확도와 반복성을 제공하지만 라이브 네트워크(예: 모바일 네트워크 벤치마크용 드라이브 테스트 도구)의 전용 테스트에만 적용할 수 있다.
- "No reference"(NR) 알고리즘은 품질 추정을 위해 저하된 신호만 사용하며 원래 기준 신호에 대한 정보는 없다. NR 알고리즘(예: 권고 ITU-T P.563[7])은 소스 참조의 원래 음성 특성(예: 남성 또는 여성 대화자, 배경 소음, 비음성)을 완전히 알 수 없기 때문에 정확도가 낮은 추정치일 뿐이다. NR 알고리즘의 일반적인 변종은 디코딩된 오디오 신호도 분석하지 않고 IP 패킷 수준의 디지털 비트 스트림 분석에 작용한다. 측정은 결과적으로 전송 스트림 분석으로 제한된다.
PESQ는 전체 참조 알고리즘으로, 해당 기준과 시험 신호의 발췌된 시간적 정렬 후 음성 신호 샘플을 샘플별로 분석한다. PESQ를 적용하여 네트워크에 대한 엔드투엔드(E2E) 품질 평가를 제공하거나 개별 네트워크 구성요소를 특성화할 수 있다.
PESQ 결과는 주로 1(불량)에서 5(우수)까지의 척도를 포함하는 평균 의견 점수(MOS)를 모델링한다. MOS-LQO에 대한 매핑 기능은 권고사항 ITU-T P.862.1에 요약되어 있다.[4]
참고 항목
- 지각목표청취품질분석(POLQA)
- 영상 화질의 지각적 평가
- 음질 지각평가에 관한 연구
- 청각 보조 음성 품질 지수(HASQI)
참조
- ^ a b "P.862 : Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs". www.itu.int. Retrieved 2021-04-20.
- ^ a b "P.863 : Perceptual objective listening quality prediction". www.itu.int. Retrieved 2021-04-11.
- ^ a b "P.862.3 : Application guide for objective quality measurement based on Recommendations P.862, P.862.1 and P.862.2". www.itu.int. Retrieved 2021-04-20.
- ^ a b "P.862.1 : Mapping function for transforming P.862 raw result scores to MOS-LQO". www.itu.int. Retrieved 2021-04-11.
- ^ "P.862.2 : Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs". www.itu.int. Retrieved 2021-04-11.
- ^ "P.863.1 : Application guide for Recommendation ITU-T P.863". www.itu.int. Retrieved 2021-04-11.
- ^ a b "P.563 : Single-ended method for objective speech quality assessment in narrow-band telephony applications". www.itu.int. Retrieved 2021-04-11.
http://www.aes.org/e-lib/browse.cfm?elib=11063
http://www.aes.org/e-lib/browse.cfm?elib=11062