단어 오류율

Word error rate

Word Error Rate(WER; 단어 오류율)는 음성 인식 또는 기계 번역 시스템의 성능을 나타내는 일반적인 지표입니다.

성능 측정의 일반적인 어려움은 인식된 단어 시퀀스가 참조 단어 시퀀스와 다른 길이를 가질 수 있다는 사실에 있다(올바른 것으로 가정).WER는 음소 수준이 아닌 단어 수준에서 작동하는 Levenshtein 거리에서 파생됩니다.WER는 여러 시스템을 비교하고 한 시스템 내에서 개선 사항을 평가하는 데 유용한 도구입니다.그러나 이런 종류의 측정은 번역 오류의 성질에 대한 자세한 내용은 제공하지 않으므로 오류의 주요 원인을 파악하고 연구에 집중하기 위해 추가 작업이 필요합니다.

이 문제는 먼저 동적 문자열 정렬을 사용하여 인식된 단어 시퀀스를 참조(음성) 단어 시퀀스와 정렬함으로써 해결됩니다.이 문제에 대한 검토는 곤혹스러움과 단어 오류율 [1]사이의 상관관계를 기술하는 멱함수 법칙이라는 이론을 통해 볼 수 있다.

워드 오류율은 다음과 같이 계산할 수 있습니다.

어디에

  • S는 치환 횟수입니다.
  • D는 결손 횟수입니다.
  • 는 삽입 횟수입니다.
  • C는 정확한 단어의 수이고,
  • N은 참조에 포함된 단어 수(N=S+D+C)입니다.

'삭제'와 '삽입' 뒤에 있는 직관은 가설에 대한 참조로부터 얻는 방법입니다.그래서 우리가 "이것은 위키피디아"라는 참조와 "이 _ 위키피디아"라는 가설을 가지고 있다면 우리는 그것을 삭제라고 부른다.

음성 인식 시스템의 성능을 보고할 때 대신 WACC(Word Accuracy)가 사용될 수 있습니다.

N은 참조 내의 단어 수이므로 단어 오류율은 1.0보다 클 수 있으므로 단어 정확도는 0.0보다 작을 수 있습니다.

실험

일반적으로 단어 오류율이 낮을수록 단어 오류율이 높을 때보다 음성 인식 정확도가 우수하다고 여겨진다.그러나 적어도 하나의 연구는 이것이 사실이 아닐 수 있다는 것을 보여주었다.마이크로소프트 리서치 실험에서 사람들이 "이해를 위한 최적화 목표에 부합하는" 교육을 받았다면 (Wang, Acero 및 Chelba, 2003) 그들은 낮은 단어 오류율을 보인 다른 사람들보다 언어 이해에 있어 더 높은 정확도를 보일 것으로 보여 구어에 대한 진정한 이해가 있음을 보여주었다.높은 단어 인식 [2]정확성 그 이상에 의존합니다.

기타 지표

그러나 위와 같은 일반식을 사용할 때 한 가지 문제는 다른 유형의 오류가 성공적인 결과의 가능성에 미칠 수 있는 영향을 고려하지 않는다는 것입니다. 예를 들어, 일부 오류는 다른 오류보다 더 파괴적일 수 있고 다른 오류보다 더 쉽게 수정될 수 있습니다.이러한 요인은 테스트 대상 구문에 고유할 수 있습니다.또 다른 문제는 최적의 얼라인먼트가 있어도 이 공식은 치환오차와 결합삭제+삽입오차를 구별할 수 없다는 것입니다.

Hunt(1990)는 대체 오차는 단일성에 가중되지만 삭제 및 삽입 오차는 모두 0.5에 가중되는 성능 정확도의 가중 측정의 사용을 제안했다. 따라서 다음과 같다.

그러나 헌트의 공식이 보다 공정하게 경쟁하는 후보 시스템을 비교하는 수단으로 개발되었기 때문에 단일 시스템의 성능을 평가하는 데 적절하게 사용될 수 있는지에 대해서는 논란이 있다.특정 구문에서 오류 수정이 가능한지 여부 및 오류 수정이 가능한 경우 해당 프로세스가 사용자에게 얼마나 쉬운지에 따라 더 복잡해집니다.따라서 성능 지표가 측정되는 특정 시스템에 적합하도록 개발되어야 한다는 주장에는 어느 정도 장점이 있다.

그러나 어떤 메트릭을 사용하든 시스템 성능을 평가할 때 중요한 이론적 문제 중 하나는 단어가 "잘못 발음"되었는지, 즉 사용자에게 결함이 있는지 인식자에게 있는지 판단하는 것입니다.이는 특정 언어의 비원어민 사용자 또는 강한 지역 억양에 대응하도록 설계된 시스템에서 특히 관련이 있을 수 있습니다.

측정 과정에서 말을 해야 하는 속도 또한 피험자가 쉬거나 숨을 쉬어야 하는 필요성과 마찬가지로 피험자 간의 가변성의 원천이다.이러한 모든 요소는 어떤 식으로든 제어가 필요할 수 있습니다.

텍스트 받아쓰기의 경우 95% 미만의 속도에서 성능 정확도가 허용되지 않는다는 데 일반적으로 동의하지만, 이는 구문 및/또는 도메인 고유할 수 있습니다. 예를 들어 사용자가 작업을 완료해야 하는 시간적 압박이 있는지 여부, 다른 완료 방법이 있는지 여부 등입니다.

"단일 단어 오류율"이라는 용어는 시스템 어휘에서 각 다른 단어에 대한 잘못된 인식의 백분율로 언급되기도 합니다.

거리 편집

단어 오류율은 길이 정규화 편집 [3]거리라고도 합니다.X와 Y 사이의 정규화된 편집 거리 d(X, Y)는 W(P) / L(P)의 최소값으로 정의됩니다.여기서 P는 X와 Y 사이의 편집 경로, W(P)는 P의 기본 편집 동작의 가중치의 합계, L(P)는 이러한 [4]P 길이의 동작의 수입니다.

「 」를 참조해 주세요.

레퍼런스

메모들

  1. ^ Klakow, Dietrich; Jochen Peters (September 2002). "Testing the correlation of word error rate and perplexity". Speech Communication. 38 (1–2): 19–28. doi:10.1016/S0167-6393(01)00041-3. ISSN 0167-6393.
  2. ^ Wang, Y.; Acero, A.; Chelba, C. (2003). Is Word Error Rate a Good Indicator for Spoken Language Understanding Accuracy. IEEE Workshop on Automatic Speech Recognition and Understanding. St. Thomas, US Virgin Islands. CiteSeerX 10.1.1.89.424.
  3. ^ Nieenen 외 연구진(2000)
  4. ^ 정규화된 편집 거리 및 응용 프로그램 계산:안드록스 마잘과 엔리케 비달

기타 소스