This is a good article. Click here for more information.

블루

BLEU

BLEU(이중언어평가 언더스터디)는 자연어 사이에서 기계번역된 텍스트의 품질을 평가하기 위한 알고리즘이다.품질이 기계의 출력과 인간의 사이의 통신:BLEU.[1]BLEU 뒤에"점점 가까워질수록은 기계가 번역한 전문적인 인간의 번역에 좋다"– 이것은 중심 사상의 하나였다 메트릭스 quality,[2][3]의 인간의 판단과 높은 상관 관계에 포함시키고 남은 하나로 간주된다.그 대부분의인기 있는 자동화 및 저렴한 메트릭.

점수는 개개의 번역 세그먼트(일반적으로 문장)에 대해 고품질 레퍼런스 번역과 비교하여 계산됩니다.그런 다음 전체 말뭉치에 걸쳐 이러한 점수를 평균하여 번역의 전체 품질에 대한 추정치에 도달합니다.이해성 또는 문법적 정확성은 [citation needed]고려되지 않습니다.

BLEU의 출력은 항상 0과 1 사이의 숫자입니다.이 값은 후보 텍스트가 참조 텍스트와 얼마나 유사한지 나타내며, 1에 가까운 값은 더 유사한 텍스트를 나타냅니다.1점 만점에 도달하는 인간 번역은 거의 없습니다.이는 후보 번역자가 참조 번역자 중 하나와 동일함을 나타내기 때문입니다.이 때문에 1점을 받을 필요는 없다.일치시킬 기회가 더 많기 때문에 참조 번역을 추가하면 BLEU 점수가 [4]높아집니다.

수학적 정의

기본 셋업

BLEU 점수를 정의하기 위한 기본적인 첫 번째 시도에서는 후보 y {\ 참조문자열 (y ( ),. ., ( )} { ( y1 ) , . { (N ) )의 2개의 인수가 필요합니다.,Y 입니다. BLEU{y ), ...,와 비슷할 1에 가깝고, 그렇지 않을 경우 0에 가깝습니다.

를 들어, BLEU 점수는 참조 y( N {y ...에 얼마나 근접하는지 체크함으로써 학생 의 질을 높이려고 하는 언어 교사와 같습니다

자연어 처리에서는 대량의 후보 스트링 세트를 평가하고, M 후보 스트링('corpus라고 불린다)의 리스트가 있는 경우( ( ), ^ ( ){ style ( \ { } } 、 \ { \ { } 、 { y} 、 ( M ) ) 。 y ( ) { }^{ () . . , ( , ) S _ { i , 1 ) ( , ) 、 ... ^ { } 。

y 1 2 y { y = n { n1)에 따라 n-gset은 다음과 같이 정의됩니다.

들어 G2( b b ) { b , { 2} ( 멀티셋이 아닌 세트입니다.ba

임의의 2개의 s에서 서브스트링 Cyy의 서브스트링으로 합니다(예:

후보 S : ( ( ) , ( M ) : = { y } \ , { \ { } }{ ( ) _ ) ...,

수정된 n-그램 정밀도

수정된 n-그램 정밀도 함수를 정의한다.

복잡한 것처럼 보이는 수정된 n-그램은 하나의 후보 문장과 하나의 참조 문장으로 구성된 프로토타입 사례를 단순하게 일반화했을 뿐이다.이 경우, 그것은
이 식에 도달하기 위해 가장 명확한 n그램 카운트 합계로 시작합니다.
이 양은 후보 문장이 참조 문장의 n그램 수를 재현하는 것을 측정합니다.n-g이 아니라 n-substring을 카운트합니다.를 들어 y^ b b a, 2 { { y} =, yn2}인 2개의 문자열은 y { hat {로 표시되므로 카운트는 2가 아니라 6입니다.


그러나 위의 상황에서는 후보 문자열이 너무 짧습니다. 3번 나타나는 대신 1개만 포함되므로 이를 수정하기 위해 최소 기능을 추가합니다.

이 합계 카운트는 정규화되지 않았기 때문에 문장 간 비교에 사용할 수 없습니다.참조 문장과 후보 문장이 모두 길면 지원자의 질이 매우 낮더라도 카운트가 클 수 있습니다.그래서 우리는 그것을 정상화한다.
정규화는 항상 [의 숫자로 되어 기업 간의 의미 있는 비교를 가능하게 한다.

간결 패널티

수정된 n그램 정밀도는 "텔레그래픽" 후보 문자열, 즉 참조 문자열의 모든 n그램을 포함하지만 가능한 한 적은 횟수만큼 높은 점수를 줍니다.

너무 짧은 후보 스트링을 처벌하기 위해 다음과 같은 간결한 패널티를 정의합니다.

(r / -) + ( , / -) { / c - 1 ) = \ ( , / c -1 ) r / - 부분입니다.r가c{\ r / , 의 간결한 s.

c는 후보 말뭉치의 길이, 즉

y {\ y y {\y의 길이입니다.

rr은 유효 기준 말뭉치 길이이다. 즉,

서 y( , ) y -^() = \ \ _ { - { { }^{ ( i ) 、 즉, i}의 길이가y - { { i }인 S_ }의 문장입니다호환성이 있다.

BLEU의 최종 정의

BLEU에 대한 정의는 하나뿐 아니라 가중치 w : ( , 2, ){ w:= ( _ {1 , _ {} , \ ) { style\ { 3,cdots { style \ { 1, 에서의 확률 분포입니다.{i} {1,, ∈ [ , 1 i1\, w_

ww를 하면 BLEU 점수는 다음과 같습니다.

즉, 수정된 모든 n그램 정밀도의 가중 기하 평균에 간결 패널티를 곱한 값이다.우리는 가중 산술 평균 대신 가중 기하 평균을 사용하여 여러 n-그램 정밀도에 따라 동시에 좋은 후보 코퍼스를 강하게 선호한다.

원본 문서에서 권장하는 가장 일반적인 선택은 1 { { \=}[1]= 입니다.

알고리즘.

이것은 Papineni 등의 다음 예에 설명되어 있습니다.(2002):

정밀도가 높은 기계 번역 출력 불량 예시
후보
레퍼런스 1 고양이 매트.
레퍼런스 2 거기. a 고양이 매트.

후보 번역의 7개 단어 중 모두 참조 번역에 기재되어 있습니다.따라서 후보 텍스트에는 다음과 같은 단일그램 정밀도가 부여됩니다.

m {\ 참조에서 발견된 후보 단어 {\ 후보 단어 총 수입니다.위의 후보번역에서는 어느 쪽의 레퍼런스의 내용이 거의 남아 있지 않지만, 이것은 만점입니다.

BLEU의 수정은 매우 간단합니다.후보 변환의 각 단어에 대해 알고리즘은 임의의 참조 변환에서 최대 m을 취합니다.위의 예에서는 "the"라는 단어가 참조 1에 두 번 표시되고 참조 2에 한 번 표시됩니다. m m ~}=가 됩니다.

후보 변환의 경우 각 워드의 m {\}}이(가) 해당 워드의 m { 클리핑됩니다.이 경우 "the"는 ({}= a 2({~}=2 mw {displaystyle ~w})는 2로 잘립니다.이 클리핑 w{\ 후보 내의 모든 단어에 합산됩니다.이 합계를 후보 번역의 유니그램의 총수로 나눕니다.위의 예에서 변경된 unigram 정밀도 점수는 다음과 같습니다.

그러나 실제로는 개별 단어를 비교 단위로 사용하는 것이 최적이 아니다.대신 BLEU는 n-g을 사용하여 동일한 수정된 정밀도 메트릭을 계산합니다.단일 언어 인간의 [5]판단과 가장 높은 상관관계를 갖는 길이는 4개로 나타났다.유니그램 점수는 번역의 적절성, 얼마나 많은 정보를 보유하고 있는지를 설명하는 것으로 나타났습니다.n그램 점수가 길면 번역이 유창하거나 어느 정도 "좋은 영어"로 읽힐 수 있습니다.

후보 "The Cat"의 측정 기준 비교
모델 그램 세트 스코어
유니그램 "the", "the", "cat"
그룹화된 유니그램 "the"*2, "cat"*1
비그람 "the", "the cat"

상기와 같은 레퍼런스의 후보 변환의 예를 다음에 나타냅니다.

고양이

이 예에서 수정된 유니그램 정밀도는 다음과 같습니다.

단어 'the'와 'cat'이 후보에서 각각 한 번씩 나오는데, 총 단어 수는 두 개입니다.수정된 빅램의 정밀도는 1/1/ 됩니다. 빅램은 "고양이"가 후보군에 한 번 등장합니다.로 이 예제의 unigram 리콜이 될 것 3/6{3/6\displaystyle}또는 2/7{2/7\displaystyle}이 정밀 주로 리콜과[6]이 문제를 극복할 것인가 본과 자매 관계를 맺고 있다. 문제 중 다수의 참조 국어로 번역된 것은 나쁜 번역 쉽게 팽창된 리콜을 할 수 있다면, su지적되어 왔다.ch[7]참고문헌의 모든 단어로 구성된 번역본으로서.

전체 말뭉치에 대한 점수를 생성하기 위해, 세그먼트에 대한 수정된 정밀도 점수는 기하 평균에 간결한 패널티를 곱한 값을 사용하여 결합되어 매우 짧은 후보자가 너무 높은 점수를 받는 것을 방지한다.r은 참조 말뭉치의 총 길이, c는 번역 말뭉치의 총 길이라고 하자.r \ c \ r( - /) \ e^ { ( - / c )} 。(복수의 참조문의 경우 r은 후보문장의 길이에 가장 가까운 문장의 길이의 합으로 간주됩니다.단, 2009년 이전 NIST 평가에서 사용한 메트릭 버전에서는 가장 짧은 참조 문장이 대신 사용되었다.)

iBLEU는 BLEU의 인터랙티브 버전이며, 사용자가 후보 변환에 의해 얻어진 BLEU 점수를 시각적으로 조사할 수 있습니다.또한 두 개의 다른 시스템을 시각적이고 인터랙티브한 방식으로 비교할 수 [8]있어 시스템 개발에 유용합니다.

성능

BLEU는 종종 [9][10][11]인간의 판단과 잘 관련이 있는 것으로 보고되어 왔으며, 새로운 평가 지표의 평가의 벤치마크로 남아 있다.그러나 많은 비판이 제기되고 있다.BLEU는 원칙적으로 어떤 언어의 번역도 평가할 수 있지만 현재 형태로는 단어 [12]경계가 없는 언어에 대처할 수 없다는 점에 주목하고 있다.

BLEU의 장점은 크지만 BLEU 점수 상승이 번역 [13]품질 향상을 나타내는 지표라는 보장은 없다는 주장이 제기됐다.

「 」를 참조해 주세요.

메모들

  1. ^ Papineni, K. 등(2002)
  2. ^ Papineni, K. 등(2002)
  3. ^ 코글린, D. (2003)
  4. ^ Papineni, K. 등(2002)
  5. ^ Papineni, K. 등(2002)
  6. ^ Papineni, K. 등(2002)
  7. ^ 코글린, D. (2003)
  8. ^ 도딩턴, G. (2002)
  9. ^ Denoual, E. 및 Lepage, Y. (2005)
  10. ^ Calison-Burch, C., Osborne, M. 및 Koehn, P. (2006)
  11. ^ Lee, A. 및 Przybocki, M. (2005)
  12. ^ Calison-Burch, C., Osborne, M. 및 Koehn, P. (2006)
  13. ^ 린, C. 및 Och, F. (2004)
  14. ^ Calison-Burch, C., Osborne, M. 및 Koehn, P. (2006)
  15. ^ 노스캐롤라이나주 마드나니 (2011년)

레퍼런스

  1. ^ Papineni, Kishore; Roukos, Salim; Ward, Todd; Zhu, Wei-Jing (2001). "BLEU". Proceedings of the 40th Annual Meeting on Association for Computational Linguistics - ACL '02. Morristown, NJ, USA: Association for Computational Linguistics. doi:10.3115/1073083.1073135.

참고 문헌

외부 링크