블루
BLEUBLEU(이중언어평가 언더스터디)는 자연어 사이에서 기계번역된 텍스트의 품질을 평가하기 위한 알고리즘이다.품질이 기계의 출력과 인간의 사이의 통신:BLEU.[1]BLEU 뒤에"점점 가까워질수록은 기계가 번역한 전문적인 인간의 번역에 좋다"– 이것은 중심 사상의 하나였다 메트릭스 quality,[2][3]의 인간의 판단과 높은 상관 관계에 포함시키고 남은 하나로 간주된다.그 대부분의인기 있는 자동화 및 저렴한 메트릭.
점수는 개개의 번역 세그먼트(일반적으로 문장)에 대해 고품질 레퍼런스 번역과 비교하여 계산됩니다.그런 다음 전체 말뭉치에 걸쳐 이러한 점수를 평균하여 번역의 전체 품질에 대한 추정치에 도달합니다.이해성 또는 문법적 정확성은 [citation needed]고려되지 않습니다.
BLEU의 출력은 항상 0과 1 사이의 숫자입니다.이 값은 후보 텍스트가 참조 텍스트와 얼마나 유사한지 나타내며, 1에 가까운 값은 더 유사한 텍스트를 나타냅니다.1점 만점에 도달하는 인간 번역은 거의 없습니다.이는 후보 번역자가 참조 번역자 중 하나와 동일함을 나타내기 때문입니다.이 때문에 1점을 받을 필요는 없다.일치시킬 기회가 더 많기 때문에 참조 번역을 추가하면 BLEU 점수가 [4]높아집니다.
수학적 정의
기본 셋업
BLEU 점수를 정의하기 위한 기본적인 첫 번째 시도에서는 후보 y {\과 참조문자열 (y ( ),. ., ( )} { ( y1 ) , . { (N ) )의 2개의 인수가 필요합니다.은 ,Y 입니다. BLEU{는y 가 ), ...,와 비슷할 1에 가깝고, 그렇지 않을 경우 0에 가깝습니다.
를 들어, BLEU 점수는 참조 y( N {y ...에 얼마나 근접하는지 체크함으로써 학생 의 질을 높이려고 하는 언어 교사와 같습니다
자연어 처리에서는 대량의 후보 스트링 세트를 평가하고, M 후보 스트링('corpus라고 불린다)의 리스트가 있는 경우( ( ), ^ ( ){ style ( \ { } } 、 \ { \ { } 、 { y}) 、 ( M ) ) 。 y ( ) { }^{ () . . , ( , ) S _ { i , 1 ) ( , ) 、 ... ^ { } 。
y 1 2 y { y = 및 n { n1)에 따라 n-gset은 다음과 같이 정의됩니다.
임의의 2개의 s에서 서브스트링 C를yy의 서브스트링으로 합니다(예:
후보 S : ( ( ) , ( M ) : = { y } \ , { \ { } }{ ( ) _ )。 ...,
수정된 n-그램 정밀도
수정된 n-그램 정밀도 함수를 정의한다.
그러나 위의 상황에서는 후보 문자열이 너무 짧습니다.가 3번 나타나는 대신 1개만 포함되므로 이를 수정하기 위해 최소 기능을 추가합니다.
간결 패널티
수정된 n그램 정밀도는 "텔레그래픽" 후보 문자열, 즉 참조 문자열의 모든 n그램을 포함하지만 가능한 한 적은 횟수만큼 높은 점수를 줍니다.
너무 짧은 후보 스트링을 처벌하기 위해 다음과 같은 간결한 패널티를 정의합니다.
c는 후보 말뭉치의 길이, 즉
rr은 유효 기준 말뭉치 길이이다. 즉,
BLEU의 최종 정의
BLEU에 대한 정의는 하나뿐 아니라 가중치 w : ( , 2, ){ w:= ( _ {1 , _ {} , \ ) { style\ { 3,cdots { style \ { 1, 에서의 확률 분포입니다.{i}및 {1,, ∈ [ , 1 i1\, w_
ww를 하면 BLEU 점수는 다음과 같습니다.
원본 문서에서 권장하는 가장 일반적인 선택은 1 ⋯ { { \=}[1]= 입니다.
알고리즘.
이것은 Papineni 등의 다음 예에 설명되어 있습니다.(2002):
후보 | 그 | 그 | 그 | 그 | 그 | 그 | 그 |
---|---|---|---|---|---|---|---|
레퍼런스 1 | 그 | 고양이 | 이 | 에 | 그 | 매트. | |
레퍼런스 2 | 거기. | 이 | a | 고양이 | 에 | 그 | 매트. |
후보 번역의 7개 단어 중 모두 참조 번역에 기재되어 있습니다.따라서 후보 텍스트에는 다음과 같은 단일그램 정밀도가 부여됩니다.
서m {\은 참조에서 발견된 후보 단어 {\는 후보 단어 총 수입니다.위의 후보번역에서는 어느 쪽의 레퍼런스의 내용이 거의 남아 있지 않지만, 이것은 만점입니다.
BLEU의 수정은 매우 간단합니다.후보 변환의 각 단어에 대해 알고리즘은 임의의 참조 변환에서 최대 m을 취합니다.위의 예에서는 "the"라는 단어가 참조 1에 두 번 표시되고 참조 2에 한 번 표시됩니다. m m ~}=가 됩니다.
후보 변환의 경우 각 워드의 m {\}}이(가) 해당 워드의 m {로 클리핑됩니다.이 경우 "the"는 ({}= a 2({~}=2를 mw {displaystyle ~w})는 2로 잘립니다.이 클리핑 w{\은 후보 내의 모든 단어에 합산됩니다.이 합계를 후보 번역의 유니그램의 총수로 나눕니다.위의 예에서 변경된 unigram 정밀도 점수는 다음과 같습니다.
그러나 실제로는 개별 단어를 비교 단위로 사용하는 것이 최적이 아니다.대신 BLEU는 n-g을 사용하여 동일한 수정된 정밀도 메트릭을 계산합니다.단일 언어 인간의 [5]판단과 가장 높은 상관관계를 갖는 길이는 4개로 나타났다.유니그램 점수는 번역의 적절성, 얼마나 많은 정보를 보유하고 있는지를 설명하는 것으로 나타났습니다.n그램 점수가 길면 번역이 유창하거나 어느 정도 "좋은 영어"로 읽힐 수 있습니다.
모델 | 그램 세트 | 스코어 |
---|---|---|
유니그램 | "the", "the", "cat" | |
그룹화된 유니그램 | "the"*2, "cat"*1 | |
비그람 | "the", "the cat" |
상기와 같은 레퍼런스의 후보 변환의 예를 다음에 나타냅니다.
- 고양이
이 예에서 수정된 유니그램 정밀도는 다음과 같습니다.
단어 'the'와 'cat'이 후보에서 각각 한 번씩 나오는데, 총 단어 수는 두 개입니다.수정된 빅램의 정밀도는 1/1/이 됩니다. 빅램은 "고양이"가 후보군에 한 번 등장합니다.로 이 예제의 unigram 리콜이 될 것 3/6{3/6\displaystyle}또는 2/7{2/7\displaystyle}이 정밀 주로 리콜과[6]이 문제를 극복할 것인가 본과 자매 관계를 맺고 있다. 문제 중 다수의 참조 국어로 번역된 것은 나쁜 번역 쉽게 팽창된 리콜을 할 수 있다면, su지적되어 왔다.ch각 [7]참고문헌의 모든 단어로 구성된 번역본으로서.
전체 말뭉치에 대한 점수를 생성하기 위해, 세그먼트에 대한 수정된 정밀도 점수는 기하 평균에 간결한 패널티를 곱한 값을 사용하여 결합되어 매우 짧은 후보자가 너무 높은 점수를 받는 것을 방지한다.r은 참조 말뭉치의 총 길이, c는 번역 말뭉치의 총 길이라고 하자.r \ c \ r 、 ( - /) \ e^ { ( - / c )} 。(복수의 참조문의 경우 r은 후보문장의 길이에 가장 가까운 문장의 길이의 합으로 간주됩니다.단, 2009년 이전 NIST 평가에서 사용한 메트릭 버전에서는 가장 짧은 참조 문장이 대신 사용되었다.)
iBLEU는 BLEU의 인터랙티브 버전이며, 사용자가 후보 변환에 의해 얻어진 BLEU 점수를 시각적으로 조사할 수 있습니다.또한 두 개의 다른 시스템을 시각적이고 인터랙티브한 방식으로 비교할 수 [8]있어 시스템 개발에 유용합니다.
성능
BLEU는 종종 [9][10][11]인간의 판단과 잘 관련이 있는 것으로 보고되어 왔으며, 새로운 평가 지표의 평가의 벤치마크로 남아 있다.그러나 많은 비판이 제기되고 있다.BLEU는 원칙적으로 어떤 언어의 번역도 평가할 수 있지만 현재 형태로는 단어 [12]경계가 없는 언어에 대처할 수 없다는 점에 주목하고 있다.
BLEU의 장점은 크지만 BLEU 점수 상승이 번역 [13]품질 향상을 나타내는 지표라는 보장은 없다는 주장이 제기됐다.
「 」를 참조해 주세요.
메모들
- ^ Papineni, K. 등(2002)
- ^ Papineni, K. 등(2002)
- ^ 코글린, D. (2003)
- ^ Papineni, K. 등(2002)
- ^ Papineni, K. 등(2002)
- ^ Papineni, K. 등(2002)
- ^ 코글린, D. (2003)
- ^ 도딩턴, G. (2002)
- ^ Denoual, E. 및 Lepage, Y. (2005)
- ^ Calison-Burch, C., Osborne, M. 및 Koehn, P. (2006)
- ^ Lee, A. 및 Przybocki, M. (2005)
- ^ Calison-Burch, C., Osborne, M. 및 Koehn, P. (2006)
- ^ 린, C. 및 Och, F. (2004)
- ^ Calison-Burch, C., Osborne, M. 및 Koehn, P. (2006)
- ^ 노스캐롤라이나주 마드나니 (2011년)
레퍼런스
- ^ Papineni, Kishore; Roukos, Salim; Ward, Todd; Zhu, Wei-Jing (2001). "BLEU". Proceedings of the 40th Annual Meeting on Association for Computational Linguistics - ACL '02. Morristown, NJ, USA: Association for Computational Linguistics. doi:10.3115/1073083.1073135.
참고 문헌
- Papineni, K.; Roukos, S.; Ward, T.; Zhu, W. J. (2002). BLEU: a method for automatic evaluation of machine translation (PDF). ACL-2002: 40th Annual meeting of the Association for Computational Linguistics. pp. 311–318. CiteSeerX 10.1.1.19.9416.
- Papineni, K., Roukos, S., Ward, T., Henderson, J. and Reeder, F. (2002)"Corpus 기반의 포괄적 및 진단 MT 평가: 초기 아랍어, 중국어, 프랑스어 및 스페인어 결과, 2016-03-04년 웨이백 머신에서 보관, 2002년 휴먼 언어 기술 진행, 132-137페이지
- Calison-Burch, C., Osborne, M. and Koehn, P. (2006) 컴퓨터 언어학 협회 유럽 지부 11차 총회에서 "기계 번역 연구에서 BLEU의 역할 재평가" (EACL 2006 페이지 24-9256)
- Doddington, G. (2002) 미국 캘리포니아주 샌디에이고, HLT(Human Language Technology Conference)의 진행에서 "n그램 동시 발생 통계를 이용한 기계 번역 품질 자동 평가"
- Cooklin, D. (2003) 미국 뉴올리언스, MT 서밋 IX의 "기계 번역 품질의 자동화 및 인간 평가의 상관" 페이지 23-27
- Denoual, E. and Lepage, Y. (2005) "제2회 자연언어 처리 국제공동회의 의사록 동반편" (81-86페이지)의 "문자 내 BLEU: 단어 구분자가 없는 언어의 자동 MT 평가를 향해"
- Lee, A. 및 Przybocki, M. (2005) NIST 2005 기계번역 평가 공식 결과
- 컴퓨터 언어학회 제42회 연차총회 의사록에서 Lin, C. and Och, F. (2004) "최장 공통 수속과 스킵 빅램 통계를 사용한 기계 번역 품질 자동 평가"
- 노스캐롤라이나주 마드나니(2011년)"제5회 IEEE 국제 시맨틱 컴퓨팅 회의(데모스), 팰로 알토, CA" 페이지 213-214의 "iBLEU: 인터랙티브 스코어링 및 디버깅 통계 기계 번역 시스템"
외부 링크
- BLEU – 2개 국어 평가 Coursera Karlsruhe 공과대학 기계번역 강좌 언더스터디 강의