레포르

LEPOR

LEPOR(Length Pency, Precision, n-gram Position difference Pency and Recall)은 조정 가능한 매개변수와 강화된 요소를 가진 자동 언어 독립 기계 번역 평가 지표다.

배경

IBM은 MT(Machine Translation) 평가의 자동 지표로서 BLEU[1] 시스템을 제안·실현한 이후,[2] TER, MATE [3]등, 그것을 수정·개선하는 다른 많은 방법들이 제안되어 왔다.그러나 기존의 자동평가 지표에는 몇 가지 문제가 있다.어떤 지표는 특정 언어에서는 잘 수행되지만 다른 언어에서는 약하다, 이런 것을 보통 언어편향 문제로 부른다.어떤 지표들은 많은 언어 특징이나 언어 정보에 의존하는데, 이것은 다른 연구자들이 이 실험을 반복하는 것을 어렵게 만든다.LEPOR은 기존의 일부 문제를 해결하려는 자동 평가 지표다.[4]LEPOR은 언어 편향 문제를 해결하기 위해 증강 요소와 그에 상응하는 조정 가능한 매개변수로 설계되었다.나아가, 개선된 LEPOR의 버전, 즉 HLEPOR에서는 나무은행에서 추출한 최적화된 언어적 특징을 이용하려고 한다.[5]LEPOR의 또 다른 고급 버전은 n-그램 기능을 이전 요인에 추가하는 nLEPOR 메트릭이다.[6]지금까지 LEPOR 지표는 LEPOR 시리즈로 개발되었다.[7][8]

LEPOR 지표는 기계 번역,[9] 자연어 생성,[10] 검색 등 [11]다양한 분야의 많은 연구자들에 의해 연구되고 분석되어 왔다.LEPOR 지표는 자연어 처리에서 과학 연구자들로부터 더 많은 관심을 받고 있다.

디자인

LEPOR은 길이 벌칙, 정밀도, n그램 워드 오더 벌칙, 리콜 강화 요인으로 설계됐다.강화된 길이 벌칙은 보통 기계번역시스템에 의해 번역되는 가설번역을 기준번역보다 길거나 짧을 경우 처벌하도록 보장한다.정밀도 점수는 가설 번역의 정확성을 반영한다.리콜 점수는 기준 번역 또는 소스 언어에 대한 가설 번역의 충실도를 반영한다.n그램 기반 워드 오더 페널티 계수는 가설 번역과 기준 번역 간의 서로 다른 위치 순서를 위해 설계된다.웡과 킷(2008)의 작업과 같은 많은 연구자들에 의해 오더 페널티 팩터라는 단어가 유용하다는 것이 증명되었다.[13]

빛에 사람들은 단어 표면 측정과 일치하는 문자열 구문의 부족과 의미 인식과 비판 받고, 더 개발된 LEPOR 미터(hLEPOR)연설(POS)의 일부 같은 언어적 기능을 통합 조사한다.만약의 표시 얼마나 자주'o'를[14][15]판매 시점은 구문론과 관점의 의미를 어떤 기능성, 즉. 소개됩니다Utput 문장은 명사가 될 것으로 예상되는 동안 동사인데, 벌칙이 있어야 한다. 또한 POS가 같지만 정확한 단어가 같지 않으면, 예를 들어, 좋은 문장 대 좋은 문장, 좋은 문장 대 좋은 문장 등, 이 후보자는 일정한 점수를 얻어야 한다.그런 다음 hLEPOR의 전체 점수는 가중치 집합과 함께 워드 레벨 점수와 POS 레벨 점수의 조합으로 계산된다.언어 모델링에서 영감을 받은 n그램 지식은 nLEPOR에서도 광범위하게 탐구되고 있다.[16][17]n-그램 위치차 벌칙 계산에 대한 n-그램 지식 이외에도 n-그램 정밀도 및 n-그램 리콜에도 n-그램이 적용되며, 매개변수 n은 조정 가능한 요인이다.HLEPOR에 대한 POS 지식 외에도, 정보 구문 분석에서 나온 문구 구조가 새로운 변종 HPPR에 포함되어 있다.[18]HPPR 평가 모델링에서 명사구, 동사구, 전치사구, 부사구 등 구 구조 집합은 후보 텍스트에서 참조 텍스트로 매칭하는 동안 고려된다.

소프트웨어 구현

LEPOR 지표는 원래 Perl 프로그래밍 언어로 구현되었으며,[19] 최근에는 Logrus Global Language Service 회사의 언론 발표와 함께 다른 연구자와 엔지니어가 파이썬 버전을 이용할 수 있다.[21]

퍼포먼스

LEOR 시리즈는 ACL-WMT(Statistical Machine Translation, ACL-WMT)의 ACL 연례 국제 워크숍에서 좋은 성과를 보여 왔다. ACL-WMT는 ACL(International Association of Machine Translation, ACL)의 특별 이익집단에 의해 개최된다.ACL-WMT 2013에는 영어 대 기타 및 기타 대 영어의 두 가지 번역 및 평가 트랙이 있다.[23]"다른" 언어로는 스페인어, 프랑스어, 독일어, 체코어, 러시아어가 있다.영어 대 기타 방향에서, nLEPOR 지표는 Pearson 상관 계수를 사용하여 인간 판단으로 가장 높은 시스템 수준 상관 계수, 스피어맨 순위 상관 계수를 사용한 인간 판단으로 두 번째로 높은 시스템 수준 상관 계수 점수를 획득한다.영어의 다른 방향에서, nLEPOR는 중간을 수행하고 MICE는 인간 판단과 가장 높은 상관관계 점수를 산출하는데, 이는 nLEPOR은 공식적으로 제공되는 훈련 데이터를 제외하고 간결한 언어적 특징, 음성 일부 정보만을 사용하기 때문이다. 그러나 MICE는 다음과 같은 다른 많은 외부 자원을 사용해 왔다.동의어 사전, 패러프레이즈, 줄임말

순수어표면 형태, POS 특징, 문구 태그 특징 등 다양한 조건을 가진 LEPOR의 성과에 대한 한 가지 연장된 연구와 소개가 마카오 대학의 논문에서 설명된다.[24]

WMT13의 hLEPOR 및 nLEPOR 성능에 대한 심층 통계 분석이 있으며, 이 분석은 "스페인어 대 영어 개별 언어 쌍 평가와 9개 언어 쌍의 집계 집합에서 모두" 최고의 지표 중 하나로 수행되었음을 보여준다. 자세한 내용은 논문(부문 수준 기계 번역 지표의 정확한 평가)을 참조하십시오.https://www.aclweb.org/anthology/N15-1124" Graham et al. 2015 NAACL(https://github.com/ygraham/segment-mteval)

적용들

LEPOR 자동 메트릭 시리즈는 자연어 처리 분야에서 다양한 분야의 많은 연구자들에 의해 적용되고 사용되어 왔다.예를 들어, 표준 MT그리고 신경 MT.[25]또한 발표자 공동체의, instance,[26]LEPOR 검색 평가에 적용되기 위한 밖에서[27],[28]LEPOR을 포함한 메트릭스로, 그리고 자동차 주장했다 자연 언어 생성의 자동 평가[29]조사 LEPOR의 코드(프로그래밍 언어)세대 평가에 대한 응용 프로그램을 언급했다.마틱 메트릭슬 수 있help 시스템 수준 평가. 이미지 캡션 평가에도 LEPOR이 적용된다.[30]

참고 항목

메모들

  1. ^ 파피네니 외, (2002)
  2. ^ 한, (2016년)
  3. ^ 배너지와 라비, (2005)
  4. ^ Han 등, (2012년)
  5. ^ 한 외, (2013a)
  6. ^ 한 외, (2013b)
  7. ^ Han 등, (2014년)
  8. ^ 한, (2014년)
  9. ^ 그레이엄 외, (2015년)
  10. ^ 노비코바 외, (2017년)
  11. ^ 류 외, (2021년)
  12. ^ 한 외 (2012)
  13. ^ Wong and Kit, (2008)
  14. ^ 한 외 (2013a)
  15. ^ 한 (2014년)
  16. ^ 한 외 (2013b)
  17. ^ 한 (2014년)
  18. ^ 한 외 (2013c)
  19. ^ "GitHub - aaronlifenghan/Aaron-project-lepor: LEPOR: A Robust Evaluation Metric for Machine Translation with Augmented Factors". GitHub. 8 January 2022.
  20. ^ "HLepor: This is Python port of original algorithm by Aaron Li-Feng Han".
  21. ^ "GitHub - lHan87/LEPOR". GitHub. 5 May 2021.
  22. ^ https://slator.com/press-releases/logrus-global-adds-hlepor-translation-quality-evaluation-metric-python-implementation-on-pypi-org/
  23. ^ ACL-WMT(2013년)
  24. ^ 한 (2014년)
  25. ^ 마르주크와 한센시라(2019년)
  26. ^ 류 외, (2021년)
  27. ^ 리구오리 외 연구진(2021년)
  28. ^ 노비코바 외, (2017년)
  29. ^ 셀리킬마즈 외(2020)
  30. ^ 치우 외 (2020)

참조

  • 파피네니, K, 루코스, S, 워드, T, 주, W. J. (2002)ACL-2002: 제40차 전산언어학협회 연례회의 "BLU: 기계번역 자동평가 방법" 페이지 311~318
  • 한, A.L.F., Wong, D.F., Chao, L.S. (2012) "LPOR: 증강요소가 있는 기계번역을 위한 강력한 평가지표" (CLORING 2012) 제24회 국제전산언어학회의(COLING 2012)의 진행에 있다. 포스터, 페이지 441~450. 인도 뭄바이. 온라인 용지 오픈 소스 도구
  • Han, A.L.F., Wong, D.F., Chao, L.S., He, L., Lu, Y., Xing, J., and Zeng, X. (2013a) "Language-independent Model for Machine Translation Evaluation with Reinforced Factors" in Proceedings of the Machine Translation Summit XIV (MT SUMMIT 2013), pp. 215-222. 좋았어, 프랑스. 게시자: 국제 기계 번역 협회. 온라인 용지 오픈 소스 도구
  • Han, A.L.F., Wong, D.F., Chao, L.S., Lu, Y., He, L., Wang, Y., and Zhou, J. (2013b) "A Description of Tunable Machine Translation Evaluation Systems in WMT13 Metrics Task" in Proceedings of the Eighth Workshop on Statistical Machine Translation, ACL-WMT13, Sofia, Bulgaria. 컴퓨터 언어학 협회. 온라인 종이 페이지 414-421
  • Han, Aaron L.-F.; Wong, Derek F.; Chao, Lidia S.; He, Liangye; Lu, Yi (2014). "Unsupervised Quality Estimation Model for English to German Translation and Its Application in Extensive Supervised Evaluation". The Scientific World Journal. 2014: 1–12. doi:10.1155/2014/760301. PMC 4032676. PMID 24892086.
  • ACL-WMT.(2013) "ACL-WMT13 메트릭 태스크"
  • 웡, B.T-M, 및 Kit, C.(2008).워크샵의 "자동 MT 평가를 위한 단어 선택 및 단어 위치": 측정 기준미주 기계번역협회(AMTA), 미국 와이키키(Waikiki)의 MATR.
  • Banerjee, S. and Lavie, A. (2005) "METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments" in Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization at the 43rd Annual Meeting of the Association of Computational Linguistics (ACL-2005), Ann Arbor, Michigan, June 2005
  • 한, 리펑.(2014) "LEOR: 증강 기계 번역 평가 지표"소프트웨어 공학 석사 논문.마카오의 대학교, 마카오.[1] PPT
  • 이베트 그레이엄, 티모시 볼드윈, 니티카 마투르.(2015) 부문별 기계 번역 지표의 정확한 평가.NAACL HLT 2015에서 2015년 북미 컴퓨터언어학협회 총회:Human Language Technologies, 덴버, 미국 콜로라도, 2015년 5월 31일 - 6월 5일 1183–1191페이지.
  • Han, Lifeng (2016). "Machine Translation Evaluation Resources and Methods: A Survey". arXiv:1605.04515 [cs.CL].
  • 제카테리나 노비코바, 온드레지 두셰크, 아만다 체르카스 카레, 베레나 리제르.(2017) NLG에 대한 새로운 평가지표가 필요한 이유.덴마크 코펜하겐 2241~2252페이지의 2017년 자연어 처리 경험적 방법에 관한 회의 절차.컴퓨터 언어학 협회.
  • Liu, Zeyang; Zhou, Ke; Wilson, Max L. (2021). "Meta-evaluation of Conversational Search Evaluation Metrics". ACM Transactions on Information Systems. 39 (4): 1–42. arXiv:2104.13453. doi:10.1145/3445029. S2CID 233423567.
  • Liguori, Pietro; Al-Hossami, Erfan; Cotroneo, Domenico; Natella, Roberto; Cukic, Bojan; Shaikh, Samira (2021). "Shellcode_IA32: A Dataset for Automatic Shellcode Generation". arXiv:2104.13100 [cs.SE].
  • Celikyilmaz, Asli; Clark, Elizabeth; Gao, Jianfeng (2020). "Evaluation of Text Generation: A Survey". arXiv:2006.14799 [cs.CL].
  • D Qiu, B Rothrock, T Islam, AK Didier, VZ Sun…(2020) SCPI: 데이터 우선 순위 지정 및 로컬 이미지 검색을 위한 지형 이미지 과학 캡션행성과 우주.엘스비에
  • Marzouk, Shaimaa; Hansen-Schirra, Silvia (2019). "Evaluation of the impact of controlled language on neural machine translation compared to other MT architectures". Machine Translation. 33 (1–2): 179–203. doi:10.1007/s10590-019-09233-w. S2CID 171094946.
  • Han, Aaron Li-Feng; Wong, Derek F.; Chao, Lidia S.; He, Liangye; Li, Shuo; Zhu, Ling (2013). "Phrase Tagset Mapping for French and English Treebanks and Its Application in Machine Translation Evaluation". Language Processing and Knowledge in the Web. Lecture Notes in Computer Science. Vol. 8105. pp. 119–131. doi:10.1007/978-3-642-40722-2_13. ISBN 978-3-642-40721-5.

외부 링크