고유어식별 식별
Native-language identificationNLI(Native Language Identification, NLI)는 제2외국어(L2)로 쓴 글만을 바탕으로 저자의 모국어(L1)를 결정하는 과제다.[1] NLI는 특정 L1 그룹에 공통적인 언어 사용 패턴을 파악한 다음 이 지식을 적용하여 이전에 보지 못한 텍스트의 모국어를 예측하는 작업을 한다. 이것은 제2언어 습득, 언어교육, 법의학 언어학 등에 부분적으로 응용한 것에 의해 동기가 부여된다.
개요
NLI는 저자의 L1이 모국어의 영향을 받아 L2의 특정 언어 생산 패턴을 향해 그것들을 처분할 것이라는 가정 하에 작동한다. 이는 L1의 전송 효과를 후기 학습 언어에 대한 분석하는 제2언어획득(SLA) 분야의 핵심 주제인 교차언어적 영향(CLI)과 관련이 있다.
대규모 영어 데이터를 사용하여, NLI 방법은 11개의 서로 다른 L1 배경의[citation needed] 저자들이 쓴 본문의 모국어를 예측하는 데 80% 이상의 정확도를 달성한다. 이것은 무작위로 선택했을 때 기준선인 9%와 비교할 수 있다.
적용들
교육학 및 언어전달
이러한 L1 특유한 특징의 식별은 제2언어 습득 시 언어 전달 효과를 연구하기 위해 사용되어 왔다.[2] 이것은 교육학 자료, 교수법, L1별 지침을 개발하고 모국어에 맞춘 학습자 피드백을 생성하는 데 유용하다.
법의학 언어학
NLI 방법은 언어적 배경을 포함한 저자의 속성을 유추하기 위해 저자 프로파일링을 수행하는 방법으로 법의학 언어학에도 적용될 수 있다. 이것은 특히 조사의 핵심 증거물인 문자(예: 익명의 편지)와 글쓴이의 모국어에 대한 단서가 출처를 확인하는 데 수사관들에게 도움을 줄 수 있는 상황에서 유용하다. 이는 이미 정보기관의 관심과 자금을 끌어모은 바 있다.[3]
방법론
자연어 처리 방법은 L1 그룹의 스피커에서 공통적으로 사용되는 언어 사용 패턴을 추출하고 식별하는 데 사용된다. 이것은 보통 학습자 말뭉치로부터 언어 학습자 데이터를 사용하여 수행된다. 다음으로 기계학습은 지지 벡터 기계와 같은 분류자를 훈련시켜 보이지 않는 지문의 L1을 예측하는 데 응용된다.[4] 다양한 앙상블 기반 시스템도 업무에 적용되어 단일 분류기 시스템에 비해 성능이 향상되는 것으로 나타났다.[5][6]
이 과업에는 다양한 언어적 특징들이 적용되었다. 여기에는 구성 요소 분석, 문법적 종속성 및 언어의 일부 태그와 같은 통사적 특성이 포함된다. 문자, 단어, 보조정리 N그램과 같은 표면 수준의 어휘적 특징도 이 작업에 상당히 유용한 것으로 밝혀졌다. 그러나 문자 n그램이 이[7][8] 작업에 가장 적합한 단일 기능인 것 같다.
NAACL 2013의 BEA(Building Education Applications) 워크샵에서 NLI 공유 작업이 처음 개최되었다.[9] 이 대회는 전 세계 29개 팀으로부터 참가 신청을 받았고, 그 중 24개 팀이 그들의 시스템과 접근법을 설명하는 논문을 발표하기도 했다.
참고 항목
참조
- ^ 웡, 스제멍 조조, 마크 드라스. "원어 식별을 위한 파스 구조 탐구" 자연언어처리에 관한 실증적 방법에 관한 회의의 의사진행. 컴퓨터 언어학 협회, 2011.
- ^ 말마시, 셔빈, 마크 드라스. "Linear SVM Weights(선형 SVM 가중치 포함 언어 전송 가설)" 2014년 자연어 처리 경험적 방법에 관한 회의(EMNLP)의 개최. 2014.
- ^ 리아 퍼킨스. 2014. "L1 페르시아어 사용자들의 언어적 식별자: 저자 분석을 위한 NLID" 애스턴 대학의 박사 논문.
- ^ Tetreault 외 연구진, "Native Langules, Lost and Found: Native Language Identification에서의 자원과 경험적 평가", In Proc. 인터내셔널 콘프. 2012년 COLING(전산 언어학),
- ^ 말마시, 셰르빈, 스제멍 조조 웡, 마크 드라스. "NLI Shared Task 2013: MQ 제출". 건축 교육 응용을 위한 NLP의 혁신적 사용에 관한 제8차 워크숍의 진행. 2013.
- ^ 하빅, 부크, 세메노프, 알렉산더, 파실랴오, 에두아르도. 지식 기반 시스템의 "원어 식별을 위한 멀티태스킹 딥러닝", 2020
- ^ Radu Tudor Ionescu, Marius Popescu, Aoife Cahill. "원어 식별을 위한 문자열 커널: 커튼 뒤에서 본 통찰력", 컴퓨터 언어학, 2016
- ^ 라두 투도르 이오네스쿠와 마리우스 포페스쿠. "2017년 BEA12의 Procedures에서 문자열 커널이 시간의 테스트를 통과할 수 있는가?"
- ^ Tetreault 외, 2013년 "첫 번째 원어민 식별 공유 작업에 대한 보고서"