유니버설 의존 관계

Universal Dependencies

Universal Dependencies(유니버설 의존관계)는 세계 언어의 트리 [1]뱅크를 만들기 위한 국제 협력 프로젝트입니다.이 트리뱅크들은 공개적으로 접근하고 이용할 수 있습니다.핵심 어플리케이션은 자연어 처리(NLP) 분야의 자동 텍스트 처리와 자연어 구문 및 문법, 특히 언어 유형학 분야의 연구입니다.이 프로젝트의 주요 목적은 언어 간 주석 일관성을 유지하면서 필요에 따라 언어별 확장을 허용하는 것입니다.주석 스킴은 Stanford Dependencies,[2] Google Universal Part-of-Speech [3]태그 및 Interset[4] Interlingua의 3가지 관련 프로젝트에 뿌리를 두고 있습니다.UD 주석 방식에서는 구문 구조 트리가 아닌 종속 트리 형식의 표현을 사용합니다.현재(2022년 1월) UD 인벤토리에는 100개 이상의 언어를 가진 200개가 조금 넘는 트리뱅크가 있습니다.

의존관계 구조

UD 주석 체계는 의존성 문법의 의존성 측면에서 문장의 구문 분석을 생성한다.각 종속성은 구문 함수의 관점에서 특징지어지며, 종속성 가장자리에 레이블을 사용하여 표시됩니다.예를 [5]들어 다음과 같습니다.

First UD picture

이 분석은 그녀, 남자, 그리고 쪽지가 좌파의 종속물이라는 을 보여준다.직접적인 개체(obj)그녀는 공칭 형상 주제(nsubj)것으로 확인된 그'인칭 대명사 그를 간접 목적어(iobj)과 명사구로 대명사 쪽지는 비록 그것이 아니라--는 것에 연결하는 추가적인 의존, 있다.두번째 예제:

UD picture 2

이 분석에 의해 주어(nsubj), 연결사(cop), 대명사(case)로 식별되며, 모두 대명사인 어근 단어 her의 종속어로 나타난다.다음 예제에는 expretive 및 excriptive 객체가 포함되어 있습니다.

UD picture 3

이 분석에서는, 거기서, 「explicate」(해명), 「food as nsubj」(nsubj), 「kitchen」(주방), 「case marker」(case)를 특정합니다.-또, 를 부엌에 접속하는 의존 관계도 있습니다만, 표시되지 않습니다.이 경우 연결사가 문장의 어근으로 배치된다는 점에 유의하십시오. 이는 바로 위의 두 번째 예에서 연결사가 어근의 종속자로 배치되는 것과 반대되는 사실입니다.

방금 제공된 UD 주석의 예는 물론 UD 프로젝트의 성격과 주석 스킴의 인상만 줄 수 있습니다.UD는 다양한 언어에 걸친 구조적 병렬화를 촉진하기 위해 언어 간 일관성 있는 의존성 분석을 생성하는 데 중점을 둔다.이를 위해 UD는 모든 언어에 유니버설 POS 태그셋을 사용합니다.단, 특정 언어가 각 태그를 사용할 필요는 없습니다.자유로운 형태소 구문 특징 세트를 통해 각 단어에 보다 구체적인 정보를 추가할 수 있다.종속성 링크의 유니버설라벨은 "universal:extension" 형식 뒤에 오는 콜론 뒤의 보조라벨(예:nsubj:pass)로 표시되는 보조관계로 지정할 수 있습니다.

기능어

의존관계 문법 커뮤니티 내에서는 UD 주석 방식이 논란이 되고 있습니다.주요 논쟁은 함수 단어 분석과 관련이 있습니다.UD는 함수어를 [6]내용어보다 하위어로 하는 것을 선택합니다.이것은 의존문법의 [7]전통에 반하는 관행입니다.이 논쟁을 간단히 설명하기 위해 UD는 주어진 문장의 다음과 같은 구조 분석을 작성한다.

Fourth UD picture, illustrates analysis of function words

이 예는 여기 [8]있는 기사에서 인용한 것입니다.이제 위의 규칙과 달리 종속성을 표시하는 대체 규칙이 사용됩니다.구문 함수는 가까운 지점에 중요하지 않기 때문에 이 구조 분석에서 제외됩니다.중요한 것은 이 UD 분석이 조동사의 의지를 내용 동사 say에, 전치사대명사에, 후치사는 내용 동사가 좋아하는 것, 그리고 입사는 내용 동사 swim에 종속시키는 방식이다.

이 문장의 보다 전통적인 의존성 문법 분석은 의미론보다는 통사적 고려에 의해 동기 부여된다.이 문장은 다음과 같다.[9]

UD picture 5

이 전통적인 분석은 조동사 will에 내용동사 say를, 전치사대명사를, 종속사좋아하는 내용동사를, 분사사에 수영한다.

메모들

  1. ^ de Marneffe, Marie-Catherine; Manning, Christopher D.; Nivre, Joakim; Zeman, Daniel (13 July 2021). "Universal Dependencies". Computational Linguistics. 47 (2): 255–308. doi:10.1162/coli_a_00402. S2CID 219304854.
  2. ^ "Stanford Dependencies". nlp.stanford.edu. The Stanford Natural Language Processing Group. Retrieved 8 May 2020.
  3. ^ Petrov, Slav (11 Apr 2011). "A Universal Part-of-Speech Tagset". arXiv:1104.2086 [cs.CL].
  4. ^ "Interset". cuni.cz. Institute of Formal and Applied Linguistics (Czech Republic). Retrieved 8 May 2020.
  5. ^ 이 섹션에서 설명하는 3가지 분석 예시는 여기 UD 웹 페이지(예 3, 21 및 23)에서 가져온 것입니다.
  6. ^ 선택은 Nivre(2015)가 주도했다.
  7. ^ UD를 둘러싼 논란과 의존관계 문법의 기능어 현황은 Osborne & Gerdes(2019)에서 상세히 논의된다.
  8. ^ 이 구조는 Osborne & Gerdes(2019) 기사의 (1b)에 기재되어 있다.
  9. ^ 이 구조는 Osborne & Gerdes(2019) 기사에 (1c) 나와 있다.

레퍼런스

  • 마네프, 마리캐서린, 크리스토퍼 D.매닝, 조아킴 니브레, 다니엘 제만입니다2021년 보편적 의존관계컴퓨터 언어학 47(2), 255~308.doi:10.1162/coli_a_00402
  • 마네프, 마리캐서린, 빌 매카트니, 크리스토퍼 D.매닝, 2006년구문 구조 구문에서 유형 종속성 구문 생성.LREC(Language Resources and Evaluation Conference) 2006에서 449~454.제노바.
  • 드 마네프, 마리 캐서린, 크리스토퍼 D.매니닝.2008년 스탠포드 대학 유형 종속성 표현.Cross-Framework 및 Cross-Domain 파서 평가에 관한 COLING 워크숍 진행, 92-97.소피아 도이: 10.3115/1608858.1608859
  • 마네프, 마리캐서린, 티모시 도자트, 나탈리아 실바이어, 카트린 하베리넨, 필리핀 긴터, 조아킴 니브르, 크리스토퍼 D.매니닝.2014. Universal Stanford 종속성:교차 언어 유형학이죠LREC(International Conference on Language Resources and Evaluation) 2014, 4585-4592.
  • 니브르, 조아킴2015. 자연언어처리를 위한 보편적 문법을 위하여.CICLING 2015: 제16회 인텔리전트 텍스트 처리 및 컴퓨터 언어학 국제회의, 3-16.doi:10.1007/978-319-18111-0_1
  • 오스본, 티모시 & 킴 거데스2019. 의존관계 문법의 함수어 현황:유니버설 의존성(UD)에 대한 비판. 용어:일반언어학 저널 4(1), 17.doi:10.5334/gjgl.537.
  • Petrov, Slav, Dipon Das, Ryan McDonald. 2012.범용 음성 부분 태그 세트.국제언어자원평가회의(LREC) 2012, 2089–2096.이스탄불.
  • 제만, 다니엘2008. 태그 세트 드라이버를 사용한 재사용 가능한 태그 세트 변환.국제언어자원평가회의(LREC) 2008, 213~218.마라케치