형태론적 사전

Morphological dictionary

계산언어학응용언어학 분야에서 형태학 사전은 표면 형태와 어휘 형태의 단어 사이의 대응점을 포함하는 언어 자원이다.표면적인 형태의 단어들은 자연어 텍스트에서 발견된다.표면 형태의 해당 어휘 형태는 문법적 정보(예: 언어, 성별숫자의 부분)에 따른 보조정리 형태다.영어에서 주는 것, 주는 것, 주는 것, 주는 것, 주는 것, 주는 것은 동사가 주는 것의 표면적인 형태다.어휘 형태는 "주어라" 동사일 것이다.형태학 사전에는 형태학 사전의 두 종류가 있다: 형태학 사전과 완전한 형태(비정렬) 사전이다.

주목할 만한 예와 형식

유니버설 모폴로지

통사적 의존성의 교차 언어론적 주석을 위한 보편적 의존성의 성공에 영감을 받아 형태학(예: UniMorph[1], UDer)에 대한 유사한 노력이 나타났다.[2]이러한 특징은 한 가지 형태가 연속적으로 있는 단순 표 형식( 구분)과 그 파생 형식(UDER), respp, 변곡 정보(UniMorph):

Aalen aalend V.PTCP;PRS

Aalen Aalen V;IND;PRS;1;PL

Aalen Aalen V;IND;PRS;3;PL

Aalen Aalen V;엔핀

(UniMorph, 독일어).기둥은 LEMMA, Form, Features)

UDer에서 추가 정보(말의 일부)는 열 내에 인코딩된다.

전근대_V 아반더룽_Nf dVN07>

Abarbyten_Nabarbyten_V dNV09>

아바틱_A 아바틱케이트_Nf dAN03>

아바트_Nf 아바틱_A dNA05>

Abbagern_V Abbagern_Nn dVN09>

(UDER, German DERIVASE 0.5).열은 BASE, 파생됨, 규칙)

쓰기(2021년) 당시, 이 모든 것은 비정렬 형태론적 사전(아래 참조)이다.이들의 단순한 형식은 특히 머신러닝 기법의 적용에 적합하며, 특히 유니몰프는 수많은 공유 과제의 대상이 되어 왔다.

유한 상태 변환기

FST(Fimited State Transducers)는 형태학, esp, 변곡형 형태학의 연산 처리를 위해 널리 사용되는 기법이다.규칙 기반 형태학적 파서에서 어휘소와 규칙 모두 일반적으로 유한 상태 자동화로 공식화되고 이후 결합된다.따라서 그들은 특정한 처리 지침서가 있는 형태학 사전을 요구한다(언어 해석은 종종 있지만, 기술적으로는 임의의 문자열 기호처럼 취급된다).[3]SFST와[4] 같은 인기 있는 FST 패키지(Debian과 Ubuntu의 fst 패키지로부터 이용 가능한 것)는 형태론적 어휘에 대한 응용 프로그램별 파일 형식을 정의할 수 있으며, 이는 모든 개별 형태소와 다른 형태론적 정보를 묶는 것이다.따라서 이것들은 정렬된 형태론적 사전이지만, 구조가 매우 풍부하다.


SMOR의[5] 샘플 데이터(독일 SFST 문법):

<베이스_시스템스>아헨.NN(Nativ)<nativ><nativ_s>.

<베이스_시스템스> 에알.NN.NMasc_es_e>

<베이스_시스템스>아라우.NN(Nativ)<nativ><nativ_s>.

<<슈프_스템>>.NN'nom[nom]:e[n]NN <SUFF><프롬프레스>

<<슈프_스템>>.NN[N]nominate[NN][기점]NMasc_en_en>

<<슈프_스템>>.NN[N]nominate[N][N]][NF]][NF]][NF]][NF]][FREI]]]]][

선형 광택 텍스트 편집기

IGT(Interlinear Glossed Text)는 언어 문서화, 언어 유형학 및 언어학과 언어학의 다른 분과에서 널리 사용되는 형식주의다.IGT는 전문화된 소프트웨어 없이도 만들 수 있지만(그러나 기존의 편집자만 있으면), 툴박스,[6] FLEX(FieldWorks Language Explorer)[7] 또는 Xigt와 같은 오픈소스 대체 소프트웨어와 같은 주목할 만한 사례로 이러한 전문화된 소프트웨어가 개발되었다.[8]툴박스와 FLX는 내부 형태학 사전을 통해 반자동 주석을 지원한다.사전에서 주석을 찾을 수 있는 형태학적 세그먼트를 만날 때마다 이 주석을 적용한다.형태학 세그먼트가 새로 주석을 달 때마다 주석은 사전에 저장된다.FLEx와 Toolbox는 주석에 있는 정보를 넘어서는 추가 정보를 추가할 수 있도록 텍스트 주석 달기와 사전 편집을 위한 서로 다른 편집기 기능을 제공하지만, 그 핵심에서 그들의 형식은 정렬된 형태론적 사전을 제공한다.

FLEx와 Xigt는 XML 형식을 기반으로 하며, Toolbox는 일반 텍스트 형식을 사용하여 독특한 "마커"를 사용한다.FLEx와 Toolbox는 서로 직접 상호 운용할 수 있는 것은 아니지만, FLEX에 대한 Toolbox용 반자동 변환기가 존재한다.Xigt는 FLEx 및 Toolbox 수입업체와 함께 제공되지만 FLEx 또는 Toolbox에 비해 널리 사용되지 않는다.FLEx와 Toolbox의 형식은 인간의 소비를 위한 것이 아니며, 기본 도구 이외의 처리 소프트웨어에 의해 잘 지원되지도 않는다.

ToEx-Morph: 형태학 사전을 위한 커뮤니티 표준

OnElex는 웹에서 기계로 읽을 수 있는 사전의 커뮤니티 표준이다.2019년에는 사전 편찬에서 형태학의 데이터 모델링을 용이하게 할 뿐만 아니라 자연 언어 처리를 위한 형태학 사전의 데이터 모델을 제공하기 위해 Onl렉스-모르프 모듈이 제안되었다.[9]OnElex-Morph는 정렬된 형태학 사전과 정렬되지 않은 형태학 사전을 모두 지원한다.구체적인 목표는 기계 학습에 사용되는 IGT 사전, FST 사전 및 형태학 사전 간의 상호운용성을 확립하는 것이다.

형태학 사전의 종류와 구조

정렬 형태학 사전

정렬된 형태론적 사전에서, 표면 형태와 단어의 어휘적 형태 사이의 대응은 문자 수준에서 정렬된다. 예를 들면 다음과 같다.

(h,h) (o,o) (u,u) (s,s) (e,e) (s,⟨n⟨), (⟩,⟨,⟨pl⟩)

여기서 θ은 빈 기호와 ⟨n⟩은 "noun"을, ⟨pl⟩은 "plural"을 나타낸다.

이 예에서 왼손은 표면 형태(입력)이고, 오른손은 어휘 형태(출력)이다.이 순서는 표면 형태에서 어휘적 형태가 생성되는 형태학적 분석에 사용된다.형태학적 생성에서 이 순서는 역전될 것이다.

형식적으로 σ이 입력 기호의 알파벳이고 출력 기호의 알파벳이라면 정렬된 형태학 사전은 부분집합 subset ( ) A\ 여기서

빈 기호를 포함하여 가능한 모든 맞춤의 알파벳이다.즉, 정렬된 형태학 사전은 L의 문자열 집합이다

비정렬 형태학 사전(전체 양식 사전)

비정렬 형태 사전( 전체 형식 사전)은 단순히 입력 및 출력 쌍의 2 (× 2^{*}}}}}}}}}}의 집합 U.비정렬 형태학 사전은 이전의 예를 다음과 같이 나타낼 것이다.

(주택, 주택)

비정렬 사전을 정렬된 사전으로 변환할 수 있다.왼쪽이나 오른쪽의 사소한 정렬 외에도, 언어학적으로 동기가 부여된 맞춤이 가능한데, 문자는 해당 형태소에 맞춰 정렬된다.

어휘적 모호성

종종 단어의 표면 형태와 관련된 둘 이상의 어휘적 형태가 존재한다.예를 들어, "집"은 단수, /haʊs/의 명사 또는 현재 시제의 동사 /ha verbz/일 수 있다.그 결과 입력 문자열과 해당 출력 문자열을 연결하는 기능이 필요하다.

If we define the set of input words such that , the correspondence function would be ^{\Gamma^{*}}로 정의된 ( )= w :( , w ) (w U

참조

  1. ^ 키로프, 크리스토, 라이언 코트렐, 존 실락-글라스만, 게랄딘 발터, 에카테리나 빌로모바, 패트릭 시아, 마나알 파루퀴 외 연구진."유니모프 2.0: 유니버설 형태학."LREC (2018)에서.
  2. ^ 키야넥, L, 쟈보크르츠키, Z, 셰프치코바, M, & 비드라, J. (2019, 9월)유니버설 파생 킥오프: 11개 언어를 위한 조화로운 파생 자원의 모음입니다.파생 형태학을 위한 자원과 도구에 관한 제2차 국제 워크숍의 진행 (pp. 101-110)
  3. ^ "A Short History of Two-Level Morphology". www.ling.helsinki.fi. Retrieved 2021-11-30.
  4. ^ 슈미드, 헬무트"유한 상태 변환기를 위한 프로그래밍 언어."FSMNLP, 4002, 페이지 308-309. 2005.
  5. ^ 슈미드, 헬무트, 아르네 피첸, 울리히 하이드."SMOR: 유도, 구성 및 변형을 다루는 독일식 계산 형태학."LREC에서, 2004 페이지 1-263.
  6. ^ "Field Linguist's Toolbox". software.sil.org. Retrieved 2021-11-27.
  7. ^ "FieldWorks". software.sil.org. Retrieved 2021-11-27.
  8. ^ "XIGT". XIGT. Retrieved 2021-11-27.
  9. ^ 클라이맥스, B, 맥크래, J. P, 보스크길, J, 이오노프, M, 타우버, J. K, & Chiarcos, C. (2019)온톨로지 어휘에서 형태론의 표현에 대한 도전.elex의 진행.