언어 범주

Linguistic categories

언어 범주에는 다음이 포함된다.

  • 어휘 범주, 명사, 전치사 등과 같은 언어의 일부분.
  • 구문 범주, 표현 범주를 포함할 수 있는 유사한 개념
  • 문법 범주, 시제, 성별 등과 같은 문법적 특징.

언어 범주의 정의는 언어 이론의 주요 관심사로서, 따라서 범주의 정의와 명칭은 다른 언어의 이론 체계와 문법적 전통에 따라 다르다. 사전 편찬, 계산 언어학, 자연 언어 처리, 말뭉치 언어학용어 관리에서 언어 범주의 운영화는 전형적으로 언어 범주의 자원, 문제 또는 응용 분야별 정의를 필요로 한다. 인지언어학에서 언어 범주는 언어의 공통어 범주의 그것과 같은 원형 구조를 가지고 있다고 주장되어 왔다.[1]

언어 카테고리 인벤토리

어휘 자원, 언어 주석 및 주석 도구 간의 상호운용성을 촉진하고 서로 다른 이론적 프레임워크에 걸친 언어 범주의 체계적 처리를 위해, 언어 범주의 많은 재고를 개발하여 사용하고 있으며, 다음과 같은 예시가 있다. 이러한 재고자산의 실무 목적은 정량적 평가(언어별 재고자산에 대한)를 수행하거나 NLP 도구를 교육하거나 언어 데이터의 교차 평가, 쿼리 또는 주석을 용이하게 하는 것이다. 이론적 수준에서 인간 언어의 보편적 범주의 존재는 예를 들어 보편적 문법에서 가정되어 왔지만, 또한 심하게 비판되어 왔다.

Part-of-Speech 태그 세트

학교에서는 일반적으로 영어명사, 동사, 기사, 형용사, 전치사, 대명사, 부사, 접속사, 간섭9부분이 있다고 가르친다. 그러나 분명히 더 많은 범주와 하위 범주가 있다. 명사의 경우 복수형, 소유형, 단수형을 구분할 수 있다. 많은 언어에서 단어들은 또한 그들의 경우(주제, 목적어 등), 문법적 성별 등으로 표시된다. 반면에 동사는 긴장, 양상, 그리고 다른 것들로 표시된다. 일부 태그 시스템에서는 동일한 루트 단어의 서로 다른 변형이 언어의 다른 부분을 얻어서 많은 수의 태그가 생성된다. 예를 들어, 단수 공통 명사의 경우 NN, 복수 공통 명사의 경우 NNS, 고유 고유 명사의 경우 NP(Brown Corpus에서 사용되는 POS 태그 참조). 다른 태그 시스템은 적은 수의 태그를 사용하고 미세한 차이를 무시하거나 음성 부분과 다소 독립적인 특징으로 모델링한다.[2]

컴퓨터에 의한 음성 부분 태그 지정에서는 영어의 음성 부분 50~150개를 구분하는 것이 일반적이다. POS 태깅 작업은 다양한 언어로 이루어졌으며 사용되는 POS 태그 세트는 언어에 따라 크게 다르다. 태그는 영어 명사가 아닌 대명사에 대한 대소문자표시와 같은 불일치와 훨씬 더 큰 교차 언어 차이와 같은 불일치로 이어지지만, 일반적으로 명백한 형태학적 구분을 포함하도록 설계된다. 그리스어라틴어와 같이 매우 번식이 심한 언어의 태그 세트는 매우 클 수 있다; 이누이트어와 같은 언어의 태그 세트는 사실상 불가능할 수 있다. 코인 그리스어 꼬리표를 붙이는 확률적인 방법에 관한 연구(DeRose 1990)는 1,000개 이상의 언어를 사용했으며, 영어와 마찬가지로 그 언어에서 약 많은 단어들이 모호하다는 것을 발견했다. 형태학적으로 풍부한 언어의 경우 형태론적 서술자는 일반적으로 매우 짧은 연상법을 사용하여 표현된다. 를 들어, 범주=노운, 유형 = 공통, 성별 = 남성, 숫자 = 단수, 사례 = 고발, 애니메이트 = no.

미국 영어 POS 태깅을 위한 가장 인기 있는 "태그 세트"는 아마도 펜트리뱅크 프로젝트에서 개발된 펜 태그 세트일 것이다.

다국어 주석 구성표

서유럽 언어의 경우, ELGS 가이드라인과 함께 언어학적으로 음성 부분, 모포사이언택 및 구문에 적용할 수 있는 주석 체계가 개발되었다. "언어공학적 표준에 관한 전문가 자문단"(EAGLES)은 1994년부터 1998년까지 이탈리아 피사의 콘소르지오 피사 리커슈에 의해 조정된 DG XII 언어 연구 및 엔지니어링 프로그램 내에서 운영된 유럽 위원회의 이니셔티브였다. ELGS 지침은 특히 컴퓨터 언어학 및 사전 편찬과 관련된 특징을 식별하기 위해 텍스트 컴퍼니와 함께 사용될 마크업을 위한 지침을 제공한다. 유럽연합 전역의 수많은 기업, 연구 센터, 대학 및 전문 기관들이 협력하여 ELGS 가이드라인을 제작하였다.[3] 이 가이드라인은 다음에 대한 사실상의 표준과 모범 사례의 규칙에 대한 권고안을 제시하였다.

  • 대규모 언어 자원(텍스트 컴퍼니, 컴퓨터 사전, 음성 컴퍼니 등)
  • 컴퓨터 언어 공식화, 언어 표시 및 다양한 소프트웨어 도구를 통해 이러한 지식을 조작하는 수단
  • 리소스, 도구 및 제품을 평가하고 평가하는 수단.

이글스 지침은 동유럽과 같은 다른 지역에서도 후속 작업에 영감을 주었다.[4]

한 세대 후, 연구 커뮤니티에 의해 보편적 의존성의 산하에 유사한 노력이 시작되었다. 페트로프 [5][6] 12개의 범주로 구성된 "수치" 그러나 매우 감소주의적인 태그 세트를 제안하였다(예를 들어, 명사, 동사, 구두점 등의 하위 유형 없음, 부정사 표식 대 전치사("전치사" 우연의 일치")로서 "to"를 구별하지 않음). 이어서, 이 보편적 의존성, 국제 협력 프로젝트가 전 세계의 languag의 treebanks를 만들기 위해(UD)의 맥락에서, 의존 구문(스탠포드 의존성)[7]과morphosyntax(Interset interlingua,[8]의 Multext-East/Eagles 전통을 짓기)에cross-lingual 규격을 보완되었다.wi은음성, 종속성 구문 및 (일반) 형태 합성적(일반적) 특징의 일부에 대해 횡단적으로 적용할 수 있는("일반적") 주석. 핵심 애플리케이션은 자연어 처리(NLP) 분야의 자동화된 텍스트 처리와 자연어 구문 및 문법 연구, 특히 언어유형학 내에서의 자연어 구문 및 문법 연구다. 주석 구성은 세 가지 관련 프로젝트에 뿌리를 두고 있다. UD 주석 체계는 문구 구조 트리와 반대의존성 트리의 형태로 표현을 사용한다. 2019년 2월 현재 UD 인벤토리에는 70개 이상의 언어를 사용할 수 있는 100개가 조금 넘는 트리뱅크가 있다.[9] 이 프로젝트의 주요 목적은 주석을 언어간 일관성을 달성하는 것이다. 그러나 언어별 확장은 형태학적 특징에 대해 허용된다(개별 언어 또는 자원은 추가적인 특징을 도입할 수 있다). 좀 더 제한된 형태에서, 의존 관계는 예를 들어 수동 음성을 표시하는 데 사용되는 보조 (UD 보조)에 대한 보조:패스(Aux:pass for aux:pass)와 함께 UD 라벨로 확장될 수 있다.[10]

보편적 의존성은 변곡형 형태학,[11] 프레임[12] 의미론 및 핵심 참조 영역에 대해 유사한 노력을 고무시켰다.[13] 구절 구조 구문을 보려면 비교할 만한 노력을 존재하기도 하지만, 그 펜 Treebank의 사양 languages,[14]예를 들어 범위가 넓(그리고 시간을 연장)에 적용되었다., Icelandic,[15]올드 English,[16]중학교 English,[17]중학교 저 German,[18]초기 근대 고등 German,[19]Yiddish,[20]Portuguese,[21]Japanese,[22]아랍어용처럼 보이지 않았다.23]과 중국인이요.[24]

선형 광택에 대한 규약

언어학에서, 선간 광택은 원문 한 줄과 다른 언어로의 번역과 같이 선 사이(선형 간 + 선형)에 배치된 광택(정의나 발음 등 간단한 설명의 연속)이다. 광택을 낼 때, 원본 텍스트의 각 행은 간선형 텍스트 또는 간선형 광택 텍스트(IGT)로 알려진 하나 이상의 전사 줄(단락용 선)을 얻는다. 그러한 광택은 독자들이 원문과 그 번역의 관계, 그리고 원어의 구조를 따르도록 돕는다. 광택에 대한 표준 재고는 없지만 라이프치히 광택 규칙에서 공통 라벨을 수집한다.[25] 위키피디아는 또한 이것과 다른 출처를 그린 글로스 약어 목록을 제공한다.

GOLD(General Ontology for Language Description)

GOLD("General Ontology for Language Description")는 기술 언어학을 위한 온톨로지다. 그것은 인간 언어의 과학적 설명에 사용되는 가장 기본적인 범주와 관계에 대한 공식화된 설명을 제공한다. 예를 들어, 선간 광택의 공식화로서 말이다. GOLD는 파라와 랑겐덴(2003)이 처음 도입했다.[26] 원래, 그것은 언어 데이터, 특히 멸종 위기에 처한 언어의 데이터에 대한 이질적인 마크업 체계를 해결하는 문제에 대한 해결책으로 구상되었다. 그러나 GOLD는 훨씬 일반적이며 모든 언어에 적용될 수 있다. 이 기능에서 GOLD는 ISO 12620 데이터 카테고리 레지스트리(ISOcat)와 중복된다. 그러나 보다 끈적하게 구성된다.

GOLD는 2007년부터 2010년까지 링귀지스트 리스트 등에 의해 유지되었다.[27] RELISH 프로젝트는 ISOcat 내에 데이터 카테고리 선택으로서의 GOLD 2010 판의 거울을 만들었다. 2018년 현재 GOLD 데이터는 언어 연계 오픈 데이터 클라우드 맥락에서 중요한 용어 허브로 남아 있지만, 더 이상 적극적으로 유지되지 않아 OLiA(언어 주석용, GOLD 및 ISOcat 기반 빌드)와 lexinfo.net(사전 메타데이터용, ISOcat 기반 빌드)으로 기능이 점차 대체되고 있다.

ISO 12620(ISO TC37 데이터 카테고리 레지스트리, ISOcat)

ISO 12620은 데이터 카테고리 레지스트리를 정의하는 ISO/TC 37표준으로, 번역, 계산 언어학자연 언어 처리의 다양한 분야에서 사용되는 언어 용어를 등록하고 서로 다른 용어와 다른 시스템에서 사용되는 동일한 용어 사이의 매핑을 정의하기 위한 레지스트리다.[28][29][30]

이 표준의 초기 구현인 ISOcat은 GOLD 온톨로지(GOLD ontology)의 인벤토리를 포함한 언어 범주에 대한 지속적인 식별자와 URI를 제공한다(아래 참조). 등록부의 목표는 새로운 시스템이 상호운용성을 지원하기 위해 기존 용어를 재사용하거나 최소한 기존 용어에 쉽게 매핑할 수 있다는 것이다.[31] 이 표준은 Lexical Markup Framework(ISO 24613:2008)와 같은 다른 표준에서 사용되며, 이글스 가이드라인, 폴란드 국립 코퍼스, 현지화 산업 표준 협회의 TermBase eXchange 형식 등 다수의 용어가 등록부에 추가되었다.

그러나, 현재판 ISO 12620:2019는[32] 더 이상 언어 기술 및 용어에 대한 용어 목록을 제공하지 않지만, 현재는 용어 자원으로 제한되어 있어 "용어 자원의 관리 - 데이터 범주 사양"이라는 개정 제목이 붙었다. 따라서 ISOcat은 더 이상 적극적으로 개발되지 않는다.[33] 2020년 5월 현재 후계 시스템, CLARIN Concept Registry[34], DatCatInfo[35] 등이 등장하고 있을 뿐이다.

어휘 자원과 관련된 언어 범주의 경우, 렉신포 어휘는 확립된 공동체 표준을 나타내며,[36] 특히 언어 연계 오픈 데이터 기술의 맥락에서 OnElex 어휘 및 기계 판독 가능 사전과 연관된다. ToLlex 어휘가 LMF(Lexical Markup Framework)에 구축되는 것처럼, 렉신포는 ISOcat의 LMF 섹션에 구축된다.[37] 그러나 ISOcat과는 달리 렉신포는 적극적으로 유지되고 있으며 현재(2020년 5월) 커뮤니티 활동으로 연장되고 있다.[38]

언어 주석(OLiA)의 온톨로지

GOLD와 유사한 정신으로 언어 주석(OLiA)의 온톨로지는 언어 주석언어 공동체와 관련된 통사적, 형태론적, 의미적 현상에 대한 언어 범주의 참조 인벤토리를 온톨로지 형태로 제공한다. 또한 OLiA 참조 모델과 연결된 100개 이상의 언어에 대해 기계 판독이 가능한 주석 체계를 제공한다.[39] OLiA 온톨로지는 (Linguistic) Linked Open Data 클라우드에서 주석 용어의 주요 허브를 나타내며, 이질적인 주석을 가진 언어 자원에 대한 검색, 검색 및 머신러닝 애플리케이션이다.[37]

OLiA 참조 모델은 주석 체계 외에도 이글스 가이드라인,[40] GOLD,[40] ISOcat,[41] CLARIN Concept Registry,[42] Universal Dependency,[43] 렉신포 [43]등과도 연계되어 있어 이들 어휘간 상호운용성이 가능하다. OLiA는 GitHub에 대한 커뮤니티 프로젝트로 개발되고 있다.

참조

  1. ^ R 테일러(1995) 언어 분류: 언어 이론의 프로토타입, 제2편, 제2편, 제2편 21장
  2. ^ 범용 POS 태그
  3. ^ 이글스의 본질
  4. ^ 디미트로바, L, 이데, N, 페트케비치, V, 에르하벡, T, 카알렙, H. J, & Tufis, D. (1998년 8월) 멀티텍스트: 6개의 중앙 동유럽 언어를 위한 병렬 비교 가능한 기업 및 어휘. 제17회 컴퓨터언어학-제1권 국제회의의 절차서 (pp. 315-319)에서. 컴퓨터 언어학 협회.
  5. ^ Petrov, Slav; Das, Dipanjan; McDonald, Ryan (11 Apr 2011). "A Universal Part-of-Speech Tagset". arXiv:1104.2086 [cs.CL].
  6. ^ Petrov, Slav (11 Apr 2011). "A Universal Part-of-Speech Tagset". arXiv:1104.2086 [cs.CL].
  7. ^ "Stanford Dependencies". nlp.stanford.edu. The Stanford Natural Language Processing Group. Retrieved 8 May 2020.
  8. ^ "Interset". cuni.cz. Institute of Formal and Applied Linguistics (Czech Republic). Retrieved 8 May 2020.
  9. ^ "Universal Dependencies". universaldependencies.org. Retrieved 2020-05-14.
  10. ^ "aux:pass". universaldependencies.org. Retrieved 2020-05-14.
  11. ^ UniMorph. "UniMorph: Universal Morphological Annotation". UniMorph. Retrieved 2020-05-14.
  12. ^ System-T/UniversalPropositions, System-T, 2020-05-14, retrieved 2020-05-14
  13. ^ 프란지, J, 슈나이더, N, & 아벤드, O. (2019, 8월) 의미론적으로 제한된 다중 레이어 주석: 핵심 고려의 사례. 의미 표현 설계에 관한 제1차 국제 워크숍의 절차 (pp. 164-176)에서.
  14. ^ "Penn Parsed Corpora of Historical English: Other Corpora". www.ling.upenn.edu. Retrieved 2020-05-14.
  15. ^ "Icelandic Parsed Historical Corpus (IcePaHC)". www.linguist.is. Retrieved 2020-05-14.
  16. ^ Warner, Anthony Department of Language and Linguistic Science University of York York; Taylor, Ann; Warner, Anthony; Pintzuk, Susan; Beths, Frank (September 2003). "The York-Toronto-Helsinki Parsed Corpus of Old English prose (YCOE)". Cite 저널은 필요로 한다. journal= (도움말)
  17. ^ "Penn-Helsinki Parsed Corpus of Middle English 2". www.ling.upenn.edu. Retrieved 2020-05-14.
  18. ^ "Corpus of Historical Low German". www.chlg.ac.uk. Retrieved 2020-05-14.
  19. ^ 라이트, C, & 월렌버그, J.(2011년). 게르만어를 가로지르는 패스 사용. 제13차 디아크론 생성 구문(DIGs) 회의 DIG 13, 펜실베이니아 대학교 DISG 13에서 발표. 2011년 6월 5일
  20. ^ 베아트리체 산토리니 ( [) [./Ftp://babel.ling.upenn.edu/papers/faculty/beatrice%20santorini/santorini-1993.pdf 이디시어의 역사에서 문구구조의 비율은 변화한다. 언어의 변화와 변화 5, 257-283.
  21. ^ "Tycho Brahe Project". www.tycho.iel.unicamp.br. Retrieved 2020-05-14.
  22. ^ "NPCMJ – Ninjal Parsed Corpus of Modern Japanese". Retrieved 2020-05-14.
  23. ^ "Arabic Treebank: Part 3 (full corpus) v 2.0 (MPG + Syntactic Analysis) - Linguistic Data Consortium". catalog.ldc.upenn.edu. Retrieved 2020-05-14.
  24. ^ "Penn Chinese Treebank Project". verbs.colorado.edu. Retrieved 2020-05-14.
  25. ^ Comrie, B, Haspelmath, M, & Bickel, B. (2008). 라이프치히 광택 규칙: 선형형태소별 광택에 대한 규약 맥스 플랑크 진화인류학연구소 언어학과와 라이프치히 대학 언어학과. 2010년 1월 28일 회수
  26. ^ 스콧 패러와 D. Terrence Langendoen(2003) "시맨틱 웹을 위한 언어적 온톨로지." GLOT International. 7(3), pp.97-100, [1]
  27. ^ GOLD 버전
  28. ^ "ISO 12620:1999 - Computer applications in terminology -- Data categories". iso.org. 2011. Retrieved 9 November 2011.
  29. ^ "ISO 12620:2009 - Terminology and other language and content resources -- Specification of data categories and management of a Data Category Registry for language resources". iso.org. 2011. Retrieved 9 November 2011.
  30. ^ "ISO 12620:2019 Management of terminology resources — Data category specifications". ISO. Retrieved 20 January 2020.
  31. ^ Bononno, Robert (2011). "Terminology for Translators -- an Implementation of ISO 12620". Meta. 45 (4): 646–669. CiteSeerX 10.1.1.136.4771. doi:10.7202/002101ar.
  32. ^ "ISO 12620:2019 Management of terminology resources — Data category specifications". ISO. Retrieved 20 January 2020.
  33. ^ "The Data Category Repository (DCR) has changed address". www.iso.org. Retrieved 2020-05-08.
  34. ^ "CLARIN Concept Registry CLARIN ERIC". www.clarin.eu. Retrieved 2020-05-08.
  35. ^ "DatCatInfo". www.datcatinfo.net. Retrieved 2020-05-08.
  36. ^ "LexInfo". www.lexinfo.net. Retrieved 2020-05-14.
  37. ^ a b 시미아노, P, 치아르코스, C, 맥크래, J. P, & 그라시아, J. (2020) 언어 연결 데이터(pp. 137-160). 스프링거, 참.
  38. ^ ontolex/lexinfo, OntoLex Community Group, 2020-03-07, retrieved 2020-05-14
  39. ^ "OLiA ontologies". purl.org/olia. Retrieved 2020-05-14.
  40. ^ a b 치아르코스, C. (2008) 언어 주석에 대한 존재론. LDV 포럼(Vol. 23, 1번, 페이지 1-16)에서.
  41. ^ C. C. Chiarcos(2010, 5월) 데이터 카테고리 레지스트리에서 언어 주석에 대한 온톨로지 기초. LREC 2010 LT&LTS(Language Resource and Language Technology Standards, LT&LTS) 워크숍(pp. 37-40)
  42. ^ Rem, G, Galanis, D, Labropoulou, P, Piperidis, S, Welß, M, Usbeck, R, et al(2020). AI와 LT 플랫폼의 상호운용성 생태계를 향한: 상이한 수준의 상호운용성 구현을 위한 로드맵. arXiv 사전 인쇄 arXiv:2004.08355.
  43. ^ a b Christian Chiarcos, Maxim Ionov 및 Christian Feth(2020), 포스트 ISOcat 시대의 주석 상호운용성, LREC 2020
  44. ^ acoli-repo/olia, ACoLi, 2020-03-10, retrieved 2020-05-14

외부 링크