불셈코르
BulSemCor불가리아어 의미 주석 코퍼스(BulSemCor)는 불가리아어 텍스트의 구조화된 코퍼스로, 각 어휘 항목에 의미 태그가 할당됩니다.BulSemCor는 불가리아 과학 아카데미의 불가리아어 연구소의 컴퓨터[1] 언어학과에 의해 만들어졌습니다.
구조.
BulSemCor는 "BulNet – 불가리아어를 위한 사전 의미 네트워크" (2005-2010)라는 국가적인 자금 지원 프로젝트의 일환으로 만들어졌습니다.이는 일부 특정 [3]원칙과 결합된 SemCor의[2] 일반적인 방법론을 따릅니다.주석 말뭉치는 브라운 말뭉치를 모델링한 불가리아 "브라운[4]" 말뭉치에서 발췌한 101,791개의 토큰으로 구성되어 있습니다.Francis Kucera BulSemCor의 중요한 특징은 모호한 어휘의 최적 범위를 제공하는 휴리스틱을 사용하여 샘플을 선택한다는 것입니다.
BulSemCor는 불가리아 워드넷에 따라 수동으로 감지 주석을 달 수 있습니다.그것의 크기는 현대의 다른 의미론적으로 주석이 달린 말뭉치 또는 수용 가능한 언어 구성 요소 풀과 비슷합니다.의미 주석은 말뭉치의 각 어휘 항목을 특정 맥락에서 의미를 가장 잘 설명하는 불가리아 워드넷의 정확히 하나의 동의어 집합(synset)과 연결하는 것으로 구성됩니다.제안된 후보 중 가장 적합한 후보를 선택하는 것은 다른 구문 구성원, 구문 광택(설명 정의) 및 WordNet 구조에서 주어진 후보의 위치와 같은 일련의 절차를 기반으로 합니다.
규모.
주석이 달린 토큰 수는 99,480개(초기 말뭉치와 비교한 토큰 수 차이는 그 중 일부가 언어 항목이 아니기 때문입니다.단순 단어 수는 86,842개, 다중 단어 표현식(MWE)은 5,797개(12,638개 토큰)입니다.
특정 기능
BulSemCor의 모든 단어에는 의미가 할당되는 반면, 확립된 관행에 따라 간단한 내용 단어 또는 내용 단어 클래스(일반적으로 명사와 동사)에만 주석이 달립니다.2000년 이후로 언어 자원의 개발은 특정한 의미나 단어와 표현의 유형을 다루는 기능 단어와 다중 단어 표현의 주석을 포함하도록 확장되었습니다.이와 관련하여, BulSemCor의 주석은 더 철저하기 때문에 언어 관찰 및 비선형 프로그래밍(NLP) 애플리케이션에 더 큰 기회를 제공합니다.
주석이 달린 항목은 해당 구문과 관련된 언어 정보를 상속하며, 형태학적 및 의미론적 태그와 함께 다음 추가 [5]수준 중 하나 이상에 대한 주석을 포함할 수 있습니다.
- MWE 유형의 구문 구조에 대한 부분 정보 - 특히 구문 헤드와 그 종속자에 대한 정보
- 이름, 위치, 조직, 날짜, 번호 등과 같은 명명된 실체의 범주에 대한 정보
- 시간, 장소, 방법, 정도, 양 등 부사의 분류학적 범주에 관한 정보
- 결합으로 표현되는 통사적 관계의 유형(조정 또는 종속)에 대한 정보
- 실체화된 단어의 원래 품사(특정 맥락에서 명사 역할을 하는 명사가 아님)에 대한 정보
- 구문 분석기 또는 개별 구문 분석기 구성원에 대한 양식/레지스터, 문법 및 기타 정보
참고 항목
레퍼런스
- Koeva, Svetla (2010). "Balgarskiyat semantichno anotiran korpus" [The Bulgarian Sense-annotated Corpus].
- Koeva, Svetla; Leseva, S.; Todorova, M. (May 23, 2006). Bulgarian Sense Tagged Corpus. 5th SALTMIL Workshop on Minority Languages: Strategies for Developing Machine Translation for Minority Languages. pp. 79–87.
- Miller, G. A. (1995). "Building Semantic Concordances: Disambiguation vs. Annotation AAAI Technical Report SS-95-01" (PDF): 92–94.
{{cite journal}}:저널 요구 사항 인용journal=(도움말) - Todorova, M.; Kukova, H.; Leseva, S. (2014). Semantichno anotirani resursi za balgarskiya ezik – BulSemCor (Semantically-annotated Resources for Bulgarian – BulSemCor) [Language Resources and Technologies for Bulgarian]. Ezikovi resursi i tehnologii za balgarski ezik. Academic Publishing House. pp. 80–104. ISBN 978-954-322-797-6.
- Francis, N.; Kucera, H. (1979), Manual of Information to Accompany a Standard Sample of Present-day Edited American English, for Use with Digital Computers, Providence, Rhode Island: Department of Linguistics, Brown University, archived from the original on May 18, 2014, retrieved July 7, 2013