플워드넷
PlWordNetPlWordNet은 폴란드 언어의 사전 편찬적 데이터베이스다.그것은 동의어 어휘 단위(시네츠)의 집합에 이어 짧은 정의가 뒤따른다.plWordNet은 개념(시네츠)과 개별 단어 의미(독소 단위)가 상호관계망에서 그들의 위치에 의해 정의되어 폴란드 언어의 어휘-세미틱 시스템을 반영하여 사우루스 사전의 역할을 한다.[1]또한 PlWordNet은 폴란드어를 위한 자연어 처리 도구 구축을 위한 기본 자원 중 하나로도 사용된다.[1]
역사
PrWordNet은 브록와프 공과대학에서 개발되고 있다.이 작품들은 2005년부터 The WrocUT Language Technology Group G4.19에 의해 과학 고등교육부와 EU의 자금 지원을 [2]받아 수행되었다.이 사자우루스는 사전 편찬자들과 자연어 기술자들에 의해 '근접'에서 만들어졌다.[3]PLWordNet의 첫 번째 버전은 2009년에 출판되었다 – 20 223 렘마, 26 990 렉시컬 유닛, 17 695 synsets를 포함하고 있었다.[4]가장 최신 버전인 plWordNet 2.2는 2014년 5월 13일에 출시되었다.
내용
현재 plWordNet은 148k 레마, 207k 어휘소 단위, 151k 신셋을 보유하고 있다.[5]어휘 단위의 수에 관해서는 이미 프린스턴 워드넷을 능가했다.plWordNet은 명사(116k), 동사(18k), 형용사(13k)로 구성되어 있다.[5]주어진 단어의 각 의미는 별도의 어휘 단위다.동일한 개념을 나타내며 양식적 레지스터에서 큰 차이가 없는 단위는 synsets - 동의어 집합으로 결합되었다.각 어휘소 단위는 일반적인 의미를 나타내는 도메인 중 하나에 할당된다. PWordNet 도메인은 Princeton WordNet 사전 편찬자들의 파일에 해당한다.
pLWordNet의 의미 범주
| 명사 도메인[6] | 동사 도메인[7] | 형용사 도메인[8] |
|---|---|---|
|
|
|
어휘 단위 설명
일부 어휘소 단위에는 양식 등록부, 짧은 정의, 사용 예시 및 관련 위키백과 기사에 대한 링크가 제공된다.
| 명사 | 미아스토 | 도시, 도시 | ||
|---|---|---|---|---|
| 도메인 | miejsce i umijscowie. | 장소와 위치 | ||
| 정의 | du,y, gęsto zabudowany i Zaludniony tereniadający odrębnbnanization 관리, miejsce życia ludzi pracujcych wzemiśle rub uswugach. | 별도의 관리가 있는 크고 밀집된 인구 밀집 지역; 산업 또는 서비스 분야에서 일하는 사람들의 거주지 | ||
| 예시 | W mieccie czwowiek ma większą szansę na zrobienie kariery i Zarobienie pieniędzy, Choche jednoczejnie watwiej tam na popaśchez wbo. | 마을에서보다 도시에서 경력을 쌓는 것이 훨씬 쉽지만, 가난에 빠지는 것도 훨씬 쉽다. |
단어의 의미를 정의하는 가장 중요한 요소는 사전적 관계와 파생적 관계인데, 이 관계는 synsets와 어휘적 단위 사이에 있다.한 신셋은 같은 관계를 공유하는 어휘 단위를 형성한다.[9]신셋과 유닛에 할당된 관계에 기초하여, 자연어 처리를 위한 도구는 보조마 의미에 대해 결론을 내릴 수 있는데, 이는 예를 들어 단어감각 해소에 중요하다.
선택명사관계[9]
| 관계 | 테스트 | 예 |
|---|---|---|
| 동의어학 |
| {kot2; kot domowy1}, '고양이, 집고양이' |
| 상호 등록 동의어 |
| {chwopiec1}, {gwniarz1}, 'boy, ~,, squirt' |
| 피하의/신체질의 |
| {buk1} jest rodzajem {drzewo liściast1}, 'beech'는 일종의 '낙엽수'이다. |
| 메로/홀로니마이 |
| {poduszka powietrzna1} jest częścią {samochod1}, '에어백'은 '자동차'의 일부분임 |
폴란드어 synsets는 언어간 어휘-세미아 관계(예를 들어 동의어, 부분 동의어, 저포니미 등)를 가진 해당 Princeton WordNet synsets에 연결된다.지금까지 91 578개의 synsets가 지도화되었다(이것은 plWordNet synsets의 약 2/3에 해당하며, 그 중에서는 주로 명사(明事)가 지도화되었다.[10]매핑은 구글 번역이 제공하는 온라인 서비스와 같이 기계 번역에 pWordNet의 적용을 가능하게 한다.지도 제작은 영어에서 폴란드어에 이르는 텍스트 분석 도구를 활용하는 데 중요한 역할을 할 수 있다.[11]
적용들
plWordNet은 오픈 액세스 라이센스에서 사용 가능하며, 무료 브라우징이 가능하다.그것은 온라인 사전, 모바일 애플리케이션, 웹 서비스 형태로 이용자들이 이용할 수 있게 되었다.pLWordNet의 일부 응용 프로그램:
- 자동 언어 처리를 위한 도구 구성 및 개발
- WSD(word-sense disabigation, WSD),
- 본문의 자동 분류,
- 기계 번역,
- 실어증 치료,
- 폴란드어-영어와 영어-폴란드어 사전,
- 폴란드어 의미 사전,
- 동의어와 동의어의 사전,
- 반의 사전
참조
- ^ a b "Słowosieć".
- ^ Maziarz M, Piaseki M, Szpakowicz S, Accessing PlWordNet 2.0, http://nlp.pwr.wroc.pl/ltg/files/publications/paper%2042.pdf
- ^ "PlWordNet 3.1".
- ^ Piaseki M, Szpakowicz S, Broda B, 그라운드 업의 워드넷, Wrocww 2009, s. 170, http://www.plwordnet.pwr.wroc.pl/main/content/files/publications/A_Wordnet_from_the_Ground_Up.pdf
- ^ a b PLWN과 PWN의 자세한 비교 통계는 pLWN 웹페이지: http://plwordnet.pwr.wroc.pl/wordnet/stats [액세스: 30.06.114]에서 확인할 수 있다.
- ^ Rabiega-Wiśniewska J, Maziarski M, Piaseki M, Szpakowicz S, Opis reelacji 렉시칼노-세마만티크니치 W Swowosiec 2.0. Rzeczownik, s. 4.
- ^ 호지카 B, 마자르츠 M, 피아세키 M, 라비에가-위시니에프스카 J, 스즈파코비치 S, 오피스 리락지 렉시칼노-세마만티치니흐 2.0. 크사소니크, s. 15-16.
- ^ Maziarz M, Szpakowicz S, Piaseki M, 폴란드어 Net 2.0의 형용사들 사이의 의미 관계: 새로운 관계 세트, 토론 및 평가, 인지 연구 / Etudes Cognitics, t. 12, s. 149–179, 2012.
- ^ a b Maziarz M, Piaseki M, Szpakowicz S, Rabiega-Wiśniewska J, Licogichographic and Seminatic 전통, 인지 연구/Etudes Cognitics, t, 11, s. 161-181, 2011.
- ^ http://plwordnet.pwr.wroc.pl/wordnet/stats [접근: 30.05.114]
- ^ Klimczak, Karol M. (2020). "Text Analysis in Finance: The challenges for efficient application". Innovation in Financial Services: Balancing Public and Private Interests. Routledge. p. 199-216. doi:10.4324/9781003051664-15. ISBN 9781003051664.