플워드넷

PlWordNet

PlWordNet폴란드 언어의 사전 편찬적 데이터베이스다.그것은 동의어 어휘 단위(시네츠)의 집합에 이어 짧은 정의가 뒤따른다.plWordNet은 개념(시네츠)과 개별 단어 의미(독소 단위)가 상호관계망에서 그들의 위치에 의해 정의되어 폴란드 언어의 어휘-세미틱 시스템을 반영하여 사우루스 사전의 역할을 한다.[1]또한 PlWordNet은 폴란드어를 위한 자연어 처리 도구 구축을 위한 기본 자원 중 하나로도 사용된다.[1]

역사

PrWordNet은 브록와프 공과대학에서 개발되고 있다.이 작품들은 2005년부터 The WrocUT Language Technology Group G4.19에 의해 과학 고등교육부와 EU의 자금 지원을 [2]받아 수행되었다. 사자우루스는 사전 편찬자들과 자연어 기술자들에 의해 '근접'에서 만들어졌다.[3]PLWordNet의 첫 번째 버전은 2009년에 출판되었다 – 20 223 렘마, 26 990 렉시컬 유닛, 17 695 synsets를 포함하고 있었다.[4]가장 최신 버전인 plWordNet 2.2는 2014년 5월 13일에 출시되었다.

내용

데이터 검색 2014-05-30

현재 plWordNet은 148k 레마, 207k 어휘소 단위, 151k 신셋을 보유하고 있다.[5]어휘 단위의 수에 관해서는 이미 프린스턴 워드넷을 능가했다.plWordNet은 명사(116k), 동사(18k), 형용사(13k)로 구성되어 있다.[5]주어진 단어의 각 의미는 별도의 어휘 단위다.동일한 개념을 나타내며 양식적 레지스터에서 큰 차이가 없는 단위는 synsets - 동의어 집합으로 결합되었다.각 어휘소 단위는 일반적인 의미를 나타내는 도메인 중 하나에 할당된다. PWordNet 도메인은 Princeton WordNet 사전 편찬자들의 파일에 해당한다.

pLWordNet의 의미 범주

명사 도메인[6] 동사 도메인[7] 형용사 도메인[8]
  • 계층 구조(bhp)에서 가장 높음
  • 속성(체크)
  • 동기(셀)
  • 시간(czas)
  • 신체(czc)
  • 감정(czuj)
  • 연기하다(크지)
  • 그룹(grp)
  • 수량(일)
  • 식품(jedjed)
  • 모양(ksz)
  • 위치(msc)
  • 사람(오)
  • 통신(기업)
  • 소유(포스)
  • 공정(prc)
  • 식물(rsl)
  • 자연물(rz)
  • 물질(최초)
  • 주(st)
  • 분류(sys)
  • 인지(umy)
  • 아르테팩트(wytw)
  • 이벤트(zdarz)
  • 자연현상(zj)
  • 동물(zw)
  • 감정(cczuj)
  • 소비(cjedz)
  • 통신(cpor)
  • 소유(cpos)
  • 주(cst)
  • 인지(지각)
  • 생성(cwytw)
  • 접촉(dtk)
  • 신체(높음)
  • 날씨(날씨)
  • 지각(pst)
  • 모션(러치)
  • 사회적(sp)
  • 경쟁(월)
  • 변경(ZMN)
  • dedjectival(grad)
  • 품질(작)
  • 디버벌어(Odcz)
  • 관계(릴)

어휘 단위 설명

일부 어휘소 단위에는 양식 등록부, 짧은 정의, 사용 예시 및 관련 위키백과 기사에 대한 링크가 제공된다.

명사 미아스토 도시, 도시
도메인 miejsce i umijscowie. 장소와 위치
정의 du,y, gęsto zabudowany i Zaludniony tereniadający odrębnbnanization 관리, miejsce życia ludzi pracujcych wzemiśle rub uswugach. 별도의 관리가 있는 크고 밀집된 인구 밀집 지역; 산업 또는 서비스 분야에서 일하는 사람들의 거주지
예시 W mieccie czwowiek ma większą szansę na zrobienie kariery i Zarobienie pieniędzy, Choche jednoczejnie watwiej tam na popaśchez wbo. 마을에서보다 도시에서 경력을 쌓는 것이 훨씬 쉽지만, 가난에 빠지는 것도 훨씬 쉽다.

단어의 의미를 정의하는 가장 중요한 요소는 사전적 관계와 파생적 관계인데, 이 관계는 synsets와 어휘적 단위 사이에 있다.한 신셋은 같은 관계를 공유하는 어휘 단위를 형성한다.[9]신셋과 유닛에 할당된 관계에 기초하여, 자연어 처리를 위한 도구는 보조마 의미에 대해 결론을 내릴 수 있는데, 이는 예를 들어 단어감각 해소에 중요하다.

선택명사관계[9]

관계 테스트
동의어학
  • 그/그/그녀가 X도 Y이다.
  • 그/그녀가 Y라면 그/그녀 또한 X이다.
{kot2; kot domowy1}, '고양이, 집고양이'
상호 등록 동의어
  • X와 Y는 하이퍼니엠을 공유하며, 그들의 저포니 세트는 겹치지 않는다.
  • X와 Y는 동의어가 아님
  • X일 경우 Y [스타일 레지스터 차이 정도]가 된다.
  • X일 경우 Y [스타일 레지스터 차이 정도]가 된다.
{chwopiec1}, {gwniarz1}, 'boy, ~,, squirt'
피하의/신체질의
  • X라면 Y여야 한다.
  • 그/그녀가 Y라면 반드시 X는 아니다.
  • Y가 아니면 X가 될 수 없다.
{buk1} jest rodzajem {drzewo liściast1}, 'beech'는 일종의 '낙엽수'이다.
메로/홀로니마이
  • X jest czścią Y
  • Y nie jest czścią X
  • 예스트 카와우치, ktorej czścią jest X
{poduszka powietrzna1} jest częścią {samochod1}, '에어백'은 '자동차'의 일부분임

폴란드어 synsets는 언어간 어휘-세미아 관계(예를 들어 동의어, 부분 동의어, 저포니미 등)를 가진 해당 Princeton WordNet synsets에 연결된다.지금까지 91 578개의 synsets가 지도화되었다(이것은 plWordNet synsets의 약 2/3에 해당하며, 그 중에서는 주로 명사(明事)가 지도화되었다.[10]매핑은 구글 번역이 제공하는 온라인 서비스와 같이 기계 번역에 pWordNet의 적용을 가능하게 한다.지도 제작은 영어에서 폴란드어에 이르는 텍스트 분석 도구를 활용하는 데 중요한 역할을 할 수 있다.[11]

적용들

plWordNet은 오픈 액세스 라이센스에서 사용 가능하며, 무료 브라우징이 가능하다.그것은 온라인 사전, 모바일 애플리케이션, 웹 서비스 형태로 이용자들이 이용할 수 있게 되었다.pLWordNet의 일부 응용 프로그램:

참조

  1. ^ a b "Słowosieć".
  2. ^ Maziarz M, Piaseki M, Szpakowicz S, Accessing PlWordNet 2.0, http://nlp.pwr.wroc.pl/ltg/files/publications/paper%2042.pdf
  3. ^ "PlWordNet 3.1".
  4. ^ Piaseki M, Szpakowicz S, Broda B, 그라운드 업의 워드넷, Wrocww 2009, s. 170, http://www.plwordnet.pwr.wroc.pl/main/content/files/publications/A_Wordnet_from_the_Ground_Up.pdf
  5. ^ a b PLWN과 PWN의 자세한 비교 통계는 pLWN 웹페이지: http://plwordnet.pwr.wroc.pl/wordnet/stats [액세스: 30.06.114]에서 확인할 수 있다.
  6. ^ Rabiega-Wiśniewska J, Maziarski M, Piaseki M, Szpakowicz S, Opis reelacji 렉시칼노-세마만티크니치 W Swowosiec 2.0. Rzeczownik, s. 4.
  7. ^ 호지카 B, 마자르츠 M, 피아세키 M, 라비에가-위시니에프스카 J, 스즈파코비치 S, 오피스 리락지 렉시칼노-세마만티치니흐 2.0. 크사소니크, s. 15-16.
  8. ^ Maziarz M, Szpakowicz S, Piaseki M, 폴란드어 Net 2.0의 형용사들 사이의 의미 관계: 새로운 관계 세트, 토론 및 평가, 인지 연구 / Etudes Cognitics, t. 12, s. 149–179, 2012.
  9. ^ a b Maziarz M, Piaseki M, Szpakowicz S, Rabiega-Wiśniewska J, Licogichographic and Seminatic 전통, 인지 연구/Etudes Cognitics, t, 11, s. 161-181, 2011.
  10. ^ http://plwordnet.pwr.wroc.pl/wordnet/stats [접근: 30.05.114]
  11. ^ Klimczak, Karol M. (2020). "Text Analysis in Finance: The challenges for efficient application". Innovation in Financial Services: Balancing Public and Private Interests. Routledge. p. 199-216. doi:10.4324/9781003051664-15. ISBN 9781003051664.