UBY

UBY
UBY
버전1.7
프레임워크자바
유형다국어 어휘 의미 리소스
면허증.소프트웨어에 대한 무료 라이선스, 포함된 리소스에 대한 라이센스 조합
웹 사이트https://www.ukp.tu-darmstadt.de/data/lexical-resources/uby

자연 언어 처리(도달)은 유비쿼터스 지식 처리 연구소(UKP)에 컴퓨터 사이언스는 Technische Universität 다름슈타트. UBY의 부서에서 개발하 UBY[1]는 대규모lexical-semantic 자원이 ISO표준 어휘 마크업 틀(백혈구 유사 분열 인자)이 있고 몇 expert-constructed a로부터 정보를 결합한 기반을 두고 있다.알몬드영어와 독일어를 위해 공동으로 구축된 자원.

UBY는 명사와 [2]동사에 대한 정보를 결합하기 위해 단어 감지 정렬 접근법(단어 의미 명확화의 하위 필드)을 적용한다.현재 UBY에는 영어와 독일어로 된 12개의 통합 리소스가 포함되어 있습니다.

포함된 자원

포맷

UBY-LMF[3][4] Natural Language Processing(NLP;[5] 자연어 처리)용 어휘 자원을 표준화하는 형식입니다.UBY-LMF는 어휘집용 ISO 표준인 LMF를 준수하며 ISO-TC37 내에서 설계되어 이 추상 [6]표준의 이른바 직렬화를 구성합니다.LMF에 따라 UBY-LMF에 도입된 모든 속성 및 기타 언어 용어는 ISOCat에서의 의미에 대한 표준화된 설명을 참조합니다.

가용성 및 버전

UBY는 열린 리소스 저장소 DKPro의 일부로 사용할 수 있습니다.DKPro UBY는 UBY-LMF 어휘 모델에 따라 감지와 연결된 어휘 리소스를 생성하고 액세스하기 위한 Java 프레임워크입니다.UBY 코드는 SA에 의해 GPL이나 CC와 같은 무료 라이선스를 혼합하여 라이선스가 부여되지만 포함된 리소스 중 일부는 학술용다른 라이선스로만 라이선스가 부여됩니다.

LemonUby라는 시맨틱 웹 버전도 있습니다.LemonUby는 [7]Monnet 프로젝트에서 제안한 레몬 모델을 기반으로 합니다.레몬은 사전 및 기계에서 읽을 수 있는 사전을 모델링하기 위한 모델로 시멘틱 웹 및 Linked Data 클라우드에 연결됩니다.

UBY vs. BabelNet

BabelNetWordNet과 같은 가장 인기 있는 컴퓨터 어휘와 위키피디아를 연결하는 자동으로 어휘 의미 리소스입니다.언뜻 보면 UBY와 BabelNet은 동일하고 경쟁적인 프로젝트처럼 보이지만 두 자원은 서로 다른 철학을 따르고 있습니다.초기 단계에서 BabelNet은 주로 WordNet과 Wikipedia의 정렬에 기반을 두고 있었으며, Wikipedia의 특성상 명사, 특히 명명된 실체에 강한 초점을 두고 있습니다.그 후, BabelNet의 초점은 다른 언어 부분으로 이동했다.그러나 UBY는 처음부터 동사 정보, 특히 VerbNet이나 FrameNet과 같은 리소스에 포함된 구문 정보에 초점을 맞췄다.또 다른 주요 차이점은 UBY가 다른 자원을 서로 완전히 독립적으로 모델화함으로써 포함된 각 자원의 일괄 대체로 UBY를 사용할 수 있습니다.사용 가능한 리소스 정렬을 통해 여러 리소스에 대한 일괄 액세스가 제공됩니다.또한 UBY의 LMF 모델은 개별 자원뿐만 아니라 모든 자원에 대한 통합 접근 방식을 허용합니다.한편, BabelNet은 WordNet과 유사한 접근방식을 따르며 선택한 정보 유형을 Babel Synsets라고 불리는 것으로 만듭니다.이것에 의해, 지식의 액세스와 처리가 보다 용이하게 됩니다만, 링크 된 지식 베이스간의 경계가 모호해집니다.또한 BabelNet은 특정 언어에서 어휘화되지 않은 개념에 대해 자동으로 작성된 번역을 제공함으로써 원본 리소스를 풍부하게 만듭니다.이것에 의해, 다국어 애플리케이션의 커버리지가 큰폭으로 향상됩니다만, 정보의 자동 추론은 항상 어느 정도의 오차가 생기기 쉽습니다.

요약하면, 두 리소스 간의 나열된 차이로 인해 특정 애플리케이션 시나리오에 따라 둘 중 하나를 사용하는 것이 선호될 수 있습니다.사실, 두 리소스는 특히 서로 연결된 경우 광범위한 사전 지식을 제공하기 위해 사용될 수 있습니다.두 자원의 개방적이고 문서화된 구조는 이 목표를 달성하기 위한 중요한 이정표를 제공합니다.

적용들

UBY는 Word Sense [8]Dismblicization, Word [9]Sense Clustering, Verb Sense Labeling[11]Text Classification과 같은 다양한 NLP 작업에서 성공적으로 사용되어 왔습니다.UBY는 또한 어휘 의미 [12]자원의 자동 구축에 대한 다른 프로젝트에 영감을 주었다.또한 lemon Uby는 기계 번역 결과를 개선하기 위해 사용되었으며, 특히 알려지지 않은 [13]단어의 번역 결과를 찾기 위해 사용되었습니다.

「 」를 참조해 주세요.

외부 링크

레퍼런스

  1. ^ Iryna Gurevych; Judith Eckle-Kohler; Silvana Hartmann; Michael Matuschek; Christian M. Meyer; Christian Wirth (April 2012). UBY - A Large-Scale Unified Lexical-Semantic Resource Based on LMF. Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Proceedings of the Conference of the European Chapter of the Association for Computational Linguistics. pp. 580–590. ISBN 978-1-937284-19-0. S2CID 9692934. Wikidata Q51752742.
  2. ^ 마투스첵, 마이클:어휘 자원의 Word Sense Alignment.다름슈타트 테크니쉬 대학교 [사퇴], (2015)
  3. ^ Judith Eckle-Kohler, Iryna Gurevych, Silvan Hartmann, Michael Matuschek, Christian M M M M M M Meyer: UBY-LMF – Gil Francopoulo, LMF Lexical Markup Framework, ISTE, 2013/I)에서 언어에 의존하지 않는 사전 모델 경계를 탐색합니다.
  4. ^ 주디스 에클-콜러, 이리나 구레비흐, 실바나 하트만, 마이클 마투스첵, 크리스티안 M.Meyer. UBY-LMF – ISO-LMF의 이종 어휘-의미 자원 표준화를 위한 균일한 모델: Nicoletta Calzolari와 Khalid Choukri, Tierry Declerck, Mehmet Uurur Doanan과 Bent Marianiega제8회 언어자원 및 평가에 관한 국제회의(LREC), 페이지 275-282, 2012년 5월.
  5. ^ Gottfried Herzog, Laurent Romary, Andreas Witt: 언어 자원의 표준.META-FORUM 2013 – META Exhibition, 2013년 9월 독일 베를린에서 열린 포스터 프레젠테이션.
  6. ^ 로랑 로마리: TEI와 LMF 횡단보도.CoRR 복근/1301.2444 (2013)
  7. ^ Judith Eckle-Kohler, John Philip McCrae 및 Christian Chiarcos: lemon Uby –온톨로지용 대규모 인터링크, 구문학적으로 풍부한 어휘 리소스.인: 시맨틱 웹 저널, 제6권, 제4호, 페이지 371-378, 2015.
  8. ^ 크리스찬 M.Meyer와 Iryna Gurevech:To Exhibition to Loiter: 2012년 12월, 제24회 컴퓨터 언어학 국제회의(COLING), 제4, 페이지 1763-1780에서 동사 유사성 측정을 위한 다국어 위키사전.인도 뭄바이
  9. ^ Michael Matuschek, Tristan Miller 및 Iryna Gurevech: 확장 WSD를 위한 언어에 의존하지 않는 센스 클러스터링 어프로치.인: 요제프 루퍼트 및 게르트루드 파아: 제12회 콘퍼런스츠 주르 베라르비퉁 나튀를리처 스프래쉬 진행(KONVENS 2014), 페이지 11-21, Universitétslag Hildesheim, 2014년 10월.
  10. ^ Kostadin Cholakov, Judith Eckle-Kohler 및 Iryna Gurevech : 링크된 어휘 자원에 기반한 자동 동사 인식 라벨링.In: 컴퓨터 언어학 협회(EACL 2014) 제14차 유럽 지부 총회 속행, 68-77, 컴퓨터 언어학 협회
  11. ^ Lucie Flekova와 Iryna Gurevech: 어휘 자원 간의 센스 레벨 링크를 이용한 허구 캐릭터의 성격 프로파일링: 2015년 자연 언어 처리 경험적 방법에 관한 회의의 진행, 2015년 9월.
  12. ^ 호세 길도 드 A.2015년 주니오르, 울리히 쉬엘, 레안드로 발비 마리뉴.이질적인 정보 소스를 기반으로 어휘적 의미적 자원을 구축하기 위한 접근법.제30회 어플리케이션 컴퓨팅에 관한 연례 ACM 심포지엄의 속행(SAC '15).ACM, 뉴욕, 미국, 402-408. DOI=10.1145/2695664.2695896 http://doi.acm.org/10.1145/2695664.2695896
  13. ^ J. P. McCrae, P. Cimiano:개방형 링크 데이터 웹에서 번역문을 채굴하는 방법: NLP&LOD 및 SWAIE 공동 워크숍 진행: 시맨틱 웹, 링크된 오픈 데이터 및 정보 추출, 페이지 9-13 (2013)