스케치 엔진

Sketch Engine
스케치 엔진
Logo of Sketch Engine
스케치 엔진의 로고
Concordance in Sketch Engine.png
스케치 엔진 일치 페이지
원본 작성자애덤 킬가리프, 파벨 리클루
개발자Lexical Computing Ltd.
초기 릴리즈2003년 7월 23일;[1] 18년 전(2003-07-23)
기록 위치C++, Python, JavaScript, jQuery
운영 체제Linux, Mac OS X
플랫폼IA-32, x64 또는 IA-64
표준유니코드
다음에서 사용 가능12개 언어
언어 목록
영어, 체코어, 중국어(번체, 단순화), 게일게, 슬로베니아어, 크로아티아어, 아랍어, 스페인어, 프랑스어, 우크라이나어, 폴란드어
유형90개 이상의 언어를 위한 Corpus 관리자, 데이터베이스 관리 시스템
면허증독점 소프트웨어, 상용프리웨어 버전 모두 사용 가능
웹사이트www.sketchengine.co.uk

스케치엔진은 2003년부터 Lexic Computing Limited사가 개발한 말뭉치 매니저 겸 텍스트 분석 소프트웨어다. 그 목적은 언어 행동을 연구하는 사람들(사전 편찬자, 말뭉치 언어학 연구자, 번역자 또는 언어 학습자)이 복잡하고 언어적으로 동기가 부여된 질의에 따라 대형 텍스트 컬렉션을 검색할 수 있도록 하는 것이다. Sketch Engine은 단어 스케치, 즉 한 페이지 분량의 자동적이고 말뭉치에서 파생된 단어의 문법적, 조합적 행동의 요약에 따라 그 이름을 얻었다.[2] 현재 90개 이상의 언어로 communa를 지원하고 있다.[3]

발전사

스케치엔진은 사전 편찬자 겸 연구 과학자 아담 킬가리프가 2003년 설립한 회사인 렉시컬 컴퓨팅 리미티드사의 제품이다.[4] 마사릭대[5] 자연어처리센터에서 근무하는 컴퓨터 과학자 파벨 리클루(Pavel Rychll)와 마나테(Manatee)와 보니토(소프트웨어 제품군의 두 주요 부분)의 개발자(Devel Rychll)와 협업을 시작해 워드 스케치 개념을 소개했다.

이후 스케치엔진은 상용 소프트웨어였지만 2003년까지 개발한 마나테와 보니토의 핵심 기능(그 후 확장)은 모두 노스케치엔진 스위트 내 GPL 라이선스에 따라 자유롭게 이용할 수 있다.[6]

특징들

  • Word 스케치 – 한 페이지의 문법적 및 조합적 동작에 대한 자동 파생 요약
  • 단어 스케치 차이 – 두 단어의 정렬을 분석하여 비교 및 대비
  • Distributional Thesaurus – 의미가 비슷하거나 동일한/비슷한 문맥에 나타나는 단어 찾기 자동화
  • 일치 검색 – 단어 양식, 보조정리, 구문, 태그 또는 복잡한 구조의 예 찾기
  • 콜러레이션 검색 – 가장 빈번한 단어(검색어에 대한)를 표시하는 단어 공동 발생 분석(콜러레이션 후보라고 간주할 수 있음)
  • 워드 목록 – 복잡한 기준으로 필터링할 수 있는 빈도 목록 생성
  • n-그램 – 다중 단어 식의 빈도 목록 생성
  • 용어 / 키워드 추출(단일 언어 및 2개 언어 모두) – 텍스트에서 자동 추출 키 단어 및 다중 단어 용어(빈도 수 및 언어 기준)
  • 디아크로닉 분석(트렌드)[7] – 시간 내에 사용 빈도가 변경되는 단어 탐지(유행 단어 표시)
  • 코퍼스 구축 및 관리 – 데이터 마이닝 소프트웨어로 사용할 수 있는 음성 태그 지정리믹스 등 웹 또는 업로드된 텍스트에서 코퍼스를 생성
  • 병렬 말뭉치(이중언어) 시설 – 번역 예(EUR-Elex, Europarl corpus, OPUS 등)를 찾거나 정렬된 텍스트에서 병렬 말뭉치를 구축

건축

Sketch Engine thesaurus page
Sketch Engine에서 보조정리 작업의 Saurus 구름

스케치 엔진은 3가지 주요 요소로 구성된다: 매너티라는 기본 데이터베이스 관리 시스템, 보니토라는 웹 인터페이스 검색 프런트엔드, 코퍼스 아키텍트라는 코퍼스 구축 및 관리를 위한 웹 인터페이스. [8]

마나테

매너티는 대형 텍스트 기업의 효과적인 색인화를 위해 특별히 고안된 데이터베이스 관리 시스템이다. 그것은 역색인(텍스트에서 주어진 단어의 모든 위치에 대한 색인을 유지)의 아이디어에 기초한다. 그것은 수백억 단어로 구성된 텍스트 회사를 지수화하는 데 사용되어 왔다.[9]

Manatee에서 인덱싱한 corpora 검색은 CQL(Corpus Query Language)에서 쿼리를 구성하여 수행된다.[10]

Manatee는 C++로 쓰여져 있고 파이썬, 자바, , 루비를 포함한 많은 다른 프로그래밍 언어들을 위한 API를 제공한다. 최근 말뭉치 질의의 신속한 처리를 위해 바둑으로 다시 작성됐다.[11]

보니토

Bonito는 말뭉치 검색에 대한 접근을 제공하는 Manatee의 웹 인터페이스다. 클라이언트-서버 모델에서 매너티는 서버, 보니토는 클라이언트 역할을 한다. 그것은 파이톤으로 쓰여 있다.[8]

코퍼스 건축가

Corpus Architect는 Corpus의 구축과 관리 기능을 제공하는 웹 인터페이스다. 파이톤으로도 씌어 있다.

적용들

스케치엔진은 영국 주요 출판사 또는 다른 출판사에서 맥밀란 영어사전, 어법가 르 로베르, 옥스퍼드 대학 출판부 또는 쇼가쿠칸과 같은 사전을 제작하는 데 사용되어 왔으며 영국의 5대 사전 출판사 중 4곳이 스케치엔진을 사용하고 있다.[12]

참고 항목

참조

  1. ^ 영국 등기부를 검색한 회사(회사명: LEXICAL Computing LIMITED 또는 회사번호: 04841901)
  2. ^ Kilgarriff, Adam; Baisa, Vít; Bušta, Jan; Jakubíček, Miloš; Kovář, Vojtěch; Michelfeit, Jan; Rychlý, Pavel; Suchomel, Vít (10 July 2014). "The Sketch Engine: ten years on". Lexicography. 1 (1): 7–36. doi:10.1007/s40607-014-0009-9. ISSN 2197-4292.
  3. ^ "Languages in Sketch Engine". Sketch Engine. Lexical Computing s.r.o. Retrieved 22 January 2018.
  4. ^ 애덤 킬가리프 홈페이지
  5. ^ 마사릭 대학교 자연어 처리 센터
  6. ^ 노스케치 엔진
  7. ^ Kilgarriff, Adam; Herman, Ondřej; Bušta, Jan; Rychlý, Pavel; Jakubíček, Miloš (2015). "DIACRAN: a framework for diachronic analysis" (PDF). Corpus Linguistics 2015: 65–70.
  8. ^ a b Rychlý, Pavel (2007). "Manatee/bonito–a modular corpus manager" (PDF). 1st Workshop on Recent Advances in Slavonic Natural Language Processing: 65–70.
  9. ^ Pomikálek, Jan; Jakubíček, Miloš; Rychlý, Pavel (2012). "Building a 70 billion word corpus of English from ClueWeb" (PDF). Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12).
  10. ^ "CQL – Corpus Query Language". Sketch Engine. Lexical Computing s.r.o. Retrieved 22 January 2018.
  11. ^ Rychlý, Pavel; Rábara, Radoslav (2015). "Concurrent Processing of Text Corpus Queries" (PDF). Workshop on Recent Advances in Slavonic Natural Language Processing: 49–58.
  12. ^ "Using Computational Lexicography for Dictionary Production with the Sketch Engine". REF Impact Case Studies. University of Brighton. Retrieved 18 April 2015.

추가 읽기

외부 링크