Page semi-protected

위키사전

Wiktionary
위키사전
WiktionaryEn - DP Derivative.svg
영어 위키사전 로고
스크린샷
English Wiktionary Main Page.png
2019년 1월 14일 영어 위키사전 메인페이지
사이트 유형
온라인 사전
이용가능기간:다국어(159개 액티브)[1]
주인위키미디어 재단
작성자Jimmy Wales와 Wikimedia 커뮤니티
URLwiktionary.org
상업의아니요.
등록.선택적.
개시.2002년 12월 12일, 19년 전(2002년 12월 12일)
현황활동적인

Wiktionary는 모든 자연 언어 및 여러 인공 언어로 용어 사전(단어, , 속담, 언어 재구성 )을 만드는 다국어 웹 기반 프로젝트입니다.이러한 엔트리에는 정의, 일러스트용 이미지, 발음, 어원, 굴절, 사용 예, 인용문, 관련 용어 및 다른 언어로 번역된 단어가 포함될 수 있습니다.Wiki를 통해 공동으로 편집할 수 있습니다. 이름은 위키사전합성어이다.그것은 183개의 언어와 간단한 영어로 제공됩니다.자매 프로젝트인 위키피디아와 마찬가지로 Wiktionary는 Wikimedia Foundation에 의해 운영되며 "Wiktionarians"라고 불리는 자원봉사자들에 의해 공동으로 작성됩니다.Wiki 소프트웨어인 MediaWiki를 사용하면 웹사이트에 접속할 수 있는 거의 모든 사용자가 엔트리를 작성 및 편집할 수 있습니다.

Wiktionary는 인쇄 공간 고려에 의해 제한되지 않기 때문에 대부분의 Wiktionary 언어판은 여러 언어의 단어의 정의와 번역을 제공하며 일부 버전은 일반적으로 susauri에서 볼 수 있는 추가 정보를 제공합니다.

Wiktionary의 데이터는 다양한 자연어 처리 작업에서 자주 사용됩니다.

역사와 발전

Wiktionary는 Daniel Alston의 제안과 [3]Wikipedia의 공동 설립자인 Larry Sanger의 아이디어에 따라 2002년 [2]12월 12일에 온라인화되었습니다.2004년 3월 28일, 최초의 영어 이외의 Wiktionaries가 프랑스어와 폴란드어로 시작되었습니다.그 후 수많은 다른 언어로 된 위키사전이 시작되었습니다.Wiktionary는 임시 도메인 이름(wiktionary)에서 호스팅되었습니다.2004년 5월 1일 현재 [a]도메인 이름으로 전환될 때까지 wikipedia.org).2021년 7월 현재 Wiktionary는 에디션 [4]전체에 걸쳐 3000만 건 이상의 기사(그리고 더 많은 엔트리)를 제공하고 있습니다.언어판 중 가장 큰 것은 영어 Wiktionary로 710만 건 이상의 엔트리가 있으며, 프랑스 Wiktionary가 440만 건, Malagasy Wiktionary가 160만 건 이상의 엔트리를 보유하고 있습니다.43개의 Wiktionary Language 에디션에는 [b]각각 100,000개 이상의 엔트리가 포함되어 있습니다.

대량의 기사를 생성하기 위한 봇의 사용은 최대 8개의 Wiktionary 에디션의 기사 수 그래프에서 "성장 촉진"으로 나타난다(2009년 12월 데이터).

프로젝트의 가장 큰 언어 에디션의 정의 대부분은 엔트리를 생성하는 창의적인 방법을 찾거나 이전에 공개된 사전에서 수천 개의 엔트리를 자동으로 가져온 봇에 의해 작성되었습니다.2007년 영어[c] 위키사전에 등록된 18개의 봇 중 7개가 [5]163,000개의 엔트리를 만들었습니다.

이러한 봇들 중 다른 하나인 "ThirdPersBot"은 표준 사전에 그들 자신의 엔트리를 받지 않았을 많은 3인칭 활용을 추가하는 데 책임이 있습니다. 예를 들어, "smoulder"를 "3인칭 단수 단순 현재 형식"으로 정의했습니다. 영어 위키사전에서는 1,269,938개의 정의를 제공합니다.r 996,450개의 영어 단어, 478,068은 이러한 종류의 "[6]형태" 정의이다.이는 이러한 항목이 없어도 주요 단일 언어 인쇄 사전보다 영어 범위가 훨씬 넓다는 것을 의미한다.를 들어 메리엄 웹스터의 제3차 국제영어사전(Unabredged)에는 47만5천 개의 표제어가 수록되어 있다.옥스퍼드 영어사전에는 61만5천 개의 표제어가 있지만 영어 위키사전에는 34,234개의 용어가 추가되어 있다.다양한 종류의 엔트리가 얼마나 많이 존재하는지 보여주는 상세 통계 정보가 존재합니다.

영어 Wiktionary는 일부 다른 에디션과 달리 봇에 의존하지 않습니다.를 들어, 프랑스어와 베트남어 위키사전은 자유 [d]베트남어 사전 프로젝트(FVDP)의 대부분을 수입했습니다.FVDP는 베트남어와의 사이에서 무료 이중언어 사전을 제공합니다.이들 수입품은 베트남판 콘텐츠의 거의 대부분을 차지한다.영어판과 마찬가지로 프랑스어 위키사전은 중국어, 일본어, 한국어유니한 데이터베이스에서 약 20,000개의 항목을 가져왔습니다.프랑스어 위키사전은 2006년에 크게 성장했는데, 이는 봇이 프랑스어 번역으로 다른 위키사전 판의 단어를 추가하기 위해 을 사용한 것과 같이 자유롭게 사용이 허가된 오래된 사전의 많은 항목을 복사한 덕분이다.러시아어판은 "LXbot"이 영어와 [7]독일어로 된 단어에 보일러 플레이트 항목(제목은 있지만 정의는 없음)을 추가함에 따라 거의 8만 개의 항목이 증가했다.

2021년 7월 현재 en.wiktionary에는 영어 엔트리에만 791,870개 이상의 글로스 정의와 1,269,938개 이상의 총 정의(다른 형식 포함)가 있으며 모든 언어에 [8]걸쳐 총 9,928,056개 이상의 정의가 있습니다.

로고

Wiktionary는 역사적으로 수많은 언어판에 걸쳐 통일된 로고가 없었습니다.일부 에디션에서는 MediaWiki [9]개발자인 Brion Vibber가 디자인한 이전 영문 Wiktionary 로고를 기반으로 "Wiktionary"라는 용어에 대한 사전 항목을 설명하는 로고를 사용합니다.순수 텍스트 로고는 언어마다 상당히 달라야 하기 때문에 2006년 [e]9월부터 10월까지 Wiki미디어 Meta-Wiki에서 균일한 로고를 채택하기 위한 4단계 대회가 개최되었습니다.일부 커뮤니티는 3×3의 나무 타일 격자 "스머레이인체스터"에 의해 수상작을 채택했으며, 각 참가자는 다른 문자 체계에서 온 문자를 가지고 있다.그러나 이번 여론조사는 일부 커뮤니티 구성원들이 기대했던 만큼 위키사전 커뮤니티의 참여가 많지 않아 결국 다수의 대형 위키가 텍스트 [e]로고를 유지하고 있다.

2009년 4월, 새로운 콘테스트로 부활했습니다.이번에 공개된 하드바운드 사전의 "AAEngelman"에 의한 묘사는 2006년 로고에 대한 정면 표결에서 승리했지만, 새로운 로고를 다듬고 채택하는 과정은 교착상태에 빠졌다.[10]그 후 몇 년 동안 일부 Wiki는 텍스트 로고를 두 개의 새로운 로고 중 하나로 대체했습니다.2012년에 영어 위키사전 로고를 사용하던 55개의 위키가 "Smurrayinchester"[f]에 의해 2006년 디자인의 현지화 버전을 받았습니다.2016년 7월, 영어 위키사전은 이 [11]로고의 변형을 채택했다.2016년 7월 4일 현재 위키사전 엔트리의 61%에 해당하는 135개 위키에서 2006년 "Smurrayinchester"의 디자인을 기반으로 한 로고를 사용하고 있으며, 33개 위키에서 텍스트 로고를 사용하고 있으며, 3개 위키에서 "AAEngelman"[12]의 2009년 디자인을 사용하고 있습니다.

정확성을 확보하기 위한 기준

정확성을 보장하기 위해 영어 위키사전에는 용어 [13]검증을 요구하는 정책이 있습니다.영어, 중국어 등 주요 언어의 용어는 다음 방법으로 확인해야 합니다.

  1. 분명히 널리 사용되는 것, 또는
  2. 최소 1년에 걸쳐 최소 3개의 독립된 사례에서 의미를 전달하는 영구 기록 매체에 사용.

Creek와 같이 문서화가 덜 된 언어 및 라틴어와 같은 소멸된 언어의 경우, 영구히 기록된 매체에서 한 번 사용하거나 참고 문헌에서 한 번 언급하는 것으로 충분합니다.

다국어

2022년 8월 현재 183개 언어에 대한 위키사전 사이트가 있으며, 이 중 159개가 활성화되어 있고 24개가 [1]폐쇄되어 있다.활성 사이트는 3186만8702건,[14] 폐쇄 사이트는 339건이다.6,662,232명의 등록 사용자가 있으며 이 중 5,468명이 최근에 활성화되었습니다.[14]

메인스페이스별 Wiktionary 언어 프로젝트 상위 10개 기사 수:[14]

언어 위키 좋아요. 편집 관리자 사용자 액티브 유저 파일
1 영어 en 7,133,420 8,241,533 68,485,043 107 3,958,344 1,921 24
2 프랑스어 프루 4,466,889 4,811,720 30,653,937 36 331,287 470 6
3 말라가시 관리 1,754,054 1,811,455 29,250,319 2 10,069 19 3
4 중국인 zh 1,205,777 1,809,993 7,264,969 9 105,972 92 1
5 러시아어 1,202,351 2,493,429 12,414,490 14 281,805 220 144
6 독일의 1,051,633 1,223,312 9,252,300 16 215,599 190 103
7 스페인어 es 913,341 968,459 5,066,931 8 142,778 99 14
8 세르보크로아티아어 911,601 916,460 1,469,734 2 7,308 12 3
9 스웨덴어 sv 845,059 886,367 3,695,662 14 52,043 64 1
10 네덜란드 nl 820,612 1,102,595 4,546,332 11 51,695 67 7

합계 일람에 대해서는, 다음의 Wikimedia Statistics 를 참조해 주세요.

크리티컬 리셉션

Wiktionary에 대한 비판적인 평가는 엇갈리고 있습니다.2006년레포어는 뉴요커지에 "노아의 방주"[g]라는 기사에서 이렇게 썼다.

Wiktionary에는 거수가 없다.편집진도 없어요."너만의 사전 편찬자가 되라!"가 위키사전의 모토일지도 모른다.누가 전문가를 필요로 합니까?사전 편찬자들이 쓴 사전을 왜 비싼 돈을 주고 샀을까?

위키사전은 마오쩌둥주의보다 공화주의적이거나 민주적이다.저작권이 만료된 책만큼만 좋은 거죠

Keir Graff의 북리스트 리뷰는 그다지 비판적이지 않았습니다.

Wiktionary 자리 있어요?의심할 여지 없이.많은 크리에이터들의 노력과 열정은 시장이 있다는 증거입니다.또한 오늘날 급변하는 세상과 온라인 환경에서 나타나는 이상한 용어를 검색할 때 사용할 수 있는 또 다른 강력한 소스가 있다는 것은 멋진 일입니다.그러나 수많은 웹 소스(이 열 포함)와 마찬가지로 고급 사용자가 보다 평판이 좋은 [citation needed]소스와 함께 사용하는 것이 가장 좋습니다.

나슈아 텔레그래프에서 데이비드 브룩스는 위키피디아를 "야생적이고 우둔하다"[17]고 표현했지만, 다른 출판물에서의 언급은 일시적인 것이며 위키피디아에 대한 더 큰 논의의 일부이기도 하다.Wiktionary의 독립적인 보도의 장애물 중 하나는 그것이 단지 [h]위키피디아의 확장일 뿐이라는 계속되는 혼란이다.

영어 위키사전에서 폴란드어 단어의 일부에 대한 굴절의 정확성을 측정한 결과, 이 문법 데이터는 매우 안정적이라는 것을 알 수 있었다.폴란드어 4748개 단어 중 131개 단어만이 변절 데이터를 [18]수정했다.

2016년 현재 Wiktionary는 [19]학계에서 점점 더 많이 사용되고 있습니다.

자연어 처리에 관한 위키사전 데이터

Wiktionary에는 반구조적[20]데이터가 있습니다.Wiktionary 사전 데이터는 자연어 처리 [21][22][23]태스크에 사용하기 위해 기계 판독 가능한 형식으로 변환할 수 있습니다.

Wiktionary의 데이터 마이닝은 복잡한 작업입니다.다음과 같은 [24]문제가 있습니다.

    • (1) 데이터 및 스키마의 지속적이고 빈번한 변경
    • (2) Wiktionary Language Edition 스키마의[i] 이질성 및
    • (3) 위키의 인간 중심적 성질.

Wiktionary 언어 [25]에디션에는 몇 가지 파서가 있습니다.

  • DBpedia Wiktionary :[26] DBpedia의 하위 프로젝트입니다.데이터는 영어, 프랑스어, 독일어 및 러시아어 Wiktionary에서 추출됩니다.데이터에는 언어, 언어 부분, 정의, 의미 관계 및 번역이 포함됩니다.페이지 스키마의 선언적 기술,[27] 정규식 및 유한 상태[28] 변환기를 사용하여 정보[29] 추출합니다.
  • JWKTL(Java Wiktionary Library):[30] Java Wiktionary [31]API를 통해 영어 Wiktionary 및 독일어 Wiktionary 덤프에 액세스할 수 있습니다.데이터에는 언어, 언어 부분, 정의, 인용, 의미 관계, 어원 및 번역이 포함됩니다.JWKTL은 Apache 라이선스로 배포됩니다.
  • wikokit [32]: 영어 Wiktionary 와 러시아어 Wiktionary [33]파서.해석된 데이터에는 언어, 언어 부분, 정의, 인용,[34][j] 의미 관계[35] 및 번역이 포함됩니다.이것은 멀티 라이선스의 오픈 소스 소프트웨어입니다.
  • 어원적 항목은 어원적 WordNet 프로젝트에서 구문 [36]분석되었습니다.

Wiktionary 데이터를 사용하여 해결된 자연어 처리 태스크의 는 다음과 같습니다.

  • 네덜란드어아프리칸스어 간의 규칙 기반 기계 번역. Apertium 기계 번역 [37]플랫폼에서는 영어 Wiktionary, 네덜란드어 Wiktionary 및 Wikipedia 데이터가 사용되었습니다.
  • 파서 NULEX에 의한 기계 판독 가능한 사전 구축. 오픈 언어 자원을 통합합니다.영어 Wiktionary, WordNetVerbNet입니다.[38]파서 NULEX는 영어 Wiktionary를 삭제하여 시제 정보(부사), 복수 형식 및 언어 부분(명사)을 찾습니다.
  • Wiktionary가 자동으로 발음 사전을 [39]만드는 데 사용된 음성 인식 및 합성입니다.단어-발음 쌍은 6개의 Wiktionary 언어 에디션(체코어, 영어, 프랑스어, 스페인어, 폴란드어, 독일어)에서 검색되었습니다.발음은 국제음성문자[k]되어 있다.영어 Wiktionary에 기반한 ASR 시스템은 단어 오류율이 가장 높아 각각의 세 번째 음소[41]변경해야 합니다.
  • 온톨로지 엔지니어링[42]시멘틱 네트워크 구축.[43]
  • 온톨로지 [44]매칭
  • 텍스트의 심플화.Medero & Ostendorf[45] Wiktionary 데이터를 사용하여 어휘의 어려움(읽기 수준 검출)을 평가했습니다.Wiktionary 엔트리에서 추출된 단어 속성(정의 길이 POS, 감지 및 번역 수)을 조사했습니다.Medero & Ostendorf는 다음과 같이 예측했습니다.
    • (1) 매우 일반적인 단어는 여러 개의 언어 부분을 가질 가능성이 높다.
    • (2) 일반적인 단어는 여러 가지 의미를 가질 가능성이 높다.
    • (3) 일반적인 단어는 여러 언어로 번역되었을 가능성이 높다.Wiktionary 엔트리에서 추출된 이러한 기능은 간단한 영어 위키피디아 문서에 나타나는 단어 유형과 표준 영어 비교 기사에만 나타나는 단어를 구별하는 데 도움이 되었습니다.
  • 음성 태그 부착.Li 등(2012)[46]은 영어 위키사전 [l]및 숨겨진 마르코프 모델을 기반으로 자원이 부족한 8개 언어에 대한 다국어 POS 태그를 구축했다.
  • 감정 [47]분석

"위키다타:사전 편찬 데이터'는 위키토너리에 구조화된 데이터 지원을 제공하기 위해 2018년에 시작되었습니다.모든 언어의 단어 데이터를 Wikidata의 전용 "Lexeme" 네임스페이스 아래에 기계 판독 가능한 데이터 모델에 저장합니다.2021년 10월 현재 이 프로젝트는 60만 개 이상의 다양한 [48]언어의 어휘소 엔트리를 축적하고 있습니다.

「 」를 참조해 주세요.

메모들

  1. ^ Wiktionary의 현재 URL은 www.wiktionary.org입니다.
  2. ^ Wiktionary의 총 기사 수는 다음과 같습니다.단어 유형별 자세한 통계는 [1]에서 확인할 수 있습니다.
  3. ^ 영어 Wiktionary의 사용자 목록은 "봇 상태"가 지정된 계정을 식별합니다.
  4. ^ 자유 베트남어 사전 프로젝트 H ng Ngcc Dcc.자세한 내용은 베트남어 위키사전을 참조하십시오.
  5. ^ a b Wiktionary/logo, Meta-Wiki, Wikimedia Foundation.
  6. ^ [Translators-l] 56 Wiktionaries 로고가 현지화되었습니다.
  7. ^ 기사 전문은 [16]온라인에서는 구할 수 없습니다.
  8. ^ 이 인용문에서 저자는 Wiktionary를 Wikipedia 사이트의 일부로 언급합니다.Adapted from an article by Naomi DeTullio (2006). "Wikis for Librarians" (PDF). NETLS News #142. Northeast Texas Library System. p. 15. Archived from the original (PDF newsletter) on June 5, 2007. Retrieved April 21, 2007.
  9. ^ 예: 영어 Wiktionary러시아어 Wiktionary의 엔트리 구조 및 형식 규칙을 비교합니다.
  10. ^ 인용문은 러시아어 위키사전에서만 [34]발췌한 것입니다.
  11. ^ Wiktionary 페이지에 여러 개의 IPA 표기가 있는 경우(다른 언어 또는 발음이 다른 경우) 첫 번째 발음이 [40]추출되었습니다.
  12. ^ POS 태그의 소스코드와 결과는 https://code.google.com/p/wikily-supervised-pos-tagger 에서 구할 수 있습니다.

레퍼런스

인용문

  1. ^ a b WikiMediaMediaWiki API:시트매트릭스.데이터로부터 2022년 8월 취득:위키피디아 통계 / meta.탭
  2. ^ "Wikipedia mailing list archive discussion announcing the opening of the Wiktionary project". Retrieved May 3, 2011.
  3. ^ Larry Sanger가 Wiktionary에서 아이디어를 제공하는 위키피디아 메일링 리스트 아카이브 토론– 2011년 5월 3일 취득
  4. ^ https://www.wiktionary.org/[베어 URL]
  5. ^ The DaveBot Archived 2007년 10월 11일 Wayback Machine, TheCheatBot Archive 2007년 10월 11일 Wayback Machine, Websterbot Archive 2007년 10월 11일 Wayback Machine, PastBot, 2007년 10월 11일 Nanshu, Wayback Machine, 2007년 10월 11일 Wayback Machine에서 아카이브
  6. ^ 2021년 7월 21일 현재 상세 통계
  7. ^ LXbot은 2008년 5월 24일 Wayback Machine에서 아카이브 완료
  8. ^ 위키사전 통계
  9. ^ "위크셔너리 토크:Wiktionary 로고", 영어 Wiktionary, Wikimedia Foundation.
  10. ^ "Wiktionary/logo/refresh/voting", Meta-Wiki, Wikimedia Foundation.
  11. ^ phab: T139255
  12. ^ m: Wiktionary/Logo #Logo통계정보를 사용합니다.
  13. ^ "Wiktionary:Criteria for inclusion". Wiktionary. Retrieved March 13, 2015.
  14. ^ a b c WikiMediaMediaWiki API:사이트 정보데이터로부터 2022년 8월 취득:Wikipedia 통계/data.
  15. ^ "Wiktionary Statistics". Meta.Wikimedia.org. Retrieved September 11, 2020.
  16. ^ Lepore 2006.
  17. ^ David Brooks, "온라인, 더 이상 괴짜만을 위한 인터랙티브 백과사전이 아닙니다. 모든 사람들이 그 어느 때보다 지금 그것을 필요로 하고 있기 때문입니다."나슈아 텔레그래프 (2004년 8월 4일)
  18. ^ 2010년 Kurmas.
  19. ^ 사샤 & 뮐러 스피처 2016, 348페이지
  20. ^ Meyer & Gurevych 2012, 페이지 140.
  21. ^ Zesch, Muller & Gurevych 2008, 페이지 4, 그림 1
  22. ^ Meyer & Gurevych 2010, 페이지 40
  23. ^ 크리자노프스키, 트랜스포메이션 2010, 페이지 1
  24. ^ Hellmann & Auer 2013, 페이지 302, 페이지 16 (PDF 형식)
  25. ^ Hellmann, Brekle & Auer 2012, 페이지 3, 표 1
  26. ^ DBpedia Wiktionary 2013년 5월 4일 웨이백 머신에 아카이브
  27. ^ Hellmann, Brekle & Auer 2012, 페이지 8-9.
  28. ^ Hellmann, Brekle & Auer 2012, 페이지 10
  29. ^ Hellmann, Brekle & Auer 2012, 페이지 11
  30. ^ JWKTL
  31. ^ Zesch, Muller & Gurevych 2008.
  32. ^ wikit
  33. ^ Krizhanovsky, Transformation.
  34. ^ a b Smirnov et al. 2012.
  35. ^ 크리자노프스키, 2010년 비교.
  36. ^ 어원적 워드넷
  37. ^ Otte & Tyers 2011.
  38. ^ McFate & Forbus 2011.
  39. ^ Schlippe, Ochs & Schultz 2012.
  40. ^ Schlippe, Ochs & Schultz 2012, 페이지 4802.
  41. ^ Schlippe, Ochs & Schultz 2012, 페이지 4804.
  42. ^ Meyer & Gurevych 2012.
  43. ^ http://conceptnet5.media.mit.edu[베어 URL]
  44. ^ & 크리자노프스키 2011.
  45. ^ Medero & Ostendorf 2009.
  46. ^ Li, Grasa Taskar 2012.
  47. ^ Chesley et al. 2006.
  48. ^ "Wikidata:Wiktionary". Retrieved October 12, 2012.

원천

  • Krizhanovsky, Andrew (2010). "Transformation of Wiktionary entry structure into tables and relations in a relational database schema". arXiv:1011.1368 [cs].
  • Krizhanovsky, Andrew (2010). "The comparison of Wiktionary thesauri transformed into the machine-readable format". arXiv:1006.5040 [cs].
  • Li, Shen; Graça, Joao V.; Taskar, Ben (2012). "Wiki-ly supervised part-of-speech tagging" (PDF). Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island, Korea: Association for Computational Linguistics. pp. 1389–1398. Archived from the original (PDF) on May 22, 2013. Retrieved May 10, 2013.
  • Lin, Feiyu; Krizhanovsky, Andrew (2011). "Multilingual ontology matching based on Wiktionary data accessible via SPARQL endpoint". Proc. of the 13th Russian Conference on Digital Libraries RCDL'2011. Voronezh, Russia. pp. 19–26. arXiv:1109.0732. Bibcode:2011arXiv1109.0732L.
  • "Wiktionary". Top 101 Web Sites. PC Magazine. Ziff Davis. April 6, 2005. Archived from the original on December 21, 2005. Retrieved December 16, 2005.

외부 링크