모비 프로젝트
Moby ProjectMoby Project는 Grady Ward에 의해 만들어진 퍼블릭 도메인 어휘 자원 모음입니다.이 자원은 퍼블릭 도메인 전용으로 현재는 프로젝트 구텐베르크에 반영되어 있습니다.2007년 현재[update], 그것은 177,267개의 단어와 그에 상응하는 [1]발음을 가진 가장 큰 무료 음성 데이터베이스를 포함하고 있다.
하이픈
Moby Hyphenator II에는 187,175개의 단어와 구(through 및 avoir 등 하이픈이 부여되지 않은 9,752개의 엔트리가 포함됩니다)가 포함되어 있습니다.문자 인코딩은 MacRoman으로 표시되며 하이픈은 글머리 기호(문자 값 165 10진수 또는 A5 16진수)로 표시됩니다.그러나 일부 엔트리에는 실제 하이픈과 문자 165가 조합되어 있습니다(예: bar•ber-sur•sean).
하이픈을 선택할 수 있는 문서는 거의 또는 전혀 없습니다.다음 예에서는 사용되는 하이픈 스타일의 풍미를 나타낼 수 있습니다.at•mos•phere ;at•tend•ant ; ca•pac•i•ty ;un•col•or•a•ble
언어들
Moby Language II에는 5개 언어의 워드 리스트가 포함되어 있습니다.프랑스어, 독일어, 이탈리아어, 일본어, 스페인어.통계는 다음과 같습니다.
언어 | 단어 | 크기(바이트 단위) |
---|---|---|
프랑스어 | 138,257 | 1,524,757 |
독일의 | 159,809 | 2,055,986 |
이탈리아의 | 60,453 | 561,981 |
일본인입니다 | 115,523 | 934,783 |
스페인어 | 86,059 | 850,523 |
총 | 560,101 | 5,928,030 |
그러나 일본어 목록에는 abcdefgh나 m,/와 같은 영어 단어와 비정상 단어 등이 포함되어 있는 등 일부 목록이 오염되어 있습니다.이 목록들의 정렬에는 특이한 점이 있는데, 프랑스 목록에는 알파벳 순서의 목록이 포함되어 있고, 독일 목록에는 전통적으로 대문자화된 단어들의 알파벳 순 목록이 포함되어 있고, 그 다음에는 전통적으로 소문자가 낮은 단어들의 알파벳 순 목록이 포함되어 있기 때문이다.그러나 이탈리아어 목록에는 대문자로 된 단어가 전혀 없다.
목록에는 악센트 문자가 사용되지 않으므로 "e^tre"는 사용자가 프랑스어 단어인 "étre"("to be")를 검색하는 방법입니다.
스피치 부분
Moby Part-of-Speech에는 233,356개의 단어가 포함되어 있으며, priority 순서로 나열되어 있습니다.파일의 형식은 word\parts-of-speech이며, 다음 부분을 식별합니다.
스피치 부분 | 코드 |
---|---|
명사 | N |
복수형 | p |
명사구 | h |
동사(통상 분사) | V |
타동사 | t |
자동사 | i |
형용사 | A |
부사. | v |
접속사 | C |
전치사 | P |
삽입 | ! |
대명사 | r |
확정사 | D |
부정관사 | I |
주격 | o |
발음자
Moby Princunciator II에는 177,267개의 엔트리와 대응하는 발음이 포함되어 있습니다.대부분의 엔트리는 1개의 단어를 기술하지만 약 79,000개의[2] 단어에 하이픈으로 연결된 구문, 이름 또는 어휘소가 포함되어 있습니다.Project Gutenberg 배포판에는 cmudict v0.3의 복사본도 포함되어 있습니다.이 파일에는 워드[/part-of-speech] 형식의 발음 행이 포함되어 있습니다.각 행은 ASCII 캐리지 리턴 문자(CR, '\r', 0x0D, 10진수 13)로 끝납니다.
단어 필드에는 아포스트로피(예: 그렇지 않음), 하이픈(예: 신체 기능) 및 밑줄로 구분된 여러 단어(예: monkey_wrench)가 포함될 수 있습니다.영어 이외의 단어는 일반적으로 설명서에 기재된 바와 같이 악센트나 다른 발음이 없는 상태로 렌더링됩니다.단, 36개의 엔트리(So_Miguel 등)에서는 ASCII 이외의 악센트 문자가 남아 Mac OS Roman 인코딩을 사용합니다.
part-of-speech 필드는 part-of-speech에 따라 발음이 다른 단어 770개를 명확하게 하기 위해 사용됩니다.예를 들어 철자가 가까운 단어의 경우 동사는 /ˈklozz/로 발음하는 반면 형용사는 /kkloss/로 발음한다.음성 부품에는 다음 코드가 할당되어 있습니다.
스피치 부분 | 코드 |
---|---|
명사 | n |
동사. | v |
형용사 | 아지 |
부사. | av |
삽입 | 중단하다 |
다음은 발음입니다.다음과 같은 몇 가지 특수 기호가 있습니다.
기호. | 의미. |
---|---|
_ | 단어를 구분하는 데 사용됨 |
' | 다음 음절에 대한 일차 강세 |
, | 다음 음절에 대한 2차 강세 |
나머지 기호는 IPA 문자를 나타내기 위해 사용됩니다.발음은 일반적으로 아버지-바우더 합병, 서두르기 합병 및 로트-크로스 분할을 나타내지만, 공동 포착 합병이나 와인-와인 합병을 나타내지 않는 일반적인 미국 일반 사투리와 일치한다.각 음소는 하나 이상의 문자로 이루어진 시퀀스로 나타난다.일부 시퀀스는 다음 표와 같이 슬래시 문자 "/"로 구분되지만 /"/"/"의 시퀀스는 양쪽 끝에 2개의 슬래시 문자로 구분됩니다.
기호. | IPA |
---|---|
/&/ | æ |
/-/ | ə |
/@/ | ,, ə |
/[@]/r | r, r |
/A/ | ,, ː |
/aI/ | 아쿠아리움 |
/AU/ | 아쿠아리움 |
b | b |
d | d |
/D/ | ð |
/dZ/ | d440 |
/E/ | ɛ |
/eI/ | 이그릇 |
f | f |
g | ɡ |
h | h |
하드웨어 | 하드웨어 |
/i/ | i440 |
/I/ | ɪ |
/j/ | j |
/ju/ | 츄우 |
k | k |
l | l |
m | m |
n | n |
/N/ | ŋ |
/O/ | ,, ː |
//Oi// | ɔɪ |
/oU/ | 오오 |
p | p |
r | r |
s | s |
/S/ | ʃ |
t | t |
/T/ | θ |
/ts/ | 동작하다 |
/u/ | ufilters. |
/U/ | ʊ |
v | v |
w | w |
z | z |
/Z/ | ʒ |
이 컬렉션에는 다른 여러 언어에서 볼 수 있는 음소를 나타내는 다수의 추가 시퀀스가 추가됩니다.데이터베이스에 포함된 영어 이외의 단어, 구 및 이름을 인코딩하는 데 사용됩니다.다음 표에 이러한 추가 음소를 나타냅니다.다만, 부호화 에러에 의해서 이러한 음소가 어느 정도 존재할 가능성이 있는지는 불명확합니다.
기호. | IPA |
---|---|
A | a |
e | e, § |
i | i, ɪ |
N | 선행 모음의 비음화 |
o | o |
O | [불명확] |
R | ʁ |
S | s |
u | u |
V | v, β, δ |
W | w |
/x/ | x |
/y/ | ø |
Y | y |
/z/ | ts |
Z | z |
셰익스피어
모비 셰익스피어는 셰익스피어의 완전한 요약되지 않은 작품들을 포함하고 있다.이 특정 리소스는 Project Gutenberg에서는 이용할 수 없지만 [3]웹에서는 1993년 버전으로 이용할 수 있습니다.
시소러스
Moby Thesaurus II에는 30,260개의 어근 단어와 2,520,264개의 동의어와 관련 용어가 포함되어 있습니다. 이는 어근 단어당 평균 83.3개입니다.각 행은 쉼표로 구분된 값 목록으로 구성되어 있으며 첫 번째 용어는 루트 워드이고 다음 단어는 모두 관련 용어입니다.
그래디 워드는 이 시소러스를 1996년에 공개했습니다.Bulseye에서 [4]패키지가 단종되었지만 데비안 패키지로도 이용할 수 있습니다.
단어
Moby Words II는 세계에서 [1][additional citation(s) needed]가장 큰 단어 목록입니다.배포는 다음 16개의 파일로 구성됩니다.
파일명 | 단어 | 묘사 |
---|---|---|
약어TXT | 6,213 | 일반적인 줄임말 및 줄임말 |
공통.TXT | 74,550 | 두 개 이상의 게시된 사전에 있는 공통 단어 |
컴파운드TXT | 256,772 | 공통 단어 파일에 포함되지 않은 구문, 고유 명사 및 머리글자 |
크로스위드TXT | 113,809 | 공식 스크래블 플레이어 사전 초판에 포함된 단어 |
CRSWD-DTXT | 4,160 | 제2판의 공식 스크래블 플레이어 사전 추가 |
픽션TXT | 467 | The Joy Luck Club에서 가장 흔히 발생하는 기고문 목록 |
FREQ.TXT | 1,000 | 내림차순으로 나열된 영어에서 가장 자주 발생하는 단어 |
FREQ-INTTXT | 1,000 | 1992년 Usenet에서 가장 자주 발생하는 단어, 해당 백분율로 내림차순으로 나열됨 |
KJVFREQTXT | 1,185 | 킹 제임스 성경에 나오는 가장 빈번한 어구들로, 내림차순으로 나열되어 있다. |
이름.TXT | 21,986 | 미국과 영국에서 사용되는 가장 일반적인 이름 |
NAMES-F.TXT | 4,946 | 일반적인 영어 여성 이름 |
NAMS-MTXT | 3,897 | 일반적인 영어 남자 이름 |
빈번히 실수하다TXT | 366 | 가장 흔한 오자 영어 단어 |
플레이스.TXT | 10,196 | 미국의 지명 |
싱글.TXT | 354,984 | 고유 명사, 약어, 복합어 및 구를 제외한 단일 단어, 고어 및 유의한 변형 철자 |
USACONSTTXT | 7,618 | 1993년까지의 모든 개정안을 포함한 미국 헌법 |
총 | 863,149 | 독특한 단어들의 총합이 아닙니다. |
총 유니크 | 639,995 | 단일 고유 명사, 약어 및 복합 단어와 구(고유 단어를 포함하는 모든 파일)의 합계. |
레퍼런스
- ^ a b "ACL SIGLEX Resource Links". Special Interest Group on the Lexicon of the Association for Computational Linguistics. August 13, 2004. Archived from the original on December 15, 2018. Retrieved May 9, 2022.
Moby Words: 610,000+ words and phrases. The largest word list in the world
- ^ UNIX 명령어 grep를 실행하여 가져옵니다.*[-_].*' mobypron.l' wc - l을 행의 끝을 변환하고 부호화 오류를 수정한 후.
- ^ 모바일 학txt 1993 버전
- ^ Tosi, Sandro (July 13, 2020). "RM: dict-moby-thesaurus -- RoQA; dead upstream (10+ years); python2-only; no extrenal deps; extremely low popcon". Debian Bug report logs. Retrieved May 10, 2022.
외부 링크
- Moby Project 홈페이지, 셰필드 대학교, 2017년 9월 30일 페이지의 Wayback Machine에 의해 작성된 복사본.("최종 수정:2000년 10월 24일)의 다운로드 사이트.
- 프로젝트 구텐베르크 다운로드
- Perl을 사용한 라임 검색, 대응하는 코드