자동 유사성 판단 프로그램
Automated Similarity Judgment Program프로듀서 | 막스 플랑크 인류사학연구소(독일) |
---|---|
언어들 | 영어 |
접근 | |
비용 | 무료 |
커버리지 | |
규율 | 양적비교언어학 |
링크 | |
웹사이트 | http://asjp.clld.org |
자동 유사성 판단 프로그램(ASJP)은 단어 목록 데이터베이스를 이용한 비교 언어학에 전산 접근법을 적용한 협업 프로젝트다. 이 데이터베이스는 개방된 접근성이며 세계 언어의 절반 이상을 위한 40개 항목의 기본 언어 목록으로 구성되어 있다.[1] 그것은 지속적으로 확장되고 있다. 데이터베이스는 증명된 족보집단의 고립 및 언어 외에도 피디진, 크레올, 혼합 언어, 구성 언어를 포함한다. 데이터베이스의 단어는 단순화된 표준 맞춤법(ASJPcode)[2]으로 옮겨진다. 이 데이터베이스는 언어 가족이 글로토시학과는 관련이 있지만 여전히 다른 방법으로 딸 언어로 갈라진 날짜를 추정하기 위해 사용되어 왔으며,[3] 원문 언어의 모국어(Urhimat)를 결정하고,[4] 음의 상징성을 조사하기 위해 사용되었으며,[5] 서로 다른 계통학적 방법 [6]및 몇 가지 다른 목적을 평가하기 위해 사용되었다.
ASJP는 언어 가족 간의 관계를 설정하거나 평가하기 위한 적절한 방법으로 역사적 언어학자들 사이에서 널리 받아들여지지 않는다.[7]
맥스플랑크인문사과학연구소가 주관하는 크로스 랭귀지스틱 연계 데이터 프로젝트의 일환이다.[8]
역사
원래 목표
ASJP는 원래 관찰된 어휘적 유사성을 바탕으로 언어를 계산적으로 분류한다는 궁극적인 목표를 가지고 서로 다른 언어로부터 같은 의미를 갖는 단어의 유사성을 객관적으로 평가하기 위한 수단으로 개발되었다. 첫 번째 ASJP 논문에서[2] 비교 언어에서 의미론적으로 동일한 두 개의 단어가 최소한 두 개의 동일한 소리 세그먼트를 보여주면 유사한 것으로 평가되었다. 두 언어의 유사성은 유사하다고 판단되는 단어 총수의 백분율로 계산되었다. 이 방법은 오스트리아어, 인도어-유럽어, 마야어, 무스코게안어 등 250개 언어에 대해 100개 항목으로 구성된 단어 목록에 적용됐다.
ASJP 컨소시엄
2008년경에 설립된 ASJP 컨소시엄에는 약 25명의 전문 언어학자와 자원 봉사자로 활동하거나 다른 방법으로 프로젝트에 대한 원조를 확장하는 기타 이해관계자들이 참여하게 되었다.[when?] 컨소시엄 설립의 원동력은 세실 H. 브라운이었다. Sören Wichmann은 이 프로젝트의 일일 큐레이터다. 그 컨소시엄의 세 번째 중심 멤버는 에릭 W이다. 프로젝트에 사용되는 대부분의 소프트웨어를 만든 홀맨.
짧은 단어 목록
사용된 단어 목록은 원래 100항목 스와데시 리스트에 기초했지만, 100항목 중 40항목의 부분집합은 전체 리스트보다 약간 더 나은 분류 결과를 가져오지 않았더라도 똑같이 좋은 것으로 통계적으로 결정되었다.[9] 따라서 이후에 수집된 단어 목록에는 40개 항목(일부 항목에 대한 증명이 부족한 경우)만 포함된다.
레벤슈테인 거리
2008년부터 발표된 논문에서 ASJP는 레벤슈테인 거리(LD)에 기초한 유사성 판단 프로그램을 채택하고 있다. 이러한 접근방식은 처음에 사용한 방법보다 전문가 의견과 비교하여 더 나은 분류 결과를 도출하는 것으로 밝혀졌다. LD는 한 단어를 다른 단어로 변환하는 데 필요한 연속적인 변화의 최소 수로 정의되며, 여기서 각 변경은 기호의 삽입, 삭제 또는 대체이다. 레벤스테인 접근법 내에서 단어 길이의 차이는 LD를 비교한 두 단어 중 긴 기호의 수로 나누면 수정할 수 있다. 이것은 표준화된 LDN을 생산한다. 두 언어 사이의 LDN(LDND)은 동일한 의미를 포함하는 모든 단어 쌍의 평균 LDN을 다른 의미를 포함하는 모든 단어 쌍의 평균 LDN으로 나누어 계산한다. 이 두 번째 정규화는 우연한 유사성을 교정하기 위한 것이다.[10]
워드 리스트
ASJP는 다음의 40단어 목록을 사용한다.[11] 스와데시 산맥과 비슷하다.야콘토프 리스트는 있지만 약간의 차이가 있다.
- 신체 부위
- 눈독을 들이다
- 귀를 기울이다
- 코를 찌르다
- 혓바닥
- 이가 나다
- 손짓하다
- 무릎을 꿇다
- 핏덩어리
- 뼈를 발라내다
- 가슴(여자)
- 간
- 가죽을 벗기다
- 동식물
- 부추기다
- 개
- 어류(어류
- 경적(경적 부분)
- 나무
- 잎사귀
- 사람
- 사람
- 이름(이름)
- 자연
- 태양
- 별을 뜨다
- 물을 주다
- 불
- 돌로 만든
- 경로
- 산의
- 밤(어두운 시간)
- 동사와 형용사
- 술을 마시다 (마시다)
- 죽다
- 보다
- 들리다
- 오다
- 새로운
- 가득 찬
- 숫자와 대명사
- 하나
- 두 개
- I
- 너
- 우리
ASJP코드
2016년의 ASJP 버전은 음소를 인코딩하기 위해 다음과 같은 기호를 사용한다: p b f v m w 8 t s z n r Z J 5 k g x N Q 7 L 4 G! i E 3 a u o.
그것들은 7개의 모음과 34개의 자음을 나타내며, 모두 표준 QWERTY 키보드에 있다.
ASJP코드 | 설명 | IPA |
---|---|---|
i | 원순 및 비원순의 높은 앞모음 | 나, ɪ, y, ʏ |
e | 원순 및 비원순의 중전모음 | e, ø |
E | 저모음, 원순 및 비원순 | a, æ, ɛ, ɶ, œ, œ |
3 | 원순 및 비원순의 중저모음 | ɨ, ɘ, ə, ɜ, ʉ, ɵ, ɞ |
a | 저중모음, 비원순 | ɐ |
u | 원순 및 비원순의 높은 등모음 | ɯ, u |
o | 중저모음, 원순 및 비원순 | ɤ, ʌ, ɑ, o, o, o, ɒ |
p | 무성 양변 중지 및 마찰. | p, ɸ |
b | 유성 양면 정지 및 마찰음 | b, β |
m | 부비강. | m |
f | 무성 치환 마찰음 | f |
v | 유성 근치 마찰음 | v |
8 | 무성음 치과 마찰음 | θ, ð |
4 | 치강 비강 | n̪ |
t | 무성 치경 정지 | t |
d | 유성 치경 정지 | d |
s | 무성 치경 마찰음 | s |
z | 유성 치경 마찰음 | z |
c | 무성 음성의 치경 결절. | ts, dz |
n | 무성 치경 비음 | n |
S | 무성 우편물 마찰음 | ʃ |
Z | 유성 우편 마찰음 | ʒ |
C | 무성 경구경 파쇄. | t |
j | 유성 팔막-팔막 박음질 | dʒ |
T | 무성음 구개음 멈춤 | c, ɟ |
5 | 구개 비음 | ɲ |
k | 무성 벨라 스톱 | k |
g | 유성 벨라 스톱 | ɡ |
x | 무성음 마찰음 | x, ɣ |
N | 비강. | ŋ |
q | 무성 경막 정지 | q |
G | 유성 경구 스톱 | ɢ |
X | 무성음 및 음성음 경구 마찰음, 음성음 및 음성음 인두 마찰음 | χ, ʁ, ħ, ʕ |
7 | 무성 글로탈 스톱 | ʔ |
h | 무성 발성 마찰음 | h, ɦ |
l | 유성 치경 측측 근사치 | l |
L | 다른 모든 나중의 일들 | ʟ, ɭ, ʎ |
w | 유성 양악기 근사치 | w |
y | 구개 근사치 | j |
r | 유성 아피코-아폴라 수조 및 모든 종류의 "r-colar" | r, ʀ 등 |
! | 모든 종류의 "클릭-클릭" | ǃ, ǀ, ǁ, ǂ |
참고 항목
참조
- ^ 비히만, 쇠렌, 안드레 뮐러, 안카트린 웨트, 비베카 벨루필라이, 줄리아 비쇼프베르거, 세실 H. 브라운, 에릭 W. 홀만, 세바스티안 소페, 자리나 몰로키에바, 파멜라 브라운, 하랄드 함마르스트룀, 올레그 벨야예프, 요한 마티스 리스트, 딕 바커, 드미트리 에고로프, 마티아스 어반, 로버트 메일해머, 아구스티나 카리조, 매튜 S. 드라이어, Evgenia Korovina, David Beck, Helen Geyer, Patient Epps, Anthony Grant, Pilar Vienzuela. 2013. ASJP 데이터베이스(버전 16). http://asjp.clld.org/
- ^ a b c 브라운, 세실 H, 에릭 W. 홀만, 쇠렌 비히만, 비베카 벨루필라이. 2008. 세계 언어 자동 분류: 방법 및 예비 결과에 대한 설명. STUF – 언어 유형 및 유니버설 61.4: 285-308.
- ^ Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List, and Dmitry Egorov. 2011. 어휘적 유사성에 기반한 세계 언어 가족의 자동화된 데이트. 현재 인류학 52.6: 841-875.
- ^ 비히만, 쇠렌, 안드레 뮐러, 비베카 벨루필라이. 2010. 세계 언어 가족의 고향: 양적 접근. 디오타이레니차 27.2: 247-276.
- ^ 비히만, 쇠렌, 홀만, 에릭 W, 그리고 세실 H. 브라운. 기본 어휘에서 소리 상징성. 엔트로피 12.4: 844-858.
- ^ 폼페이, 시모네, 비토리오 로레토, 프란체스카 트리아 2011. 언어 트리의 정확성에 대해서. PLOS 1 6: e20109.
- ^ cf. "Eric W. 외 연구진(2011년)의 홀맨에서 애들라르, 블러스트, 캠벨의 논평" " 어휘소적 유사성에 기반한 세계 언어 가족의 자동 데이트" 현재 인류학, 제52권, 제6호, 페이지 841–875.
- ^ "Cross-Linguistic Linked Data". Retrieved February 22, 2020.
- ^ 홀만, 에릭 W, 쇠렌 비히만, 세실 H. 브라운, 비베카 벨루필라이, 안드레 뮐러, 딕 바커. 2008. 자동 언어 분류에 대한 탐구. 폴리아 언어학 42.2: 331-354.
- ^ 비히만, 쇠렌, 에릭 W. 홀만, 딕 바커, 그리고 세실 H. 브라운. 언어 거리 측정 평가. Physica A 389: 3632-3639(doi:10.1016/j.physa.2010.05.011).
- ^ http://asjp.clld.org/static/Guidelines.pdf
원천
- 쇠렌 비히만, 제프 굿(에드스) 2014. 언어 역학 수량화: 아레알과 혈류학 언어학의 절단에 관한 연구, 203페이지. 라이덴: 브릴.
- 브라운, 세실 H 등 2008년. 세계 언어 자동 분류: 방법 및 예비 결과에 대한 설명. 언어 유형 및 유니버설 61(4) 2008년 11월. doi:10.1524/stuf.0026
- 비히만, 쇠렌, 에릭 W. 홀맨과 세실 H. 브라운(에드스). ASJP 데이터베이스(버전 18).
외부 링크
- ASJP 데이터베이스 공식 홈 페이지