양적비교언어학

Quantitative comparative linguistics

정량적 비교언어학비교언어학에 적용되는 정량적 분석을 이용하는 것이다. 그 예로는 사전독성학글로토지학 통계학 분야, 생물학에서 유전학(phylogenetics)의 차용 등이 있다.

역사

통계적 방법은 비교언어학에서 정량적 분석을 목적으로 1세기 이상 사용되어 왔다. 1950년대에 스와데시 목록은 대부분의 언어에서 발견되는 표준화된 어휘 개념 집합으로, 두 개 이상의 언어를 경험적으로 비교하고 대조할 수 있게 한다.

아마도 최초로 발표된 정량적 역사언어학 연구는 1916년 사피르에 의해 이루어졌을 것이며,[1] 1937년 크뢰버와 크레티엔은 74개의 형태학적, 음운학적 특징을 이용하여 인도유럽어(IE) 9개 언어를 조사하였다(1939년 히타이트 포함으로 확장됨). 1950년 로스는 그러한 연구의 이론적 근거에 대한 조사를 수행했다. 스와데쉬는 1950년대 초에 발표된 일련의 논문에서 단어 목록을 사용하여 사전독성학글로토시학을 개발했지만, 이러한 비판의 일부는 다른 학자들에 의해 정당화되지 않은 것으로 보여지지만, 이러한 방법들은 널리 비판되었다. 엠블턴은 1986년 '역사언어학 통계학'이라는 책을 펴냈는데, 이 책은 이전 작품을 검토하고 글로토만기법을 확장했다. Dyne, Kruskal, Black은 1992년에 큰 IE 데이터베이스에서 사전 편찬적 방법에 대한 연구를 수행했다.[6]

1990년대 동안, 계산 혈전학피복재학 방법의 적용에 기초하여 이 주제에 대한 새로운 관심이 있었다. 그러한 프로젝트에는 종종 언어학자, 정보과학 및/또는 생물인류학 분야의 전문지식을 가진 동료들의 협업이 포함되었다. 이러한 프로젝트들은 종종 진화적 조상과 아마도 그것의 언어적 접촉에 대한 가설을 나타내기 위해 최적의 계통적 트리(또는 네트워크)에 도달하려고 했다. 이러한 방법의 선구자에는 CPHL: 역사언어학(CPHL 프로젝트)의 컴퓨터 계통유전학(computer phylogenetics in history physics)의 창시자가 포함되었다. 도널드 링, 탠디 워나우, 루이 나클레, 스티븐 N. 에반스.

1990년대 중반 펜실베이니아 대학교의 한 그룹은 비교 방법을 컴퓨터화했고 20개의 고대 언어가 있는 다른 IE 데이터베이스를 사용했다.[7] 생물학 분야에서는 역사 언어학에 적용할 수 있는 몇 가지 소프트웨어 프로그램이 개발되었다. 특히 오클랜드 대학의 한 단체는 논란의 여지가 있을 정도로 오래된 IE 언어의 날짜를 알려주는 방법을 개발했다.[8] 1999년 8월 '역사언어학 시간심층' 회의가 열려 정량적 방법의 응용이 많이 논의되었다.[9] 그 후 많은 논문들이 방법의 비교뿐만 아니라 다양한 언어 그룹의 연구에 대해 발표되었다.

2003년 인류학자인 러셀 그레이쿠엔틴 앳킨슨네이처 인도유럽어에 대한 짧은 연구를 발표한 후 언론의 관심이 높아졌다. 그레이와 앳킨슨은 확률론적 의미에서 현대 인도-유럽 언어의 나이와 관련성, 그리고 때로는 이전의 원-언어들을 수량화하려고 시도했다.

2004년 영향력 있는 회의인 Peter ForsterColin Renfrew가 편집한 Philogenetic Methods와 The Presidentory of Language의 진행은 2006년에 출판되었다.

공부한 어족

컴퓨터 계통생성학적 분석은 다음을 위해 수행되었다.

배경

언어 관계를 평가하는 표준 방법은 비교 방법이었다. 그러나 이것은 여러 가지 한계를 가지고 있다. 모든 언어 자료가 입력으로 적합한 것은 아니며 방법이 작동하는 언어 수준의 문제가 있다. 재구성된 언어는 이상화되고 학자들마다 다른 결과가 나올 수 있다. 어족수는 수법과 연계해 사용하는 경우가 많고, '차입'은 반드시 자료에서 제외해야 하는데, 이는 한 가족 내에서 차입이 어려운 경우다. 그 방법이 작동 가능한 시간 깊이에 제한되어 있다고 주장하는 경우가 많다. 그 방법은 적용이 어렵고 독립된 시험이 없다.[28] 따라서 공식화된 방법을 가지고 관계를 정량화하고 시험할 수 있는 대체 방법이 모색되었다.

비교역사언어학의 목표는 언어들 사이의 유전적 관련성의 예를 확인하는 것이다.[29] 정량적 분석의 단계는 (i) 이론적 근거, 특정 모델 또는 과거 경험에 근거한 절차를 고안하는 것이다. (ii) 비교를 위한 언어적 의견의 큰 개체가 존재하는 일부 데이터에 이를 적용하여 절차를 검증하는 것이다(이는 (i)단계의 절차의 수정이나 극단적인 o로 이어질 수 있다).f 언어적 의견이 아직 생성되지 않았거나, 아직 확실히 확립되지 않았거나, 또는 아마도 충돌하고 있는 데이터에 이 절차를 적용하는 것.[30]

언어에 계통생성법을 적용하는 것은 다단계 과정이다: (a) 인코딩 단계 - 실제 언어에서 수치 또는 상태 데이터의 형태로 그들 사이의 관계를 어떤 식으로 표현함으로써, 그러한 데이터가 계통생성 방법의 입력으로 사용될 수 있다 (b) 표현 단계 - 계통생성 방법을 ex에 적용그러한 수치 및/또는 상태 데이터에서 어떤 유용한 형태의 표현으로 변환되는 신호, 대개 나무나 네트워크와 같은 2차원 그래픽으로 변환되는 신호는 (c) 해석 단계에서 종종 매우 복잡한 다차원 관계를 합성하고 "합성"한다 - 이러한 트리 및 네트워크 평가 시간을 통해 실제 언어와 그들의 관계를 위해 그들이 실제로 의미하는 것을 그들에게서 추출하기 위한 표현들.[31]

나무 및 네트워크의 유형

정량적 역사 언어 분석의 출력은 일반적으로 나무나 네트워크 다이어그램이다. 이것은 출력 데이터의 요약 시각화를 허용하지만 완전한 결과는 아니다. 트리는 연결된 악순환 그래프로, 정점 집합("노드"라고도 함)과 정점 쌍을 각각 연결하는 가장자리 집합("브런치")으로 구성된다.[32] 내부 노드는 인두 발생 트리나 네트워크에서 언어 조상을 나타낸다. 각각의 언어는 진화에 따라 다른 상태를 보여주는 경로로 표현된다. 꼭지점 쌍 사이에는 하나의 길밖에 없다. 뿌리 없는 나무는 하강과 관련된 가정 없이 입력 데이터 사이의 관계를 표시한다. 뿌리깊은 나무는 종종 진화의 방향을 지정하거나 분류되는 언어 집합과 먼 거리에서만 관련이 있다고 알려진 "아웃그룹"을 포함함으로써 공통의 조상을 명시적으로 식별한다. 대부분의 나무는 이항성이며, 그것은 부모에게 두 아이가 있다는 것이다. 나무는 항상 적절한 것은 아니지만 항상 만들어질 수 있다. 다른 종류의 나무는 언어의 유사성/차이에 근거하는 것이다. 이 경우 그래프의 내부 노드는 조상을 나타내지 않고 데이터 분석에서 서로 다른 분할("양분") 사이의 충돌을 나타내기 위해 도입된다. "페니틱 거리"는 언어 사이의 경로를 따라 가중치(흔히 길이로 표현됨)의 합이다. 때때로 이러한 내부 노드가 조상을 나타낸다는 추가적인 가정이 만들어지기도 한다.

언어가 융합할 때, 대개 단어 채택("차용")과 함께 네트워크 모델이 더 적합하다. 언어의 이중 모태를 반영하기 위해 추가적인 가장자리가 있을 것이다. 두 언어가 서로 차용된다면 이러한 가장자리는 양방향일 것이다. 따라서 트리는 단순한 네트워크지만, 다른 많은 종류의 네트워크들이 있다. 계통망이란 세자가 노드로 대표되고 이들의 진화적 관계가 분기로 대표되는 네트워크다.[33] 또 다른 유형은 분할에 기초한 것으로 분할 트리의 결합 일반화다. 주어진 분할 세트는 둘 이상의 표현을 가질 수 있으므로 내부 노드는 선조체가 아닐 수 있으며 계통 생성 네트워크의 "명확한" 표현과는 구별되는 진화 역사의 "불확실한" 표현일 뿐이다. 스플릿 네트워크에서 두 언어 사이의 가장 짧은 경로의 거리가 골격이다. 또 다른 유형은 망막(예: 접촉으로 인한)과 망막 내부 노드가 조상을 나타내는 비호환성을 보이는 망막이다. 네트워크는 또한 트리에 접촉 가장자리를 추가하여 구성할 수도 있다. 마지막 주요 유형은 나무로 형성된 컨센서스 네트워크다. 이 나무들은 부트스트랩 분석 또는 후분포에서 추출한 샘플의 결과일 수 있다.

언어변화

변화는 언어에 지속적으로 발생하지만,[34] 그것의 누적적인 효과로 인해 방언, 언어, 언어 패밀리로 분열되는 경우가 보통은 아니다. 형태학은 가장 느리게 변화하고 음운학은 가장 빨리 변화한다고 일반적으로 생각된다. 변화가 일어나면서 원어에 대한 증거도 점점 줄어들고 있다. 마지막으로 관련성의 증거가 손실될 수 있다. 한 유형의 변경은 다른 유형에 영향을 미치지 않을 수 있다. 예를 들어 소리 변경은 인지성에 영향을 미치지 않는다. 생물학과 달리 언어는 모두 공통의 기원을 가지고 있으며 관련성을 확립할 필요가 있다고 가정할 수 없다. 모델링에서 문자는 자주 독립적으로 변화한다고 종종 가정하지만 이것은 그렇지 않을 수 있다. 차용 외에도 의미론적 변화, 다형성 등이 있을 수 있다.

분석입력

데이터

분석은 언어의 "charactor" 또는 언어의 "distance"에 대해 수행될 수 있다. 전자의 경우, 언어 분류에 대한 입력은 일반적으로 데이터 매트릭스의 형태를 취하는데, 행은 분석 중인 다양한 언어에 대응하고 열은 각 언어를 설명할 수 있는 다른 특징이나 문자에 대응한다. 이러한 특징들은 두 가지 유형의 인지 데이터 또는 유형 데이터로 구성된다. 문자는 하나 이상의 형태(동음이의)를 취할 수 있으며 어휘, 형태론 또는 음운론적일 수 있다. 코냑은 형태소(lexical 또는 문법적) 또는 더 큰 구조물이다. 유형문자는 문법이나 어휘의 어느 부분에서나 나올 수 있다. 데이터에 공백이 있으면 코드화해야 한다.

(확대되지 않은) 데이터의 원래 데이터베이스 외에도, 많은 연구 하위 집합이 특정 목적(확대된 데이터)을 위해 형성된다.

어휘론에서 특징은 단어의 의미, 즉 의미론적 슬롯이다. 따라서 행렬 항목은 일련의 광택이다. 스와데쉬가 처음 고안한 것처럼 슬롯에 대한 가장 흔한 단 하나의 단어가 선택될 예정이었는데, 의미적 변화 때문에 어렵고 주관적일 수 있다. 이후 방법에서는 둘 이상의 의미가 포함될 수 있다.

제약

일부 방법은 언어 접촉 지리(거리별 분리) 및 하위 그룹 분할 시간에 제약을 둘 수 있다.

데이터베이스

스와데슈는 원래 200단어 목록을 발표했으나 나중에 100단어로 다듬었다.[35] 일반적으로 사용되는 IE 데이터베이스는 Dyn, Kruskal 및 Black이 95개 언어에 대한 데이터를 포함하는 데이터베이스로, 원본은 몇 가지 오류를 포함하고 있는 것으로 알려져 있다. 그것은 원시 데이터 외에도 인지적 판단을 포함하고 있다. 이것은 온라인에서 이용할 수 있다.[36] 링게, 워노우, 테일러의 데이터베이스는 음성학적 문자 22개, 형태학적 문자 15개, 어휘적 문자 333개로 24개의 IE 언어에 대한 정보를 가지고 있다. 그레이와 앳킨슨은 고대 3개 언어가 추가된 다이엔 세트에 근거하여 2449개의 어휘 항목을 가진 87개 언어의 데이터베이스를 사용했다. 그들은 다수의 학자들의 인지적 판단을 통합했다. 다른 데이터베이스들은 아프리카, 호주, 안데스 언어 가족을 위해 작성되었다.

데이터의 부호화는 이진 형식 또는 다주 형식일 수 있다. 전자는 종종 사용되지만 편견으로 귀결된다. 두 코딩 방식 사이에는 일정한 척도계수가 존재하며, 이를 위해 허용이 가능하다는 주장이 제기됐다. 그러나 다른 연구는 위상이 바뀔 수 있다는 것을 시사한다.

단어 목록

단어 슬롯은 가능한 한 문화적이고 차용되지 않는 것으로 선택된다. 원래의 스와데시 리스트는 가장 흔하게 사용되지만 다른 많은 것들은 특별한 목적을 위해 고안되었다. 종종 이것들은 스와데시가 선호하는 100개 품목 리스트보다 짧다. 케슬러는 "맥마흔과 맥마흔이 재구성성과 반복성의 영향에 대한 연구를 수행하면서 단어 목록의 중요성"에 관한 책을 저술했다.[28] 슬롯 수를 늘리는 효과가 연구되었고 수익 감소 법칙이 발견되었으며, 약 80개가 만족스러운 것으로 나타났다.[39] 그러나 일부 연구에서는 이 숫자의 절반 이하를 사용했다.

일반적으로 각 코인 집합은 다른 문자로 표현되지만 단어 간의 차이도 소리 변화에 의한 거리 측정으로 측정할 수 있다. 거리는 또한 문자로 측정될 수 있다.

형태학적 특징

전통적으로 이것들은 어휘적인 것보다 더 중요한 것으로 여겨져 왔고 그래서 일부 연구들은 이러한 유형의 성격에 추가적인 무게를 두고 있다. 예를 들어 링게, 워노우 및 테일러 IE 데이터베이스에 그러한 기능이 포함되었다. 그러나 다른 연구들은 그것들을 생략했다.

유형 특징

이러한 특징의 예로는 글로탈화 상수, 톤 시스템, 명사의 고발적 정렬, 이중 번호, 사례 번호 대응, 객체-간격 순서, 1인칭 단수 대명사가 있다. WALS 데이터베이스는 아직 많은 언어에서 드물게 채워져 있을 뿐이지만, 이러한 데이터베이스는 WALS 데이터베이스에 등재될 것이다.[40]

확률론적 모형

일부 분석 방법은 언어 진화의 통계적 모델을 통합하고 모델의 특성을 사용하여 진화 역사를 추정한다. 또한 통계적 모델은 시험 목적의 데이터 시뮬레이션에도 사용된다. 확률적 과정은 언어 내에서 문자 집합이 어떻게 진화하는지 설명하는데 사용될 수 있다. 문자가 변경될 확률은 분기에 따라 달라질 수 있지만 모든 문자가 함께 진화하는 것은 아니며 모든 분기에 동일한 비율도 아니다. 각 캐릭터가 독자적으로 진화한다고 가정하는 경우가 많지만 항상 그렇지는 않다. 모델 차용 및 병렬 개발(동형체)도 다형성뿐만 아니라 모델링할 수 있다.

우연의 효과

우연한 유사성은 관련성의 필요한 신호를 찾아야 하는 소음 수준을 생성한다. 링게에 의해 질량비교법에 대한 우연의 영향에 대한 연구가 수행되었다. 이것은 우연한 유사성이 기술에 매우 중요하며, 림지가 사용한 수학적 절차가 나중에 비판되었음에도 불구하고 그린버그의 결론은 정당화될 수 없음을 보여주었다.

작은 데이터베이스에서는 샘플링 오류가 중요할 수 있다.

어떤 경우에는 데이터베이스 용량이 크고 모든 가능한 트리나 네트워크에 대한 철저한 검색이 실행 시간 제한 때문에 가능하지 않다. 따라서 경험적 해법-공간 탐색 방법으로는 최적의 해법이 발견되지 않을 가능성이 있다.

차입 감지

외래어는 나무의 토폴로지에 심각한 영향을 미칠 수 있기 때문에 차입을 배제하기 위한 노력을 한다. 그러나, 발견되지 않은 것들은 때때로 여전히 존재한다. McMahon과 McMahon은 약 5%의 차입이 토폴로지에 영향을 미칠 수 있고 10%는 상당한 영향을 미친다는 것을 보여주었다. 네트워크에서 차입은 망막음을 생산한다. 미넷과 왕 부장은 차입을 자동으로 감지하는 방법을 조사했다.

스플릿 데이팅

언어가 갈라지는 날짜는 등장인물이 나무의 각 가지를 따라 어떻게 진화하는지 안다면 결정될 수 있다. 가장 간단한 가정은 모든 문자들이 시간에 따라 하나의 일정한 속도로 진화하며 이것이 나무 가지와는 독립적이라는 것이다. 이것은 글로토만성학에서 만들어진 가정이었다. 그러나, 연구들은 곧 언어들 사이에 차이가 있다는 것을 보여주었는데, 일부는 인식되지 않은 차입의 존재 때문일 것이다.[44] 더 나은 접근방식은 비율 변동을 허용하는 것이고, 감마 분포는 수학적 편리성 때문에 보통 사용된다. 캐릭터 교체율이 사용 빈도에 따라 달라진다는 연구도 진행됐다.[45] 광범위한 차입은 언어를 더 비슷하고 따라서 더 젊어 보이게 함으로써 다양성 시간 추정치를 편중시킬 수 있다. 그러나 이것은 또한 조상의 가지 길이를 길게 하여 뿌리가 영향을 받지 않게 한다.[46]

이러한 측면은 양적 비교언어학에서 가장 논란이 많은 부분이다.

분석 유형

언어 분류 방법이 그 가정과 한계를 결정하기 위해 어떻게 작용하는지 이해할 필요가 있다. 특정 조건에서만 유효하거나 소규모 데이터베이스에 적합할 수 있다. 이 방법은 데이터 요구사항, 복잡성 및 실행 시간에 따라 다르다. 그 방법들은 최적화 기준에서도 다르다.

캐릭터 기반 모델

최대 구문 분석 및 최대 호환성

이 두 가지 방법은 비슷하지만 최대 시모니 방법의 목적은 최소한의 진화적 변화가 일어나는 트리(또는 네트워크)를 찾는 것이다. 일부 구현에서는 문자에 가중치를 부여할 수 있으며, 그 다음 목표는 변경사항의 총 가중치를 최소화하는 것이다. 이 분석은 아웃 그룹을 사용하거나 지시된 문자를 사용하지 않는 한 뿌리 없는 나무를 생성한다. 휴리스틱스는 최고의 트리를 찾기 위해 사용되지만 최적화는 보장되지 않는다. 이 방법은 종종 PAUP나 TNT 프로그램을 사용하여 구현된다.

최대 호환성은 또한 문자를 사용하며, 최대 문자 수가 동종 문자 없이 진화하는 트리를 찾는 것을 목적으로 한다. 다시 한번 문자에 가중치를 부여할 수 있으며, 이 경우 목표는 호환되는 문자의 가중치를 최대화하는 것이다. 추가 정보가 편입되지 않는 한 뿌리 없는 나무도 생산한다. 대규모 데이터베이스에 정확한 사용 가능한 즉시 이용할 수 있는 휴리스틱스는 없다. 이 방법은 링게 그룹에서만 사용되어 왔다.[47]

이 두 가지 방법에는 종종 같은 점수의 나무가 여러 그루 발견되기 때문에 일반적인 연습은 알고리즘을 통해 합의 트리를 찾는 것이다. 대다수의 합의는 입력 나무의 절반 이상에서 양당을 하는 반면 탐욕스러운 합의는 다수 나무에 양당을 더한다. 엄격한 합의 트리는 가장 덜 해결되었고 모든 나무에 있는 갈라진 부분을 포함하고 있다.

부트스트래핑(통계 재샘플링 전략)은 분기 지원 값을 제공하는 데 사용된다. 기법은 입력 데이터 매트릭스에서 임의로 문자를 선택한 후 동일한 분석을 사용한다. 지지 값은 관측된 트리에서 이분할이 있는 런의 비율이다. 그러나 부트스트래핑은 시간이 많이 걸린다.

최대우도 및 베이지안 분석

이 두 가지 방법 모두 명시적 진화 모델을 사용한다. 최대우도법은 관측된 데이터를 생산할 확률을 최적화하는 반면 베이지안 분석은 각 트리의 확률을 추정해 확률 분포를 산출한다. 무작위 산책은 "모델 나무 공간"을 통해 이루어진다. 둘 다 달리는 데 불확실한 시간이 걸리고, 멈추는 것은 자의적일 수 있기 때문에 결정은 문제가 된다. 그러나 두 가지 모두 각 지점에 대한 지원 정보를 생성한다.

이 방법들의 가정은 명백하고 검증가능하다. 필요할 경우 모델의 복잡성을 증가시킬 수 있다. 모델 매개변수는 입력 데이터에서 직접 추정되므로 진화율에 대한 가정은 피한다.

완벽한 계통발생 네트워크

이 방법은 추가적인 접촉 가장자리가 있는 기본 트리를 갖는 명시적 골인 네트워크를 생성한다. 캐릭터는 빌릴 수 있지만 동음이의어 없이 진화할 수 있다. 그러한 네트워크를 생산하기 위해 그래프-이론 알고리즘이 사용되었다.

그레이와 앳킨슨의 방법

입력 어휘소 데이터는 원래 다중 상태 문자의 각 상태에 대해 하나의 문자로 이진 형태로 코딩된다. 이 방법은 균등성 및 분할 시간에 대한 제약을 허용한다. 우도 기반 분석 방법이 사용되며, 진화는 비율 행렬로 표현된다. 동종 손익은 감마 분포로 모델링하여 요율 변동을 허용하고 요율 평활화를 허용한다. 많은 언어를 가진 가능한 나무들이 많기 때문에, 베이시안 추론은 최적의 나무를 찾는 데 사용된다. 마르코프 체인 몬테카를로 알고리즘[49] 후확률 분포에 대한 근사치로 나무의 표본을 생성한다. 이 분포의 요약은 탐욕스러운 합의 트리 또는 지지 가치를 가진 네트워크로 제공될 수 있다. 이 방법은 날짜 추정치도 제공한다.

이 방법은 원래 문자가 2진수일 때 정확하고 감마선 분산 속도를 가진 비율-아크로스 모델에서 서로 동일하고 독립적으로 진화하며, 날짜는 변화율이 일정할 때 정확하다. 바이너리 인코딩은 독립적이지 않은 문자를 생성하는 반면, 메소드는 독립성을 전제로 하기 때문에 원래 문자가 다중 상태일 때 메소드의 성능을 이해하는 것이 더 복잡하다.

니콜스와 그레이의 방법

이 방법은 그레이와 앳킨슨의 결과물이다. 한 문자에 대해 두 개의 매개변수를 갖는 것보다 이 방법은 세 개의 매개변수를 사용한다. 출생률, 동일인의 사망률, 그리고 그 차입률을 명시한다. 출생률은 포아송 무작위 변수로서, 동족 단출생이지만 가지별 별도 사망이 허용된다(돌로 부조화). 그 방법은 동종양성을 허용하지 않지만 다형성과 제약은 허용한다. 주요 문제는 누락된 데이터를 처리할 수 없다는 점이다(이 문제는 이후 라이더와 니콜스가 해결했다).[51] 통계적 기법은 모형을 데이터에 적합시키기 위해 사용된다. 사전 정보가 통합될 수 있으며 가능한 재구성에 대한 MCMC 연구가 이루어진다. 이 방법은 그레이와 니콜의 데이터베이스에 적용되었고 비슷한 결과를 주는 것 같다.

거리 기반 모델

이들은 쌍방향 언어 비교의 삼각 행렬을 사용한다. 입력 문자 행렬은 해밍 거리 또는 레벤슈테인 거리를 사용하여 거리 행렬을 계산하는 데 사용된다. 전자는 일치하는 문자의 비율을 측정하는 반면 후자는 가능한 다양한 변환 비용을 포함하도록 허용한다. 이 방법들은 완전히 성격에 기반한 방법과 비교했을 때 빠르다. 그러나 이러한 방법은 정보 손실을 초래한다.

UPGMA

'산술-평균을 사용한 비가중 쌍체 그룹법'(UPGMA)은 두 언어 사이에 거리가 가장 작은 두 언어를 반복적으로 결합해 작동하는 군집화 기법이다. 시계와 같은 진화로 정확하게 작동하지만 그렇지 않으면 오류가 발생할 수 있다. 스와데슈의 원래 어휘소스타틱스에 사용된 방법이다.

분할 분해

이것은 데이터를 자연 그룹으로 나누는 기술이다.[52] 데이터는 문자일 수 있지만 더 일반적으로 거리 측정값이다. 문자 수 또는 거리는 분할을 생성하고 분할에 대한 가중치(지점 길이)를 계산하는 데 사용된다. 가중된 분할은 각 세금 쌍 간의 변경 수를 최소화하여 트리 또는 네트워크에 표시된다. 스플릿 컬렉션을 생성하는 빠른 알고리즘이 있다. 가중치는 택슨에서 택슨 거리까지 결정된다. 분할 분해는 세자의 수가 적거나 신호가 너무 복잡하지 않을 때 효과적이다.

이웃 가입

이 방법은 거리 데이터에서 작동하며 입력 행렬의 변환을 계산한 다음 언어 쌍의 최소 거리를 계산한다.[53] 언어들이 어휘 시계를 가지고 진화하지 않더라도 그것은 정확하게 작동한다. 가중치 있는 방법 버전을 사용할 수도 있다. 그 방법은 출력 트리를 생성한다. 나무 건축을 위한 수동 기법에 가장 근접한 방법이라고 한다.

이웃사촌망

이웃 가입과 유사한 알고리즘을 사용한다.[54] 분할 분해와 달리 노드는 즉시 퓨즈를 하지 않고 노드가 두 번째로 쌍으로 구성될 때까지 기다린다. 그런 다음 트리 노드를 2개로 교체하고 거리 행렬을 줄인다. 크고 복잡한 데이터 세트를 처리할 수 있다. 그러나 출력은 필로그램이 아닌 페노그램이다. 이것이 가장 인기 있는 네트워크 방법이다.

네트워크

이것은 일부 언어 분석에 사용되어 온 초기 네트워크 방식이었다. 그것은 원래 둘 이상의 가능한 기원을 가진 유전자 배열을 위해 개발되었다.[55] 네트워크는 대체 트리를 하나의 네트워크로 붕괴시킨다. 다중 이력이 있는 경우 레티컬레이션(상자 모양)이 그려진다. 트리와 호환되지 않는 문자 목록을 생성한다.

ASP

이것은 선언적 지식 표현 형식주의와 응답 세트 프로그래밍의 방법을 사용한다.[56] 그러한 해결사 중 하나는 CMODELS인데, 작은 문제에는 사용할 수 있지만 큰 문제는 휴리스틱스를 필요로 한다. 사전 처리가 정보 문자를 결정하는 데 사용된다. CMODELS는 그것들을 SAT 해결사를 사용하여 이 이론의 모델을 계산하는 명제 이론으로 변환한다.

피치/키치

피치와 키치는 NJ와 달리 각각의 추가 후에 트리를 재배열할 수 있는 PHYLIP의 최대우도 기반 프로그램이다. 키치는 트리 전체에 걸쳐 일정한 변화율을 가정할 때 피치와 다르다. 반면 피치는 각 지점의 다른 비율을 허용한다.[57]

분리레벨법

Holm은 2000년에 어휘 분석의 몇몇 알려진 문제를 다루기 위해 방법을 도입했다. 공유된 아카이빙이 공유된 혁신과 구별하기 어려운 '증례오모피 트랩'과 나중의 변화가 초기 혁신을 모호하게 할 수 있는 '비례성'이다. 후에 그는 언어에 걸친 가변적인 단어 분포를 고려하기 위해 SLD라고 불리는 정제된 방법을 도입했다.[58] 그 방법은 확실한 변화율을 가정하지 않는다.

빠른 수렴법

대형 데이터베이스(>200개 언어)와 함께 사용할 수 있도록 여러 가지 빠른 수렴 분석 방법이 개발되었다. 그 중 하나가 DCM(Disk Covering Method)이다.[59] 이는 기존 방식과 결합해 성능을 개선했다. DCM-NJ+MP 방법에 관한 논문은 같은 저자가 「경계지름의 나무에 대한 계통생성법의 성과」[full citation needed]에서 주어지는데, 여기서 NJ 방법과 비교한다.

유사성 기반 모델

이 모델들은 음성학보다 단어의 글자를 비교한다. Dunn 외 연구진은 16개의 오스트로네시아어와 15개의 파푸아 언어에 걸쳐 125개의 유형 문자를 연구했다. 그들은 그들의 결과를 MP 나무와 전통적인 분석으로 만들어진 나무와 비교했다. 상당한 차이가 발견되었다. 마찬가지로 위크만과 손더스는 96자를 사용하여 63개의 미국 언어를 공부했다.

전산화된 질량 비교

언어 집합의 연관성을 확인하기 위해 언어 집합의 초기 검사에 대해 제안된 방법은 대량 비교였다. 하지만, 이것은 심하게 비판되어 왔고 사용되지 않았다. 최근 케슬러는 엄격한 가설 테스트를 사용하면서 그 방법의 컴퓨터화된 버전을 부활시켰다.[62] 목표는 한 번에 두 개 이상의 언어에 걸친 유사점을 이용하는 것이다. 또 다른 논문에서는 단어 목록을 비교하기 위한 다양한 기준을 평가한다. IE와 우랄 가문은 재건축이 가능하지만, 공동 초가족에 대한 증거는 없는 것으로 밝혀졌다.

니콜의 방법

이 방법은 자세 동사와 같은 안정적인 어휘 분야를 사용하여 원거리 관계를 설정하려고 한다.[64] 고대 동족을 찾기 위한 융합과 의미적 변화를 고려한다. 모델이 윤곽을 드러내고 시범 연구 결과가 제시된다.

ASJP

자동 유사성 판단 프로그램(ASJP)은 사전 유사성 판단과 유사하지만, 유사성의 판단은 일관된 규칙을 따르는 컴퓨터 프로그램에 의해 이루어진다.[65] 나무는 표준 계통생성법을 사용하여 생성된다. ASJP는 7개의 모음 기호와 34개의 자음 기호를 사용한다. 수식어도 다양하다. 각 단어의 연속 자음이 최소 2개 이상 동일하면 비슷한 것으로 판단하고 모음도 고려한다. 한 쌍의 언어에 대해 유사한 것으로 판단되는 같은 의미를 가진 단어의 비율은 어휘적 유사성 비율(LSP)이다. 음운학적 유사성 비율(PSP)도 계산된다. PSP는 LSP에서 차감되어 유사도율 감산(SSP)이 발생하며 ASJP 거리는 100-SSP이다. 현재 ASJP 데이터베이스에는[66] 세계 언어의 트리가 생성된 4,500개 이상의 언어와 방언에 대한 데이터가 있다.[67]

세르바와 페트로니의 방법

이것은 인식 판단의 주관성을 피하기 위해 단어 사이의 맞춤식 거리를 측정한다.[68] 그것은 긴 단어의 길이로 정규화된 한 단어의 변환에 필요한 최소 연산 수를 결정한다. 트리는 UPGMA 기법에 의해 거리 데이터로 생성된다.

음성평가법

헤가티는 단지 예스/아니오 답변이 아닌, 인지자 간의 차이 정도를 측정하는 방법을 제안해 왔다.[69] 이는 원양어(troolanguage)에 비해 광택의 음운학(>30)의 많은 특징을 살펴보는 것에 기초한다. 이것은 많은 양의 작업이 필요할 수 있지만 헤가티는 소리의 대표적인 샘플만 있으면 된다고 주장한다. 그는 또한 음운학의 변화율을 조사하여 큰 비율 변동을 발견하여 글로토시학에는 적합하지 않았다. 음성학에 대한 비슷한 평가는 일찍이 그라임스와 아가르드 로망스어족에 의해 수행되었지만, 이것은 비교의 6점만을 사용했다.[70]

방법 평가

측정지표

두 나무의 유사성/차이를 측정하기 위해 표준 수학 기법을 이용할 수 있다. 컨센서스 트리의 경우 일관성 지수(CI)는 동종류의 척도다. 한 문자에 대해 이 값은 한 트리에서 최소로 상상할 수 있는 단계 수(=2진수 트리의 경우 1)를 트리 위의 재구성 단계 수로 나눈 비율이다. 트리의 CI는 문자 CI를 문자 수로 나눈 합이다.[71] 그것은 정확하게 할당된 패턴의 비율을 나타낸다.

보존 지수(RI)는 문자의 유사성 정도를 측정한다. 비율(g - s) / (g - m) 여기서 g는 어떤 나무에서든 문자의 가장 큰 단계 수, m은 어떤 나무에서든 최소 단계 수, s는 특정 나무의 최소 단계 수이다. 또한 CI와 RI의 제품인 Rescaled CI도 있다.

2진수 트리의 경우, 위상 비교의 표준 방법은 로빈슨-폴스 메트릭을 사용하는 것이다.[72] 이 거리는 가지 발생 측면에서 거짓 긍정과 거짓 부정의 개수의 평균이다. R-F 비율이 10%를 초과하면 불량 매치로 간주된다. 다른 종류의 나무와 네트워크에는 아직 표준 비교 방법이 없다.

호환되지 않는 문자 목록은 일부 트리 생성 방법에 의해 생성된다. 이것들은 출력을 분석하는 데 매우 유용할 수 있다. 휴리스틱 방법을 사용하는 경우 반복성이 문제다. 그러나 이 문제를 극복하기 위해 표준 수학 기법이 사용된다.

이전 분석과 비교

방법을 평가하기 위해 신뢰할 수 있는 데이터 집합과 함께 잘 이해되는 언어군을 선택한다. 이 가족은 종종 IE 가족이지만 다른 가족들도 사용되었다. 데이터베이스와 비교할 방법을 적용한 후, 결과 트리는 전통적인 언어적 방법에 의해 결정되는 참조 트리와 비교된다. 목표는 토폴로지에서 충돌을 일으키지 않는 것(예: 누락된 하위 그룹 및 호환 가능한 날짜)을 갖는 것이다. 니콜스와 와르노우가 이 분석을 위해 제시한 가정은 게르만족, 로망스족, 슬라브족, 공통 투르크족, 중국어, 믹스테 조크뿐 아니라 오세아니아와 IE와 같은 노년층이다.

시뮬레이션 사용

실제 언어의 사용은 사실주의를 더하고 실제적인 문제를 제공하지만, 위의 검증 방법은 언어의 진정한 진화를 알 수 없다는 사실에 시달린다. 시뮬레이션된 진화로부터 일련의 데이터를 생성함으로써 정확한 트리를 알 수 있다. 그러나 그것은 현실의 단순화된 버전이 될 것이다. 따라서 두 가지 평가 기법을 모두 사용해야 한다.

민감도 분석

솔루션의 견고성을 평가하려면 입력 데이터와 제약 조건을 변경하고 출력을 관찰하는 것이 바람직하다. 각 변수는 차례대로 조금씩 바뀐다. 이러한 분석은 많은 사례와 앳킨슨과 그레이에 의해 견고하게 판명된 방법에서 수행되었다.[74]

방법 비교 연구

1990년대 초, 컴퓨터 과학자 루이 나클레탠디 워나우, 통계학자 스티븐 에반스 등과 함께 언어학자 도널드 링지가 양적 비교 언어 프로젝트 연구에 협력하기 시작했다. 그들은 나중에 CHPL 프로젝트를 설립했는데, 그 목표들에는 "특히 인도유럽 언어의 실제 언어 데이터셋을 생산하고 유지", "역사 언어 데이터의 진화를 포착하는 통계 모델 수립", "연구용 합성 데이터 생성을 위한 시뮬레이션 도구와 정확도 측정 방법 설계" 등이 포함된다. "재구성 방법의 성능" 및 "피질유전 네트워크를 포함한 언어 계통 재구성을 위한 결합 방법뿐만 아니라 통계에 기반한 방법의 분석 및 구현".[75]

코딩 방법의 비교는 렉소바 외 연구진이 수행했다. (2003).[76] 그들은 다이엔 데이터베이스로부터 감소된 데이터 세트를 만들었지만 히타이트를 추가했다. 그들은 141개의 문자 상태가 개별적인 동일 계층에 해당하는 표준 다주 행렬을 생산하여 다형성을 허용했다. 그들은 또한 주관성을 줄이기 위해 몇몇 동족계급에 가입했고 다형성 상태는 허용되지 않았다. 마지막으로 그들은 각 등급의 단어들이 별개의 문자로 취급되는 이진 행렬을 만들었다. 매트릭스는 PAUP에 의해 분석되었다. 이항 행렬을 사용하면 나무 뿌리 부근에 변화가 생긴다는 사실이 밝혀졌다.

McMahon과 McMahon(2003)은 DKB 데이터 집합에 3개의 PHYLIP 프로그램(NJ, Fitch, Kitch)을 사용했다.[77] 그들은 생산한 결과가 매우 비슷하다는 것을 발견했다. 부트스트래핑은 나무의 어떤 부분의 견고함을 테스트하기 위해 사용되었다. 나중에 그들은 데이터의 반복성과 재구성 가능성을 평가하기 위해 데이터의 하위 집합을 사용했다.[42] 그 결과 차입으로 인한 위상적 차이가 나타났다. 그런 다음 여러 데이터 집합에 네트워크, 분할 분해, 인접 네트워크분할 트리를 사용하였다. 후자의 두 방법 사이에 상당한 차이가 발견되었다. 이웃-넷은 언어 접점을 파악하는 데 최적의 것으로 간주되었다.

2005년에 나클레, 워노우, 링게, 에반스는 인도-유럽 데이터베이스를 이용한 6가지 분석 방법의 비교를 실시했다.[78] 비교한 방법은 UPGMA, NJ MP, MC, WMC, GA 등이었다. PAUP 소프트웨어 패키지는 UPGMA, NJ, MC뿐만 아니라 다수의 합의 트리를 계산하는 데 사용되었다. RWT 데이터베이스가 사용되었지만 다형성 증명으로 인해 40자가 삭제되었다. 그런 다음 병렬 개발이 명확하게 나타나는 모든 문자를 제외하고 선별된 데이터베이스를 제작하여 38개의 특징을 제거하였다. 이 트리는 호환되지 않는 문자 수에 기초하여 평가되었고, 확립된 하위 그룹화 결과와 일치했다. 그들은 UPGMA가 분명히 최악이었지만 다른 방법들과 큰 차이가 없다는 것을 발견했다. 결과는 사용된 데이터 세트에 따라 달라졌다. 등장인물에 무게를 두는 것이 중요한 것으로 밝혀져 언어적 판단이 필요하다.

Sunders(2005)는 어휘 및 유형 데이터의 조합에 대해 NJ, MP, GA 및 Neighbor-Net을 비교했다. 그는 GA 방법의 사용을 권고했지만 니콜스와 워너우는 연구 방법론에 대해 약간의 우려를 갖고 있다.[80]

시수우 (2006) Holm의 원래 방법을 NJ, Fitch, MP, SD와 비교하였다[81]. 그들은 Holm의 방법이 다른 방법들보다 덜 정확하다는 것을 발견했다.

2013년 프랑수아 바르반콘, 워나우, 에반스, 링게, 나클레(2013년)는 시뮬레이션 데이터를 이용한 다양한 나무 재건 방법을 연구했다.[82] 이들의 시뮬레이션 데이터는 접촉 에지 수, 동종류의 정도, 어휘 시계의 편차 및 비율-산염 비율 가정으로부터의 편차에서 다양했다. 비가중 방법(MP, NJ, UPGMA, GA)의 정확도는 MP가 최고인 것으로 조사된 모든 조건에서 일관성이 있는 것으로 나타났다. 두 가지 가중치 방법(WMC와 WMP)의 정확도는 가중치의 적절성에 따라 달라졌다. 낮은 동종류에서 가중치는 일반적으로 더 정확한 결과를 도출했지만 부적절한 가중치는 중간 또는 높은 동종류 수준에서 MP 또는 GA보다 더 악화될 수 있다.

최적의 모형 선택

적절한 모델을 선택하는 것은 좋은 계통생리학적 분석의 생산에 매우 중요하다. 과소모수 또는 지나치게 제한적인 모델은 둘 다 기초적인 가정을 위반했을 때 이상 행동을 유발할 수 있는 반면, 지나치게 복잡하거나 과대모수된 모델은 긴 실행 시간을 필요로 하고 그 매개변수가 지나치게 적합될 수 있다.[83] 가장 일반적인 모델 선택 방법은 모델과 데이터 사이의 적합성에 대한 추정치를 산출하는 "우도 비율 검정"이지만 대안으로 Akaike 정보 기준 또는 베이시안 정보 기준을 사용할 수 있다. 모델 선택 컴퓨터 프로그램을 이용할 수 있다.

참고 항목

메모들

  1. ^ Sapir, Edward (1916). "Time Perspective in Aboriginal American Culture: A Study in Method". Geological Survey Memoir 90, No. 13. Anthropological Series. Ottawa: Government Printing Bureau.
  2. ^ Kroeber, A. L.; Chrétien, C. D. (1937). "Quantitative Classification of Indo-European Languages". Language. 13 (2): 83–103. doi:10.2307/408715. JSTOR 408715.
  3. ^ Ross, Alan S. C. (1950). "Philological Probability Problems". Journal of the Royal Statistical Society. Series B (Methodological). 12 (1): 19–59. doi:10.1111/j.2517-6161.1950.tb00040.x. JSTOR 2983831.
  4. ^ Swadesh, Morris (1952). "Lexico-Statistic Dating of Prehistoric Ethnic Contacts: With Special Reference to North American Indians and Eskimos". Proceedings of the American Philosophical Society. 96 (4): 452–463. JSTOR 3143802.
  5. ^ Bergsland, Knut; Vogt, Hans (1962). "On the Validity of Glottochronology". Current Anthropology. 3 (2): 115–153. doi:10.1086/200264. JSTOR 2739527. S2CID 144236043.
  6. ^ Dyen, Isidore; Kruskal, Joseph B.; Black, Paul (1992). "An Indoeuropean Classification: A Lexicostatistical Experiment". Transactions of the American Philosophical Society. 82 (5): iii–132. doi:10.2307/1006517. JSTOR 1006517.
  7. ^ Ringe, Don; Warnow, Tandy; Taylor, Ann (2002). "Indo‐European and Computational Cladistics". Transactions of the Philological Society. 100: 59–129. doi:10.1111/1467-968X.00091.
  8. ^ 최초 발표 날짜:
  9. ^ 2000년 렌프루, 맥마흔, 트래스크 출판
  10. ^ Bouckaert, R.; Lemey, P.; Dunn, M.; Greenhill, S. J.; Alekseyenko, A. V.; Drummond, A. J.; Gray, R. D.; Suchard, M. A.; Atkinson, Q. D. (2012). "Mapping the Origins and Expansion of the Indo-European Language Family". Science. 337 (6097): 957–960. Bibcode:2012Sci...337..957B. doi:10.1126/science.1219669. PMC 4112997. PMID 22923579.
  11. ^ Honkola, T.; Vesakoski, O.; Korhonen, K.; Lehtinen, J.; Syrjänen, K.; Wahlberg, N. (2013). "Cultural and climatic changes shape the evolutionary history of the Uralic languages". Journal of Evolutionary Biology. 26 (6): 1244–1253. doi:10.1111/jeb.12107. PMID 23675756. S2CID 7966025.
  12. ^ Hruschka, Daniel J.; Branford, Simon; Smith, Eric D.; Wilkins, Jon; Meade, Andrew; Pagel, Mark; Bhattacharya, Tanmoy (2015). "Detecting Regular Sound Changes in Linguistics as Events of Concerted Evolution". Current Biology. 25 (1): 1–9. doi:10.1016/j.cub.2014.10.064. PMC 4291143. PMID 25532895.
  13. ^ Kolipakam, Vishnupriya; Jordan, Fiona M.; Dunn, Michael; Greenhill, Simon J.; Bouckaert, Remco; Gray, Russell D.; Verkerk, Annemarie (2018). "A Bayesian phylogenetic study of the Dravidian language family". Royal Society Open Science. 5 (3): 171504. Bibcode:2018RSOS....571504K. doi:10.1098/rsos.171504. PMC 5882685. PMID 29657761.
  14. ^ 시드웰, 폴 2015년 오스트레일리아 언어에 대한 종합적인 계통 생성학적 분석. 다양성 언어학: 회고 및 전망, 2015년 5월 1~3일(독일 라이프치히), 맥스플랑크 진화인류학연구소 언어학과 폐강 컨퍼런스.
  15. ^ Gray, R. D.; Drummond, A. J.; Greenhill, S. J. (2009). "Language Phylogenies Reveal Expansion Pulses and Pauses in Pacific Settlement". Science. 323 (5913): 479–483. Bibcode:2009Sci...323..479G. doi:10.1126/science.1166858. PMID 19164742. S2CID 29838345.
  16. ^ 바웬, 클레어와 앳킨슨, 2012년 쿠엔틴 Pama-Youngan의 내부구조와 계산적 Phylogenetics. 언어, 제88권, 817-845.
  17. ^ Bouckaert, Remco R.; Bowern, Claire; Atkinson, Quentin D. (2018). "The origin and expansion of Pama–Nyungan languages across Australia". Nature Ecology & Evolution. 2 (4): 741–749. doi:10.1038/s41559-018-0489-3. PMID 29531347. S2CID 4208351.
  18. ^ Currie, Thomas E.; Meade, Andrew; Guillon, Myrtille; Mace, Ruth (2013). "Cultural phylogeography of the Bantu Languages of sub-Saharan Africa". Proceedings of the Royal Society B: Biological Sciences. 280 (1762): 20130695. doi:10.1098/rspb.2013.0695. PMC 3673054. PMID 23658203.
  19. ^ Grollemund, Rebecca; Branford, Simon; Bostoen, Koen; Meade, Andrew; Venditti, Chris; Pagel, Mark (2015). "Bantu expansion shows that habitat alters the route and pace of human dispersals". Proceedings of the National Academy of Sciences. 112 (43): 13296–13301. Bibcode:2015PNAS..11213296G. doi:10.1073/pnas.1503793112. PMC 4629331. PMID 26371302.
  20. ^ Kitchen, Andrew; Ehret, Christopher; Assefa, Shiferaw; Mulligan, Connie J. (2009). "Bayesian phylogenetic analysis of Semitic languages identifies an Early Bronze Age origin of Semitic in the Near East". Proceedings of the Royal Society B: Biological Sciences. 276 (1668): 2703–2710. doi:10.1098/rspb.2009.0408. PMC 2839953. PMID 19403539.
  21. ^ Sicoli, Mark A.; Holton, Gary (2014). "Linguistic Phylogenies Support Back-Migration from Beringia to Asia". PLOS ONE. 9 (3): e91722. Bibcode:2014PLoSO...991722S. doi:10.1371/journal.pone.0091722. PMC 3951421. PMID 24621925.
  22. ^ Wheeler, Ward C.; Whiteley, Peter M. (2015). "Historical linguistics as a sequence optimization problem: The evolution and biogeography of Uto-Aztecan languages" (PDF). Cladistics. 31 (2): 113–125. doi:10.1111/cla.12078. S2CID 86030904.
  23. ^ 앳킨슨, Q. D.(2006년). 종에서 언어에 이르기까지 – 인류 역사에 대한 유전학적 접근 방식. 오클랜드 오클랜드 대학의 박사 논문.
  24. ^ Walker, Robert S.; Ribeiro, Lincoln A. (2011). "Bayesian phylogeography of the Arawak expansion in lowland South America". Proceedings of the Royal Society B: Biological Sciences. 278 (1718): 2562–2567. doi:10.1098/rspb.2010.2579. PMC 3136831. PMID 21247954.
  25. ^ 마이클, 레브, 나탈리아 처우 폴리두리, 키스 바르톨로메이, 에린 도넬리, 비비안 워로이터, 세르지오 메이라, 재커리 오하간. 2015. 투피-과라니의 베이지안 계통학적 분류. LIAMES 15(2):193-221.
  26. ^ Zhang, Menghan; Yan, Shi; Pan, Wuyun; Jin, Li (2019). "Phylogenetic evidence for Sino-Tibetan origin in northern China in the Late Neolithic". Nature. 569 (7754): 112–115. Bibcode:2019Natur.569..112Z. doi:10.1038/s41586-019-1153-z. PMID 31019300. S2CID 129946000.
  27. ^ Sagart, Laurent; Jacques, Guillaume; Lai, Yunfan; Ryder, Robin; Thouzeau, Valentin; Greenhill, Simon J.; List, Johann-Mattis (2019). "Dated language phylogenies shed light on the ancestry of Sino-Tibetan". Proceedings of the National Academy of Sciences of the United States of America. 116 (21): 10317–10322. doi:10.1073/pnas.1817972116. PMC 6534992. PMID 31061123.
  28. ^ a b McMahon, April M. S.; McMahon, Robert (2005). Language Classification by Numbers. ISBN 978-0199279029.
  29. ^ Harrison, S. P. (2003). "On the Limits of the Comparative Method". In Brian D. Joseph; Richard D. Janda (eds.). The Handbook of Historical Linguistics. Blackwell Publishing. pp. 213–243. doi:10.1002/9781405166201.ch2. ISBN 9781405166201.
  30. ^ Embleton, Sheila M (1986). Statistics in Historical Linguistics. Brockmeyer. ISBN 9783883395371.
  31. ^ Heggarty, Paul (2006). "Interdisciplinary Indiscipline? Can Phylogenetic Methods Meaningfully Be Applied to Language Data — and to Dating Language?" (PDF). In Peter Forster; Colin Renfrew (eds.). Phylogenetic Methods and the Prehistory of Languages. McDonald Institute Monographs. McDonald Institute for Archaeological Research.
  32. ^ Nichols, Johanna; Warnow, Tandy (2008). "Tutorial on Computational Linguistic Phylogeny". Language and Linguistics Compass. 2 (5): 760–820. doi:10.1111/j.1749-818X.2008.00082.x.
  33. ^ Huson, Daniel H.; Bryant, David (2006). "Application of Phylogenetic Networks in Evolutionary Studies". Molecular Biology and Evolution. 23 (2): 254–267. doi:10.1093/molbev/msj030. PMID 16221896.
  34. ^ Atkinson, Q. D.; Meade, A.; Venditti, C.; Greenhill, S. J.; Pagel, M. (2008). "Languages Evolve in Punctuational Bursts". Science. 319 (5863): 588. doi:10.1126/science.1149683. hdl:1885/33371. PMID 18239118. S2CID 29740420.
  35. ^ Swadesh, Morris (1955). "Towards Greater Accuracy in Lexicostatistic Dating". International Journal of American Linguistics. 21 (2): 121–137. doi:10.1086/464321. JSTOR 1263939. S2CID 144581963.
  36. ^ http://www.idc.upenn.edu[permanent dead link]에서 확인하십시오.
  37. ^ Rexova, K. (2003). "Cladistic analysis of languages: Indo-European classification based on lexicostatistical data". Cladistics. 19 (2): 120–127. doi:10.1016/S0748-3007(02)00147-0.
  38. ^ CSLI 출판물, 2001
  39. ^ Holman, Eric W.; Wichmann, Søren; Brown, Cecil H.; Velupillai, Viveka; Müller, André; Bakker, Dik (2008). "Explorations in automated language classification". Folia Linguistica. 42 (3–4). doi:10.1515/FLIN.2008.331. S2CID 82275473.
  40. ^ Haspelmath 외, 2005년 세계 언어 구조 지도책
  41. ^ 언어비교에서 우연의 요소 계산에 관하여, 미국철학회의 거래 82 (1992년)
  42. ^ a b 번호별 언어 분류
  43. ^ 차입 감지 시, 디아타이레아 20/2(2003)
  44. ^ 예를 들어 버그스랜드와 보그트를 보라.
  45. ^ 예를 들어, Pagel, Atkinson 및 Meade, 단어 사용 빈도수는 인도-유럽 역사, Nature 449, 2007년 10월 11일에 걸쳐 어휘적 진화의 속도를 예측한다.
  46. ^ 앳킨슨과 그레이, 인도유럽어족(Philogenetic Methods and President of Languages, Forster and Renfrew, 2006년)은 몇 인가.
  47. ^ 인도-유럽 및 계산적 클래드리스틱스, 철학적 소사이어티 100/1 (2002)
  48. ^ 나클레 완벽한 Phylogenic 네트워크, Language 81(2005)
  49. ^ 메트로폴리스 1953년
  50. ^ Nicholls, Geoff K.; Gray, Russell D. "Quantifying uncertainty in a stochastic model of vocabulary evolution". Phylogenetic methods and the prehistory of languages. Mcdonald Institute for Archaeological Research. pp. 161–171. CiteSeerX 10.1.1.799.8282.
  51. ^ Ryder, Robin; Nicholls, Geoff (2011), "Missing data in a stochastic Dollo model for cognate data, and its application to the dating of Proto-Indo-European", Journal of the Royal Statistical Society, Series C, 60 (1): 71–92, doi:10.1111/j.1467-9876.2010.00743.x
  52. ^ 반델트와 드레스 1992
  53. ^ 사이토우와 나이(1987년)
  54. ^ Bryant와 Moulton : Philogenetic 네트워크 구축을 위한 응집 방법인 Neighbor-net - Molecular Biology and Evolution 21(2003)
  55. ^ 반델트 외 1995년
  56. ^ 브룩스, 에르뎀 미니트 앤 링 : 캐릭터 기반 클래드 통계 및 응답 세트 프로그래밍
  57. ^ 맥마흔과 맥마흔
  58. ^ Holm : 인도유럽 나무의 새로운 수목원 - 정량언어학 제14권(2007)
  59. ^ Nakhleh, Roshan, St John, Sun, Warnow : 빠른 융합 인지질 방법 설계 - 생물영양학, OUP 2001
  60. ^ 구조유전학 고대 언어사 재구축, 과학 309, 2072 (2005)
  61. ^ 역사어학연구[permanent dead link] 유형데이터베이스 사용방법, Dietroicica 24, 373(2007)
  62. ^ 자세한 내용은 장기 언어 관계의 수학적 평가 - 언어 및 언어 나침반 2/5(2008)를 참조하십시오.
  63. ^ Kessler와 Lehtonen : 다자간 비교유의성 시험
  64. ^ 니콜스 : 준인지와 어휘형 변화 (Phylogenetics and Presidentory of Language, Forster and Renfrew, 2006)
  65. ^ Brown 등 : 세계 언어의 자동 분류, Sprachtypeologie und Universalienforschung, 61.4: 285-308, 2008년 6월 23일 웨이백 기계보관
  66. ^ ASJP 처리 언어 2010년 5월 11일 웨이백 머신보관(2010년 3월 15일)
  67. ^ 뮐러, A, S. 위크만, V. 벨루필라이 외 2010. 어휘 유사성의 ASJP 세계 언어 트리: 버전 3(2010년 7월) 2010년 7월 30일 웨이백 머신보관
  68. ^ 레벤슈타인 거리별 인도유럽어나무
  69. ^ 시간에 따른 음성학의 변화 수량화(역사언어학, Renfrew, McMahon 및 Trask, 2001년)
  70. ^ 로망스 언어의 언어적 다양성, 언어 35 1959
  71. ^ 클루게와 패리스, 체계적 동물학 18, 1-32 (1969년)
  72. ^ 로빈슨과 파울즈 : 계통생성 나무의 비교 - 수학적 생물과학 - 53 (1981년)
  73. ^ 계산 언어 발달, 언어 및 언어 나침반 2/5(2008)에 대한 자습서
  74. ^ 인도유럽어족의 나이는? (철인성 방법 및 언어의 선사시대, Forster 및 Renfrew, 2006)
  75. ^ CPHL: 역사언어학에서의 연산유전학 (홈페이지), 2009년 (2017년 10월 17일)
  76. ^ 언어의 클래드리스틱 분석, 클래드리스틱스 19/2(2003)
  77. ^ 가족을 찾는 것, 언어 분류에서의 양적 방법. 필로학회 101호(2003)의 거래
  78. ^ Nakhleh, Warnow, Ringe, Evans, "IE 데이터세트의 계통적 재구성 방법 비교"(2005)
  79. ^ BA논문 Swartsmore College(2005)의 세 오스트리아로네시아어족 언어유전학
  80. ^ 연산 언어 발달에 관한 자습서
  81. ^ Mixe-Zoquean[permanent dead link] 정량언어학 저널 13, 225 (2006)의 데이터를 이용한 계보 하위집단을 위한 분리 베이스 방법에 대한 비판
  82. ^ Barbancon, Warnow, Evans, Ringe, Nakhleh, 언어유전성 재건법을 비교한 실험적 연구
  83. ^ 설리번과 조이스, 유전학[permanent dead link] 모델 선정, 생태학, 진화 및 체계학 연례 검토 36(2005)

참고 문헌 목록

외부 링크