전산 계통발생학

Computational phylogenetics

계산 계통발생학, 계통발생 추론 또는 계통발생 추론은 계산 및 최적화 알고리즘, 휴리스틱계통발생 분석에 관련된 접근 방식에 초점을 맞춥니다.목표는 유전자, , 또는 분류군 사이의 최적의 진화적 조상을 나타내는 계통발생 나무를 찾는 것입니다.계통발생 트리 토폴로지가 시퀀스 데이터를 얼마나 잘 설명하는지를 평가하는 데 사용되는 대표적인 최적성 기준은 최대 가능성, 희박성, 베이지안 및 최소 진화입니다.[1][2]트리 재배열로 알려진 NNI(Nearest Neighbor Interchange), SPR(Subtree Prune and Regrraft), TBR(Tree Bisection and Reconnection)은 최적 또는 최상의 계통발생 트리를 찾기 위한 결정론적 알고리즘입니다.최적의 계통수를 탐색하는 공간과 풍경을 계통수 탐색공간이라고 합니다.

최대 우도(또한 우도)[1][2] 최적 기준은 시퀀스 데이터를 관찰하는 가장 높은 확률을 제공하는 분기 길이와 함께 트리 토폴로지를 찾는 프로세스이며, 유사 최적 기준은 계통 발생 트리가 시퀀스 데이터를 설명하는 데 필요한 상태 진화 변화의 가장 적은 수입니다.

전통적인 계통발생학은 대표 생물의 표현형 특성을 측정하고 정량화하여 얻은 형태학적 데이터에 의존하는 반면, 분자 계통발생학의 보다 최근 분야는 유전자를 암호화하는 뉴클레오티드 서열 또는 단백질을 암호화하는 아미노산 서열을 분류의 기초로 사용합니다.

많은 형태의 분자 계통발생학은 계통발생학 나무를 만들고 정제하는 데 밀접한 관련이 있으며, 이는 다른 종의 게놈에 표현된 상동 유전자들 의 진화적 관계를 분류하는 데 사용됩니다.전산적인 방법으로 구축된 계통수들은 분석 대상 종들 간의 역사적인 관계를 나타내는 진화수를 완벽하게 재현하지는 못할 것으로 보입니다.[citation needed]역사적인 종의 나무는 또한 그 종들이 공유하는 개별 상동 유전자의 역사적인 나무와는 다를 수도 있습니다.

계통발생 트리 및 네트워크의 종류

계산 계통 발생학에 의해 생성된 계통 발생 트리는 입력 데이터와 사용되는 알고리즘에 따라 뿌리를 내릴 수도 있고 뿌리를 내릴 수도 있습니다.루트 트리는 가장 최근의 MRCA(공통 조상)를 명시적으로 식별하는 지시 그래프로,[citation needed] 일반적으로 입력에 표시되지 않는 귀속 시퀀스입니다.유전자 거리 측정을 사용하여 입력 시퀀스를 잎 노드로 사용하고 뿌리로부터의 거리가 가설 MRCA로부터의 유전자 거리에 비례하는 트리를 그릴 수 있습니다.루트를 식별하려면 일반적으로 관심 시퀀스와 멀리만 관련이 있는 것으로 알려진 적어도 하나의 "아웃그룹"의 입력 데이터에 포함되어야 합니다.

이와는 대조적으로 뿌리가 없는 트리는 하강에 대한 가정을 하지 않고 입력 시퀀스 간의 거리와 관계를 표시합니다.뿌리 없는 트리는 항상 뿌리가 있는 트리에서 생성될 수 있지만, 분자 시계 가설의 가정과 같은 발산 속도에 대한 추가 데이터가 없으면 뿌리가 없는 트리에 배치될 수는 없습니다.[3]

주어진 입력 시퀀스 그룹에 대해 가능한 모든 계통 발생 트리 집합은 최적화 알고리즘에 의해 검색 경로를 추적할 수 있는 이산적으로 정의된 다차원 "트리 공간"으로 개념화될 수 있습니다.사소한 수의 입력 시퀀스에 대한 총 트리 수를 계산하는 것은 트리 토폴로지 정의의 변화로 인해 복잡해질 수 있지만, 주어진 수의 입력과 매개 변수 선택에 대해 뿌리 없는 트리보다 더 많은 루트가 있다는 것은 항상 사실입니다.[2]

뿌리와 뿌리가 없는 계통 발생 트리 모두 뿌리 또는 뿌리가 없는 계통 발생 네트워크로 추가로 일반화할 수 있으며, 이를 통해 교배 또는 수평 유전자 전달과 같은 진화 현상의 모델링이 가능합니다.

문자 부호화 및 호몰로지 정의

형태학적 분석

형태학적 계통발생학에서 기본적인 문제는 분류기로 사용되는 표현형 특성 각각에 대한 대표적인 측정값과 비교되는 각 분류군의 매핑을 나타내는 행렬의 집합입니다.이 행렬을 구성하는 데 사용되는 표현형 데이터의 유형은 비교되는 분류군에 따라 다릅니다. 개별 종의 경우 평균 신체 크기, 특정 뼈의 길이 또는 크기, 기타 신체적 특징 또는 심지어 행동적 징후의 측정을 포함할 수 있습니다.물론, 모든 가능한 표현형 특성을 측정하고 분석을 위해 인코딩할 수 있는 것은 아니기 때문에, 어떤 특성을 측정할 것인지의 선택은 이 방법의 주요 고유 장애물입니다.어떤 특성을 행렬의 기초로 사용할지에 대한 결정은 반드시 어떤 종의 특성 또는 더 높은 분류군이 진화적으로 관련이 있는지에 대한 가설을 나타냅니다.[4]형태학적 연구는 표현형의 수렴적 진화의 예들로 교락될 수 있습니다.[5]유용한 클래스를 구성하는 데 있어 중요한 문제는 표현형의 변화 분포에서 분류간 중복이 발생할 가능성이 높다는 것입니다.형태학적 분석에 있어서 멸종된 분류군을 포함하는 은 화석기록의 부재 또는 불완전으로 인하여 어려운 경우가 많고,그러나 생성된 나무에 중요한 영향을 미치는 것으로 나타났습니다. 한 연구에서 멸종된 유인원 종을 포함하는 것만이 분자 데이터로부터 생성된 것과 일치하는 형태학적으로 파생된 나무를 생성했습니다.[6]

특히 매우 다양한 분류군을 분석할 때 사용되는 일부 표현형 분류는 이산적이고 모호하지 않습니다. 예를 들어, 유기체를 꼬리를 가지고 있거나 없는 것으로 분류하는 것은 대부분의 경우에 눈이나 척추뼈와 같은 특징을 세는 것과 마찬가지로 간단합니다.그러나 지속적으로 변화하는 표현형 측정의 가장 적절한 표현은 일반적인 해결책이 없는 논란의 여지가 있는 문제입니다.일반적인 방법은 단순히 관심 있는 측정치를 둘 이상의 클래스로 분류하여 연속적으로 관찰된 변동을 이산적으로 분류할 수 있도록 만드는 것입니다(예를 들어, 주어진 컷오프보다 긴 상완골을 가진 모든 예는 하나의 상태의 멤버로서 점수가 매겨집니다).상완골이 컷오프보다 짧은 모든 멤버는 두 번째 상태의 멤버로 점수를 받습니다).이로 인해 쉽게 조작되는 데이터 세트가 발생하지만 연속적인 가중 측정 분포를 사용하는 방법에 비해 클래스 정의의 기초를 제대로 보고하지 못하고 정보를 희생한다는 비판을 받고 있습니다.[7]

형태학적 데이터는 문헌 자료에서 수집하든 현장 관측 자료에서 수집하든 간에 매우 노동 집약적이기 때문에 이전에 컴파일된 데이터 행렬을 재사용하는 일은 드물지 않지만, 원래 행렬의 결함이 여러 파생 분석으로 전파될 수도 있습니다.[8]

분자분석

생물학적 서열 데이터의 문자는 즉각적이고 개별적으로 정의되기 때문에 문자 코드화의 문제는 분자 분석에서 매우 다릅니다. DNA 또는 RNA 서열에서는 별개의 뉴클레오티드, 단백질 서열에서는 별개의 아미노산입니다.그러나 다중 시퀀스 정렬의 고유한 어려움으로 인해 상동성을 정의하는 것은 어려울 수 있습니다.주어진 공백 MSA에 대해, 어떤 변화가 "돌연변이" 대 조상 문자에 대한 해석과 어떤 사건삽입 돌연변이 또는 삭제 돌연변이인지에 대한 해석이 다양한 뿌리 계통 발생 트리를 구축할 수 있습니다.예를 들어, 갭 영역과 쌍방향 정렬만 주어지면 한 시퀀스에 삽입 돌연변이가 있는지 다른 시퀀스에 삭제가 있는지 확인할 수 없습니다.문제는 정렬되지 않은 간격과 겹치지 않은 간격이 있는 MSA에서 확대됩니다.실제로, 계산된 정렬의 상당한 영역이 계통발생 트리 구성에서 감소되어 노이즈가 많은 데이터를 트리 계산에 통합하는 것을 방지할 수 있습니다.

거리행렬법

계통발생학적 분석의 거리-행렬 방법은 분류되는 서열 사이의 "유전적 거리" 측정에 명시적으로 의존하기 때문에 MSA를 입력으로 요구합니다.거리는 종종 정렬된 위치에서 일치하지 않는 부분으로 정의되며, 간격은 무시되거나 일치하지 않는 부분으로 계산됩니다.[3]거리 방법은 각 시퀀스 쌍 사이의 거리를 설명하는 시퀀스 쿼리 집합에서 전체 행렬을 구성하려고 시도합니다.이로부터 밀접하게 관련된 시퀀스를 동일한 내부 노드 아래에 배치하고 분기 길이가 시퀀스 간의 관찰된 거리를 밀접하게 재현하는 계통 발생 트리가 구성됩니다.거리 행렬 방법은 계산에 사용되는 알고리즘에 따라 근 트리 또는 근 트리를 생성할 수 있습니다.다중 시퀀스 정렬의 점진적 및 반복적 유형의 기초로 자주 사용됩니다.거리 행렬 방법의 주된 단점은 여러 하위 트리에 걸쳐 나타나는 지역 고변형 영역에 대한 정보를 효율적으로 사용할 수 없다는 것입니다.[2]

UPGMA 및 WPGMA

UPGMA(산술평균을 사용하는 비가중그룹 방법) 및 WPGMA(산술평균을 사용하는 가중그룹 방법) 방법은 근 트리를 생성하고 일정한 비율의 가정을 필요로 합니다. 즉, 근에서 각 가지 끝까지의 거리가 동일한 울트라메트릭 트리를 가정합니다.[9]

이웃사촌

이웃 결합 방법은 유전자 거리를 클러스터링 메트릭으로 사용하는 시퀀스 분석에 일반적인 클러스터 분석 기법을 적용합니다.단순한 이웃 결합 방법은 뿌리 없는 트리를 생성하지만, 계통 간에 일정한 진화 속도(즉, 분자 시계)를 가정하지 않습니다.[10]

피치-마골리아쉬 방법

Fitch-Margoliash 방법은 유전자 거리를 기반으로 한 군집화를 위해 가중치 최소 제곱법을 사용합니다.[11]밀접하게 연관된 시퀀스는 멀리 연관된 시퀀스 간의 거리 측정에서 증가하는 부정확성을 수정하기 위해 트리 구성 프로세스에 더 많은 비중을 부여합니다.알고리즘의 입력으로 사용되는 거리는 밀접하게 관련된 그룹과 멀리 관련된 그룹 간의 컴퓨팅 관계에서 큰 아티팩트를 방지하기 위해 정규화되어야 합니다.이 방법에 의해 계산된 거리는 선형이어야 합니다. 거리에 대한 선형성 기준은 두 개의 개별 가지에 대한 가지 길이의 기대 값이 두 가지 거리의 합의 기대 값과 같아야 한다는 것을 요구합니다. - 가능한 경우에 대해 수정된 경우에만 생물학적 시퀀스에 적용되는 특성 부위의 등 돌연변이를 유발할 수 있습니다.이 수정은 DNA 진화의 Jukes-Cantor 모델에서 파생된 것과 같은 대체 행렬의 사용을 통해 수행됩니다.거리 보정은 분기별로 진화 속도가 다를 때에만 필요합니다.[2]알고리즘의 또 다른 수정은 특히 집중된 거리의 경우에 도움이 될 수 있습니다. (측정 현상의 집중과 차원성의 저주를 참조하십시오.) 에 설명된 수정은 알고리즘의 효율성과 견고성을 향상시키는 것으로 나타났습니다.[12]

이러한 거리에 적용되는 최소 제곱 기준은 이웃 결합 방법보다 더 정확하지만 효율성은 떨어집니다.데이터 세트의 많은 밀접하게 관련된 시퀀스에서 발생하는 거리 간의 상관 관계를 수정하는 추가 개선을 계산 비용 증가로 적용할 수도 있습니다.임의의 보정 계수로 최적의 최소 자승 트리를 찾는 것은 NP-완전이므로,[13] 최대 근삿값 분석에 사용되는 것과 같은 휴리스틱 검색 방법이 트리 공간을 통한 검색에 적용됩니다.

아웃그룹 사용

시퀀스 또는 그룹 간의 관계에 대한 독립적인 정보를 사용하여 트리 검색 공간과 뿌리 없는 트리를 줄일 수 있습니다.거리 행렬 방법의 표준 사용은 쿼리 세트의 관심 시퀀스와 멀리만 관련이 있는 것으로 알려진 적어도 하나의 아웃그룹 시퀀스를 포함하는 것을 포함합니다.[3]이 사용법은 실험적 통제의 한 종류로 볼 수 있습니다.만약 아웃그룹이 적절하게 선택되었다면, 그것은 유전적 거리가 훨씬 더 크며, 따라서 다른 어떤 서열보다 더 긴 가지 길이를 가질 것이고, 뿌리가 있는 나무의 뿌리 근처에 나타날 것입니다.적절한 아웃그룹을 선택하려면 관심 있는 시퀀스와 적절히 연관된 시퀀스를 선택해야 합니다. 관계가 너무 가까우면 아웃그룹의 목적이 사라지고 분석에 노이즈가 추가됩니다.[3]또한 서열이 추출된 종들이 멀리 연관되어 있지만 서열에 의해 암호화된 유전자가 계통 간에 걸쳐 매우 보존되는 상황을 피하기 위해 주의해야 합니다.수평적인 유전자 전달, 특히 그렇지 않으면 발산하는 박테리아 간의 유전자 전달은 또한 집단 사용을 혼란스럽게 할 수 있습니다.

최대사투리

MP(Maximum parsimony)는 관측된 시퀀스 데이터를 설명하기 위해 가장 적은 수의 진화 사건이 필요한 잠재적인 계통 발생 트리를 식별하는 방법입니다.트리에 점수를 매기는 몇 가지 방법에는 특정 유형의 진화 사건과 관련된 "비용"도 포함되며, 가장 적은 총 비용으로 트리를 찾으려는 시도도 포함됩니다.이것은 가능한 모든 종류의 사건이 동일하게 일어날 가능성이 없는 경우에 유용한 접근법입니다. 예를 들어, 특정 뉴클레오티드아미노산이 다른 것들보다 더 변이성이 높다고 알려진 경우입니다.

가장 인색한 트리를 식별하는 가장 순진한 방법은 가능한 각 트리를 연속적으로 고려하고 점수가 가장 작은 트리를 검색하는 간단한 열거입니다.그러나 이는 가장 인색한 트리를 식별하는 문제가 NP-hard로 알려져 있기 때문에 비교적 적은 수의 시퀀스 또는 종에 대해서만 가능합니다. [2]결과적으로 최적화를 위한 여러 휴리스틱 검색 방법이 세트에서 최고는 아닐지라도 매우 인색한 트리를 찾기 위해 개발되었습니다.대부분의 이러한 방법은 트리 재배열 기준으로 작동하는 가장 가파른 하강식 최소화 메커니즘을 포함합니다.

분기 및 바운드

분기경계 알고리즘은 1980년대 초에 계통 발생학에 처음 적용된 NP-hard 문제의 거의 최적 솔루션에 대한 검색의 효율성을 높이기 위해 사용되는 일반적인 방법입니다.[14]분기 및 바운드는 문제 공간을 작은 영역으로 세분화할 때 본질적으로 문제를 트리 구조로 분할해야 하기 때문에 계통발생 트리 구성에 특히 적합합니다.이름에서 알 수 있듯이 분기 규칙(계통발생학의 경우 트리에 다음 종 또는 시퀀스를 추가함)과 바운드(검색 공간의 특정 영역을 고려 대상에서 제외함으로써 최적 솔루션이 해당 영역을 차지할 수 없다고 가정하는 규칙)를 입력으로 요구합니다.좋은 경계를 식별하는 것은 계통발생학에 대한 알고리즘 적용의 가장 어려운 측면입니다.경계를 정의하는 간단한 방법은 트리당 허용되는 가정된 진화 변화의 최대 수입니다.Zharkikh의 규칙으로[15] 알려진 일련의 기준은 모든 후보 "가장 인색한" 나무가 공유하는 특성을 정의함으로써 검색 공간을 심각하게 제한합니다.가장 기본적인 두 규칙은 (여러 관측치가 동일한 데이터를 생성한 경우) 한 개를 제외한 모든 중복 시퀀스를 제거하고 적어도 두 종에서 두 개 이상의 상태가 발생하지 않는 문자 사이트를 제거해야 합니다.이상적인 조건에서 이러한 규칙과 관련 알고리즘은 트리를 완전히 정의합니다.

Sankoff-Morel-Cedergren 알고리즘

Sankoff-Morel-Cedergren 알고리즘은 MSA와 뉴클레오티드 서열을 위한 계통발생 트리를 동시에 생성하는 최초의 발표된 방법 중 하나였습니다.[16]그 방법은 간격과 불일치를 벌하는 점수 함수와 함께 최대 위자료 계산을 사용함으로써 그러한 사건의 최소 수를 도입하는 나무를 선호하게 되고(대안적 견해는 선호되는 나무가 상동성으로 해석될 수 있는 서열 유사성의 양을 최대화하는 나무라고 주장하고,다양한 최적 트리로 이어질 수 있는 관점).트리의 내부 노드에서 입력된 시퀀스는 각 가능한 트리의 모든 노드에 점수가 매겨지고 합산됩니다.가장 낮은 점수의 트리 합은 점수 함수가 주어진 최적의 트리와 최적의 MSA를 모두 제공합니다.이 방법은 계산 집약도가 높기 때문에 내부 선형에 대한 초기 추측을 한 번에 한 노드씩 다듬는 근사적인 방법입니다.실제 전체 버전과 근사 버전은 모두 동적 프로그래밍에 의해 계산됩니다.[2]

악성 및 포이

최신 계통발생 트리/MSA 방법은 휴리스틱을 사용하여 고득점 트리를 분리하지만 반드시 최적은 아닙니다.MALIGN 방법은 클래도그램 점수를 최대화하여 다중 정렬을 계산하는 최대 구문 분석 기법을 사용하며, 그 동반 POY는 계통 발생 트리의 최적화와 해당 MSA의 개선을 결합하는 반복 방법을 사용합니다.[18]그러나 진화론적 가설을 구성할 때 이러한 방법을 사용하는 것은 최소한의 진화적 사건을 반영한 나무의 의도적인 구축으로 인해 편향적이라는 비판을 받아 왔습니다.[19]이는 결국 상동성으로 해석될 수 있는 수열 유사성의 양을 최대화하는 트리를 찾기 위한 휴리스틱 접근법으로 간주되어야 한다는 견해에 의해 반박되었습니다.[17][20]

최대우도

최대 우도 방법은 확률 분포를 추론하는 표준 통계 기법을 사용하여 특정 가능한 계통 발생 트리에 확률을 할당합니다.이 방법은 특정 돌연변이의 가능성을 평가하기 위해 대체 모델이 필요합니다. 대략적으로 관측된 계통 발생을 설명하기 위해 내부 노드에서 더 많은 돌연변이가 필요한 트리는 더 낮은 확률을 갖는 것으로 평가됩니다.이 방법은 최대 유사성 방법과 대체로 유사하지만, 최대 가능성을 통해 계통 및 현장 모두에서 다양한 진화 속도를 허용함으로써 추가적인 통계적 유연성을 확보할 수 있습니다.사실, 이 방법을 사용하려면 서로 다른 현장과 서로 다른 계통에서의 진화가 통계적으로 독립적이어야 합니다.따라서 최대 가능성은 멀리 관련된 시퀀스의 분석에 적합하지만 NP-경도 때문에 계산하기에 계산적으로 어려운 것으로 여겨집니다.[21]

동적 프로그래밍의 한 변형인 "가지치기" 알고리즘은 하위 트리의 가능성을 효율적으로 계산하여 검색 공간을 줄이는 데 자주 사용됩니다.[2]이 방법은 각 사이트에 대해 "선형" 방식으로 가능성을 계산합니다. 하위 항목이 잎(즉, 트리 끝)인 노드에서 시작하여 중첩 집합의 "하단" 노드로 역방향 작업합니다.그러나 이 방법에 의해 생성된 나무는 대체 모델이 되돌릴 수 없는 경우에만 뿌리가 내려지는데, 이는 일반적으로 생물학적 시스템에는 해당되지 않습니다.최대 우도 트리 탐색에는 알고리즘적으로 개선하기 어려운 분기 길이 최적화 구성 요소도 포함되어 있습니다. 뉴턴-라프슨 방법과 같은 일반적인 전역 최적화 도구가 자주 사용됩니다.

VAF(Variant alleic frequency data)에서 계통발생 트리를 추론하는 데 최대 우도를 사용하는 도구로는 AncesTree와 CITUP이 있습니다.[22][23]

베이지안 추론

베이지안 추론은 최대 우도 방법과 밀접하게 관련된 방식으로 계통발생 트리를 생성하는 데 사용될 수 있습니다.베이지안 방법은 가능한 트리의 사전 확률 분포를 가정하는데, 이는 단순히 데이터에서 생성될 수 있는 모든 가능한 트리 중 어느 하나의 트리의 확률일 수도 있고, 확률적 프로세스로서 종분화와 같은 발산 이벤트가 발생한다는 가정에서 도출된 더 정교한 추정일 수도 있습니다.사전 분포의 선택은 베이지안 추론 계통발생학 방법 사용자들 사이의 논쟁점입니다.[2]

베이지안 방법의 구현은 일반적으로 마르코프 체인 몬테카를로 샘플링 알고리즘을 사용하지만, 이동 집합의 선택은 다양합니다. 베이지안 계통발생학에서 사용되는 선택은 각 단계에서[24] 제안 트리의 리프 노드를 순환 순열하고 두 개의 관련 트리 사이에서 임의의 내부 노드의 하위 하위 트리를 스왑하는 것을 포함합니다.[25]계통발생학에서 베이지안 방법을 사용하는 것은 주로 이동 집합의 선택, 허용 기준 및 출판된 작업의 사전 배포에 대한 불완전한 명시로 인해 논란이 되어 왔습니다.[2]베이지안 방법은 일반적으로 빠르기 기반 방법보다 우수한 것으로 간주됩니다. 누락된 데이터를 더 잘 수용할 수 있지만 최대 우도 기법보다 긴 분기 인력이 더 잘 끌릴 수 있습니다.[26][27]

가능성 방법이 데이터의 확률을 최대화하는 트리를 찾는 반면 베이지안 접근법은 사후 분포를 이용하여 가장 가능성이 높은 클래스를 나타내는 트리를 복구합니다.그러나 클래스의 사후 확률('지지력'을 측정하는)의 추정치는 특히 압도적으로 가능성이 높지 않은 클래스에서 상당히 광범위할 수 있습니다.이와 같이 사후 확률을 추정하기 위해 다른 방법들이 제시되고 있습니다.[28]

베이지안 추론을 사용하여 VAF(Variant alleic frequency data)로부터 계통발생 트리를 추론하는 도구로는 Canopy, EXCT, PhyloWGS 등이 있습니다.[29][30][31]

모델선택

분자 계통발생학 방법은 연구 중인 유전자 또는 아미노산 서열을 따라 다양한 부위에서 돌연변이의 상대적인 비율에 대한 가설을 암호화하는 정의된 대체 모델에 의존합니다.가장 간단한 치환 모델은 뉴클레오티드 서열의 전이율전이율의 차이를 수정하는 것을 목표로 합니다.대체 모델의 사용은 두 시퀀스 사이의 유전적 거리가 두 시퀀스가 서로 분리된 후 짧은 시간 동안만 선형적으로 증가한다는 사실에 의해 필요합니다.발산 후 시간이 길어질수록 같은 뉴클레오티드 부위에서 두 개의 돌연변이가 발생할 가능성이 높아집니다.따라서 단순한 유전적 거리 계산은 진화 역사에서 발생한 돌연변이 사건의 수를 과소평가하게 됩니다.이 과소 계수의 범위는 발산 이후 시간이 증가함에 따라 증가하며, 이는 긴 분기 인력 현상을 초래하거나, 밀접한 관련이 있지만 수렴적으로 진화하는 두 개의 시퀀스를 잘못 할당할 수 있습니다.[32]최대 위자료 방법은 특히 최소 수의 개별 진화 사건을 나타내는 트리를 명시적으로 검색하기 때문에 이 문제에 취약합니다.[2]

모델의 종류

모든 대체 모델은 시퀀스에 표시된 가능한 각 상태 변화에 가중치 집합을 할당합니다.가장 일반적인 모델 유형은 예를 들어, G>C 뉴클레오티드 돌연변이에 C>G 돌연변이와 동일한 가중치를 할당하기 때문에 암묵적으로 가역적입니다.가장 간단한 모델인 Jukes-Cantor 모델은 주어진 뉴클레오티드 염기에 대해 가능한 모든 상태 변화에 동일한 확률을 할당합니다.두 개의 다른 뉴클레오타이드 간의 변화율은 전체 치환율의 3분의 1이 될 것입니다.[2]보다 진보된 모델은 전환과 전환을 구분합니다.GTR 모델이라고 불리는 가장 일반적인 시간 가역 모델은 6개의 돌연변이 속도 매개변수를 가지고 있습니다.일반적인 12 매개 변수 모델로 알려진 훨씬 더 일반화된 모델은 여러 계통 간에 일치하는 유전적 거리를 계산할 때 훨씬 더 많은 복잡성을 감수하면서 시간 가역성을 깨뜨립니다.[2]이 주제에 대한 한 가지 가능한 변화는 시간이 지남에 따라 DNA 이중 나선 안정성의 중요한 척도인 전체 GC 함량이 변화하도록 속도를 조정합니다.[33]

모형에서는 입력 시퀀스의 위치에 따라 비율의 변동을 허용할 수도 있습니다.그러한 변이의 가장 명백한 예는 단백질 코딩 유전자의 뉴클레오티드를 3개의 염기 코돈으로 배열하는 것에서 따옵니다.열린 읽기 프레임(ORF)의 위치가 알려지면, 흔들기 염기쌍유전 코드에서 코돈의 의미에 영향을 주지 않고 주어진 코돈의 세 번째 뉴클레오티드에서 더 높은 돌연변이율을 허용할 수 있다고 알려져 있기 때문에 코돈 내의 특정 부위의 위치에 대해 돌연변이율을 조정할 수 있습니다.[32]ORF 식별에 의존하지 않는 덜 가설 중심적인 예제는 미리 결정된 분포(종종 감마 분포 또는 로그 정규 분포)에서 무작위로 추출된 비율을 각 사이트에 할당합니다.[2]마지막으로, 공변량 방법으로 알려진 비율 변동에 대한 보다 보수적인 추정치는 비율의 자기 상관 변동을 허용하여 특정 부위의 변이율이 부위와 계통 간에 상관됩니다.[34]

최적의 모델 선택

매개 변수가 부족하거나 지나치게 제한적인 모델은 기본 가정을 위반할 때 이상 행동을 일으킬 수 있기 때문에 적절한 모델의 선택은 좋은 계통발생학적 분석의 생산에 매우 중요합니다.지나치게 복잡하거나 지나치게 매개 변수화된 모델은 계산 비용이 많이 들고 매개 변수가 지나치게 적합할 수 있기 때문입니다.[32]모형을 선택하는 가장 일반적인 방법은 우도 비율 검정(LRT)이며, 이는 모형과 입력 데이터 사이의 "적합도"에 대한 측도로 해석할 수 있는 우도 추정치를 생성합니다.[32]그러나 더 많은 모수를 가진 더 복잡한 모델은 동일한 모델의 단순화된 버전보다 항상 더 높은 가능성을 가지며, 이는 지나치게 복잡한 모델을 순진하게 선택하게 할 수 있기 때문에 이러한 결과를 사용할 때 주의해야 합니다.[2]이러한 이유로 모델 선택 컴퓨터 프로그램은 더 복잡한 대체 모델보다 크게 나쁘지 않은 가장 간단한 모델을 선택할 것입니다.LRT의 중요한 단점은 모델 간에 일련의 쌍별 비교를 수행해야 한다는 것입니다. 모델을 비교하는 순서가 최종적으로 선택되는 모델에 주요한 영향을 미치는 것으로 나타났습니다.[35]

대안적인 모델 선택 방법은 AIC(Akaike information criteria)이며, 실제 모델과 테스트 중인 모델 사이의 Kullback-Leibler 발산을 공식적으로 추정한 것입니다.모수화된 모형에 대해 불이익을 주는 수정 요인이 있는 가능성 추정치로 해석할 수 있습니다.[32]AIC는 쌍이 아닌 개별 모델에서 계산되므로 모델을 평가하는 순서와는 무관합니다.이와 관련된 대안인 베이지안 정보 기준(BIC)은 기본적인 해석은 비슷하지만 복잡한 모델에 더 큰 불이익을 줍니다.[32]계통발생 재구성에 가장 적합한 모델을 결정하는 것은 다양한 진화 연구에서 기본적인 단계를 구성합니다.그러나 모델 선정을 위한 다양한 기준들은 어떤 기준이 더 바람직한지에 대한 논쟁으로 이어지고 있습니다.위상 및 조상 서열 재구성이 원하는 결과일 때, 다른 기준보다 하나의 기준을 선택하는 것이 중요하지 않다는 것이 최근에 밝혀졌다.대신 가장 복잡한 뉴클레오티드 치환 모델인 GTR+I을 사용합니다.

+G는 트리 토폴로지 및 조상 시퀀스의 추론에 대해 유사한 결과를 가져옵니다.[36]

DNA/아미노산 연속 시퀀스 어셈블리, 다중 시퀀스 정렬, 모델-테스트(가장 적합한 대체 모델 테스트), Maximum Likelihood 및 베이지안 Inference를 사용한 계통발생 재구성을 포함한 계통발생 트리 구성에 대한 포괄적[37] 단계별 프로토콜은 Protocol Exchange에서 이용할 수 있습니다.

계통 발생 트리를 평가하는 비 전통적인 방법은 군집 결과와 비교하는 것입니다.보간 결합이라고 하는 다차원 스케일링 기술을 사용하여 시퀀스에 대한 클러스터링 결과를 3D로 시각화한 다음 계통발생 트리를 클러스터링 결과에 매핑할 수 있습니다.일반적으로 트리가 좋은 트리일수록 클러스터링 결과와 상관 관계가 높습니다.[38]

트리 지원 평가

모든 통계 분석과 마찬가지로 특성 데이터에서 계통 발생을 추정하려면 신뢰도를 평가해야 합니다.계통발생의 각 하위 트리에 대한 지원을 평가하거나(노달 지원), 계통발생이 다른 가능한 트리와 현저하게 다른지(대체 트리 가설 검정)를 평가하여 계통발생 트리에 대한 지원량을 검정하는 여러 가지 방법이 있습니다.

노달지지대

트리 지지도를 평가하는 가장 일반적인 방법은 트리의 각 노드에 대한 통계적 지지도를 평가하는 것입니다.일반적으로 지원 수준이 매우 낮은 노드는 추가 분석에서 유효하지 않은 것으로 간주되며, 시각적으로는 클래스 내의 관계가 해결되지 않았음을 나타내기 위해 폴리토미로 붕괴될 수 있습니다.

컨센서스트리

결절 지지를 평가하는 많은 방법은 여러 계통 발생을 고려하는 것입니다.합의 트리는 트리 집합 간에 공유되는 노드를 요약합니다.[39]*엄격한 합의 하에 모든 트리에서 발견된 노드만* 표시되고 나머지는 해결되지 않은 폴리토미로 붕괴됩니다.*다수결 합의* 트리와 같은 덜 보수적인 방법은 고려 중인 트리의 지정된 백분율(예: 최소 50%)로 지원되는 노드를 고려합니다.

예를 들어, 최대 위자료 분석에서는 동일한 위자료 점수를 가진 트리가 많을 수 있습니다.엄격한 합의 트리는 동일하게 인색한 모든 트리에서 어떤 노드가 발견되고 어떤 노드가 다른지 보여줍니다.합의 트리는 베이지안 추론으로 재구성된 계통발생에 대한 지원을 평가하는 데도 사용됩니다(아래 참조).

부트스트래핑 및 잭나이프

통계학에서 부트스트랩은 원본 데이터의 유사 복제를 사용하여 알 수 없는 분포를 가지는 데이터의 변동성을 추론하는 방법입니다.예를 들어, 100개의 데이터 점 집합이 주어졌을 때 유사 반복실험은 원래 데이터에서 임의로 표본 추출한 크기(100개의 점)와 동일한 데이터 집합입니다.즉, 각 원본 데이터 점은 의사 복제본에 두 번 이상 표시되거나 아예 표시되지 않을 수 있습니다.통계적 지원에는 원본 데이터가 대규모 의사 반복실험 집합과 유사한 속성을 갖는지 여부를 평가하는 작업이 포함됩니다.

계통발생학에서 부트스트래핑은 문자 행렬의 열을 사용하여 수행됩니다.각 의사 반복실험에는 원래 행렬에서 무작위로 추출된 동일한 수의 종(행)과 문자(열)가 포함되며 대체됩니다.각 유사 복제에서 계통 발생을 재구성하고 원본 데이터에서 계통 발생을 재구성하는 데 사용되는 동일한 방법을 사용합니다.계통발생의 각 노드에 대해 노드 지원은 해당 노드를 포함하는 유사 반복실험의 백분율입니다.[40]

부트스트랩 테스트의 통계적 엄격성은 알려진 진화 이력을 가진 바이러스 집단을 사용하여 경험적으로 평가되었으며,[41] 부트스트랩 지원의 70%가 클래스가 존재할 확률 95%에 해당한다는 것을 발견했습니다.그러나 이는 이상적인 조건(예: 진화 속도의 변화 없음, 대칭 계통 발생)에서 테스트되었습니다.실제로는 일반적으로 70% 이상의 값을 지지하고 신뢰도를 평가하기 위해 연구자나 독자에게 맡깁니다.지원이 70% 미만인 노드는 일반적으로 해결되지 않은 노드로 간주됩니다.

계통발생학에서 잭나이프는 행렬의 열을 교체하지 않고 샘플링하는 것을 제외하고는 유사한 절차입니다.유사 반복실험은 데이터를 무작위로 부분 샘플링함으로써 생성됩니다. 예를 들어, "10% 잭나이프"는 결절 지지를 평가하기 위해 행렬의 10%를 무작위로 여러 번 샘플링하는 것을 수반합니다.

사후확률

베이지안 추론을 사용한 계통발생 재구성은 단일 "최상의" 트리가 아닌 데이터와 진화 모델이 주어진 매우 가능성이 높은 트리의 사후 분포를 생성합니다.뒤쪽 분포에 있는 나무들은 일반적으로 많은 다른 위상을 가지고 있습니다.입력 데이터가 VAF(Variant Alleic Frequency Data)인 경우, RECT 도구는 전체 트리 공간을 철저히 검색하여 생물학적으로 관련된 작은 트리 크기에 대해 트리의 확률을 정확하게 계산할 수 있습니다.[29]

대부분의 베이지안 추론 방법은 마르코프 체인 몬테카를로 반복을 사용하며, 이 체인의 초기 단계는 계통 발생의 신뢰할 수 있는 재구성으로 간주되지 않습니다.체인 초기에 생성된 나무는 대개 번인으로 폐기됩니다.베이지안 계통발생학적 분석에서 결절 지지를 평가하는 가장 일반적인 방법은 결절을 포함하는 후방 분포(사후 번인)에서 나무의 백분율을 계산하는 것입니다.

베이지안 추론에서 노드에 대한 통계적 지원은 데이터와 진화 모델이 주어졌을 때 클래스가 실제로 존재할 확률을 반영할 것으로 예상됩니다.[42]따라서 지원되는 노드를 받아들이는 임계값은 일반적으로 부트스트래핑보다 높습니다.

스텝 카운팅 방법

Bremer 지원은 등급을 위반하는 데 필요한 추가 단계의 수를 계산합니다.

단점

이러한 조치들은 각각의 약점을 가지고 있습니다.예를 들어, 더 작거나 큰 클래스는 중간 크기 클래스보다 더 큰 지지 값을 끌어들이는 경향이 있으며, 이는 단순히 클래스의 수에 따른 결과입니다.[43]

부트스트랩 지원은 클래스의 실제 존재보다는 데이터의 노이즈로 인해 노드 지원 추정치가 높을 수 있습니다.[44]

제한사항 및 해결방법

궁극적으로 특정 계통발생학적 가설이 정확한지 아닌지는 검사 중인 분류군 간의 실제 관계가 이미 알려져 있지 않는 한 측정할 방법이 없습니다(실험실 조건에서 박테리아나 바이러스와 함께 발생할 수 있음).경험적 계통발생학자가 얻을 수 있는 최선의 결과는 이용 가능한 증거에 의해 잘 뒷받침되는 가지가 있는 나무입니다.몇 가지 잠재적 함정이 확인되었습니다.

호모플라스틱

특정 문자는 다른 문자보다 수렴적으로 진화할 가능성이 높습니다. 논리적으로 트리를 재구성할 때 그러한 문자는 더 적은 가중치가 주어져야 합니다.[45]진화 모델 형태의 가중치는 분자 데이터 집합에서 추론할 수 있으므로 최대 가능성 또는 베이지안 방법을 사용하여 분석할 수 있습니다.분자 서열의 경우, 이 문제는 연구 대상 분류군이 상당히 분산되었을 때 악화됩니다.두 분류군의 발산 이후 시간이 증가함에 따라, 동일한 부위에 여러 개의 치환이 일어날 확률, 즉 등 변이가 발생할 확률도 증가하고, 이들 모두는 상동성을 초래합니다.형태학적 데이터의 경우, 불행히도 수렴을 결정할 수 있는 유일한 객관적인 방법은 트리의 구성(다소 원형 방식)뿐입니다.그렇다고 해도, 동종 형질에[how?] 무게를 두는 것은 실제로 더 나은 지지를 받는 나무로 이어집니다.[45]예를 들어 흉곽 날개의 존재는 두 번째로 날개가 손실되는 경우가 많지만 한 번 이상 날개를 얻었다는 증거가 없기 때문에 흉곽 날개의 존재는 피테고트 곤충 사이의 배치를 거의 보장합니다.[46]

수평유전자전달

일반적으로 유기체는 수직 유전자 전달과 수평 유전자 전달의 두 가지 방법으로 유전자를 물려받을 수 있습니다.수직적 유전자 전달은 부모에서 자손으로 유전자가 전달되는 것이고, 수평적(가로적) 유전자 전달은 유전자가 관련이 없는 유기체들 사이에서 점프할 때 발생합니다.특히 원핵생물에서 흔히 볼 수 있는 현상; 이것의 좋은 예는 다제내성 박테리아 종으로 이어지는 다양한 박테리아 간의 유전자 교환의 결과로서 획득된 항생제 내성입니다.진핵생물수평적 유전자 전달 사례도 잘 기록되어 있습니다.

수평적 유전자 전달은 유기체의 계통발생을 결정하는 것을 복잡하게 만들었고, 진화나무를 구성하는 데 사용된 유전자에 따라 특정 유기체 그룹 사이에 계통발생의 불일치가 보고되었습니다.어떤 유전자가 수직적으로 획득되었는지, 어떤 유전자가 수평적으로 획득되었는지를 결정할 수 있는 유일한 방법은 함께 유전된 가장 큰 유전자 집합이 수직적으로 상속되었다고 추정하는 것입니다. 이것은 많은 수의 유전자를 분석하는 것을 필요로 합니다.

하이브리드, 사양, 내향 및 불완전한 혈통 정렬

분류학의 수학적 모델의 기초가 되는 기본적인 가정은 종들이 가지런히 분기하는 방식으로 갈라지는 상황입니다.이러한 가정은 더 큰 규모(봉 수평 유전자 전달, 위 참조)를 유지할 수 있지만, 종파는 종종 훨씬 덜 질서정연합니다.클래디스틱 방법이 도입된 이후의 연구에 따르면 한때 드물었다고 여겨졌던 하이브리드 사양은 사실 특히 식물에서 꽤 흔합니다.[47][48]또한 부교세포종은 일반적이어서 분기 패턴의 가정이 적합하지 않아 나무가 아닌 계통발생 네트워크로 이어집니다.[49][50]내성은 또한 유전자를 다른 별개의 종들 사이에서, 때로는 심지어는 유전자에 기초한 계통발생학적 분석을 복잡하게 하면서 [51]이동시킬 수 있습니다.[52]이러한 현상은 "불완전한 혈통 분류"에 기여할 수 있으며, 여러 그룹에 걸쳐 공통적으로 나타나는 현상으로 생각됩니다.종 수준 분석에서 이것은 더 큰 표본 추출 또는 더 나은 전체 게놈 분석으로 다룰 수 있습니다.[53]밀접한 관련이 있는 표본이 아닌 더 적은 표본으로 분석을 제한함으로써 문제를 회피하는 경우가 많습니다.

시료채취세

분자생물학의 발전된 서열분석 기술로 인해, 계통발생학적 가설을 추론하기 위해 많은 양의 데이터(DNA 또는 아미노산 서열)를 수집하는 것이 가능해졌습니다.예를 들어, 전체 미토콘드리아 유전체(많은 동물에서 약 16,000개의 뉴클레오티드)를 기반으로 한 캐릭터 매트릭스 연구를 발견하는 것은 드문 일이 아닙니다.그러나 시뮬레이션에 따르면 더 많은 분류군이 있을수록 결과적인 계통발생 트리가 정확하고 강건하기 때문에 문자의 수를 늘리는 것보다 행렬의 수를 늘리는 것이 더 중요합니다.[54][55]이것은 부분적으로 긴 가지들이 깨졌기 때문일 수도 있습니다.

계통발생신호

나무 재구성의 정확도에 영향을 미치는 또 다른 중요한 요인은 분석된 데이터가 실제로 유용한 계통발생학적 신호를 포함하고 있는지 여부입니다. 이 용어는 문자가 무작위로 변하는 것과 비교하여 밀접하게 관련된 분류군에서 동일한 상태를 가질 수 있을 정도로 천천히 진화하는지 여부를 나타내는 데 일반적으로 사용되는 용어입니다.계통발생 신호에 대한 테스트가 존재합니다.[56]

연속문자

연속체를 샘플링하는 형태적 문자는 계통발생 신호를 포함할 수 있지만 이산 문자로 코딩하기는 어렵습니다.여러 가지 방법이 사용되었는데, 그 중 하나가 갭 코딩이고 갭 코딩에는 다양한 방법이 있습니다.[57]원래 형태의 갭 코딩:[57]

문자에 대한 그룹 평균은 크기에 따라 먼저 정렬됩니다.통합된 그룹 내 표준 편차가 계산되고 인접한 평균... 간의 차이가 이 표준 편차에 대해 비교됩니다.인접한 모든 평균 쌍은 서로 다른 것으로 간주되고 서로 다른 정수 점수가 부여됩니다... 만약 평균이 그룹 내 표준 편차보다 큰 "갭"으로 분리된다면... 어떤 임의 상수의 곱하기.

분석에 더 많은 taxa가 추가되면 taxa 사이의 간격이 너무 작아져서 모든 정보가 손실될 수 있습니다.일반화된 갭 코딩은 모든 분류군을 포함하는 하나의 집합을 고려하기보다는 개별 분류군 쌍을 비교함으로써 이 문제를 해결합니다.[57]

데이터누락

일반적으로 트리를 구성할 때 사용 가능한 데이터가 많을수록 결과 트리의 정확성과 신뢰성이 높아집니다.누락된 데이터의 대부분이 소수의 분류군에 있을 때 가장 큰 영향을 미치지만, 누락된 데이터가 단순히 적은 데이터를 가지고 있는 것만큼 해롭지는 않습니다.누락된 데이터를 적은 수의 문자로 집중하면 보다 강력한 트리가 생성됩니다.[58]

화석의 역할

많은 캐릭터들이 ( 기껏해야) 화석화되기 힘든 발생학적 또는 연조직적 또는 분자적 캐릭터들을 포함하고 있고, 화석에 대한 해석이 살아있는 분류군의 해석보다 더 모호하기 때문에, 멸종된 분류군은 거의 항상 살아있는 데이터보다 누락된 데이터의 비율이 더 높습니다.그러나, 이러한 한계에도 불구하고, 화석의 포함은 나무의 희박한 지역에 정보를 제공할 수 있고, 긴 가지를 분할할 수 있고, 중간 특징 상태를 제한할 수 있기 때문에 귀중합니다. 따라서 화석 분류군은 현대의 분류군만큼이나 나무 해결에 기여합니다.[59]화석은 또한 혈통의 나이를 제한할 수 있으므로 나무가 얼마나 성층학 기록과 일치하는지를 보여줍니다. 성층학은 나이 정보를 계통발생학적 분석을 위한 데이터 행렬에 통합합니다.[1]

참고 항목

참고문헌

  1. ^ a b c Khalafvand, Tyler (2015). "Finding Structure in the Phylogeny Search Space". Dalhousie University.
  2. ^ a b c d e f g h i j k l m n o Felsenstein J (2004). Inferring Phylogenies. Sunderland, Massachusetts: Sinauer Associates. ISBN 978-0-87893-177-4.
  3. ^ a b c d Mount DM (2004). Bioinformatics: Sequence and Genome Analysis (2nd ed.). Cold Spring Harbor, New York: Cold Spring Harbor Laboratory Press. ISBN 978-0-87969-712-9.
  4. ^ Swiderski DL, Zelditch ML, Fink WL (September 1998). "Why morphometrics is not special: coding quantitative data for phylogenetic analysis". Systematic Biology. 47 (3): 508–19. JSTOR 2585256. PMID 12066691.
  5. ^ Gaubert P, Wozencraft WC, Cordeiro-Estrela P, Veron G (December 2005). "Mosaics of convergences and noise in morphological phylogenies: what's in a viverrid-like carnivoran?". Systematic Biology. 54 (6): 865–94. doi:10.1080/10635150500232769. PMID 16282167.
  6. ^ Strait DS, Grine FE (December 2004). "Inferring hominoid and early hominid phylogeny using craniodental characters: the role of fossil taxa". Journal of Human Evolution. 47 (6): 399–452. doi:10.1016/j.jhevol.2004.08.008. PMID 15566946.
  7. ^ Wiens JJ (2001). "Character analysis in morphological phylogenetics: problems and solutions". Systematic Biology. 50 (5): 689–99. doi:10.1080/106351501753328811. PMID 12116939.
  8. ^ Jenner RA (2001). "Bilaterian phylogeny and uncritical recycling of morphological data sets". Systematic Biology. 50 (5): 730–42. doi:10.1080/106351501753328857. PMID 12116943.
  9. ^ Sokal R, Michener C (1958). "A statistical method for evaluating systematic relationships". University of Kansas Science Bulletin. 38: 1409–1438.
  10. ^ Saitou N, Nei M (July 1987). "The neighbor-joining method: a new method for reconstructing phylogenetic trees". Molecular Biology and Evolution. 4 (4): 406–25. doi:10.1093/oxfordjournals.molbev.a040454. PMID 3447015.
  11. ^ Fitch WM, Margoliash E (January 1967). "Construction of phylogenetic trees". Science. 155 (3760): 279–84. Bibcode:1967Sci...155..279F. doi:10.1126/science.155.3760.279. PMID 5334057.
  12. ^ Lespinats S, Grando D, Maréchal E, Hakimi MA, Tenaillon O, Bastien O (2011). "How Fitch-Margoliash Algorithm can Benefit from Multi Dimensional Scaling". Evolutionary Bioinformatics Online. 7: 61–85. doi:10.4137/EBO.S7048. PMC 3118699. PMID 21697992.
  13. ^ Day WH (1987). "Computational complexity of inferring phylogenies from dissimilarity matrices". Bulletin of Mathematical Biology. 49 (4): 461–7. doi:10.1016/s0092-8240(87)80007-1. PMID 3664032.
  14. ^ Hendy MD, Penny D (1982). "Branch and bound algorithms to determine minimal evolutionary trees". Mathematical Biosciences. 59 (2): 277–290. doi:10.1016/0025-5564(82)90027-X.
  15. ^ Ratner VA, Zharkikh AA, Kolchanov N, Rodin S, Solovyov S, Antonov AS (1995). Molecular Evolution. Biomathematics Series. Vol. 24. New York: Springer-Verlag. ISBN 978-3-662-12530-4.
  16. ^ Sankoff D, Morel C, Cedergren RJ (October 1973). "Evolution of 5S RNA and the non-randomness of base replacement". Nature. 245 (147): 232–4. doi:10.1038/newbio245232a0. PMID 4201431.
  17. ^ a b De Laet J (2005). "Parsimony and the problem of inapplicables in sequence data.". In Albert VA (ed.). Parsimony, phylogeny and genomics. Oxford University Press. pp. 81–116. ISBN 978-0-19-856493-5.
  18. ^ Wheeler WC, Gladstein DS (1994). "MALIGN: a multiple nucleic acid sequence alignment program". Journal of Heredity. 85 (5): 417–418. doi:10.1093/oxfordjournals.jhered.a111492.
  19. ^ Simmons MP (June 2004). "Independence of alignment and tree search". Molecular Phylogenetics and Evolution. 31 (3): 874–9. doi:10.1016/j.ympev.2003.10.008. PMID 15120385.
  20. ^ De Laet J (2015). "Parsimony analysis of unaligned sequence data: maximization of homology and minimization of homoplasy, not Minimization of operationally defined total cost or minimization of equally weighted transformations". Cladistics. 31 (5): 550–567. doi:10.1111/cla.12098. PMID 34772278. S2CID 221582410.
  21. ^ Chor B, Tuller T (June 2005). "Maximum likelihood of evolutionary trees: hardness and approximation". Bioinformatics. 21 (Suppl 1): i97–106. doi:10.1093/bioinformatics/bti1027. PMID 15961504.
  22. ^ El-Kebir M, Oesper L, Acheson-Field H, Raphael BJ (June 2015). "Reconstruction of clonal trees and tumor composition from multi-sample sequencing data". Bioinformatics. 31 (12): i62-70. doi:10.1093/bioinformatics/btv261. PMC 4542783. PMID 26072510.
  23. ^ Malikic S, McPherson AW, Donmez N, Sahinalp CS (May 2015). "Clonality inference in multiple tumor samples using phylogeny". Bioinformatics. 31 (9): 1349–56. doi:10.1093/bioinformatics/btv003. PMID 25568283.
  24. ^ Mau B, Newton MA (1997). "Phylogenetic inference for binary data on dendrograms using Markov chain Monte Carlo". Journal of Computational and Graphical Statistics. 6 (1): 122–131. doi:10.2307/1390728. JSTOR 1390728.
  25. ^ Yang Z, Rannala B (July 1997). "Bayesian phylogenetic inference using DNA sequences: a Markov Chain Monte Carlo Method". Molecular Biology and Evolution. 14 (7): 717–24. doi:10.1093/oxfordjournals.molbev.a025811. PMID 9214744.
  26. ^ Kolaczkowski B, Thornton JW (December 2009). Delport W (ed.). "Long-branch attraction bias and inconsistency in Bayesian phylogenetics". PLOS ONE. 4 (12): e7891. Bibcode:2009PLoSO...4.7891K. doi:10.1371/journal.pone.0007891. PMC 2785476. PMID 20011052.
  27. ^ Simmons MP (2012). "Misleading results of likelihood-based phylogenetic analyses in the presence of missing data". Cladistics. 28 (2): 208–222. doi:10.1111/j.1096-0031.2011.00375.x. PMID 34872185. S2CID 53123024.
  28. ^ Larget B (July 2013). "The estimation of tree posterior probabilities using conditional clade probability distributions". Systematic Biology. 62 (4): 501–11. doi:10.1093/sysbio/syt014. PMC 3676676. PMID 23479066.
  29. ^ a b Ray S, Jia B, Safavi S, van Opijnen T, Isberg R, Rosch J, Bento J (22 August 2019). "Exact inference under the perfect phylogeny model". arXiv:1908.08623. Bibcode:2019arXiv190808623R. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
  30. ^ Jiang Y, Qiu Y, Minn AJ, Zhang NR (September 2016). "Assessing intratumor heterogeneity and tracking longitudinal and spatial clonal evolutionary history by next-generation sequencing". Proceedings of the National Academy of Sciences of the United States of America. 113 (37): E5528-37. Bibcode:2016PNAS..113E5528J. doi:10.1073/pnas.1522203113. PMC 5027458. PMID 27573852.
  31. ^ Deshwar AG, Vembu S, Yung CK, Jang GH, Stein L, Morris Q (February 2015). "PhyloWGS: reconstructing subclonal composition and evolution from whole-genome sequencing of tumors". Genome Biology. 16 (1): 35. doi:10.1186/s13059-015-0602-8. PMC 4359439. PMID 25786235.
  32. ^ a b c d e f Sullivan J, Joyce P (2005). "Model Selection in Phylogenetics". Annual Review of Ecology, Evolution, and Systematics. 36 (1): 445–466. doi:10.1146/annurev.ecolsys.36.102003.152633. PMC 3144157. PMID 20671039.
  33. ^ Galtier N, Gouy M (July 1998). "Inferring pattern and process: maximum-likelihood implementation of a nonhomogeneous model of DNA sequence evolution for phylogenetic analysis". Molecular Biology and Evolution. 15 (7): 871–9. doi:10.1093/oxfordjournals.molbev.a025991. PMID 9656487.
  34. ^ Fitch WM, Markowitz E (October 1970). "An improved method for determining codon variability in a gene and its application to the rate of fixation of mutations in evolution". Biochemical Genetics. 4 (5): 579–93. doi:10.1007/bf00486096. PMID 5489762. S2CID 26638948.
  35. ^ Pol D (December 2004). "Empirical problems of the hierarchical likelihood ratio test for model selection". Systematic Biology. 53 (6): 949–62. doi:10.1080/10635150490888868. PMID 15764562.
  36. ^ Abadi S, Azouri D, Pupko T, Mayrose I (February 2019). "Model selection may not be a mandatory step for phylogeny reconstruction". Nature Communications. 10 (1): 934. Bibcode:2019NatCo..10..934A. doi:10.1038/s41467-019-08822-w. PMC 6389923. PMID 30804347.
  37. ^ Bast F (2013). "Sequence similarity search, Multiple Sequence Alignment, Model Selection, Distance Matrix and Phylogeny Reconstruction". Protocol Exchange. doi:10.1038/protex.2013.065.
  38. ^ Ruan Y, House GL, Ekanayake S, Schütte U, Bever JD, Tang H, Fox G (26 May 2014). "Integration of clustering and multidimensional scaling to determine phylogenetic trees as spherical phylograms visualized in 3 dimensions". 2014 14th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing. IEEE. pp. 720–729. doi:10.1109/CCGrid.2014.126. ISBN 978-1-4799-2784-5. S2CID 9581901.
  39. ^ Baum DA, Smith SD (2013). Tree Thinking: An Introduction to Phylogenetic Biology. Roberts. p. 442. ISBN 978-1-936221-16-5.
  40. ^ Felsenstein J (July 1985). "Confidence Limits on Phylogenies: An Approach Using the Bootstrap". Evolution; International Journal of Organic Evolution. 39 (4): 783–791. doi:10.2307/2408678. JSTOR 2408678. PMID 28561359.
  41. ^ Hillis DM, Bull JJ (1993). "An Empirical Test of Bootstrapping as a Method for Assessing Confidence in Phylogenetic Analysis". Systematic Biology. 42 (2): 182–192. doi:10.1093/sysbio/42.2.182. ISSN 1063-5157.
  42. ^ Huelsenbeck J, Rannala B (December 2004). "Frequentist properties of Bayesian posterior probabilities of phylogenetic trees under simple and complex substitution models". Systematic Biology. 53 (6): 904–13. doi:10.1080/10635150490522629. PMID 15764559.
  43. ^ Chemisquy MA, Prevosti FJ (2013). "Evaluating the clade size effect in alternative measures of branch support". Journal of Zoological Systematics and Evolutionary Research. 51 (4): 260–273. doi:10.1111/jzs.12024.
  44. ^ Phillips MJ, Delsuc F, Penny D (July 2004). "Genome-scale phylogeny and the detection of systematic biases" (PDF). Molecular Biology and Evolution. 21 (7): 1455–8. doi:10.1093/molbev/msh137. PMID 15084674.
  45. ^ a b Goloboff PA, Carpenter JM, Arias JS, Esquivel DR (2008). "Weighting against homoplasy improves phylogenetic analysis of morphological data sets". Cladistics. 24 (5): 758–773. doi:10.1111/j.1096-0031.2008.00209.x. hdl:11336/82003. S2CID 913161.
  46. ^ Goloboff PA (1997). "Self-Weighted Optimization: Tree Searches and Character State Reconstructions under Implied Transformation Costs". Cladistics. 13 (3): 225–245. doi:10.1111/j.1096-0031.1997.tb00317.x. PMID 34911233. S2CID 196595734.
  47. ^ Arnold ML (1996). Natural Hybridization and Evolution. New York: Oxford University Press. p. 232. ISBN 978-0-19-509975-1.
  48. ^ Wendel JF, Doyle JJ (1998). "DNA Sequencing". In Soltis DE, Soltis PS, Doyle JJ (eds.). Molecular Systematics of Plants II. Boston: Kluwer. pp. 265–296. ISBN 978-0-19-535668-7.
  49. ^ Funk DJ, Omland KE (2003). "Species-level paraphyly and polyphyly: Frequency, causes, and consequences, with insights from animal mitochondrial DNA". Annual Review of Ecology, Evolution, and Systematics. 34: 397–423. doi:10.1146/annurev.ecolsys.34.011802.132421.
  50. ^ "Genealogy of Life (GoLife)". National Science Foundation. Retrieved 5 May 2015. The GoLife program builds upon the AToL program by accommodating the complexity of diversification patterns across all of life's history. Our current knowledge of processes such as hybridization, endosymbiosis and lateral gene transfer makes clear that the evolutionary history of life on Earth cannot accurately be depicted - for every branch of the tree - as a single, typological, bifurcating tree.
  51. ^ Kutschera VE, Bidon T, Hailer F, Rodi J, Fain SR, Janke A (2014). "Bears in a forest of gene trees: phylogenetic inference is complicated by incomplete lineage sorting and gene flow". Molecular Biology and Evolution. 31 (8): 2004–2017. doi:10.1093/molbev/msu186. PMC 4104321. PMID 24903145.
  52. ^ Qu Y, Zhang R, Quan Q, Song G, Li SH, Lei F (December 2012). "Incomplete lineage sorting or secondary admixture: disentangling historical divergence from recent gene flow in the Vinous-throated parrotbill (Paradoxornis webbianus)". Molecular Ecology. 21 (24): 6117–33. doi:10.1111/mec.12080. PMID 23095021. S2CID 22635918.
  53. ^ Pollard DA, Iyer VN, Moses AM, Eisen MB (October 2006). "Widespread discordance of gene trees with species tree in Drosophila: evidence for incomplete lineage sorting". PLOS Genetics. 2 (10): e173. doi:10.1371/journal.pgen.0020173. PMC 1626107. PMID 17132051.
  54. ^ Zwickl DJ, Hillis DM (August 2002). "Increased taxon sampling greatly reduces phylogenetic error". Systematic Biology. 51 (4): 588–98. doi:10.1080/10635150290102339. PMID 12228001.
  55. ^ Wiens JJ (February 2006). "Missing data and the design of phylogenetic analyses". Journal of Biomedical Informatics. 39 (1): 34–42. doi:10.1016/j.jbi.2005.04.001. PMID 15922672.
  56. ^ Blomberg SP, Garland T, Ives AR (April 2003). "Testing for phylogenetic signal in comparative data: behavioral traits are more labile". Evolution; International Journal of Organic Evolution. 57 (4): 717–45. doi:10.1111/j.0014-3820.2003.tb00285.x. PMID 12778543. S2CID 221735844.
  57. ^ a b c Archie JW (1985). "Methods for coding variable morphological features for numerical taxonomic analysis". Systematic Zoology. 34 (3): 326–345. doi:10.2307/2413151. JSTOR 2413151.
  58. ^ Prevosti FJ, Chemisquy MA (2009). "The impact of missing data on real morphological phylogenies: Influence of the number and distribution of missing entries". Cladistics. 26 (3): 326–339. doi:10.1111/j.1096-0031.2009.00289.x. hdl:11336/69010. PMID 34875786. S2CID 86850694.
  59. ^ Cobbett A, Wilkinson M, Wills MA (October 2007). "Fossils impact as hard as living taxa in parsimony analyses of morphology". Systematic Biology. 56 (5): 753–66. doi:10.1080/10635150701627296. PMID 17886145.

추가열람

외부 링크