최대 절약량(유전학)

Maximum parsimony (phylogenetics)

계통유전학에서 최대치란 특성상태변화의 총수를 최소화하는 계통유전학적 트리가 선호되는 최적성 기준이다.최대 절약 기준 하에서 최적 트리는 동질성의 양을 최소화한다(즉, 수렴 진화, 병렬 진화 및 진화 역).즉, 이 기준에서는 데이터를 설명하는 가장 짧은 트리가 최선의 것으로 간주됩니다.최대 절약의 이면에 있는 기본적인 생각들 중 일부는 제임스 S에 의해 제시되었다.1970년 패리스와 월터 M. 1971년 [2]피치.

최대 절약은 직관적이고 단순한 기준이며, 이러한 이유로 인기가 있다.단, (문자 상태 변화 수를 세는 것으로) 계통 트리의 점수를 매기는 은 쉽지만, 가장 인색한 트리를 빠르게 생성하는 알고리즘은 없습니다.대신, 가장 인색한 나무는 "나무 공간"에서 발견되어야 합니다(즉, 가능한 모든 나무들 중에서).소수의 분류군(즉, 9개 미만)에 대해 가능한 모든 트리가 채점되고 가장 적합한 트리가 선택되는 철저한 검색을 수행할 수 있습니다.9~20개의 분류군은 일반적으로 분기 및 경계를 사용하는 것이 좋습니다. 분기 및 경계는 최상의 트리를 반환할 수도 있습니다.분류군의 수가 많을 경우 경험적 검색을 수행해야 합니다.

가장 인색한 나무는 항상 가능한 가장 짧은 나무이기 때문에, 이것은 연구 대상 생물의 진화 역사를 실제로 기술하는 "진정한" 나무와 비교하여, 최대 인색한 기준에 따른 "최고의" 나무는 종종 발생한 실제 진화 변화를 과소평가할 수 있다는 것을 의미합니다.또한 최대 절약은 통계적으로 일관되지 않습니다.즉, 충분한 데이터가 주어진다면 높은 확률로 진정한 트리를 생성하는 것은 보장되지 않습니다.1978년 Joe [3]Felsenstein에 의해 증명되었듯이, 최대 절약은 긴 가지 매력과 같은 특정 조건 하에서 일관되지 않을 수 있습니다.물론 선호 나무를 추정하기 위해 사용하는 모델이 해당 군락에서 진화가 발생한 방식과 정확하게 일치하지 않는 경우 계통발생 알고리즘도 통계적으로 일관성이 없을 수 있다.이것은 알 수 없다.따라서 통계적 일관성은 흥미로운 이론적 특성이지만, 시험가능성의 영역 밖에 있으며 경험적 계통학 연구와 [4]무관하다.

대체 특성 및 근거

계통유전학에서 인색성은 대부분의 경우 필요한 진화적 변화의 양을 최소화하는 나무를 선호하는 것으로 해석됩니다(예: 참조).또는 계통발생학적 절약은 유전과 [5][6]공통계통에 의해 설명될 수 없는 관찰된 유사성의 수를 최소화함으로써 설명력을 최대화하는 나무를 선호한다는 특징을 가질 수 있다.필요한 진화적 변화의 최소화와 호몰로지로 설명될 수 있는 관찰된 유사성의 극대화는 일부 관찰된 특징이 트리에 포함된 일부 그룹에 적용되지 않을 때 다른 선호 트리를 야기할 수 있으며, 후자는 보다 일반적인 [7][8][9]접근방식으로 볼 수 있다.

진화는 본질적으로 인색한 과정이 아니지만, 수 세기의 과학적 경험은 앞서 언급한 인색함의 원리를 뒷받침해준다.즉, 더 복잡하고 덜 인색한 사건의 연쇄를 가정하는 것보다 더 단순하고 인색깔이 덜한 사건의 연쇄를 가정하는 것보다.따라서 간결함(sensu lato)[10]은 계통수 구성 및 과학적 설명에서 일반적으로 추구된다.

상세하게

인색성은 개별 계통발생학적 특징의 매트릭스를 사용하여 한 쌍의 분류군(일반적으로 한 의 종 또는 단일 종의 생식적으로 고립된 집단)에 대해 하나 이상의 최적의 계통수를 추론하는 특성 기반 나무 추정 방법의 일부이다.이러한 방법은 후보 계통수를 명시적 최적성 기준에 따라 평가하여 작동한다. 가장 유리한 점수를 받은 나무는 포함된 분류군의 계통발생 관계에 대한 최선의 추정치로 간주된다.최대 절약은 대부분의 계통 발생 데이터에 사용되었으며, 최근까지 형태학 데이터에 사용되는 유일한 문자 기반 나무 추정 방법이었다.

계통 발생을 추정하는 것은 사소한 문제가 아니다.적당한 크기의 분류군에는 엄청난 수의 가능한 계통수가 존재합니다. 예를 들어, 단 10종만이 2백만 그루 이상의 가능한 뿌리 없는 나무를 줍니다.최적성 기준에 따라 데이터에 가장 적합한 트리를 찾으려면 이러한 가능성을 검색해야 합니다.그러나 데이터 자체는 문제에 대한 단순한 산술적 해결책으로 이어지지 않습니다.이상적으로, 우리는 어떤 진화적 특성(표현형 특성이나 대립 유전자 등)의 분포가 진화의 분기 패턴을 직접적으로 따르는 것을 예상할 것이다.따라서 우리는 만약 두 유기체가 공통된 특징을 가지고 있다면, 그들은 이 특징이 없는 세 번째 유기체보다 서로 더 밀접하게 관련되어 있어야 한다고 말할 수 있다.우리는 박쥐와 원숭이가 코끼리보다 서로 더 밀접하게 관련되어 있다고 예상합니다. 왜냐하면 수컷 박쥐와 원숭이는 코끼리에게는 없는 외부 고환을 가지고 있기 때문입니다.하지만 박쥐와 원숭이는 고래보다 더 가까운 관계라고 말할 수 없다. 비록 고래에는 외부 고환이 없지만, 우리는 이 세 종 중 마지막 공통 조상 종인 수컷이 외부 고환을 가지고 있다고 믿기 때문이다.

하지만, 수렴 진화, 병렬 진화, 그리고 진화 역행의 현상은 계통 발생을 추정하는 문제에 불쾌한 주름을 더한다.여러 가지 이유로 두 유기체는 마지막 공통 조상에 존재하지 않는 특성을 가질 수 있습니다.만약 우리가 이 특성의 존재를 관계의 증거로 순진하게 받아들인다면, 우리는 잘못된 나무를 재구성할 것이다.실제 계통발생학적 데이터는 상당한 동질성을 포함하며, 데이터의 다른 부분은 때때로 매우 다른 관계를 암시한다.계통수를 추정하는 데 사용되는 방법은 일부 데이터가 단순히 맞지 않는다는 것을 인정하고 전체 데이터에 가장 적합한 계통수를 선택하여 데이터 내의 충돌을 해결하는 것을 목적으로 한다.편협성은 수렴이 드물다고 가정하는 것으로 오해되는 경우가 많다. 사실, 수렴적으로 파생된 특성조차도 최대 편협 기반 계통학 분석에서 어느 정도 가치가 있으며, 수렴의 확산은 편협 기반 [11]방법의 결과에 체계적으로 영향을 미치지 않는다.

나무에 완벽하게 맞지 않는 데이터는 단순히 "소음"이 아니며, 나무 전체와 충돌하더라도 나무의 일부 부분에 관련된 계통 발생 신호를 포함할 수 있다.위의 고래의 예에서 고래의 외부 고환이 없는 것은 동형성입니다.그것은 고환이 내부에 있었던 포유류의 고대 조상들의 상태로의 회귀를 반영한다.고래와 고대 포유류의 조상들 사이의 이러한 유사성은 우리가 받아들이는 나무와 상충된다. 왜냐하면 그것은 외부 고환을 가진 포유류가 고래를 제외한 그룹을 형성해야 한다는 것을 의미하기 때문이다.하지만, 고래들 사이에서, 내부 고환으로의 역전은 실제로 다양한 종류의 고래들을 고래 집단으로 정확하게 연관시킨다.그러나 가장 적합한 트리의 결정(따라서 트리에 맞지 않는 데이터)은 복잡한 프로세스입니다.최대 절약은 이를 위해 개발된 방법 중 하나입니다.

문자 데이터

최대 절약 분석에서 사용되는 입력 데이터는 분류 범위의 "문자" 형식입니다.일반적으로 합의된 계통발생학적 성질에 대한 정의는 없지만, 작동상 성질은 속성, 즉 분류군이 변화하는 것으로 관찰되는 축으로 생각할 수 있다.이러한 속성은 물리적(모형학적), 분자적, 유전적, 생리학적 또는 행동적일 수 있습니다.성격 분석에 사용되는 변화가 유전적인 변화를 반영해야 한다는 것이 성격에 대한 유일한 일반적인 의견인 것 같다.직접 상속 가능해야 하는지, 간접 상속(예: 학습된 행동)이 허용 가능한지 여부는 완전히 해결되지 않았습니다.

각 문자는 분리된 문자 상태로 나뉘며, 관찰된 변화를 분류합니다.문자 상태는 종종 문자 기판의 상태를 설명하는 기술자로 공식화됩니다.예를 들어, "눈 색깔"이라는 문자는 "파란색"과 "갈색" 상태를 가질 수 있습니다.문자는 2개 이상의 상태를 가질 수 있습니다(하나밖에 가질 수 없지만, 이러한 문자는 최대 파리지 분석에 도움이 되지 않으며, 대부분의 경우 제외됩니다).

계통발생학적 분석을 위해 문자를 코드화하는 것은 정확한 과학이 아니며, 많은 복잡한 문제들이 있다.일반적으로 분류군은 다른 상태로 분류된 분류군보다 특정 속성에서 서로 더 유사한 경우 동일한 상태로 분류된다.문자 상태가 명확하게 설명되지 않거나 문자 내에서 가능한 모든 변동을 포착하지 못한 경우 이는 간단하지 않습니다.헤이즐 눈을 가진 분류군(또는 개인)의 경우 앞에서 언급한 캐릭터의 점수를 어떻게 매길 수 있을까요?아니면 초록색?위에서 언급한 바와 같이, 문자 부호화는 일반적으로 유사성에 기초한다: 헤이즐과 녹색 눈은 그 색깔(밝음)에 더 유사하기 때문에 파란색으로 뭉쳐질 수 있으며, 그 후 문자는 "눈 색깔: 밝음; 어둡음"으로 기록될 수 있다.또는 "눈 색깔: 갈색; 헤이즐, 파란색; 녹색"과 같은 다중 상태 문자가 있을 수 있습니다.

캐릭터 상태 묘사 및 스코어링의 모호성은 캐릭터 데이터를 사용한 계통학 분석에서 혼란, 논쟁 및 오류를 야기하는 주요 원인이 될 수 있다.위의 예에서는 "눈: 있음; 없음"도 가능한 문자이며, 눈이 없을 경우 "눈 색깔"이 적용되지 않기 때문에 문제가 발생합니다.이러한 상황에서는 "?"(알 수 없음)이 점수가 매겨지지만, 때때로 "X" 또는 "-"(보통 시퀀스 데이터에서는 후자)가 문자가 점수를 매길 수 없는 경우와 단순히 상태를 알 수 없는 경우를 구분하기 위해 사용됩니다.현재의 최대 절약 구현에서는 일반적으로 알 수 없는 값을 동일한 방식으로 취급합니다. 데이터가 알려지지 않은 이유는 분석에 특별한 영향을 미치지 않습니다.실질적으로, 프로그램은 알고리즘에서 명시적인 단계는 아니지만 트리에서 가장 적은 추가 단계(아래 참조)를 포함하는 상태를 유지하는 것처럼 처리합니다.

단백질과 뉴클레오티드 배열은 자연적으로 분리되기 때문에 유전자 데이터는 최대 절약과 같은 특성 기반 계통 발생학적 방법에 특히 적합하다.뉴클레오티드 배열의 특정 위치는 아데닌, 사이토신, 구아닌 또는 티민/우라실 또는 배열 간격일 수 있다.단백질 배열의 위치(잔류)는 염기성 아미노산 또는 배열 간격 중 하나이다.따라서 시퀀스 방법이 특정 시퀀스 위치에 대한 최종 할당을 생성하지 못한 경우를 제외하고 문자 점수가 애매한 경우는 거의 없습니다.시퀀스 갭을 어떻게 코딩해야 하는지에 대한 합의는 없지만 때로는 문자로 처리되기도 합니다.

문자는 순서가 매겨지지 않은 문자 또는 순서가 매겨진 문자로 처리될 수 있습니다.바이너리(2 스테이트) 문자의 경우, 이것은 거의 차이가 없습니다.다중 상태 문자의 경우 순서가 없는 문자는 하나의 상태에서 다른 상태로 변화하기 위해 동일한 "비용"("진화 이벤트 수")을 갖는 것으로 간주할 수 있습니다.보완적으로 중간 상태를 통과할 필요가 없습니다.순서가 매겨진 문자는 상태가 진화를 통해 발생해야 하는 특정 시퀀스를 가지고 있기 때문에 어떤 상태 사이를 이동하려면 중간자를 통과해야 합니다.이는 보완적으로 서로 다른 상태 쌍 간에 전달되는 비용이 다른 것으로 간주할 수 있다.위의 아이컬러 예에서는 브라운-블루, 그린-블루, 그린-헤젤 등의 진화적 "비용"을 부과하는 무질서한 상태로 둘 수 있습니다.또는 브라운-헤젤-그린-블루로 주문할 수 있습니다.이것은 보통 브라운-그린-블루에서 두 가지 진화적 사건이 발생한다는 것을 의미하며, 브라운-헤젤에서 세 가지 진화적 사건만 발생한다는 것을 의미합니다.이것은 또한 눈이 갈색에서 녹색으로, 그리고 헤이즐에서 파란색으로 가는 "녹색 단계" 등을 거쳐 진화하는 것을 필요로 한다고 생각할 수 있다.많은 캐릭터의 경우 순서를 매겨야 하는지, 어떻게 매겨야 하는지는 명확하지 않습니다.반대로 형태, 크기, 비율 문자 등 기본 연속 변수의 이산화를 나타내는 문자의 경우 순서는 [12]논리적이고 시뮬레이션 결과 올바른 클레이드를 회복하는 능력이 향상되고 잘못된 [13][14][15]클레이드의 회복은 감소하는 것으로 나타났습니다.

인물 순서의 효용성과 적절성에 대한 활발한 논쟁이 있지만, 합의된 것은 없다.일부 당국은 상태 간에 명확한 논리적, 개체 발생적 또는 진화적 전환이 있을 때 문자를 정렬합니다(예: "legs: short; medium; long").일부는 이러한 기준 중 일부만 받아들입니다.순서 없는 분석을 실행하고, 결과 트리에서 명확한 이행 순서를 나타내는 문자를 정렬합니다(순환 추리로 인해 실행이 비난될 수 있습니다).일부 권위자들은 특정 경로를 따르도록 진화적 전환을 요구하기 위해 분석을 편향하는 것을 제안하면서 문자 순서를 아예 거부한다.

또한 개별 문자에 차등 가중치를 적용할 수도 있습니다.이것은 보통 "비용"이 1인 경우에 실행됩니다.따라서, 일부 문자는 분류군 사이의 진정한 진화 관계를 반영할 가능성이 더 높기 때문에 2 이상의 값으로 가중치가 부여될 수 있다. 이러한 문자의 변화는 나무 점수를 계산할 때 하나의 단계가 아니라 두 개의 진화적 "단계"로 계산될 것이다(아래 참조).과거에 성격 가중치에 대한 많은 논의가 있었다.예외는 일반적이지만 대부분의 당국은 현재 모든 문자의 무게를 동일하게 부여하고 있습니다.예를 들어 대립 유전자 빈도 데이터는 빈에 풀링되어 순서가 매겨진 문자로 평가되는 경우가 있습니다.이러한 경우, 대립 유전자 빈도의 작은 변화가 다른 문자의 큰 변화보다 적게 반영되도록 문자 자체의 가중치가 낮아지는 경우가 많습니다.또, 코드화 뉴클레오티드 배열의 제3 코돈 위치는 특히 불안정하며, 호모플라스균을 나타낼 가능성이 높다고 가정하여 때때로 저중량 또는 중량 0이 부여된다.일부 경우에는 이전 분석에서 발견된 동종 플라스틱의 정도에 반비례하여 문자가 재가중되는 반복 분석을 실행한다(연속 가중치). 이는 순환 추리로 간주될 수 있는 또 다른 기법이다.

문자 상태 변경에 개별적으로 가중치를 부여할 수도 있습니다.이는 종종 뉴클레오티드 배열 데이터에 대해 수행된다. 특정 염기 변화(A-C, A-T, G-C, G-T 및 그 반대 변화)가 다른 염기 변화(A-G, C-T 및 그 반대 변화)보다 훨씬 덜 자주 발생한다는 것이 경험적으로 확인되었다.따라서 이러한 변경은 종종 가중치가 더 높아진다.문자순서의 논의에서 보듯이 순서가 매겨진 문자는 문자상태 가중치의 한 형태로 생각할 수 있다.

일부 체계론자들은 매우 동형성이 있다고 알려져 있거나 의심되는 문자 또는 다수의 미지의 엔트리("?")를 포함하는 문자를 제외하는 것을 선호합니다.아래에 기술한 바와 같이 이론 및 시뮬레이션 작업은 이것이 정확성을 개선하기보다는 희생할 가능성이 높다는 것을 증명했습니다.이것은 말단 분류 체계에서 가변적인 문자의 경우에도 해당된다. 이론, 일치성 및 시뮬레이션 연구는 모두 그러한 다형성 문자에 유의한 계통 발생 [citation needed]정보가 포함되어 있다는 것을 증명했다.

분류군 표본 추출

근위 분석(또는 계통 분석)에 필요한 시간은 분석에 포함된 분류군(및 문자)의 수에 비례합니다.또한 분류군이 많을수록 더 많은 지점을 추정해야 하기 때문에 대규모 분석에서 더 많은 불확실성이 예상된다.시간과 비용의 데이터 수집 비용은 포함된 분류군의 수에 따라 직접 확장되는 경우가 많기 때문에 대부분의 분석에는 표본 추출할 수 있는 분류군의 일부만 포함된다.실제로, 일부 저자들은 정확한 계통발생학적 분석에 필요한 4가지 분류군(의미 있는 뿌리 없는 나무를 생산하기 위해 필요한 최소값)이 모두이며, 계통발생학에서 더 많은 문자가 더 가치 있다고 주장했다.이 때문에 표본 추출에 대한 논란이 거세게 일고 있다.

경험적, 이론적 및 시뮬레이션 연구는 적절한 분류군 표본 추출의 중요성에 대한 많은 극적인 입증으로 이어졌다.이들 대부분은 단순한 관찰로 요약할 수 있다. 즉, 계통발생 데이터 매트릭스는 문자 차원에 분류법을 곱한 것이다.분류군의 수를 두 배로 늘리면 문자 수를 두 배로 늘리는 것과 마찬가지로 매트릭스 내 정보량도 두 배로 증가합니다.각 분류군은 모든 문자의 새로운 샘플을 나타내지만, 더 중요한 것은 (보통) 문자 상태의 새로운 조합을 나타냅니다.이러한 특성 상태는 해당 분류군이 트리 상의 어디에 배치되어 있는지 결정할 수 있을 뿐만 아니라 전체 분석에 정보를 제공할 수 있으며, 특성 변화 패턴의 추정치를 변경함으로써 나머지 분류군 간의 다른 관계를 선호할 수 있다.

근소한 분석의 가장 불안한 약점인 롱브런치 어트랙션(아래 참조)의 약점은 특히 4개 분류군의 경우 열악한 분류군 샘플링에서 두드러진다.이는 문자 표본 추출을 추가해도 추정의 품질이 개선되지 않을 수 있는 잘 알려진 경우입니다.분류군이 추가됨에 따라, 그들은 종종 긴 가지(특히 화석의 경우)를 갈라놓기 때문에, 그것들을 따라 특성 상태의 변화를 효과적으로 추정할 수 있다.분류군 표본 추출에 의해 추가된 정보의 풍부함 때문에, 심지어 수천 개의 [citation needed]문자만을 사용하여 수백 개의 분류군으로 매우 정확한 계통 발생 추정치를 산출할 수 있다.

많은 연구가 수행되었지만, 여전히 분류 표본 추출 전략에 대해 해야 할 일이 많다.컴퓨터 성능의 진보와 분자 배열의 비용 절감 및 자동화 증가로 인해 전반적으로 표본 크기가 증가하고 있으며, 수백 개의 분류군(또는 유전자와 같은 다른 말단 개체)의 관계를 다루는 연구가 보편화되고 있습니다.물론 문자 추가가 도움이 되지 않는 것은 아닙니다.문자 수도 증가하고 있습니다.

일부 체계론자들은 그들이 표시하는 알 수 없는 문자 항목("?")의 수에 따라 분류법을 제외하거나 분석에서 트리를 "점프"하는 경향이 있기 때문에(즉, "와일드 카드"이다) 분류법을 제외하는 것을 선호한다.아래에 기술한 바와 같이, 이론 및 시뮬레이션 작업에서는 이것이 정확성을 개선하기보다는 희생할 가능성이 높다는 것이 입증되었습니다.비록 이러한 분류군이 더 적은 수의 나무를 생성할 수 있지만(아래 참조), 합의 하위 트리 및 합의 감소와 같은 방법은 여전히 관심 관계에 대한 정보를 추출할 수 있다.

분류군을 더 많이 포함하면 전체 지지치(부트스트랩 비율 또는 붕괴 지수, 아래 참조)가 낮아지는 경향이 있는 것으로 관찰되었다.그 원인은 명확합니다.나무에 분류군이 추가됨에 따라 그 가지를 지원하는 정보가 희석됩니다.개별 지점에 대한 지원은 감소하지만 전체 관계에 대한 지원은 실제로 증가합니다.(물고기, (도마뱀, (고래, (고양이, 원숭이))) 나무를 생성하는 분석을 고려해 보십시오.쥐와 바다코끼리를 추가하는 것은 아마도 고래, (고양이, 원숭이) 분지군에 대한 지지를 줄일 것이다. 왜냐하면 쥐와 바다코끼리는 이 분지군에 속하거나 바깥에 속할 수 있기 때문이다. 그리고 이 다섯 동물들은 모두 비교적 가까운 관계이기 때문에 그들의 관계에 대해 더 많은 불확실성이 있을 것이다.오류 내에서, 이 동물들 중 어느 것도 서로 상대적인 관계를 결정하는 것이 불가능할 수 있다.하지만, 쥐와 바다코끼리는 아마도 물고기나 도마뱀을 제외한 이 포유동물들 중 두 개의 그룹을 굳히는 성격 데이터를 추가할 것입니다; 초기 분석은, 예를 들어, 물고기와 고래의 지느러미의 존재에 의해, 고래와 같은 물결과 지느러미와 함께, 그러나 고양이와 같은 수염을 가진 바다코끼리의 존재에 의해 오도되었을 수 있습니다.쥐는 고래를 포유동물과 단단히 묶는다.

이 문제에 대처하기 위해 합의 하위 트리, 합의 감소 및 이중 감소 분석은 전체 트리가 아니라 지원되는 관계('n-taxon 스테이트먼트'의 형태, 예를 들어 4-taxon 스테이트먼트(fish, (lizard, (cat, whale))))를 식별하려고 한다.분석의 목적이 분해된 나무인 경우, 비교 계통학에서와 마찬가지로 이러한 방법으로는 문제를 해결할 수 없다.그러나 나무 추정치가 그렇게 잘 지원되지 않으면 트리에서 파생된 분석 결과는 사용하기에 너무 의심스러울 수 있습니다.

분석.

최대 절약 분석은 매우 간단한 방식으로 실행됩니다.트리는 문자 데이터의 인색한 분포를 암시하는 정도에 따라 점수를 매긴다.데이터셋에 대한 가장 인색한 트리는 분석에서 분류군 간의 관계에 대한 선호 가설을 나타낸다.

트리는 각 문자의 분포를 설명하기 위해 얼마나 많은 "단계"(진화적 전환)가 필요한지 결정하기 위해 간단한 알고리즘을 사용하여 채점(평가)된다.순서부여된문자의경우에따라서는1개의문자상태에서다른문자상태로의변경입니다.단,순서부여된문자의경우에따라서는2단계이상필요한경우가있습니다.일반적인 생각과는 달리 알고리즘은 특정 특성 상태를 트리의 노드(분기 접합)에 명시적으로 할당하지 않습니다. 가장 적은 단계는 여러 개의 동일한 비용이 드는 진화적 전환의 할당과 분포를 포함할 수 있습니다.최적화된 것은 총 변경 수입니다.

8개 이상의 분류군 전체를 검색할 수 있는 것보다 더 많은 가능한 계통수가 있다.따라서 가능한 트리를 검색하기 위해 많은 알고리즘이 사용됩니다.이들 중 대부분은 초기 트리(일반적으로 알고리즘의 마지막 반복에서 선호되는 트리)를 가져와서 변경으로 인해 더 높은 점수가 생성되는지 확인하기 위해 이를 방해합니다.

절약 검색으로 인한 트리는 뿌리가 없습니다.이들은 포함된 분류군의 가능한 모든 관계를 보여주지만, 상대적 격차 시간에 대한 어떠한 설명도 결여되어 있지 않다.사용자가 트리를 루트하기 위해 특정 분기를 선택합니다.그리고 나서 이 가지는 나무의 다른 모든 가지들 바깥에 있는 것으로 간주되고, 그것들은 함께 단일통군을 형성합니다.이것은 트리에 상대적인 시간감을 부여한다.루트를 잘못 선택하면 트리 자체가 루트되지 않은 형태로 올바르더라도 트리의 관계가 잘못될 수 있습니다.

절약 분석에서는 많은 경우 균등하게 가장 절약된 트리(MPT)가 반환됩니다.MPT의 많은 수는 종종 분석 실패로 간주되며, 데이터 세트의 누락된 항목 수("?"), 동종 플라스틱이 너무 많은 문자 또는 위상적으로 취약한 "와일드 카드" 분류의 존재와 관련이 있는 것으로 널리 알려져 있습니다(결손된 항목이 많을 수 있습니다.MPT의 수를 줄이기 위해 분석 전에 누락된 데이터가 많은 문자 또는 분류군을 제거하거나, 높은 균질성 문자를 제거하거나(연속 가중치 부여), 사후 와일드카드 분류법(와일드카드 분류법)을 제거한 후 데이터를 재분석하는 등 수많은 방법이 제안되었다.

수많은 이론 및 시뮬레이션 연구에서 결측 데이터가 풍부한 동종 플라스틱 문자, 문자 및 분류군과 "와일드 카드" 분류군이 분석에 기여한다는 것이 입증되었다.문자나 분류법을 제외하면 분해능이 향상되는 것처럼 보일 수 있지만, 결과 트리는 더 적은 데이터를 기반으로 하기 때문에 계통발생에 대한 신뢰도가 낮다(문자 또는 분류법이 유익하지 않은 경우를 제외하고 안전한 분류법적 축소를 참조한다).오늘날의 일반적인 합의는 여러 MPT를 갖는 것이 유효한 분석 결과라는 것입니다. 이는 단순히 트리를 완전히 해결하기에 데이터가 부족하다는 것을 나타냅니다.많은 경우 MPT에는 상당한 공통 구조가 있으며 차이는 미미하며 소수의 분류군의 배치에 불확실성이 수반된다.모든 분류군의 공통 관계를 보여주는 합의 트리 및 모든 분류군의 "와일드 카드" 분류군을 모두 동의할 때까지 일시적으로 제거함으로써 공통 구조를 보여주는 가지치기 합의 하위 트리 등 이 집합 내의 관계를 요약하는 많은 방법이 있다.컨센서스 축소는 입력 트리에서 지원되는 모든 하위 트리(따라서 모든 관계)를 표시함으로써 이를 한 단계 더 진전시킵니다.

여러 MPT가 반환되더라도 근소한 분석은 기본적으로 어떤 종류의 신뢰 구간도 없는 포인트 추정치를 생성합니다.가장 인색한 나무를 추정하는 데 오류가 분명히 있고, 이 방법은 본질적으로 이 오류에 대한 결론이 얼마나 민감한지를 결정하는 수단을 포함하지 않기 때문에 이것은 종종 비판으로 평준화되었다.지원을 평가하기 위해 몇 가지 방법이 사용되었습니다.

잭나이핑부트스트래핑은 잘 알려진 통계 재샘플링 절차로 파시모니 분석과 함께 사용되어 왔습니다.잭나이프는 대체 없이 재샘플링("lave-one-out")을 사용할 수 있습니다. 관심 변수가 트리이기 때문에 후자의 경우 해석이 복잡해질 수 있으며 분류가 다른 트리의 비교는 간단하지 않습니다.치환으로 재샘플링하는 부트스트랩(x 사이즈의 샘플에서 x개의 아이템을 랜덤으로 추출할 수 있지만 아이템은 여러 번 선택할 수 있습니다)은 중복 분류를 추가해도 절약 분석 결과가 변경되지 않기 때문에 문자에만 사용됩니다.부트스트랩은 (다른 곳과 마찬가지로) 계통유전학에서 훨씬 더 일반적으로 사용된다. 두 방법 모두 원래 데이터의 섭동을 수반하는 임의적이지만 많은 수의 반복을 수반하며 분석에 따른다.각 분석에서 생성된 MPT는 풀링되며, 결과는 통상 50%의 다수결 규칙 컨센서스 트리에 표시됩니다.각 브랜치(또는 노드)에는 표시되는 부트스트랩 MPT의 퍼센티지가 라벨로 표시됩니다.이 "부트스트랩 비율"(가끔 주장되는 것처럼 P 이 아님)은 지원 척도로 사용됩니다.엄밀히 말하면, 분류군이 다시 표본 추출될 경우 해당 분기(노드, 분지)가 복구될 확률인 반복성의 측정이 되어야 한다.바이러스 계통 발생에 대한 실험 테스트에서는 부트스트랩 비율이 계통 발생학의 반복성을 평가하는 좋은 지표는 아니지만 [citation needed]정확성을 평가하는 합리적인 지표임을 알 수 있습니다.실제로, 정확도의 추정치로서 부트스트랩의 퍼센티지는 편향되어 있으며, 이러한 편향은 평균적으로 신뢰도를 과소평가하는 결과를 초래하는 것으로 나타났습니다(70%의 지원이 실제로 최대 95%의 신뢰도를 나타낼 수 있습니다).단, 개별 케이스에서는 바이어스의 방향을 확인할 수 없기 때문에 높은 값의 부트스트랩지원이 더 높은 신뢰도를 나타낸다고 가정하는 것은 보증되지 않습니다.

지원을 평가하는 또 다른 방법은 위에서 설명한 부트스트랩 및 잭나이프 절차와 같이 의사복제 서브샘플에 기초한 추정치가 아니라 Bremer [16][17]지원 또는 특정 데이터 세트의 파라미터인 붕괴 지수입니다.간결한 지원(브런치 지원이라고도 함)은 MPT의 점수와 특정 클래스(노드, 브랜치)를 포함하지 않는 가장 인색한 트리의 점수의 차이입니다.이것은 그 clade를 잃기 위해 추가할 필요가 있는 스텝의 수라고 생각할 수 있습니다.암묵적으로 MPT 스코어의 추정 오차가 해석에 의해 지원되지 않게 되려면 얼마나 커야 하는지를 시사하는 것입니다.다만, 이것은 반드시 그렇게 하는 것은 아닙니다.브런치 서포트치는 보통 적당한 사이즈의 데이터 세트(일반적으로 1~2단계)에서는 상당히 낮지만 부트스트랩 비율에 비례하는 경우가 많습니다.데이터 매트릭스가 커짐에 따라 부트스트랩 값이 100%로 고정됨에 따라 브랜치서포트 값이 계속 증가하는 경우가 많습니다.따라서 대규모 데이터 행렬의 경우 분기 지원 값을 통해 강력하게 지원되는 [18]분기에 대한 지원을 비교할 수 있는 보다 유용한 방법을 제공할 수 있습니다.하지만, 붕괴 값의 해석은 간단하지 않고, 부츠스트랩에 대한 철학적 반대가 있는 저자들이 선호하는 것으로 보인다.이중 감소 분석은 트리 내의 가능한 모든 하위 트리 관계(n-분류문)에 대해 붕괴 지수를 평가하는 감소된 합의의 붕괴 대응물이다.

최대 근친위 계통학적 추론 문제

긴 가지 매력의 예시입니다.분기 A와 C가 "진정한 나무"에서 치환 수가 많은 경우(시뮬레이션 이외에는 실제로 알려진 적이 없다고 가정), 파시모니는 병렬 변화를 시너포머리와 그룹 A와 C로 함께 해석할 수 있다.

최대 절약은 기계적인 가정을 거의 하지 않는 인식론적으로 간단한 접근법이며, 이러한 이유로 인기가 있다.그러나 특정 상황에서는 통계적으로 일관성이 없을 수 있습니다.여기서 일관성은 더 많은 데이터를 추가하여 정답에 대한 단조로운 수렴을 의미하며, 통계 방법의 바람직한 속성이다.1978년 Joe [3]Felsenstein에 의해 증명되었듯이, 최대 절약은 특정 조건 하에서 일관되지 않을 수 있다.이것이 발생하는 것으로 알려진 상황의 카테고리는 롱브런치 어트랙션이라고 불리며, 예를 들어 2개의 문자(A&C)에 대해 긴 분기(높은 치환치)가 있고 다른 2개의 분기(B&D)에 대해 짧은 분기(B&D)가 있는 경우에 발생합니다.A와 B는 C와 D처럼 공통의 조상으로부터 분리되었다.

간단히 말해 단일 이진 문자를 고려하고 있다고 가정합니다(+ 또는 - 중 하나).B에서 D까지의 거리가 작기 때문에 대부분의 경우 B와 D는 동일합니다.여기에서는 +(+)와 -가 모두 임의로 할당되어 있으며 스왑은 정의의 문제일 뿐이라고 가정합니다.이 경우 4가지 가능성이 남아 있습니다.A와 C는 모두 +일 수 있습니다.이 경우 모든 분류군은 동일하고 모든 트리의 길이는 동일합니다.A는 +, C는 -로 할 수 있습니다.이 경우, 1개의 문자만 다를 뿐, 모든 트리의 길이가 같기 때문에 아무것도 배울 수 없습니다.마찬가지로 A는 -, C는 +가 될 수 있습니다.그러나 이 경우 A와 C가 함께, B와 D가 함께 그룹화된다는 증거가 있다.결과적으로, "진정한 나무"가 이 유형의 나무라면, 우리가 더 많은 데이터를 수집할수록(즉, 우리가 더 많은 문자를 연구할수록), 증거는 더 많은 잘못된 트리를 뒷받침할 것이다.물론, 수학적 시뮬레이션을 제외하고, 우리는 "진정한 나무"가 무엇인지 결코 알지 못한다.따라서, 우리가 "진정한 나무"를 정확하게 회복할 수 있는 모델을 고안할 수 없다면, 다른 어떤 최적성 기준이나 가중치 체계도 원칙적으로 통계적으로 일관성이 없을 수 있다.결론은, 통계적 불일치는 흥미로운 이론적인 문제이지만, 경험적 테스트의 영역 밖에 있는 순수한 형이상학적 관심사라는 것이다.어떤 방법으로든 일관성이 없을 수 있으며, 그 여부를 확실히 알 수 있는 방법은 없습니다.이러한 이유로 많은 체계론자들이 그들의 계통학적 결과를 관계의 가설로 특징짓는다.

최대 절약 및 기타 최적 기준 기반 계통 발생 방법의 또 다른 복잡성은 최단 트리를 찾는 것이 NP-난해 [19]문제라는 것이다.임의로 큰 분류군이 주어졌을 때 현재 사용 가능한 유일한 효율적인 해결 방법은 최단 트리가 복구되는 것을 보장하지 않는 휴리스틱 방법을 사용하는 것이다.이 방법들은 최적의 트리에 점진적으로 접근하기 위해 언덕 오르기 알고리즘을 사용한다.그러나 차선책 솔루션의 "나무 섬"이 존재할 수 있으며, 분석은 이러한 국지적 최적화에 갇힐 수 있다.따라서 나무 공간을 적절하게 탐색하기 위해서는 복잡하고 유연한 휴리스틱이 필요하다.가장 가까운 Neighbor Interchange(NNI; 네이버인터체인지), Tree Bisection Reconnection(TBR; 트리 이등분 재연결), parsimony 래칫 등 몇 가지 휴리스틱을 사용할 수 있습니다.

비판

특히 고생물학에서 가장 큰 문제는 두 종이 같은 위치에서 같은 뉴클레오티드를 공유할 수 있는 유일한 방법은 유전적으로 [citation needed]관련이 있는 것이라고 가정하는 것입니다.이것은 편협성의 계통학적 적용은 모든 유사성이 동질적이라고 가정한다(두 유기체가 전혀 관련이 없을 도 있다는 주장과 같은 다른 해석은 무의미하다).이는 절대 사실이 아니다: 성격 기반 계통 발생 추정의 모든 형태와 마찬가지로, 인색성은 모든 유사성을 가장 잘 설명하는 계통 발생 나무를 찾아 유사성의 동질성을 테스트하기 위해 사용된다.

"진화는 [citation needed]인색하지 않다"는 이유로 인색성은 계통학적 추론과 관련이 없다고 종종 언급된다.대부분의 경우, 제안된 명확한 대안이 없다. 대안이 없다면, 통계적 방법이 전혀 없는 것보다 선호된다.게다가, "진화는 인색하다"는 말이 사실이라면 무엇을 의미할지 명확하지 않다.이는 근소한 기준을 사용하여 예측한 것보다 더 많은 문자 변화가 역사적으로 발생했음을 의미할 수 있다.근소한 계통 발생 추정이 나무를 설명하는 데 필요한 최소한의 변화 수를 재구성하기 때문에, 이것은 꽤 가능하다.그러나, 시뮬레이션 연구, 알려진 시험관내 바이러스 계통 및 다른 방법과의 일치에 의해, 대부분의 경우 이것에 의해 절약의 정확성이 저하되지 않는 것으로 나타났다.절약 분석에서는 최적의 트리를 선택하기 위해 트리의 문자 변경 수를 사용하지만 트리를 생성하기 위해 정확히 그렇게 많은 변경이 필요하지 않습니다.설명되지 않은 변경이 나무 전체에 랜덤하게 분포되는 한(합리적인 null 기대치) 결과는 편향되어서는 안 된다.실제로, 기법은 강력하다: 가장 적은 변화를 가진 트리를 선택한 결과 최대 절약성은 최소한의 편견을 나타낸다.

계약자의 초기(비구속력 있는) 추정치를 바탕으로 계약자를 선택하는 것으로 유추할 수 있습니다.실제 완성 비용은 견적보다 높을 가능성이 높습니다.그럼에도 불구하고, 이론적으로 가장 낮은 견적을 제시한 계약자를 선택하는 것은 가장 낮은 최종 프로젝트 비용을 초래할 것입니다.이는 다른 데이터가 없는 경우 모든 관련 계약자가 동일한 비용 초과 위험을 가지고 있다고 가정하기 때문이다.물론 실제로는 비양심적인 비즈니스 관행에 의해 이러한 결과가 편향될 수 있습니다.시스템유전학에서도 특정 계통발생학적 문제(예를 들어 에서 설명한 긴 분기 유인)가 잠재적으로 결과를 편향시킬 수 있습니다.그러나 두 경우 모두 추정치 자체로는 결과가 편향될지 또는 편향될지를 알 수 없습니다.절약도 다른 증거와 비교하지 않고서는 데이터가 확실히 오해의 소지가 있다고 말할 수 없다.

절약은 종종 진화적 변화가 드물거나 진화에서 동질성이 최소화된다는 입장을 암시적으로 채택하는 것으로 특징지어진다.이것은 완전히 사실이 아니다: 편협성은 선호하는 트리에 의해 가정되는 변환과 역행의 수를 최소화하지만, 이것은 상대적으로 많은 수의 그러한 동종 플라스틱 사건을 야기할 수 있다.절약은 데이터가 암시하는 최소한의 변화만을 가정한다고 말하는 것이 더 적절할 것이다.위와 같이, 이것은 이러한 변화들만이 발생한 것을 요구하지 않으며, 단지 증거가 없는 변화들을 추론하지 않는다.이를 설명하기 위한 줄임말은 "단순성은 가정된 동질체를 최소화하고, 동질체가 최소라고 가정하지 않는다"는 것이다.

최근 시뮬레이션 연구는 인색함보다 덜 나무 형태적 data,[20]에 잠재적으로 때문이긴 하지만 disputed[22] 왔다 overprecision,[21]에 베이 시안 방법들을 사용한 맞을 수도 있습니다. 한다고 제안한 연구 소설 시뮬레이션 방법을 사용하여 추론 방법에는 차이가 검색 전략에서 기인하는 a를 보여 주었다nd 합의사용되는 [23]최적화 방식이 아닌 채택된 방식입니다.또한 38개의 분자 및 86개의 형태학적 경험적 데이터 세트를 분석한 결과 모델 기반 계통학에서 사용된 진화 모델에 의해 가정된 공통 메커니즘이 대부분의 분자 데이터 세트에 적용되지만 형태학적 데이터 [24]집합은 거의 적용되지 않는 것으로 나타났다.이 발견은 분자 데이터에 대한 모델 기반 계통학 사용을 검증하지만, 형태학적 데이터의 경우 최소한 표현형 데이터에 대해 보다 정교한 모델을 사용할 수 있을 때까지 절약이 여전히 유리하다는 것을 시사한다.

대체 수단

최대우도 및 베이지안 추론을 포함하여 이산 문자 데이터에 기초한 계통 발생을 추론하는 몇 가지 다른 방법이 있다.각각 잠재적인 장점과 단점을 제시합니다.실제로, 이러한 방법들은 동일한 데이터 [25]세트에 대해 가장 근소한 나무와 매우 유사한 나무를 선호하는 경향이 있다. 그러나, 이러한 방법들은 진화 과정의 복잡한 모델링을 허용하며, 방법의 클래스가 통계적으로 일관되고 긴 가지 매력에 영향을 받지 않기 때문이다.그러나 우도와 베이지안 방법의 성능은 채택된 특정 진화 모델의 품질에 따라 달라지며, 잘못된 모델은 절약과 마찬가지로 편향된 결과를 낳을 수 있습니다.또한 절약 방법에 비해 계산 속도가 매우 느리므로 대규모 데이터셋을 실행하는 데 몇 주가 소요될 수 있습니다.이 방법들의 대부분은 특히 열렬한 지지자와 반대자를 가지고 있다; 절약은 특히 철학적으로 우월하다고 주장되어 왔다.[citation needed]최근까지 비분자 데이터에는 문자 변화의 단호한 모델을 사용할 수 없었고 여전히 널리 구현되지 않았기 때문에 절약성이 여전히 큰 영향력을 갖는 한 영역은 형태학적 데이터 분석이다.또한 근래에는 트리 [26]내의 진화적 ("모델") 파라미터(예: 진화적 변화율)의 심오한 변화에 직면하여 진정한 트리를 회복할 가능성이 높은 것으로 나타났다.

거리행렬은 계통수 생성에도 사용할 수 있다.비모수 거리 방법은 원래 쌍별 거리 행렬을 사용하여 페네틱 데이터에 적용되었고 트리를 생성하기 위해 조정되었다.거리 매트릭스는 면역학적 거리, 형태학적 분석 및 유전적 거리를 포함한 여러 가지 다른 출처에서 얻을 수 있습니다.계통발생학적 문자 데이터의 경우 문자 상태의 쌍별 차이(맨하탄 거리) 수를 단순히 계수하거나 진화 모델을 적용하여 원시 거리 값을 계산할 수 있다.특히 거리 방법은 DNA-DNA 교배 분석과 같이 문자 데이터로 쉽게 변환되지 않을 수 있는 데이터를 사용할 수 있도록 한다.오늘날에는 문자를 거리로 변환할 때 계통학적으로 유용한 데이터가 손실될 수 있기 때문에 거리 기반 방법은 종종 무시된다.최소 진화 기준이 최대 절약과 가장 밀접한 관련이 있는 거리 매트릭스 방법과 최적성 기준이 다수 있다.

최소 진화

거리 방법 중 최소 진화(ME)로 알려진 계통 발생학적 추정 기준이 존재하며, 분기 길이의 [27][28]총합이 가장 짧은 계통 발생을 탐색하는 측면을 최대 절약성으로 공유한다.

미묘한 차이는 최대 절약 기준을 ME 기준과 구별한다. 최대 절약 기준은 더 복잡한 것에 대한 가장 단순한 분류군의 진화 가설의 타당성, 즉 유괴적 휴리스틱에 기초하는 반면, ME 기준은 Kidd와 Sgaramella-Zonta의 추측에 기초한다(증명된 진실 22년).나중에 Rzhetsky와 Nei[29])에 따르면 분류군으로부터의 진화 거리가 진정한 진화 거리에 대한 편견 없는 추정치라면 분류군의 진정한 계통 발생은 그러한 거리에 양립할 수 있는 다른 어떤 대안 계통 발생보다 길이가 짧을 것이다.Rzhetsky와 Nei의 결과는 ME 기준을 Occam의 면도 원리에서 벗어나게 하고 확실한 이론 및 양적 [30]근거를 부여합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Farris JS (March 1970). "Methods for computing Wagner trees". Systematic Biology. 19 (1): 83–92. doi:10.1093/sysbio/19.1.83. JSTOR 2412028.
  2. ^ a b Fitch WM (1971). "Toward defining the course of evolution: minimum change for a specified tree topology". Systematic Zoology. 20 (4): 406–416. doi:10.2307/2412116. JSTOR 2412116.
  3. ^ a b Felsenstein J (1978). "Cases in which parsimony and compatibility methods will be positively misleading". Systematic Zoology. 27 (4): 401–410. doi:10.1093/sysbio/27.4.401.
  4. ^ Brower AV (October 2018). "Statistical consistency and phylogenetic inference: a brief review". Cladistics. 34 (5): 562–7. doi:10.1111/cla.12216.
  5. ^ Farris JS (1983). "The logical basis of phylogenetic analysis.". In Platnick NI, Funk VA (eds.). Advances in Cladistics. Vol. 2. New York, New York: Columbia University Press. pp. 7–36.
  6. ^ Farris JS (October 2008). "Parsimony and explanatory power". Cladistics. 24 (5): 825–47. doi:10.1111/j.1096-0031.2008.00214.x. S2CID 32931349.
  7. ^ De Laet J (2005). "Parsimony and the problem of inapplicables in sequence data.". In Albert VA (ed.). Parsimony, phylogeny and genomics. Oxford University Press. pp. 81–116. ISBN 978-0-19-856493-5.
  8. ^ De Laet J (2014). "Parsimony analysis of unaligned sequence data: maximization of homology and minimization of homoplasy, not Minimization of operationally defined total cost or minimization of equally weighted transformations". Cladistics. 31 (5): 550–567. doi:10.1111/cla.12098.
  9. ^ Goloboff, Pablo; De Laet, Jan; Ríos‐Tamayo, Duniesky; Szumik, Claudia (2021). "A reconsideration of inapplicable characters, and an approximation with step‐matrix recoding". Cladistics. doi:10.1111/cla.12456.
  10. ^ Jaynes ET (2003). Bretthorst GL (ed.). Probability theory: the logic of science. Cambridge, UK: Cambridge University Press. ISBN 978-0-521-59271-0.
  11. ^ Sober E (1983). "Parsimony in Systematics: Philosophical Issues". Annual Review of Ecology and Systematics. 14: 335–357. doi:10.1146/annurev.es.14.110183.002003.
  12. ^ Wiens, John J. (2001). "Character Analysis in Morphological Phylogenetics: Problems and Solutions". Systematic Biology. 50 (5): 689–699. doi:10.1080/106351501753328811. ISSN 1076-836X. PMID 12116939.
  13. ^ Grand, Anaïs; Corvez, Adèle; Duque Velez, Lina Maria; Laurin, Michel (2001). "Phylogenetic inference using discrete characters: performance of ordered and unordered parsimony and of three-item statements". Biological Journal of the Linnean Society. 110 (4): 914–930. doi:10.1111/bij.12159. ISSN 0024-4066.
  14. ^ Rineau, Valentin; Grand, Anaïs; Zaragüeta, René; Laurin, Michel (2015). "Experimental systematics: sensitivity of cladistic methods to polarization and character ordering schemes". Contributions to Zoology. 84 (2): 129–148. doi:10.1163/18759866-08402003. ISSN 1875-9866.
  15. ^ Rineau, Valentin; Zaragüeta, René; Laurin, Michel (2018). "Impact of errors on cladistic inference: simulation-based comparison between parsimony and three-taxon analysis". Contributions to Zoology. 87 (1): 25–40. doi:10.1163/18759866-08701003. ISSN 1875-9866.
  16. ^ Bremer K (July 1988). "The limits of amino acid sequence data in angiosperm phylogenetic reconstruction". Evolution; International Journal of Organic Evolution. 42 (4): 795–803. doi:10.1111/j.1558-5646.1988.tb02497.x. PMID 28563878. S2CID 13647124.
  17. ^ Bremer KR (September 1994). "Branch support and tree stability". Cladistics. 10 (3): 295–304. doi:10.1111/j.1096-0031.1994.tb00179.x. S2CID 84987781.
  18. ^ Brower AV, Garzón-Orduña IJ (April 2018). "Missing data, clade support and "reticulation": the molecular systematics of Heliconius and related genera (Lepidoptera: Nymphalidae) re‐examined". Cladistics. 34 (2): 151–66. doi:10.1111/cla.12198.
  19. ^ Day WH (1987). "Computational complexity of inferring phylogenies from dissimilarity matrices". Bulletin of Mathematical Biology. 49 (4): 461–7. doi:10.1016/S0092-8240(87)80007-1. PMID 3664032.
  20. ^ Puttick, Mark N.; O'Reilly, Joseph E.; Tanner, Alastair R.; Fleming, James F.; Clark, James; Holloway, Lucy; Lozano-Fernandez, Jesus; Parry, Luke A.; Tarver, James E.; Pisani, Davide; Donoghue, Philip C. J. (2017). "Uncertain-tree: discriminating among competing approaches to the phylogenetic analysis of phenotype data". Proceedings of the Royal Society B: Biological Sciences. 284 (1846): 20162290. doi:10.1098/rspb.2016.2290. ISSN 0962-8452. PMC 5247500. PMID 28077778.
  21. ^ O'Reilly, Joseph E.; Puttick, Mark N.; Parry, Luke; Tanner, Alastair R.; Tarver, James E.; Fleming, James; Pisani, Davide; Donoghue, Philip C. J. (2016). "Bayesian methods outperform parsimony but at the expense of precision in the estimation of phylogeny from discrete morphological data". Biology Letters. 12 (4): 20160081. doi:10.1098/rsbl.2016.0081. ISSN 1744-9561. PMC 4881353. PMID 27095266.
  22. ^ Goloboff, Pablo A.; Torres, Ambrosio; Arias, J. Salvador (2018). "Weighted parsimony outperforms other methods of phylogenetic inference under models appropriate for morphology". Cladistics. 34 (4): 407–437. doi:10.1111/cla.12205. ISSN 0748-3007.
  23. ^ Garwood, Russell J; Knight, Christopher G; Sutton, Mark D; Sansom, Robert S; Keating, Joseph N (2020). "Morphological Phylogenetics Evaluated Using Novel Evolutionary Simulations". Systematic Biology. 69 (5): 897–912. doi:10.1093/sysbio/syaa012. ISSN 1063-5157. PMC 7440746. PMID 32073641.
  24. ^ Goloboff, Pablo A.; Pittman, Michael; Pol, Diego; Xu, Xing (2019). "Morphological data sets fit a common mechanism much more poorly than DNA sequences and call into question the Mkv model". Systematic Biology. 68 (3): 494–504. doi:10.1093/sysbio/syy077. ISSN 1076-836X. PMID 30445627. S2CID 53567539.
  25. ^ Rindal E, Brower AV (2011). "Do model-based phylogenetic analyses outperform parsimony? A test with empirical data". Cladistics. 27: 331–4. doi:10.1111/j.1096-0031.2010.00342.x. S2CID 84907350.
  26. ^ Kolaczkowski B, Thornton JW (October 2004). "Performance of maximum parsimony and likelihood phylogenetics when evolution is heterogeneous". Nature. 431 (7011): 980–4. Bibcode:2004Natur.431..980K. doi:10.1038/nature02917. PMID 15496922. S2CID 4385277.
  27. ^ Catanzaro, Daniele (2010). Estimating phylogenies from molecular data, in Mathematical approaches to polymer sequence analysis and related problems. Springer, New York.
  28. ^ Catanzaro D (2009). "The minimum evolution problem: Overview and classification". Networks. 53 (2): 112–125. doi:10.1002/net.20280.
  29. ^ Rzhetsky A, Nei M (1993). "Theoretical foundations of the minimum evolution method of phylogenetic inference". Molecular Biology and Evolution. 10: 21073–1095.
  30. ^ Desper R, Gascuel O (March 2004). "Theoretical foundation of the balanced minimum evolution method of phylogenetic inference and its relationship to weighted least-squares tree fitting". Molecular Biology and Evolution. 21 (3): 587–98. doi:10.1093/molbev/msh049. PMID 14694080.