계통 발생에서의 거리 행렬

Distance matrices in phylogeny

거리 행렬은 비모수 거리 방법으로 계통 발생학에서 사용되며, 원래 쌍별 거리 행렬을 사용하여 페네틱 데이터에 적용되었다.그런 다음 이러한 거리를 조정하여 트리(정보가 있는 가지 길이와 함께 계통도)를 생성한다.거리 행렬은 측정된 거리(예: 면역학 연구로부터) 또는 형태계 분석, 이산 형태학적 특징에 적용되는 다양한 쌍별 거리 공식(유클리드 거리 등) 또는 배열, 제한 단편 또는 알로자임 데이터로부터의 유전적 거리를 포함한 많은 다른 출처로부터 올 수 있다.계통학적 문자 데이터의 경우 문자 상태의 쌍별 차이 수(해밍 거리)를 계수하는 것만으로 원시 거리 값을 계산할 수 있습니다.

거리 매트릭스 방법

계통발생학적 분석의 거리행렬 방법은 분류되는 염기서열 사이의 "유전자적 거리" 측정에 명시적으로 의존하며, 따라서 입력으로 MSA(복수 염기서열 정렬)가 필요하다.거리는 종종 정렬된 위치에서 불일치의 비율로 정의되며, 간격은 무시되거나 [1]불일치로 계산됩니다.거리 방법은 각 시퀀스 쌍 간의 거리를 설명하는 시퀀스 쿼리 집합에서 전체 매트릭스를 구성하려고 시도합니다.이를 통해 동일한 내부 노드 아래에 밀접하게 관련된 염기서열을 배치하고 분기 길이가 염기서열 사이의 관측된 거리를 밀접하게 재현하는 계통 발생 트리를 구성한다.거리 매트릭스 방법은 루트 트리를 계산하는 데 사용된 알고리즘에 따라 루트 트리 또는 비루트 트리를 생성할 수 있다.다중 시퀀스 정렬의 프로그레시브 및 반복 유형의 기준으로 자주 사용됩니다.거리 매트릭스 방법의 주요 단점은 여러 하위 [2]트리에 걸쳐 나타나는 국소 고변동 영역에 대한 정보를 효율적으로 사용할 수 없다는 것이다.

네이버 가입

인접 결합 방법은 일반적인 데이터 클러스터링 기술을 클러스터링 메트릭으로 유전적 거리를 사용하는 시퀀스 분석에 적용한다.단순한 인접 결합 방법은 뿌리 없는 나무를 생성하지만, 계통에 걸쳐 일정한 진화 속도(분자 시계)를 가정하지 않는다.

UPGMA 및 WPGMA

UPGMA(산술 평균을 사용한 가중치 쌍 그룹법) WPGMA(산술 평균을 사용한 가중치그룹법) 방법은 루트 트리를 생성하며 일정한 비율의 가정이 필요하다. 즉, 루트로부터 모든 분기 팁까지의 거리가 동일한 초변수 트리를 가정한다.

피치-마골리아시법

Fitch-Margoliash 방법은 유전적 [3]거리에 기초한 군집화를 위해 가중 최소 제곱 방법을 사용합니다.원거리 관련 시퀀스 간 거리 측정의 부정확성 증가를 수정하기 위해 트리 구축 프로세스에서 밀접하게 관련된 시퀀스에 더 많은 가중치가 부여된다.실제로 거리 보정은 [2]지점마다 진화율이 다른 경우에만 필요합니다.알고리즘에 대한 입력으로 사용되는 거리는 밀접하게 관련된 그룹과 멀리 관련된 그룹 간의 관계를 계산할 때 큰 아티팩트를 방지하기 위해 정규화해야 합니다.이 방법에 의해 계산된 거리는 선형이어야 한다.거리의 선형성 기준은 두 개별 가지에 대한 분기 길이의 기대값이 두 가지 분기 거리의 합계의 기대값과 동일해야 한다. 즉, 생물학적 시퀀스가 가능성에 대해 보정된 경우에만 적용되는 특성이다. 돌연변이의 ty를 발견했어요이 보정은 DNA 진화의 Jukes-Cantor 모델에서 파생된 것과 같은 치환 매트릭스의 사용을 통해 이루어진다.

이러한 거리에 적용되는 최소 제곱 기준은 인접 결합 방식보다 정확하지만 효율은 낮습니다.데이터 집합의 많은 밀접하게 관련된 시퀀스로부터 발생하는 거리 사이의 상관관계를 수정하는 추가 개선도 증가된 계산 비용으로 적용할 수 있다.보정 계수가 있는 최적의 최소 제곱 트리를 찾는 것은 [4]NP-완료이므로 최대 파리지 분석에서 사용되는 것과 같은 경험적 검색 방법이 트리 공간을 통한 검색에 적용됩니다.

outgroup 사용

시퀀스 또는 그룹 간의 관계에 대한 독립적인 정보를 사용하여 트리 검색 공간 및 루트되지 않은 트리를 줄일 수 있습니다.거리 매트릭스 방법의 표준 사용에는 쿼리 [1]세트의 관심 시퀀스와만 원거리적으로 관련된 것으로 알려진 하나 이상의 아웃그룹 시퀀스가 포함된다.이 사용법은 실험 제어의 한 종류로 볼 수 있습니다.만약 outgroup이 적절하게 선택되었다면, outgroup은 다른 어떤 배열보다 훨씬 더 큰 유전적 거리를 가지고, 따라서 긴 가지 길이를 가질 것이고, 그것은 뿌리 나무의 뿌리 근처에 나타날 것입니다.적절한 outgroup을 선택하려면 관심 시퀀스와 적당히 관련된 시퀀스를 선택해야 합니다. 관계가 너무 가까우면 outgroup의 목적이 무너지고 너무 멀면 [1]분석에 노이즈가 추가됩니다.또한 배열이 취해진 종이 멀리 관련되지만 배열에 의해 인코딩된 유전자는 여러 혈통에 걸쳐 고도로 보존되는 상황을 피하기 위해 주의를 기울여야 한다.수평적 유전자 이동, 특히 다른 종류의 박테리아들 사이의 유전자 이동은 또한 집단 사용을 혼란스럽게 할 수 있다.

다양한 방법의 약점

일반적으로 쌍별 거리 데이터는 계통도에서 분류군 사이의 경로 거리를 과소평가하는 것입니다.한 쌍의 거리는 지리적 거리와 유사한 방식으로 효과적으로 "모서리를 자른다": 두 도시 사이의 거리는 "까마귀가 나는 대로" 100마일일 수 있지만, 여행자는 도로의 배치, 지형, 도중에 멈추는 곳 등으로 인해 실제로 120마일을 여행해야 할 의무가 있다.분류군 쌍 사이에서, 선조 혈통에서 일어난 일부 문자 변화는 감지할 수 없을 것이다. 왜냐하면 나중에 변화가 증거를 지웠기 때문이다(종종 시퀀스 데이터에서 다중 히트 및 백 돌연변이라고 불린다).이 문제는 모든 계통 발생학적 추정에 공통적이지만 거리 계산에는 두 표본만 사용되기 때문에 거리 방법에 특히 심각하다. 다른 방법은 쌍 비교에서 고려되지 않은 다른 분류군에서 발견된 이러한 숨겨진 변화의 증거로부터 이익을 얻는다.뉴클레오티드 아미노산 배열 데이터의 경우, 최대우도 분석에 사용되는 동일한 뉴클레오티드 변화의 확률적 모델을 사용하여 거리를 "수정"할 수 있으며, 분석을 "반파라메트릭"으로 만들 수 있다.

UPGMA 및 Neighbor Joining(NJ; 네이버 가입)을 포함하여 쌍방향 거리에서 직접 트리를 구축하기 위한 몇 가지 단순한 알고리즘이 존재하지만 이러한 알고리즘이 반드시 데이터에 최적의 트리를 생성하는 것은 아닙니다.위에서 언급한 잠재적 합병증에 대항하고 데이터에 가장 적합한 트리를 찾기 위해 거리 분석은 명시적 최적성 기준을 만족시키는 트리 검색 프로토콜을 포함할 수도 있습니다.거리 데이터에는 최소 진화(ME)와 최소 제곱 추론이라는 두 가지 최적성 기준이 일반적으로 적용됩니다.최소 제곱은 단순성을 위해 여기에서 함께 묶은 광범위한 회귀 기반 방법의 일부입니다.이러한 회귀 공식은 트리를 따른 경로 거리 및 데이터 행렬의 쌍별 거리 간의 잔차 차이를 최소화하여 트리를 경험적 거리에 효과적으로 "적합"시킵니다.반대로, ME는 분기 길이의 합이 가장 짧은 트리를 받아들이기 때문에 가정된 총 진화량을 최소화한다.ME는 절약과 매우 유사하며, 특정 조건 하에서 이산 문자 데이터 세트에 기초한 거리 ME 분석은 동일한 데이터에 대한 기존의 절약 분석과 동일한 트리를 선호한다.

거리법을 이용한 계통발생 추정은 많은 논란을 불러일으켰다.UPGMA울트라메트릭트리(루트에서 팁까지의 모든 경로 길이가 동일한 트리)를 전제로 합니다.모든 표본 계통(분자 시계)에서 진화 속도가 동일하고 트리가 완전히 균형을 이룬 경우(노드 밀도 효과를 상쇄하기 위해 분할 양쪽에 동일한 분류군의 수) UPGMA는 편향된 결과를 생성해서는 안 된다.이러한 기대치는 대부분의 데이터 세트에 의해 충족되지 않으며, UPGMA는 위반에 대해 어느 정도 강력하지만 계통 발생 추정에 일반적으로 사용되지 않는다.UPGMA의 장점은 빠르고 많은 시퀀스를 처리할 수 있다는 것입니다.

인접 결합은 별 분해의 한 형태이며, 휴리스틱 방법으로서 일반적으로 이러한 방법 중 계산 부하가 가장 낮다.그것은 스스로 매우 자주 사용되며, 사실 꽤 자주 합리적인 나무를 생산한다.단, 트리 검색 및 최적화 기준이 없기 때문에 복구된 트리가 데이터에 가장 적합하다는 보장은 없습니다.보다 적절한 분석 절차는 NJ를 사용하여 시작 트리를 생성한 다음 최적성 기준을 사용하여 트리 검색을 사용하여 최적의 트리를 복구하는 것이다.

많은 과학자들은 다양한 이유로 거리 방법을 피한다.일반적으로 인용되는 이유는 거리가 본질적으로 계통발생학적이라기보다 페닉적이어서 조상 유사성(시냅시오몰피)과 파생 유사성(시냅시오몰피)을 구별하지 못한다는 것이다.이 비판은 전적으로 공평하지 않다: 현재 대부분의 절약, 가능성 및 베이지안 계통발생학적 추론은 시간이 되돌릴 수 있는 성격 모델을 사용하고, 따라서 파생되거나 조상적인 성격 상태에 특별한 지위를 부여하지 않는다.이러한 모델에서는 트리는 뿌리 없이 추정되며, 루팅과 그에 따른 극성 결정은 분석 후에 수행됩니다.이 방법들과 거리들 사이의 주요 차이점은 근소함, 우도 및 베이지안 방법이 트리에 개별 문자를 적합시키는 반면 거리 방법은 한 번에 모든 문자를 적합시킨다는 것입니다.[citation needed]접근법에 대해 본질적으로 계통학이 덜한 것은 없다.

보다 실용적으로는 문자를 거리로 축소하는 과정에서 개별 문자와 트리의 관계가 없어지기 때문에 거리법을 회피할 수 있다.이러한 메서드는 문자 데이터를 직접 사용하지 않으며 문자 상태의 분포에서 잠긴 정보는 쌍 비교에서 손실될 수 있습니다.또한, 일부 복잡한 계통 발생 관계는 편향된 거리를 생성할 수 있습니다.어떤 계통도에서든 실험 설계나 멸종(노드 밀도 효과라고 불리는 현상)으로 인해 일부 종을 표본으로 추출하지 못해 일부 변화를 전혀 발견할 수 없기 때문에 분기 길이가 과소평가될 것이다.그러나 유전자 데이터로부터의 쌍별 거리를 위에서 언급한 대로 확률적 진화 모델을 사용하여 "수정"하더라도, 최대우도를 사용하여 동일한 데이터 및 모델을 분석하여 생성된 것보다 더 쉽게 다른 트리로 합칠 수 있다.이는 쌍별 거리가 독립적이지 않기 때문입니다. 트리의 각 가지는 트리가 구분하는 모든 분류군의 거리 측정값으로 표시됩니다.계통 발생을 교란할 수 있는 분기의 특성(스토스틱 변동성, 진화 파라미터의 변화, 비정상적으로 길거나 짧은 분기의 길이)에서 발생하는 오차는 모든 관련 거리 측정에 전파된다.그러면 결과 거리 행렬이 대체(적합성이 낮을 수 있음) 트리에 더 적합할 수 있습니다.

이러한 잠재적 문제에도 불구하고 거리 방법은 매우 빠르고 종종 계통 발생의 합리적인 추정치를 산출한다.또한 문자를 직접 사용하는 방법보다 몇 가지 이점이 있습니다.특히 거리 방법은 DNA-DNA 교배 분석과 같이 문자 데이터로 쉽게 변환되지 않는 데이터를 사용할 수 있도록 한다.또한 특정 뉴클레오티드가 배열에 통합되는 속도가 LogDet 거리를 사용하여 나무에 따라 달라질 수 있는 가능성을 설명하는 분석을 허용한다.일부 네트워크 추정 방식(특히 NeighborNet)에서는 거리 데이터에서 개개의 문자에 대한 정보를 추상화하는 것이 장점입니다.문자 단위로 볼 때, 그물음으로 인한 문자와 나무 사이의 충돌은 동형성 또는 오류로 인한 충돌과 구별할 수 없습니다.그러나 많은 문자의 합성을 나타내는 거리 데이터의 현저한 충돌은 데이터가 강하게 편향되지 않는 한 오류 또는 동형성 때문에 발생할 가능성이 낮으며, 따라서 망막화의 결과일 가능성이 더 높다.

거리 방법은 분자 체계론자들 사이에서 인기가 있으며, 그들 중 상당수는 거의 독점적으로 최적화 단계 없이 NJ를 사용한다.문자 기반 분석의 속도가 증가함에 따라 거리 방법의 장점 중 일부는 사라질 것이다.그러나 거의 즉각적인 NJ 구현, 신속한 분석에 진화 모델을 통합하는 기능, LogDet 거리, 네트워크 추정 방법, 단일 수치로 관계를 요약해야 하는 경우가 종종 있다는 것은 거리 방법이 앞으로 오랫동안 주류를 유지할 것이라는 것을 의미합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b c 마운트 DM. (2004)생물정보학: 시퀀스게놈 분석 2차 에디.콜드 스프링 하버 연구소 프레스: 콜드 스프링 하버, 뉴욕.
  2. ^ a b 펠센슈타인 J. (2004)Phylogenies Sinauer Associates 추론:선덜랜드, 매사추세츠 주
  3. ^ Fitch WM; Margoliash E (1967). "Construction of phylogenetic trees". Science. 155 (3760): 279–284. Bibcode:1967Sci...155..279F. doi:10.1126/science.155.3760.279. PMID 5334057.
  4. ^ Day, WHE (1986). "Computational complexity of inferring phylogenies from dissimilarity matrices". Bulletin of Mathematical Biology. 49 (4): 461–7. doi:10.1016/s0092-8240(87)80007-1. PMID 3664032.