계통 발생의 최소 제곱 추론

Least squares inference in phylogeny

계통발생학에서의 최소제곱추론쌍방향 유전거리의 관측행렬과 선택적으로 무게행렬에 기초한 계통발생학적 트리를 생성한다.목표는 거리 제약을 최대한 충족하는 트리를 찾는 것입니다.

일반 및 가중 최소 제곱

관찰된 쌍방향 계통수 거리(즉, i(\ i에서 j(\ j까지의 경로의 분기 길이의 합)는 다음과 같이 측정된다.

여기서 는 사용되는 최소 제곱법에 따라 달라집니다.최소 제곱 거리 트리 구성은 S가 최소인 트리(토폴로지 및 분기 길이)를 찾는 것을 목적으로 합니다.이것은 사소한 문제가 아닙니다.이는 잎의 수가 기하급수적인 크기가 있는 루트되지 않은 이진수 트리 토폴로지의 이산 공간을 검색하는 것을 포함한다.n개의 잎에 대해 1 • 3 • 5 • ... (2n-3)개의 다른 토폴로지가 있다.소수의 잎에 대해서는 이미 열거할 수 없습니다.휴리스틱 검색 방법은 상당히 양호한 토폴로지를 찾는 데 사용됩니다.특정 위상에 대한 S 평가(분기 길이 계산 포함)는 선형 최소 제곱 문제입니다.오차제곱(j - i ) 2에는 관측된 거리의 변화에 대한 지식과 가정에 따라 몇 가지 가중치가 부여됩니다.오류에 대해 아무것도 알려지지 않은 경우 또는 오류가 독립적으로 분포되어 관측된 모든 거리에 대해 동일하다고 가정할 경우 모든 1로 설정됩니다.그러면 정규 최소 제곱 추정치가 나옵니다.가중 최소 제곱의 경우 오차는 독립적이라고 가정한다(또는 상관관계를 알 수 없다).독립 오차가 주어진 경우, 특정 가중치는 해당 거리 추정치의 분산의 역수로 이상적으로 설정되어야 한다.때로는 분산을 알 수 없지만 거리 추정치의 함수로 모형화할 수 있습니다.예를 들어, Fitch 및 Margoliash 방법에서는 분산이 거리 제곱에 비례한다고 가정합니다.

일반화 최소 제곱

위에서 설명한 정규 및 가중 최소 제곱 방법은 독립적인 거리 추정치를 가정한다.거리가 게놈 데이터에서 도출되면 (진정한 나무의) 내부 가지에서 일어나는 진화적 사건이 동시에 여러 거리를 위아래로 밀어 올릴 수 있기 때문에 이들의 추정치는 동일하다.결과 공분산은 일반화 최소 제곱법, 즉 다음 양을 최소화하는 방법을 사용하여 고려할 수 있다.

서 w j , l { 거리 추정치의 공분산 행렬의 역수 항목입니다.

계산의 복잡성

최소 제곱 잔차를 최소화하는 트리 및 가지 길이를 찾는 것은 NP-완전 문제입니다.[2]단, 주어진 트리에 대해 최적의 분기 길이는 일반 최소 제곱의 경우O ( 2 {O (n^{2}) 시간, 가중 제곱의 O ( {O ( 시간, 제곱의 경우 O( 4 {O ( 시간으로 결정될 수 있다.분산 행렬).[3]

외부 링크

  • PHYLIP, 가중 최소 제곱법의 구현을 포함하는 자유롭게 분산된 계통학적 분석 패키지
  • PAUP, 구매 가능한 유사한 패키지
  • Darwin은 통계, 숫자, 배열 및 계통 분석을 위한 함수 라이브러리를 갖춘 프로그래밍 환경입니다.

레퍼런스

  1. ^ Fitch WM, Margoliash E.(1967).계통수 건설과학 155: 279-84.
  2. ^ 윌리엄 H.E., 차이점 매트릭스에서 계통 발생을 추론하는 계산 복잡도, 수학 생물학 공보, 제49권, 제4호, 1987년, 461-467페이지, ISSN 0092-8240, doi:10.1016/S0092-8240(87)80007-1.
  3. ^ David Bryant, Peter Waddell, 계통수[dead link] 최소 제곱 최소 진화 기준의 신속한 평가, Mol Biol Evol(1998) 15(10): 1346