DNA 진화 모델
Models of DNA evolution![]() |
DNA 염기서열 진화의 여러 다른 마르코프 모델이 [1]제안되었다.이러한 치환 모델은 진화 과정에서 하나의 뉴클레오티드가 다른 뉴클레오티드를 대체하는 속도를 설명하는 데 사용되는 매개 변수 측면에서 다르다.이 모델들은 분자 계통학 분석에 자주 사용된다.특히, 그것들은 나무의 우도 계산 중에 사용되며(베이지안 및 나무 추정에 대한 최대우도 접근법에서) 시퀀스 사이의 관측된 차이로부터 시퀀스 사이의 진화 거리를 추정하는데 사용된다.
서론
이 모델들은 DNA의 진화에 대한 현상학적 설명으로 네 개의 분리된 상태의 연속이다.이 마르코프 모형들은 돌연변이의 메커니즘이나 자연선택의 작용을 명시적으로 묘사하지 않는다.오히려 그들은 다른 변화의 상대적인 비율을 묘사한다.예를 들어, 보수적인 변화를 선호하는 돌연변이 편견과 정제 선택은 진화하는 시퀀스의 변환에 비해 상대적으로 높은 전환 속도에 모두 책임이 있을 것이다.그러나 아래에 설명된 키무라(K80) 모델은 변환에 대한 상대적 전이 속도를 반영하는 매개변수로 두 힘의 효과를 포착하려고만 시도한다.
시퀀스의 진화적 분석은 다양한 시간 척도로 수행된다.따라서 이러한 모델을 다른 상태 간의 순간 변화율(아래의 Q 행렬)로 표현하면 편리합니다.만약 우리가 한 위치에서 시작(조상) 상태, 모델의 Q 매트릭스 및 조상 이후 발생할 것으로 예상되는 변화 수를 나타내는 분기 길이가 주어진다면, 우리는 4개의 상태를 각각 가진 후손 시퀀스의 확률을 도출할 수 있다.속도 매트릭스에서 확률 매트릭스로의 변환에 대한 수학적 세부 사항은 대체 모델 페이지의 대체 모델 수학 섹션에 설명되어 있다.모델을 순간 변화율로 표현함으로써 계통수(또는 분석이 많은 쌍별 시퀀스 비교를 포함하는 경우 각 비교)의 각 분기에 대해 많은 수의 매개변수를 추정하는 것을 피할 수 있다.
이 페이지에서 설명하는 모델은 일련의 시퀀스 내에서 단일 사이트의 진화를 설명합니다.이들은 서로 다른 사이트가 독립적으로 진화하고 동일한 분포를 보인다는 단순화된 가정을 만들어 전체 궤적의 진화를 분석하는 데 자주 사용됩니다.이러한 가정은 사이트가 중립적으로 진화하고 있다고 가정할 수 있는 경우 정당화될 수 있다.시퀀스의 진화에 대한 자연 선택의 일차적 영향이 일부 현장을 제약하는 것이라면 현장 간 속도 이질성 모델을 사용할 수 있다.이 접근방식을 사용하면 상대적인 대체율 매트릭스 1개만 추정할 수 있으며, 사이트 간 총 대체율 변동을 설명하는 다른 파라미터 세트도 추정할 수 있다.
연속 시간 마르코프 연쇄로서의 DNA 진화
연속 시간 마르코프 연쇄
연속시간 마르코프 체인은 t t라는 통상적인 전이행렬을 가지고 있다.으로,,E3, (\{1{2{3E_{4})가 라면, 그 다음 전이행렬이다.
- ( ) ( i (){ P ( t ) =_ { ( ) \ } 。여기서 각 의j( t ){ ij)}는 E_style E_i})가될 가능성을 나타냅니다.
예:우리는 연속 시간 방식으로 DNA 배열(즉, 주크스-캔터, 키무라 등)의 치환 과정을 모델링하고 싶다.대응하는 트랜지션 매트릭스는 다음과 같습니다.
여기서 왼쪽 상단 및 오른쪽 하단 2 × 2 블록은 전이 확률에 해당하고 오른쪽 상단 및 왼쪽 하단 2 × 2 블록은 전이 확률에 해당합니다.
전제 조건:어느 에 마르코프 체인이 i 일 경우 + 일 확률은 Ij에만 합니다. t 입니다.그러면 그 확률을 j()(\p_로 쓸 수 있습니다.
정리:연속 시간 전이 행렬은 다음을 충족합니다.
주의: 여기서 단어 전환의 두 가지 의미 사이에 혼동이 있을 수 있습니다.(i) 마르코프 사슬의 맥락에서 전이는 두 상태 사이의 변화를 총칭하는 용어이다. (ii) DNA 배열의 뉴클레오티드 변화 맥락에서 전이는 두 개의 퓨린(A ↔ G) 또는 두 개의 피리미딘(C ↔ T) 사이의 교환을 나타내는 특정 용어이다(자세한 내용은 유전학적 전이에 관한 기사 참조).s) 반대로 하나의 푸린과 하나의 피리미딘의 교환을 전이라고 한다.
치환의 역학을 이끌어 내다
염기 치환에 의해 시간이 지남에 따라 진화하는 고정 길이 m의 DNA 염기서열을 생각해보자.m개의 사이트에 이어지는 과정이 마르코프 독립적이고 동일한 분포를 보이며 시간이 지남에 따라 프로세스가 일정하다고 가정합니다.특정 사이트의 경우,
사이트의 가능한 상태의 집합입니다.
의 확률 t t 두 개의 서로 x에 대해 를 x(\x에서 y(\ y로의 이행률로 . x x로부터의 총 변화율은
시간 t \ t } 의 작은 증분 확률 의 변화는 다음과 같습니다.
즉, (주파수 에서 의 시간 + t { t + \ t}의주파수는 의 주파수에서 된의 주파수 + 새로 된의 주파수입니다
로 p ( ) \ _ { ( ) ( )\ p _ { ( ) 、 ( \ p { )이 방정식은 다음과 같이 간결하게 쓸 수 있다.
어디에
는 레이트 매트릭스라고 불립니다.정의상 Q Q의 각 행에 있는 엔트리의 합계는 0입니다.따라서
Q Q가 시간 t에 의존하지 않는 프로세스의 경우 이 미분 방정식을 풀 수 있습니다.첫번째,
서 exp ( Q ) {는 의 지수(\tQ)를 나타냅니다.그 결과,
에르고디시티
마르코프 체인이 축소할 수 없는 경우(즉, x {\ x에서 y {\ y가능성이 있음)로 항상 이동할 수 있는 경우)는 에르고딕(ergodic)이기도 합니다.그 결과 고유 고정 분포 { x , = \ { \ { } = \ { \ { , x} \ { } , x 、 x x stylethe the the the the the in x x x x x x x x x x x x x x x x x x x x x as as has has as has has has has as as has has as as has has has has시간. DNA 진화에서는 각 부위의 공통 프로세스를 가정하여 정상 주파수 A G, C T \ __{ _ _는 평형 염기 구성에 대응합니다.실제로, 고정 분포 는 을 충족하므로, 분포t가 고정 분포일 때 는
, p (t G (), C (), T ( 의 주파수는 변경되지 않습니다.
시간 가역성
정의:정상 상태의 마르코프 프로세스는 상태({에서y({y로의 변화량이 yy에서 x({x로의 변화량과 동일한 경우(단, 두 상태가 서로 다른 빈도로 발생할 수 있음).즉, 다음과 같습니다.
모든 정상 과정이 가역적인 것은 아니지만, 가장 일반적으로 사용되는 DNA 진화 모델은 시간 가역성을 가정하며, 이는 합리적인 가정으로 간주됩니다.
시간 가역성 가정 하에서 x x / y { _ { } = \ _ {} / \ _ { \ s s s s 、 다음과 같이 쉽게 알 수 있습니다.
정의: y{ 는 x {\와y {\y 사이의 교환성이라고 불립니다.즉, x {는 tra의 결과인 x {\의 비율입니다.에서 로를 지정합니다
결과 레이트 매트릭스 Q의 12개의 Q의은 0에 합하므로 오프 대각선 엔트리는 대각선 엔트리를 결정함)는 9개의 숫자로 완전히 판별할 수 있습니다.6개의 교환 조건과 의 주파수입니다 _ (정지 주파수의 합계가 1이므로).
분기 길이 스케일링
현존하는 염기서열을 비교함으로써 염기서열의 발산량을 결정할 수 있다.이 발산 원시 측정은 시퀀스를 분리하는 경로를 따라 발생한 변경 수에 대한 정보를 제공합니다.시퀀스 간의 단순한 차이 카운트(해밍 거리)는 종종 다중 히트 때문에 대체 수를 과소평가합니다(동질체 참조).발생한 변경의 정확한 수를 추정하는 것은 어렵고 일반적으로 필요하지 않습니다.대신 계통발생학적 분석에서 분기 길이(및 경로 길이)는 일반적으로 부위당 예상되는 변화 수로 표현된다.경로 길이는 경로의 시간 지속 시간과 평균 대체 비율의 곱입니다.산출물은 추정할 수 있지만, 속도와 시간은 시퀀스 차이에서 식별할 수 없다.
이 페이지의 속도 행렬에 대한 설명은 서로 다른 치환의 상대적 크기를 정확하게 반영하지만, 이러한 속도 행렬은 분기 길이 1이 예상되는 변화를 생성하도록 조정되지 않습니다.이 배율은 매트릭스의 모든 요소에 동일한 계수를 곱하거나 단순히 분기 길이를 배율하여 달성할 수 있습니다.β를 스케일링 인자로, β를 사이트당 예상되는 치환수로 측정한 분기 길이를 나타내는 경우 μt 대신 βθ를 아래의 전이 확률식으로 사용한다.β는 데이터에서 추정하는 파라미터로 분기길이라고 하며, β는 단순히 속도행렬에서 계산할 수 있는 수치이다(별도의 자유 파라미터가 아님).
β 값은 상태 플럭스의 예상 속도를 1로 강제함으로써 구할 수 있다.비율 매트릭스(Q 매트릭스)의 대각선 항목은 각 상태를 떠나는 비율의 -1배를 나타냅니다.시간 반전 모델의 경우 평형 상태 주파수를 알고 있습니다(이것은 단순히 상태 i에 대한 δi 파라미터 값입니다).따라서 각 상태의 플럭스 합계를 해당 등급에 속할 것으로 예상되는 사이트의 비율에 따라 계산함으로써 예상 변화율을 구할 수 있다.β를 이 합계의 역수로 설정하면 스케일링된 공정의 예상 플럭스가 1:
예를 들어 Jukes-Cantor에서는 각 상태의 이탈 속도가 3μ/4이므로 스케일 계수는 4/(3μ)가 된다.
DNA 진화의 가장 일반적인 모델
JC69 모델(Jukes and Cantor 1969)
Jukes and Cantor 1969 [2]모델인 JC69는 가장 단순한 대체 모델입니다.몇 가지 전제 조건이 있습니다.이는 동일한 기본 주파수 A G C 4\left(\_{A}=\{C}=\{T \right}) 및 변환 속도를 가정합니다. 이 모델의 파라미터는 전체 치환율인μ \mu뿐입니다.앞에서 설명한 바와 같이 이 변수는 평균 속도를 1로 정규화하면 상수가 됩니다.
길이가 사이트별 예상되는 변경 수로 측정되면 다음과 같습니다.
Q의 의 열( 행)의 합을 나타내는 θ μ (4 +4 ) = {34} 4} + 4}} t는 다음과 같이 예상된 Q {\ Q의 평균에 곱한 값이다.치환율이μ(\인 경우 각 특정 사이트(사이트당)에 대해t}(표준 기간)을 합니다.
두 시퀀스 사이에 차이가 있는 부위의 p {\ p를 고려할 때, 두 시퀀스 사이의 진화 거리(예상 변화 수 측면에서)의 Jukes-Cantor 추정치는 다음과 같다.
공식에서 pp는 p\p - distance라고 불립니다.이는 Jukes-Cantor 거리 보정을 계산하기에 충분한 통계량이지만, 그 이후의 복잡한 모델에서는 진화 거리를 계산하기에 충분하지 않다(또한 후속 공식에서 사용되는 p pdisplay p} - distance는 "p pstyle p} - distance"와 동일하지 ).
K80 모델(1980년식)
K80, 기무라 1980년 model,[3]는 종종 기무라의 두 매개 변수 모델(또는 K2P 모델), 전환(A↔ G{\displaystyle A\leftrightarrow G}, 즉에서 푸린에 purine, 또는 C↔ T{\displaystyle C\leftrightarrow T}, 즉에서 피리미딘에 pyrimidine)과 transversions 사이에 푸린(pyrimidine까지 구별 또는으로 언급했다.vi반대).Kimura의 원래 모델 설명에서는 이러한 치환율을 나타내기 위해 α와 β가 사용되었지만, 현재는 변환율을 1로 설정하고 전이/변환율 비율을 나타내기 위해 β를 사용하는 것이 더 일반적이다(아래와 같이).K80 모델에서는 모든 베이스가 동일한 빈도로 되어 있는 것을 전제로 있습니다(= == == == T4 { \ _} =\} =\ _} ={1 4 ) 。
율 행렬 Q)(∗ κ 11κ ∗ 1111∗ κ 11κ ∗){\displaystyle Q={\begin{pmatrix}{*}&을 말한다.{\kappa}&,{1}&,{1}\\{\kappa}&,{*}&,{1}&,{1}\\{1}&,{1}&,{*}&.{\kappa}\\{1}&,{1}&.{\kappa}&.기둥 A{A\displaystyle}에 해당하는{*}\end{pmatrix}}}, G{\dis. G C, C 를 각각 선택합니다.
Kimura 2-파라미터 거리는 다음과 같습니다.
여기서 p는 경과적 차이를 나타내는 사이트의 비율이고 q는 횡단적 차이를 나타내는 사이트의 비율입니다.
K81 모델(1981년식)
Kimura 1981 모델은 [4]Kimura의 3파라미터 모델(K3P 모델) 또는 Kimura의 3가지 대체형(K3ST)으로 불리며, 천이율이 뚜렷하고 2가지 유형의 변환이 뚜렷하다.두 염기 전환 유형은 그 뉴클레오티드(즉, A↔ T{\displaystyle A\leftrightarrow T}, C↔ G{\displaystyle C\leftrightarrow G}, 상징 γ{\displaystyle \gamma}에 의해 표시된[4])의weak/strong 속성을 보존하고 이는 뉴클레오타이드의amino/keto 속성을 보존하는 것(즉, A↔ C. A C G G T β(\ \displaystyle[4]로 표시됩니다).K81 모델은 모든 평형 기본 주파수가 동일하다고 가정합니다(, A G C T 0. style \ _} = \}=\}=
율 행렬 Q)(∗ α β γ α ∗ γ β β γ ∗ α γ β α ∗){\displaystyle Q={\begin{pmatrix}{*}&,{\alpha}&,{\beta}&,{\gamma}\\{\alpha}&,{*}&,{\gamma}&,{\beta}\\{\beta}&,{\gamma}&,{*}&,{\alpha}\\{\gamma}&,{\beta}&,{\alpha}&을 말한다.기둥기 위해서는 해당하는{*}\end{pmatrix}}} A\ A \ G、 \ C、 \ T。
K81 모델은 거리 추정에 K80(K2P) 모델보다 훨씬 적게 사용되며, 최대우도 계통학에서 가장 적합한 모델은 거의 없습니다.이러한 사실에도 불구하고, K81 모델은 수학적 계통학의 [5][6][7]맥락에서 계속 연구되어 왔다.한 가지 중요한 특성은 사이트 패턴이 [8][9][10]K81 모델에서 진화하는 뉴클레오티드를 가진 나무에서 생성되었다고 가정할 때 아다마르 변환을 수행할 수 있는 능력이다.
계통유전학의 맥락에서 사용될 때, Hadamard 변환은 분기 길이 세트가 주어진 예상 부위 패턴 주파수를 계산할 수 있는 우아하고 완전히 반전 가능한 수단을 제공합니다(또는 그 반대).많은 최대우도 계산과 달리 α(\ 및(\의 상대값은 분기마다 다를 수 있으며, Hadamard 변환은 데이터가 트리에 맞지 않는다는 증거도 제공할 수 있습니다.그 아다마르 변환도 방법 중 하나는 다양한(비록 확실한 among-site을 사용하기 위해 아다마르 변환의 invertibility을 희생해야 하는 이산 근사치 일반적으로 최대 공산 phylogenetics[12]에 사용되기보다는 지속적인 분포를 사용하여 among-sites률 heterogeneity,[11]을 수용할 수 있다.s율이질성 분포[11]).
F81 모델(1981년 Felsain)
F81은 Felsenstein의 1981년형 [13]모델로서 베이스 주파수가 0.25( a G≠ ≠ T\ style \_ { } \ \_ { } \ \_ { )에서 변화할 수 있는 JC69 모델의 확장판입니다
환율 매트릭스:
지점 길이 ,를 사이트당 예상되는 변경 수로 측정하면 다음과 같습니다.
HKY85 모델(하세가와, 키시노, 야노 1985)
HKY85, 하세가와,[14] 키시노, 야노 1985 모델은 키무라80과 펠센슈타인81의 연장을 조합한 것으로 생각할 수 있다.즉, 트랜지션 레이트와 트랜지션 레이트를 구별하고(파라미터 사용), 동일하지 않은 베이스 주파수( 「 「 「 「C」)를 사용할 수 있습니다」 「Displaystyle _ __{C}\ \ _ 설명ization;[15] 후자의 모델은 F84 [16]모델이라고 불립니다.]
율 행렬 Q)(∗ κ π Gπ Cπ Tκ π ∗ π Cπ Tππ G∗ κ π Tππ Gκ π C∗){\displaystyle Q={\begin{pmatrix}{*}&을 말한다.{\kappa \pi_{G}}&{\pi_{C}}&{\pi_{T}}\\{\kappa \pi_{A}}&{*}&,{\pi_{C}}&{\pi_{T}}\\{\pi_{A}}.
브런치 길이를 사이트당 예상되는 변경 수로 나타내면 다음과 같습니다.
상태들의 다른 조합에 대한 공식은 적절한 기준 주파수로 대체하여 얻을 수 있다.
T92 모델(1992)
Tamura 1992 [17]모델인 T92는 Kimura(1980)의 2-파라미터 방법을 G+C 함량 편향이 존재하는 경우까지 확장함으로써 두 DNA 배열 사이의 부위당 뉴클레오티드 치환 수를 추정하기 위해 개발된 수학적 방법이다.이 방법은 드로소필라 미토콘드리아 [17]DNA의 경우처럼 강한 전이-변환과 G+C 함량 편견이 있을 때 유용할 것이다.
T92에는 단일 복합 기본 주파수 파라미터 ((0 , , 1 )( ) C \ _ { GC} G+ 1- ( A + t ) T ) { \ _ c 。
T92가 Chargaff의 두 번째 패리티 규칙(쌍의 뉴클레오티드는 1개의 DNA 스트랜드 상에서 같은 주파수를 가지며, 한편으로 G와 C, 다른 한편으로 A와 T)을 가지고 있습니다.따라서 4개의 베이스 주파수는 GC의 함수로 표현될 수 있습니다.
G= C 2 ( \ \_ { GC } \ 2) 및 A T( 1 - 2 ( \ \ { A } = \_ { } \ 2)
레이트 매트릭스 Q ( G / G / (- C) / /2 ( - G) / 2 ( - G C ) / 1 - G ) / )
이 모델에 따른 두 DNA 배열 사이의 진화적 거리는 다음과 같습니다.
서 h ( - h \( 1 - \) } 、 ( \ _ { \ { G} + 。
TN93 모델(1993년 다무라 및 Nei)
TN93(Tamura 및 Nei 1993 모델)[18]은 두 가지 다른 유형의 천이를 구별한다. 즉, ( \ A \ right 는 ( \ C \ right T )에 대해 다른 비율을 가질 수 있다.변환은 모두 같은 속도로 발생하는 것으로 간주되지만, 그 환율은 두 전환 환율과 다를 수 있습니다.
또한 TN93에서는 동일하지 않은 베이스 주파수(' ' '도 사용할 수 있습니다(' \ _ { \ _ { \ _ {} 。
율 행렬 Q)(Gπ Cπ Tπ∗ κ 1κ 1π ∗ π Cπ Tππ Gκ 2π Tππ Gκ 2π ∗ C∗){\displaystyle Q={\begin{pmatrix}{*}&을 말한다.{\kappa_{1}\pi _{G}}&{\pi_{C}}&{\pi_{T}}\\{\kappa_{1}\pi _{A}}&{*}&,{.
GTR 모델 (Tavaré 1986)
Tavaré [19]1986의 Generalized time-reversible model인 GTR은 가능한 가장 일반적인 중립적이고 독립적이며 유한 사이트이며 시간-reversible 모델이다.그것은 1986년 [19]Simon Tavaré에 의해 일반적인 형태로 처음 기술되었다.
GTR 파라미터는 평형 베이스 주파수 벡터 , ( A , G , C , T) { \= ( \ _ { , \ _ { , \ _ { C , \ _ { G , \ pi _ { , \ pi _ { T } 로 구성됩니다.
어디에
는 전이율 파라미터입니다.
따라서 GTR(4글자의 경우, 계통학에서 흔히 볼 수 있는 경우)에는 6개의 치환율 파라미터와 4개의 평형 기준 주파수 파라미터가 필요합니다.단, 이 값은 보통 9개의 파라미터에 단위시간당 전체 치환수인μ를 값까지 없어집니다.대체 시간 측정시( \mu 1) 8개의 여유 파라미터만 남습니다.
일반적으로 파라미터의 수를 계산하려면 매트릭스 내 대각선 위의 엔트리 수, 즉 n - 2 {\ {{} \에 대해 n을 더하고 μ{\이 되므로 1을 빼야 합니다.손에 넣다
예를 들어, 아미노산 배열의 경우(단백질을 구성하는 20개의 "표준" 아미노산이 있다), 209개의 매개변수가 있다는 것을 알게 될 것입니다.하지만, 게놈의 코딩 영역을 연구할 때, 코돈 치환 모델을 사용하는 것이 더 흔하다.4 { 4}=개의 코돈이 , 둘 이상의 베이스가 다른 코돈 간의 전이율은 0으로 가정한다.따라서 20× 2 + {{ 193) + 633) 가 .
「 」를 참조해 주세요.
레퍼런스
- ^ Arenas, Miguel (2015). "Trends in substitution models of molecular evolution". Frontiers in Genetics. 6. doi:10.3389/fgene.2015.00319. ISSN 1664-8021. PMC 4620419. PMID 26579193.
- ^ Jukes TH, Cantor CR (1969). Evolution of Protein Molecules. New York: Academic Press. pp. 21–132.
- ^ Kimura M (December 1980). "A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences". Journal of Molecular Evolution. 16 (2): 111–20. Bibcode:1980JMolE..16..111K. doi:10.1007/BF01731581. PMID 7463489. S2CID 19528200.
- ^ a b c Kimura M (January 1981). "Estimation of evolutionary distances between homologous nucleotide sequences". Proceedings of the National Academy of Sciences of the United States of America. 78 (1): 454–8. Bibcode:1981PNAS...78..454K. doi:10.1073/pnas.78.1.454. PMC 319072. PMID 6165991.
- ^ Bashford JD, Jarvis PD, Sumner JG, Steel MA (2004-02-25). "U (1) × U (1) × U (1) symmetry of the Kimura 3ST model and phylogenetic branching processes". Journal of Physics A: Mathematical and General. 37 (8): L81–L89. arXiv:q-bio/0310037. doi:10.1088/0305-4470/37/8/L01. S2CID 7845860.
- ^ Sumner JG, Charleston MA, Jermiin LS, Jarvis PD (August 2008). "Markov invariants, plethysms, and phylogenetics". Journal of Theoretical Biology. 253 (3): 601–15. doi:10.1016/j.jtbi.2008.04.001. PMID 18513747.
- ^ Sumner JG, Jarvis PD, Holland BR (December 2014). "A tensorial approach to the inversion of group-based phylogenetic models". BMC Evolutionary Biology. 14 (1): 236. doi:10.1186/s12862-014-0236-6. PMC 4268818. PMID 25472897.
- ^ Hendy MD, Penny D, Steel MA (April 1994). "A discrete Fourier analysis for evolutionary trees". Proceedings of the National Academy of Sciences of the United States of America. 91 (8): 3339–43. Bibcode:1994PNAS...91.3339H. doi:10.1073/pnas.91.8.3339. PMC 43572. PMID 8159749.
- ^ Hendy MD (2005). "Hadamard conjugation: an analytic tool for phylogenetics". In Gascuel O (ed.). Mathematics of Evolution and Phylogeny. Oxford University Press. pp. 143–177. ISBN 978-0198566106.
- ^ Hendy MD, Snir S (July 2008). "Hadamard conjugation for the Kimura 3ST model: combinatorial proof using path sets". IEEE/ACM Transactions on Computational Biology and Bioinformatics. 5 (3): 461–71. doi:10.1109/TCBB.2007.70227. PMID 18670048. S2CID 20633916.
- ^ a b Waddell PJ, Penny D, Moore T (August 1997). "Hadamard conjugations and modeling sequence evolution with unequal rates across sites". Molecular Phylogenetics and Evolution. 8 (1): 33–50. doi:10.1006/mpev.1997.0405. PMID 9242594.
- ^ Yang Z (September 1994). "Maximum likelihood phylogenetic estimation from DNA sequences with variable rates over sites: approximate methods". Journal of Molecular Evolution. 39 (3): 306–14. Bibcode:1994JMolE..39..306Y. CiteSeerX 10.1.1.305.951. doi:10.1007/BF00160154. PMID 7932792. S2CID 17911050.
- ^ Felsenstein J (1981). "Evolutionary trees from DNA sequences: a maximum likelihood approach". Journal of Molecular Evolution. 17 (6): 368–76. Bibcode:1981JMolE..17..368F. doi:10.1007/BF01734359. PMID 7288891. S2CID 8024924.
- ^ Hasegawa M, Kishino H, Yano T (1985). "Dating of the human-ape splitting by a molecular clock of mitochondrial DNA". Journal of Molecular Evolution. 22 (2): 160–74. Bibcode:1985JMolE..22..160H. doi:10.1007/BF02101694. PMID 3934395. S2CID 25554168.
- ^ Kishino H, Hasegawa M (August 1989). "Evaluation of the maximum likelihood estimate of the evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea". Journal of Molecular Evolution. 29 (2): 170–9. Bibcode:1989JMolE..29..170K. doi:10.1007/BF02100115. PMID 2509717. S2CID 8045061.
- ^ Felsenstein J, Churchill GA (January 1996). "A Hidden Markov Model approach to variation among sites in rate of evolution". Molecular Biology and Evolution. 13 (1): 93–104. doi:10.1093/oxfordjournals.molbev.a025575. PMID 8583911.
- ^ a b Tamura K (July 1992). "Estimation of the number of nucleotide substitutions when there are strong transition-transversion and G+C-content biases". Molecular Biology and Evolution. 9 (4): 678–87. doi:10.1093/oxfordjournals.molbev.a040752. PMID 1630306.
- ^ Tamura K, Nei M (May 1993). "Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees". Molecular Biology and Evolution. 10 (3): 512–26. doi:10.1093/oxfordjournals.molbev.a040023. PMID 8336541.
- ^ a b Tavaré S (1986). "Some Probabilistic and Statistical Problems in the Analysis of DNA Sequences" (PDF). Lectures on Mathematics in the Life Sciences. 17: 57–86.
추가 정보
- Gu X, Li WH (September 1992). "Higher rates of amino acid substitution in rodents than in humans". Molecular Phylogenetics and Evolution. 1 (3): 211–4. doi:10.1016/1055-7903(92)90017-B. PMID 1342937.
- Li WH, Ellsworth DL, Krushkal J, Chang BH, Hewett-Emmett D (February 1996). "Rates of nucleotide substitution in primates and rodents and the generation-time effect hypothesis". Molecular Phylogenetics and Evolution. 5 (1): 182–7. doi:10.1006/mpev.1996.0012. PMID 8673286.
외부 링크
- DAWG: DNA 어셈블리 With Gaps – 시퀀스 진화 시뮬레이션을 위한 무료 소프트웨어