타지마 D

타지마 D는 일본 연구자 타지마 후미오(太島)^[1]의 이름을 딴 인구유전검사 통계다.타지마 D는 유전적 다양성의 두 가지 척도, 즉 쌍방향 차이의 평균 수와 분리현장의 수 사이의 차이로 계산되며, 각각은 일정한 크기의 중성적으로 진화하는 모집단에서 동일할 것으로 예상되도록 크기가 조정된다.

타지마 D 검사의 목적은 무작위로 진화하는 DNA 염기서열("중성적으로")과 방향 선택 또는 균형 선택, 인구통계학적 확장 또는 수축, 유전적 히치하이킹 또는 내성 등 비랜덤 공정에서 진화하는 DNA 염기서열(nonrandom process)을 구별하는 것이다.임의로 진화하는 DNA 염기서열은 유기체의 적합성과 생존에 영향을 미치지 않는 돌연변이를 포함한다.무작위로 진화하는 돌연변이를 '중립'이라고 하는데 반해, 선택 중인 돌연변이는 '비중립'이다.예를 들어, 태아 사망이나 심각한 질병을 유발하는 돌연변이가 선택될 것으로 예상된다.인구 전체에서 중성 돌연변이의 빈도는 유전적 표류를 통해 무작위로 변동한다(즉, 돌연변이를 가진 모집단의 개인 비율이 한 세대에서 다음 세대로 변화하고, 이 비율은 동등하게 상승하거나 하강할 가능성이 있다).

유전적 표류의 강도는 인구 수에 따라 달라진다.모집단이 일정한 변이율로 일정한 크기라면, 모집단은 유전자 주파수의 평형에 도달할 것이다.이 평형에는 분리 $부위$ S ${\displaystyle S$ 의 수와 샘플링된 쌍들 간의 뉴클레오티드 차이(이것을 쌍차이라고 한다)를 포함한 중요한 특성이 있다.쌍의 차이를 표준화하기 위해 쌍의 차이의 평균 또는 '평균' 수를 사용한다.이것은 단순히 쌍의 차이의 합을 쌍의 수로 나눈 것이며, 종종 $\pi$ $\pi$ 로 상징된다 $\pi$

타지마 실험의 목적은 돌연변이와 유전적 표류 사이의 평형에서 중립 이론 모델에 맞지 않는 시퀀스를 식별하는 것이다.DNA 염기서열이나 유전자에 대한 검사를 수행하기 위해서는 최소한 3명의 개인에 대한 동질 DNA 염기서열이 필요하다.타지마 통계는 샘플링된 DNA의 총 분리 부위(이들은 다형성인 DNA 부위)의 수와 표본 내 쌍들 간의 평균 돌연변이의 수를 표준화된 방법으로 계산한다.값이 비교되는 두 수량은 모두 모집단 유전적 모수인 세타의 모멘트 추정 방법이며, 따라서 동일한 값과 같을 것으로 예상된다.만약 이 두 숫자가 우연히 합리적으로 기대할 수 있는 만큼만 차이가 난다면 중립성의 귀무 가설은 거부될 수 없다.그렇지 않으면 중립성의 귀무 가설은 기각된다.

과학적 설명

중립 이론 모델에서 평형 상태에서 일정한 크기의 모집단의 경우:

E[\pi ]=\theta =E\왼쪽[{\frac {S}{\sum _{i=1}^{n-1}{\frac {1}{1}}}\right]=4엔\mu

디플로이드 DNA의 경우

E[\pi ]=\theta =E\왼쪽[{\frac {S}{\sum _{i=1}^{n-1}{\frac {1}{1}}{{i}}}\right]=2N\mu }

무형의

위의 공식에서 S는 분리 지점의 수, n은 표본의 수, N은 유효 모집단 크기, $\mu$ $\mu$ 은 $\mu$ 검사된 게놈 위치에서의 돌연변이 비율, i는 합계 지수다.그러나 선택, 인구통계학적 변동 및 중립적 모델의 기타 위반(요율 이질성과 내성 포함)은 S{\ $displaystyle S}$ $\pi$ { $\pi$ {\ $displaystyle \pi$ 의 기대값을 변경하여 더 이상 같을 것으로 예상되지 않는다.이 두 변수(양수 또는 음수일 수 있음)에 대한 기대치의 차이는 타지마 D 검정 통계의 정점이다.

$D\,$ ${\$ 은(는) 모집단 유전학 파라미터의 두 추정치 사이의 차이를 $\theta \,$ ${\$ $d\,$ 을(를) 취하여 계산한다 $D\,$ $\theta \,$ 이러한 차이를 d ${\$ ${\sqrt {{\hat {V}}(d)}}$ ${\sqrt {{\hat {V}}(d)}}$ 의 제곱근으로 $d\,$ $d\,$ 계산한다. ${\displaystyle {\sqrt {{\hat {V}(d)}}}($ 정의상 표준 편차).

D={\frac {d}{\sqrt {{\hat {V}(d)}}}}}

타지마 후미오는 컴퓨터 시뮬레이션으로 위에서 설명한 $D\,$ ${\$ D $\}$ 통계량을 $D\,$ 베타 분포를 사용하여 모델링할 수 있음을 증명했다.시퀀스 샘플에 대한 $D\,$ ${\$ 값이 $D\,$ 신뢰 구간을 벗어나면 해당 시퀀스에 대한 중립 돌연변이의 귀무 가설을 기각할 수 있다.그러나 실제 사용에서는 과거 모집단의 변화(예: 모집단 병목 현상)가 $D\,$ ${\$ 통계량의 $D\,$ 값을 치우칠 수 있으므로 주의해야 한다.^[2]

수학상세

D={\frac {d}{\sqrt {{\hat{V}(d)}}}}={\frac {{k}-{a_{1}:{1}}}{\sqrt{[e_{1}S+e_{2}S-1}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}

어디에

$e_{1}={\frac {c_{1}:{a_{1}:{1}}}}$	$e_{2}={\frac {c_{2}}:{a_{1}^{2}+a_{2}}}}$
$c_{1}=b_{1}-{\frac {1}{a_{1}:{1}}$	$c_{2}=b_{2}-{\frac {n+2}{a_{1}n}+{\frac{a_{1}2}}:{a_{1}^{2}}:$
$b_{1}={\frac {n+1}{3(n-1)}$	$b_{2}={\frac {2(n^{2}+n+3)}{9n(n-1)}$
$a_{1}=\sum _{i=1}^{n-1}{\frac {1}{i}}$	$a_{2}=\sum _{i=1}^{n-1}{\frac {1}{i^{2}}:$

${\hat {k}}\,$ $displaystyle {\hat{k}\,}$ 및 ${\hat {k}}\,$ S ${\frac {S}{a_{1}}}$ ${\frac {S}{a_{1}}}$ ${\$ {S $}{a_{1$ }:{1}}은 $($ 는) 유효 모집단 크기 $N$ ${\displaystyle$ n $\}$ 에서 $n\,$ 표본 크기 n {\displaystystyle n\}의 중성 돌연변이 모델에 따른 두 개의 DNA 시퀀스 사이의 예상 개수에 대한 두 개의 추정치다 ${\frac {S}{a_{1}}}$ . $스타일$ N $}$ .

첫 번째 추정치는 표본 $(i,j)$ 내 시퀀스 $(i,j)$ , $(i,j)$ ) $(i,j)$ 의 쌍별 비교에서 발견된 평균 SNP 수입니다.

{\hat{k}}={\frac {\sum \sum \{i}k_{ij}}{\binom{n}2}}.

두 번째 추정치는 $S$ $S$ 의 기대값에서 도출된 것으로, $S$ 표본의 총 다형성 수이다.

[\displaystyle E(S)=a_{1}M.}

$M=4N\mu$ 는 $M=4N\mu$ = 4 $M=4N\mu$ $M=4N\mu$ {\ $displaystyle$ M= $4N\mu$ 을(를) 정의하는 반면, Hartl & Clark는 다른 기호를 사용하여 동일한 매개 $\theta =4N\mu$ $\theta =4N\mu$ = $\theta =4N\mu$ $\theta =4N\mu$ $\theta =4N\mu$ ${\displaystyle \theta$ = $4N\mu }$ 을 정의한다 $\theta =4N\mu$

예

여러분이 알려지지 않은 유전자를 연구하는 유전학자라고 가정해보자.당신의 연구의 일환으로 당신은 네 명의 무작위 사람들로부터 DNA 샘플을 얻는다.단순성을 위해 시퀀스를 0의 끈으로 표시하며, 다른 4명의 경우 DNA가 자신과 같을 때 0을, 다른 4명의 경우 0을 표시한다.(이러한 예에서는 특정한 유형의 차이는 중요하지 않다)

1 2 위치 12345 67890 12345 67890 Person Y 00000 00000 00000 00000 00000 000000010 Person B 00000 00000 00000 0000010 Person C 00000 01000 00000 00010 Person D 00000 01000 00000 00000 01000 00000 00000 00000 00010 Person D 00000 01000 00000 00000 01000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00010

4개의 다형성 사이트(위 3, 7, 13 및 19에서 누군가가 자신과 다른 위치)에 주목하십시오.이제 각 시퀀스 쌍을 비교하고 두 시퀀스 사이의 평균 다형성 수를 구하십시오."5 선택 2" (10) 비교를 해야 한다.

Person Y는 너다!

You vs A: 3 다형성

Person Y 00000 00000 00000 00000 00000 Person A 00100000 00000 00100000 00010

You vs B: 2 다형성

Person Y 00000 00000 00000 00000 00000 Person B 00000 00000 00000 00100 00010

You vs C: 2 다형성

Person Y 00000 00000 00000 00000 Person C 00000 01000 00000 00010

You vs D: 3 다형성

Person Y 00000 00000 00000 00000 Person D 00000 01000 00100 00010

A 대 B: 1 다형성

Person A 00100000 00100000 00010 Person B 00000 00000 0010000010

A 대 C: 3 다형성

Person A 00100000 00100000 00010 Person C 00000 01000 00000 00010

A 대 D: 2 다형성

Person A 00100000 00100000 00010 Person D 00000 01000 0010000010

B 대 C: 2 다형성

Person B 00000 00000 00100 00010 Person C 00000 01000 00000 00010

B 대 D: 1 다형성

Person B 00000 00000 00100 00010 Person D 00000 01000 00100 00010

C 대 D: 1 다형성

Person C 00000 01000 00000 00010 Person D 00000 01000 00100 00010

다형성의 평균 수는 ${3+2+2+3+1+3+2+2+1+1 \over 10}=2$ + 2 ${3+2+2+3+1+3+2+2+1+1 \over 10}=2$ + ${3+2+2+3+1+3+2+2+1+1 \over 10}=2$ + 1 ${3+2+2+3+1+3+2+2+1+1 \over 10}=2$ + ${3+2+2+3+1+3+2+2+1+1 \over 10}=2$ + ${3+2+2+3+1+3+2+2+1+1 \over 10}=2$ + ${3+2+2+3+1+3+2+2+1+1 \over 10}=2$ + ${3+2+2+3+1+3+2+2+1+1 \over 10}=2$ + ${3+2+2+3+1+3+2+2+1+1 \over 10}=2$ + ${3+2+2+3+1+3+2+2+1+1 \over 10}=2$ = 2 ${\displaystyle {3+2+2+3+3+3+2+1 \over$ 10}= $2}$ 입니다 ${3+2+2+3+1+3+2+2+1+1 \over 10}=2$

평형의 두 번째 추정치는 M=S/a1이다.

n=5명의 개인과 S=4개의 분리 사이트가 있었기 때문에

a1=1/1+1/2+1/3+1/4=2.08

M=4/2.08=1.92

위에서 설명한 소문자 d는 이 두 숫자 사이의 차이 즉, 쌍 비교 (2)와 M에서 발견된 평균 다형성 수이다.따라서 $d=2-1.92=.08$ = $d=2-1.92=.08$ - 1 $d=2-1.92=.08$ = 0. $d=2-1.92=.08$ $d=2-1.92=.08$ .

이것은 통계적 시험이기 때문에, 당신은 이 값의 중요성을 평가할 필요가 있다.이것을 어떻게 하는지에 대한 논의는 아래에 제공된다.

타지마씨의 D 해석

음의 타지마 D는 기대치에 비해 저주파 다형성(polymorism)의 과잉을 나타내며, 인구 규모 확대(예: 병목 현상이나 선택적 스위프 후)를 나타낸다.Tajima의 D는 저주파 및 고주파 다형성의 낮은 수준을 의미하며, 모집단 크기 및/또는 균형 선택의 감소를 나타낸다.그러나 샘플에서 얻은 타지마 D 값과 연관된 재래식 "p-값"을 계산하는 것은 불가능하다.간단히 말해서, 이는 사실이고 알려지지 않은 teta 매개변수(피벗 수량은 존재하지 않음)에 독립적인 통계량의 분포를 설명할 방법이 없기 때문이다.이 문제를 회피하기 위해 몇 가지 옵션이 제안되었다.

타지마 D의 가치	수학적 이유	생물학적 해석 1	생물학적 해석 2
타지마 D=0	Theta-Pi는 Theta-k(Observed=)에 해당한다.예상됨.평균 헤테로조도= 분리 사이트 수입니다.	예상 변동과 유사한 관측된 변동	돌연변이-드라이브 균형에 따라 진화하는 인구.선택 증거 없음
타지마 D<0	Theta-Pi가 Theta-k보다 작음(Observed<)예상됨.분리 사이트 수보다 더 적은 happlotype(하위 평균 이형성)	희소 알레르기가 풍부함(희소 알레르기가 부족함)	최근 선택적 스위프, 최근 병목현상 이후 인구증가, 스윕유전자 연결
타지마 D>0	Theta-Pi가 Theta-k보다 큼(Observed)예상됨.분리 사이트 수보다 더 많은 happlotype(평균 이형성)	희귀한 알레르기가 희박함(희귀한 알레르기가 없음)	균형 선택, 갑작스러운 인구 감소

단, D-값이 통계적으로 유의하다고 간주되는 경우에만 이 해석을 수행해야 한다.

유의성 결정

타지마 D와 같은 통계적 테스트를 실시할 때 중요한 문제는 통계에 대해 계산된 값이 null 공정에서 예기치 않은 값인지 여부다.타지마 D의 경우, 통계의 크기는 표준 결합 모델에 따라 진화하는 인구 아래에서 예상되는 패턴에서 더 많은 데이터가 벗어날수록 증가할 것으로 예상된다.

타지마(1989)는 검정 통계량의 분포와 평균 0과 분산이 1인 베타 분포 사이의 경험적 유사성을 발견했다.그는 와터슨의 추정기를 가져다가 표본 수로 나누어 세타를 추정했다.시뮬레이션에서는 이러한 분포가 보수적인 것으로 나타났으며,^[3] 이제 계산 능력을 더 쉽게 사용할 수 있게 되었으므로 이 근사치는 자주 사용되지 않는다.

시몬센 외 연구진이 발표한 논문에는 좀 더 미묘한 접근법이 제시됐다.^[4]이 저자들은 진정한 세타 값에 대한 신뢰 구간을 구성한 다음, 이 간격에 걸쳐 그리드 검색을 수행하여 통계가 특정 알파 값 아래로 유의한 임계값을 얻을 것을 주장했다.다른 접근방법은 조사자가 연구 중인 유기체에 대한 지식을 바탕으로 그럴듯하다고 믿는 세타 값에 대해 그리드 검색을 수행하는 것이다.베이지안식 접근은 이 방법의 자연스러운 연장이다.

유의성에 대한 매우 대략적인 법칙은 +2보다 크거나 -2보다 작은 값이 유의할 가능성이 있다는 것이다.이 규칙은 일부 통계량의 점근성 특성에 대한 호소에 기초하므로 +/- 2는 실제로 유의성 검정의 임계값을 나타내지 않는다.

마지막으로 염색체 세그먼트를 따라 슬라이딩 윈도우에서 타지마 D의 게놈 와이드 스캔이 수행되는 경우가 많다.이 접근방식으로, 그러한 모든 창문의 경험적 분포의 대부분을 크게 벗어나는 D의 가치를 갖는 지역을 유의미하게 보고한다.이 방법은 전통적인 통계적 의미에서는 유의성을 평가하지 않지만, 큰 유전적 영역을 감안할 때 상당히 강력하며, 가장 큰 특이치만 보고된다면 염색체의 흥미로운 영역을 거짓으로 식별할 가능성이 낮다.

참고 항목

페이와 우의 H

참조

^ Tajima, F. (Nov 1989). "Statistical method for testing the neutral mutation hypothesis by DNA polymorphism". Genetics. 123 (3): 585–95. PMC 1203831. PMID 2513255.
^ Elgvin, Tore O.; Trier, Cassandra N.; Tørresen, Ole K.; Hagen, Ingerid J.; Lien, Sigbjørn; Nederbragt, Alexander J.; Ravinet, Mark; Jensen, Henrik; Sætre, Glenn-Peter (2 June 2017). "The genomic mosaicism of hybrid speciation". Science Advances. 3 (6). doi:10.1126/sciadv.1602996. eISSN 2375-2548. PMC 5470830. PMID 28630911.
^ Fu, YX.; Li, WH. (Mar 1993). "Statistical tests of neutrality of mutations". Genetics. 133 (3): 693–709. PMC 1205353. PMID 8454210.
^ Simonsen, KL.; Churchill, GA.; Aquadro, CF. (Sep 1995). "Properties of statistical tests of neutrality for DNA polymorphism data". Genetics. 141 (1): 413–29. PMC 1206737. PMID 8536987.

메모들

Hartl, Daniel L.; Clark, Andrew G. (2007). Principles of Population Genetics (4th ed.). Sinauer Associates. ISBN 0878933085.

외부 링크

계산 도구:

타지마 D에 대한 동영상 설명과 DNA 서열에 대한 응용은 온라인에서 볼 수 있다.

[Tajima-1989-1] Tajima, F. (Nov 1989). "Statistical method for testing the neutral mutation hypothesis by DNA polymorphism". Genetics. 123 (3): 585–95. PMC 1203831. PMID 2513255.

[ElgvinTrierTørresen2017-2] Elgvin, Tore O.; Trier, Cassandra N.; Tørresen, Ole K.; Hagen, Ingerid J.; Lien, Sigbjørn; Nederbragt, Alexander J.; Ravinet, Mark; Jensen, Henrik; Sætre, Glenn-Peter (2 June 2017). "The genomic mosaicism of hybrid speciation". Science Advances. 3 (6). doi:10.1126/sciadv.1602996. eISSN 2375-2548. PMC 5470830. PMID 28630911.

[Fu-1993-3] Fu, YX.; Li, WH. (Mar 1993). "Statistical tests of neutrality of mutations". Genetics. 133 (3): 693–709. PMC 1205353. PMID 8454210.

[Simonsen-1995-4] Simonsen, KL.; Churchill, GA.; Aquadro, CF. (Sep 1995). "Properties of statistical tests of neutrality for DNA polymorphism data". Genetics. 141 (1): 413–29. PMC 1206737. PMID 8536987.

[1]

[2]

[3]

[4]

v t 분자 진화
자연선택	밸런싱 선택 방향선택 파괴적 선택 음선택 안정화 선택 선택적 스위프
모델	DNA진화의 모델 뉴클레오티드 치환 모형 알레르 주파수 Ka/Ks 비율 타지마 D 페이와 우의 H
분자 과정	유전자 변환 유전자중복제 무성 돌연변이 동의어 대체 비동기 대체

Search