인구구조(유전자)

Population structure (genetics)

인구구조(유전구조인구층화라고도 함)는 하위 집단들 사이알레르 빈도에 체계적인 차이가 존재하는 것이다. 무작위로 짝짓기(또는 범독성) 모집단에서, 알레 주파수는 그룹 간에 대략 비슷할 것으로 예상된다. 그러나 짝짓기는 어느 정도 랜덤하지 않은 경향이 있어 구조가 발생하게 된다. 예를 들어, 강과 같은 장벽은 같은 종의 두 그룹을 분리하여 잠재적 짝을 건너는 것을 어렵게 할 수 있다; 만약 돌연변이가 일어난다면, 그것은 다른 세대에 완전히 없는 동안 한 하위 집단에서 퍼지고 일반화될 수 있다.

유전적 변형은 반드시 유기체에 관찰 가능한 변화를 일으키지는 않지만, 인구 구조 때문에 우연에 의해 상관될 수 있다. 즉, 질병 발생률이 높은 개체군에서 흔히 볼 수 있는 변종이 병을 일으키는 것으로 잘못 생각될 수 있다. 이 때문에 인구구조는 의학유전학 연구에서 흔히 볼 수 있는 교란변수로서, 그 효과에 대한 회계처리와 통제가 게놈 와이드 연관 연구(GWAS) 구조의 기원을 추적함으로써 집단과 개인의 유전적 조상을 연구하는 것도 가능하다.

설명

성적으로 번식하는 종에서 개체 구조의 기본 원인은 집단 간의 비랜덤 짝짓기인데, 모집단 내의 모든 개체가 무작위로 짝짓기를 한다면, 알레 빈도는 집단 간에 유사해야 한다. 인구구조는 일반적으로 산과 강과 같은 거리나 장벽에 의한 물리적인 분리로부터 발생하며, 그 뒤에 유전적 표류로 이어진다. 다른 원인으로는 이주로부터의 유전자 흐름, 인구 병목 현상과 팽창, 창업자 효과, 진화적 압력, 무작위적 기회, 그리고 (인간의) 문화적 요인 등이 있다. 이런 요인 대신 개인이 태어난 곳과 가까운 곳에 머무르는 경향이 있는데, 이는 알레르기가 종의 전체 범위에 대해 무작위로 분포되지 않는다는 것을 의미한다.[1][2]

방안

인구구조는 복잡한 현상으로 그것을 완전히 포착하는 단 하나의 척도는 없다. 인구의 구조를 이해하려면 방법과 척도의 조합이 필요하다.[3][4] 많은 통계적 방법은 인구 병목 현상, 혼화 사건 또는 인구 분산 시간과 같은 역사적 인구통계학적 변화를 유추하기 위해 단순한 모집단 모델에 의존한다. 종종 이러한 방법들은 판믹시아, 즉 조상 인구의 동질성을 가정하는 것에 의존한다. 예를 들어 조상 집단에서 구조의 존재를 고려하지 않음으로써 그러한 모델을 잘못 지정하면 편향된 모수 추정치를 발생시킬 수 있다.[5] 시뮬레이션 연구는 역사적 인구 구조가 인구 규모의 역사적 변화, 또는 그러한 사건이 발생하지 않았을 때에도 혼화재 사건의 존재로 쉽게 오해될 수 있는 유전적 영향까지 미칠 수 있다는 것을 보여준다.[6]

이형성

인구 병목현상은 이질성 상실을 초래할 수 있다. 이 가상의 인구에서, 인구가 10명에서 3명으로 반복적으로 감소한 후, 알레르기가 고정되었다.

인구구조의 결과 중 하나는 이질성의 감소다. 모집단이 분할될 때, 특히 하위 모집단이 작거나 장기간 격리된 경우, 알레르기는 하위 모집단 내에서 고정될 가능성이 더 높다. 이형성 감소는 근래에 공통 조상을 공유할 가능성이 더 높기 때문에 교배의 연장선상에 있다고 생각할 수 있다.[7] 그 규모는 중요하다. 영국에서 태어난 양쪽 부모를 가진 한 개인이 그 나라의 인구와 비교해서 사육되는 것이 아니라 전 세계에서 선택된 두 사람보다 더 많이 사육되고 있다. 이는 관찰된 이질성과 기대되는 이질성을 통해 교배를 측정하는 라이트 F-통계("수정 지수"라고도 함)의 도출에 동기를 부여한다.[8] 예: F 은(는) 일부 하위 S (와) 하여개별 I {\ I}에 대한 단일 로커에서 교배 계수를 측정한다[9]

여기 디스플레이 은(는) 하위 모집단 에서 이질성인 개인들의 분율이다. Assuming there are two alleles, that occur at respective frequencies , it is expected that under random mating the subpopulation will have a heterozygosity rate of 그런 다음:

마찬가지로, 총 T{\에 대해 T = {\displaystyle}를 정의할 수 있다을(를) 사용하여하위 S {\ 및 F S T {\displaystyle 의 예상되는 이질성을 계산할 수 있다.[9]

F가 0이면 모집단 사이의 알레르 주파수가 동일하여 구조가 없음을 나타낸다. 이론적 최대값 1은 알레르기가 총 고정점에 도달했을 때 달성되지만, 대부분의 관찰된 최대값은 훨씬 낮다.[7] FST 인구구조의 가장 일반적인 척도 중 하나이며 인구수와 관심사에 따라 몇 가지 다른 제형이 있다. 때로는 인구 사이의 유전적 거리로 사용되기도 하지만 삼각 불평등을 항상 만족시키지는 못하므로 미터법이 아니다.[10] 인구 내 다양성에 따라 해석과 비교도 어려워진다.[4]

혼화물 추론

개인의 유전자형은 K 이산형 모집단 군집 사이의 혼합물로 모델링될 수 있다.[9] 각 군집은 그 유전자형의 빈도로 정의되며, 개인의 유전자형에 대한 군집의 기여는 추정기를 통해 측정된다. 2000년에 조나단 K. 프리처드마르코프 체인 몬테 카를로를 통해 이러한 비율을 추정하기 위해 구조 알고리즘을 도입했으며, 디리클레 분포로 각 위치의 앨러 주파수를 모델링했다.[11] 이후 다른 추정 기법을 사용하여 알고리즘(아덴티유 등)이 개발되었다.[12][13] 추정 비율은 막대 그래프를 사용하여 시각화할 수 있다. 각 막대는 개인을 나타내며, K 모집단 중 하나에서 개인의 유전적 조상의 비율을 나타내기 위해 세분된다.[9]

다양한 K는 인구 구조의 다른 척도를 보여줄 수 있다; 전체 인구에 대해 작은 K를 사용하는 것은 대륙별로 대략 사람들을 세분화하는 반면, 큰 K를 사용하는 것은 인구를 더 미세한 하위 그룹으로 나눌 것이다.[9] 군집화 방법이 일반적이긴 하지만 잘못 해석될 여지가 있다. 즉, 비시뮬레이션 데이터의 경우, K의 "진정한" 값은 결코 존재하지 않으며, 오히려 주어진 질문에 유용한 것으로 간주되는 근사치가 있다.[3] 이들은 데이터 집합의 표본 추출 전략, 표본 크기 및 가까운 친족에 민감하며, 이산 모집단이 전혀 없을 수 있으며, 하위 모집단이 중첩되는 계층 구조가 있을 수 있다.[3] 군집은 그 자체로 혼합될 수 있으며,[9] 소스 모집단으로 유용한 해석을 가지고 있지 않을 수 있다.[14]

ADMIFLATE를 사용하여 K=2,4,6,8명의 모집단을 가정하여 모델링한 북아프리카 및 인근 모집단의 인구구조에 관한 연구(그림 B, 위아래). K의 변화는 군집화의 규모를 변화시킨다. K=2에서는 대부분의 북아프리카에서 추론된 조상의 80%가 바스크, 투스카나, 카타리 아랍 개인(보라색)에게 흔한 성단에 할당된다. K=4에서는 북아프리카 혈통의 혈통이 나타난다(연청색). K=6에서는 근동(카타리) 조상의 반대쪽 성단이 나타난다(녹색). K=8에서 튀니지 베르베르스는 군집(검은 청색)으로 등장한다.[15]

차원성 감소

여러 아프리카 인구(왼쪽)의 유전자 샘플 위치 지도와 지도(오른쪽)에 겹쳐진 데이터의 주요 성분 1과 2. 주좌표면은 지도에 맞춰 16.11° 회전하였다. 인구의 동서남북 분포에 해당한다.[16]

유전자 데이터는 고차원적이며, 차원성 감소 기술은 인구 구조를 포착할 수 있다. 주성분 분석(PCA)은 1978년 카발리-스포르자와 동료들에 의해 인구유전학에 처음 적용되었고, 고투과 염기서열로 부활했다.[9][17] 초기에 PCA는 모집단의 알려진 유전자 표지의 알레르 주파수에 사용되었지만 나중에 SNP를 정수(예를 들어 비기준 알레르기의 수)로 코드화하고 값을 정상화함으로써 PCA를 개인 수준에서 적용할 수 있다는 것이 밝혀졌다.[13][18] 한 공식은 개인과 S 의 양알레릭 SNP를 고려한다. 각 개별 대해 l 의 값은 이고 }}}는 비기준 수입니다(0 ,2 0 의 알레 주파수가 인 경우정규화된 유형의 결과 N 행렬에 다음 항목이 있다.[9]

PCA는 분산을 최대화하기 위해 데이터를 변환한다. 충분한 데이터를 제공하면 각 개체가 그림의 점으로 시각화되면 이산형 군집을 형성할 수 있다.[13] 조상이 혼재된 개인은 군집 사이에 속하는 경향이 있으며, 데이터에서 거리에 따른 균질한 격리가 있을 때 상위 PC 벡터는 지리적 변동을 반영한다.[19][13] PCA에 의해 생성된 고유 벡터는 개인 쌍의 평균 결합 시간 측면에서 명시적으로 작성될 수 있으며, PCA는 주어진 표본에서 집단의 인구 이력에 대한 추론에 유용하게 된다. 그러나 PCA는 동일한 평균 병합 시간을 초래하는 다른 프로세스를 구별할 수 없다.[20]

다차원 스케일링판별 분석은 분화 연구, 인구 할당, 유전적 거리 분석 등에 이용되어 왔다.[21] t-분산 확률적 인접 임베딩(t-SNE) 및 균일한 다지관 근사치투영(UMAP)과 같은 근린 그래프 접근방식은 인간 데이터에서 대륙 및 아대륙 구조를 시각화할 수 있다.[22][23] UMAP는 대규모 데이터셋을 통해 모집단 구조의 여러 척도를 더 잘 포착할 수 있다. 미세 척도 패턴은 다른 방법으로 숨기거나 분할할 수 있으며 모집단의 범위가 다양할 때, 모집단이 혼재되어 있을 때 또는 유전자형, 표현형 및/또는 지리학 사이의 관계를 조사할 때 관심이 있다.[23][24] 변이성 자동 조정기는 연결 불안정 패턴을 재현하지는 않지만 입력 데이터를 대표하는 구조를 가진 인공 유전자형을 생성할 수 있다.[25]

인구추론

인구구조는 진화 및 인구유전학의 중요한 측면이다. 이주와 그룹간의 상호작용과 같은 사건들은 유전적 각인을 남긴다. 혼혈인구는 그들의 조상 집단에서 나온 하플라타입 덩어리를 가질 것이고, 이것은 재결합으로 인해 시간이 지남에 따라 점차적으로 줄어들 것이다. 이 사실을 이용하고 유전적 데이터 집합 내의 개인으로부터 공유된 하플라타입 덩어리를 일치시킴으로써, 연구자들은 인구 혼합물의 기원을 추적하고 연대를 추적할 수 있으며 제국의 흥망성쇠, 노예 무역, 식민주의, 인구 팽창과 같은 역사적 사건을 재구성할 수 있다.[26]

유전자 역학에서의 역할

모집단 구조는 관심의 특성과 위치 사이의 연관성이 부정확할 수 있는 사례-제어 연구와 같은 연관 연구에 문제가 될 수 있다. 예를 들어, 유럽인과 동아시아인의 연구 인구에서, 젓가락 사용에 대한 연합 연구는 젓가락 사용을 이끄는 아시아 개인들의 유전자를 "발견"할 수 있다. 하지만, 유전적 변종이 유럽인들보다 아시아인들에게 더 흔하기 때문에 이것은 가짜 관계다.[27] 또한, 실제 유전학적 발견은 사례 주체가 선택된 모집단에서 중심점이 덜 만연되어 있는 경우 간과될 수 있다. 이 때문에 1990년대에는 인구구조의 영향을 쉽게 제어할 수 있는 가족 기반 데이터를 전송불균형시험(TDT) 등의 방법으로 활용하는 것이 일반적이었다.[28]

키나 심장 질환의 위험과 같은 표현형(측정 가능한 특성)은 유전자와 환경의 어떤 결합의 산물이다. 이러한 특성은 다유전자적 점수를 사용하여 예측할 수 있는데, 다유전자적 점수는 많은 개별 유전적 변형의 효과를 합산하여 특성에 대한 유전학의 기여도를 분리하고 추정하는 것이다. 점수를 구성하기 위해, 연구자들은 먼저 각 유전자 변종의 기여도를 추정하기 위한 협회의 참가자를 등록한다. 그런 다음 각 유전자 변종의 추정된 기여도를 사용하여 원래 연관성 연구에 포함되지 않은 개인의 특성에 대한 점수를 계산할 수 있다. 만약 연구 집단의 구조가 환경변화와 상관관계가 있다면, 다세대 점수는 더 이상 유전적 요소만을 측정하지 않는다.[29]

이 교란 효과에 대해 몇 가지 방법이 적어도 부분적으로 제어할 수 있다. 게놈 제어 방법은 1999년에 도입되었으며 시험 통계량의 인플레이션을 제어하기 위한 비교적 비모수적인 방법이다.[30] 비정형적으로 가정되는 일부 K 하위 집단으로부터 각 개인의 조상 비율을 추정하기 위해 비연계 유전적 표지를 사용하는 것도 가능하다.[31] 보다 최근의 접근법은 앨크스 프라이스와 동료들이 입증한 바와 같이 주성분 분석(PCA)을 사용하거나 [32]유전적 관계 매트릭스(친족 행렬이라고도 함)를 도출하여 선형 혼합 모델(LMM)에 포함시킴으로써 사용한다.[33][34]

PCA와 LMM은 인구 구조에서 교란 요인을 제어하는 가장 일반적인 방법이 되었다. 관련 연구에서 잘못된 긍정을 피하기에 충분할 수 있지만, 이들은 여전히 약간 연관된 변종의 효과 크기를 과대평가하는 데 취약하며 다세대 점수와 특성 유전성의 추정치를 상당히 편향시킬 수 있다.[35][36] 환경적 영향이 특정 지역에만 존재하는 변종과 관련이 있다면(예를 들어, 한 도시에서만 오염물질이 발견되는 경우), 이러한 인구구조 효과에 대해서는 전혀 시정할 수 없을 수 있다.[29] 많은 특성에서 구조의 역할은 복잡하고 완전히 이해되지 않으며, 이를 유전학 연구에 접목하는 것은 과제로 남아 있으며 연구의 활발한 영역이다.[37]

참조

  1. ^ Cardon LR, Palmer LJ (February 2003). "Population stratification and spurious allelic association". Lancet. 361 (9357): 598–604. doi:10.1016/S0140-6736(03)12520-2. PMID 12598158. S2CID 14255234.
  2. ^ McVean G (2001). "Population Structure" (PDF). Archived from the original (PDF) on 2018-11-23. Retrieved 2020-11-14.
  3. ^ a b c Lawson, Daniel J.; van Dorp, Lucy; Falush, Daniel (2018). "A tutorial on how not to over-interpret STRUCTURE and ADMIXTURE bar plots". Nature Communications. 9 (1): 3258. Bibcode:2018NatCo...9.3258L. doi:10.1038/s41467-018-05257-7. ISSN 2041-1723. PMC 6092366. PMID 30108219.
  4. ^ a b Meirmans, Patrick G.; Hedrick, Philip W. (2010). "Assessing population structure:FST and related measures". Molecular Ecology Resources. 11 (1): 5–18. doi:10.1111/j.1755-0998.2010.02927.x. ISSN 1755-098X. PMID 21429096. S2CID 24403040.
  5. ^ Scerri EM, Thomas MG, Manica A, Gunz P, Stock JT, Stringer C, et al. (August 2018). "Did Our Species Evolve in Subdivided Populations across Africa, and Why Does It Matter?". Trends in Ecology & Evolution. 33 (8): 582–594. doi:10.1016/j.tree.2018.05.005. PMC 6092560. PMID 30007846.
  6. ^ Rodríguez W, Mazet O, Grusea S, Arredondo A, Corujo JM, Boitard S, Chikhi L (December 2018). "The IICR and the non-stationary structured coalescent: towards demographic inference with arbitrary changes in population structure". Heredity. 121 (6): 663–678. doi:10.1038/s41437-018-0148-0. PMC 6221895. PMID 30293985.
  7. ^ a b Hartl, Daniel L.; Clark, Andrew G. (1997). Principles of population genetics (3rd ed.). Sunderland, MA: Sinauer Associates. pp. 111–163. ISBN 0-87893-306-9. OCLC 37481398.
  8. ^ Wright, Sewall (1949). "The Genetical Structure of Populations". Annals of Eugenics. 15 (1): 323–354. doi:10.1111/j.1469-1809.1949.tb02451.x. ISSN 2050-1420. PMID 24540312.
  9. ^ a b c d e f g h Coop, Graham (2019). Population and Quantitative Genetics. pp. 22–44.
  10. ^ Arbisser, Ilana M.; Rosenberg, Noah A. (2020). "FST and the triangle inequality for biallelic markers". Theoretical Population Biology. 133: 117–129. doi:10.1016/j.tpb.2019.05.003. ISSN 0040-5809. PMC 8448291. PMID 31132375.
  11. ^ Pritchard, Jonathan K; Stephens, Matthew; Donnelly, Peter (2000). "Inference of Population Structure Using Multilocus Genotype Data". Genetics. 155 (2): 945–959. doi:10.1093/genetics/155.2.945. ISSN 1943-2631. PMID 10835412.
  12. ^ Alexander, D. H.; Novembre, J.; Lange, K. (2009). "Fast model-based estimation of ancestry in unrelated individuals". Genome Research. 19 (9): 1655–1664. doi:10.1101/gr.094052.109. ISSN 1088-9051. PMC 2752134. PMID 19648217.
  13. ^ a b c d Novembre J, Ramachandran S (2011). "Perspectives on human population structure at the cusp of the sequencing era". Annu Rev Genomics Hum Genet. 12: 245–74. doi:10.1146/annurev-genom-090810-183123. PMID 21801023.
  14. ^ Novembre, John (2016). "Pritchard, Stephens, and Donnelly on Population Structure". Genetics. 204 (2): 391–393. doi:10.1534/genetics.116.195164. ISSN 1943-2631. PMC 5068833. PMID 27729489.
  15. ^ Henn BM, Botigué LR, Gravel S, Wang W, Brisbin A, Byrnes JK, Fadhlaoui-Zid K, Zalloua PA, Moreno-Estrada A, Bertranpetit J, Bustamante CD, Comas D (January 2012). "Genomic ancestry of North Africans supports back-to-Africa migrations". PLOS Genet. 8 (1): e1002397. doi:10.1371/journal.pgen.1002397. PMC 3257290. PMID 22253600.
  16. ^ Wang C, Zöllner S, Rosenberg NA (August 2012). "A quantitative comparison of the similarity between genes and geography in worldwide human populations". PLOS Genet. 8 (8): e1002886. doi:10.1371/journal.pgen.1002886. PMC 3426559. PMID 22927824.
  17. ^ Menozzi, P; Piazza, A; Cavalli-Sforza, L (1978). "Synthetic maps of human gene frequencies in Europeans". Science. 201 (4358): 786–792. Bibcode:1978Sci...201..786M. doi:10.1126/science.356262. ISSN 0036-8075. PMID 356262.
  18. ^ Patterson N, Price AL, Reich D (December 2006). "Population structure and eigenanalysis". PLOS Genetics. 2 (12): e190. doi:10.1371/journal.pgen.0020190. PMC 1713260. PMID 17194218.
  19. ^ Novembre, John; Johnson, Toby; Bryc, Katarzyna; Kutalik, Zoltán; Boyko, Adam R.; Auton, Adam; Indap, Amit; King, Karen S.; Bergmann, Sven; Nelson, Matthew R.; Stephens, Matthew; Bustamante, Carlos D. (2008). "Genes mirror geography within Europe". Nature. 456 (7218): 98–101. Bibcode:2008Natur.456...98N. doi:10.1038/nature07331. ISSN 0028-0836. PMC 2735096. PMID 18758442.
  20. ^ McVean, Gil (2009). "A Genealogical Interpretation of Principal Components Analysis". PLOS Genetics. 5 (10): e1000686. doi:10.1371/journal.pgen.1000686. ISSN 1553-7404. PMC 2757795. PMID 19834557.
  21. ^ Jombart T, Pontier D, Dufour AB (April 2009). "Genetic markers in the playground of multivariate analysis". Heredity (Edinb). 102 (4): 330–41. doi:10.1038/hdy.2008.130. PMID 19156164. S2CID 10739417.
  22. ^ Li W, Cerise JE, Yang Y, Han H (August 2017). "Application of t-SNE to human genetic data". J Bioinform Comput Biol. 15 (4): 1750017. doi:10.1142/S0219720017500172. PMID 28718343.
  23. ^ a b Diaz-Papkovich A, Anderson-Trocmé L, Ben-Eghan C, Gravel S (November 2019). "UMAP reveals cryptic population structure and phenotype heterogeneity in large genomic cohorts". PLOS Genet. 15 (11): e1008432. doi:10.1371/journal.pgen.1008432. PMC 6853336. PMID 31675358.
  24. ^ Sakaue S, Hirata J, Kanai M, Suzuki K, Akiyama M, Lai Too C, Arayssi T, Hammoudeh M, Al Emadi S, Masri BK, Halabi H, Badsha H, Uthman IW, Saxena R, Padyukov L, Hirata M, Matsuda K, Murakami Y, Kamatani Y, Okada Y (March 2020). "Dimensionality reduction reveals fine-scale structure in the Japanese population with consequences for polygenic risk prediction". Nat Commun. 11 (1): 1569. Bibcode:2020NatCo..11.1569S. doi:10.1038/s41467-020-15194-z. PMC 7099015. PMID 32218440.
  25. ^ Battey CJ, Coffing GC, Kern AD (January 2021). "Visualizing population structure with variational autoencoders". G3 (Bethesda). 11 (1). doi:10.1093/g3journal/jkaa036. PMC 8022710. PMID 33561250.
  26. ^ Hellenthal G, Busby GB, Band G, Wilson JF, Capelli C, Falush D, Myers S (February 2014). "A genetic atlas of human admixture history". Science. 343 (6172): 747–751. Bibcode:2014Sci...343..747H. doi:10.1126/science.1243518. PMC 4209567. PMID 24531965.
  27. ^ Hamer D, Sirota L (January 2000). "Beware the chopsticks gene". Molecular Psychiatry. 5 (1): 11–3. doi:10.1038/sj.mp.4000662. PMID 10673763. S2CID 9760182.
  28. ^ Pritchard JK, Rosenberg NA (July 1999). "Use of unlinked genetic markers to detect population stratification in association studies". American Journal of Human Genetics. 65 (1): 220–8. doi:10.1086/302449. PMC 1378093. PMID 10364535.
  29. ^ a b Blanc J, Berg JJ (December 2020). "How well can we separate genetics from the environment?". eLife. 9: e64948. doi:10.7554/eLife.64948. PMC 7758058. PMID 33355092.
  30. ^ Devlin B, Roeder K (December 1999). "Genomic control for association studies". Biometrics. 55 (4): 997–1004. doi:10.1111/j.0006-341X.1999.00997.x. PMID 11315092.
  31. ^ Pritchard JK, Stephens M, Rosenberg NA, Donnelly P (July 2000). "Association mapping in structured populations". American Journal of Human Genetics. 67 (1): 170–81. doi:10.1086/302959. PMC 1287075. PMID 10827107.
  32. ^ Price AL, Patterson NJ, Plenge RM, Weinblatt ME, Shadick NA, Reich D (August 2006). "Principal components analysis corrects for stratification in genome-wide association studies". Nature Genetics. 38 (8): 904–9. doi:10.1038/ng1847. PMID 16862161. S2CID 8127858.
  33. ^ Yu J, Pressoir G, Briggs WH, Vroh Bi I, Yamasaki M, Doebley JF, et al. (February 2006). "A unified mixed-model method for association mapping that accounts for multiple levels of relatedness". Nature Genetics. 38 (2): 203–8. doi:10.1038/ng1702. PMID 16380716. S2CID 8507433.
  34. ^ Loh PR, Tucker G, Bulik-Sullivan BK, Vilhjálmsson BJ, Finucane HK, Salem RM, et al. (March 2015). "Efficient Bayesian mixed-model analysis increases association power in large cohorts". Nature Genetics. 47 (3): 284–90. doi:10.1038/ng.3190. PMC 4342297. PMID 25642633.
  35. ^ Zaidi AA, Mathieson I (November 2020). Perry GH, Turchin MC, Martin P (eds.). "Demographic history mediates the effect of stratification on polygenic scores". eLife. 9: e61548. doi:10.7554/eLife.61548. PMC 7758063. PMID 33200985.
  36. ^ Sohail M, Maier RM, Ganna A, Bloemendal A, Martin AR, Turchin MC, et al. (March 2019). Nordborg M, McCarthy MI, Barton NH, Hermisson J (eds.). "Polygenic adaptation on height is overestimated due to uncorrected stratification in genome-wide association studies". eLife. 8: e39702. doi:10.7554/eLife.39702. PMC 6428571. PMID 30895926.
  37. ^ Lawson DJ, Davies NM, Haworth S, Ashraf B, Howe L, Crawford A, et al. (January 2020). "Is population structure in the genetic biobank era irrelevant, a challenge, or an opportunity?". Human Genetics. 139 (1): 23–41. doi:10.1007/s00439-019-02014-8. PMC 6942007. PMID 31030318.