인간 게놈

Human genome
게놈 정보
인간 이배체 핵형의 도식적 표현으로, G 밴딩에서 볼 수 있는 주석이 달린 밴드 및 하위 밴드뿐만 아니라 게놈의 염색체 구성을 보여줍니다. 이 그림은 23번째 염색체 쌍의 암컷(XX) 및 수컷(XY) 버전을 모두 보여줍니다. 세포 주기 동안의 염색체 변화는 맨 위 중앙에 표시됩니다. 미토콘드리아 유전체는 왼쪽 하단에서 확장되는 것으로 나타났습니다.

인간 게놈인간을 위한 완전한 핵산 서열 세트로, 세포핵의 23개 염색체 쌍 내와 개별 미토콘드리아 내에서 발견되는 작은 DNA 분자 내에서 DNA로 인코딩됩니다. 이것들은 보통 핵 게놈과 미토콘드리아 게놈으로 분리되어 취급됩니다.[1] 인간 게놈에는 단백질을 코딩하는 DNA 서열과 단백질을 코딩하지 않는 다양한 종류의 DNA가 모두 포함됩니다. 후자는 리보솜 RNA, 전달 RNA, 리보자임, 작은 RNA 및 여러 유형의 조절 RNA에 대한 DNA 코딩과 같이 번역되지 않은 RNA에 대한 DNA 코딩을 포함하는 다양한 범주입니다. 또한 프로모터 및 관련 유전자 조절 요소, 스캐폴딩 영역, 텔로미어, 중심체복제 기원과 같은 구조적 및 복제 역할을 수행하는 DNA, 삽입바이러스 DNA, 비기능적 유사 유전자 및 단순하고 매우 반복적인 서열을 포함합니다. 인트론비코딩 DNA의 큰 비율을 차지합니다. 이 비부호화 DNA 중 일부는 유사유전자와 같은 비기능성 정크 DNA이지만 정크 DNA의 총량에 대해서는 확실한 합의가 이루어지지 않고 있습니다.

2022년 DNA 염기서열 분석으로 인간 유전체의 염기서열이 완전히 밝혀졌지만 아직 완전히 파악되지는 않았습니다. 전부는 아니지만 대부분의 유전자는 높은 처리량의 실험적 접근법과 생물정보학적 접근법의 조합으로 확인되었지만, 이들의 단백질 및 RNA 제품의 생물학적 기능을 추가로 설명하기 위해서는 여전히 많은 작업이 필요합니다(특히 완전한 CHM13v2.0 서열의 주석은 여전히 진행[2] 중입니다).


인간 게놈의 크기

2003년, 과학자들은 인간 게놈 전체의 85%를 시퀀싱했다고 보고했지만, 2020년 현재 적어도 8%는 여전히 누락되었습니다.[citation needed] 2021년, 과학자들은 완전한 여성 게놈의 염기서열을 분석했다고 보고했습니다. (즉, Y 염색체가 없습니다.)[3][4] 이 서열은 19,969개의 단백질 코딩 서열을 확인하여 게놈의 약 1.5%를 차지하고, 총 63,494개의 유전자를 확인했으며, 대부분은 비코딩 RNA 유전자입니다.[4] 게놈은 조절 DNA 서열, LINE, SINE, intron 및 아직 기능이 결정되지 않은 서열로 구성됩니다. 다른 세포주에서 약 62.5 x 10개의6 염기쌍으로 구성되어 있고 모든 수컷에서 발견되는 인간 Y 염색체는 2022년 1월에 완전히 염기서열이 밝혀졌습니다.[5]

표준 참조 유전체의 현재 버전은 GRCh38.p14(2023년 7월)입니다. 그것은 22개의 상염색체와 X염색체의 사본 1개와 Y염색체의 사본 1개로 구성되어 있습니다. 약 31억 개의 염기쌍(3.1Gb 또는 3.1 x 10bp9)이 포함되어 있습니다.[6] 이것은 여러 개인의 데이터를 기반으로 한 복합 게놈의 크기를 나타내지만 반수체 염색체 세트에 있는 DNA의 일반적인 양을 잘 나타냅니다. 대부분의 인간 세포는 이배체이기 때문에 두 배의 DNA를 포함하고 있습니다.

2023년 인간 판게놈 참조 초안이 발표되었습니다.[7] 다양한 민족성을 가진 사람들의 47개 유전체를 기반으로 합니다.[7] 더 넓은 표본에서 더 많은 생물 다양성을 포착하기 위한 개선된 참조 계획이 진행 중입니다.[7]

인간 개체의 유전체 간에는 상당한 차이가 있지만(단일 뉴클레오티드 변이[8] 인한 0.1% 정도, 인델을 고려할 때 0.6% 정도),[9] 이는 인간과 가장 가까운 살아있는 친척인 보노보스침팬지 사이의 차이보다 상당히 작습니다(~1).1% 고정 단일 nucleot 측면 변형 및 인델 포함 시 4%).

분자조직 및 유전자 함량

인간 참조 유전체의 전체 길이는 특정 개인의 서열을 나타내지 않습니다. 게놈은 22쌍의 염색체로 구성되어 있는데, 이 염색체는 상염색체라고 불리며, 암컷은 23번째, 수컷은 (XY) 성염색체로 구성되어 있습니다. 이 염색체들은 모두 세포핵 안에 들어 있는 커다란 선형 DNA 분자들입니다. 현재 버전의 인간 참조 유전체에는 각 상염색체의 사본 1개와 두 개의 성염색체(X와 Y)의 사본 1개가 포함되어 있습니다. DNA의 총 양은 31억 개의 염기쌍(3.1Gb)입니다.[12]

단백질 코딩 유전자

단백질 코딩 서열은 인간 게놈의 가장 널리 연구되고 가장 잘 알려진 구성 요소를 나타냅니다. 이러한 서열은 궁극적으로 모든 인간 단백질의 생산으로 이어지지만, 여러 생물학적 과정(예: DNA 재배열대체 pre-mRNA 스플라이싱)은 단백질 코딩 유전자의 수보다 더 많은 고유한 단백질의 생산으로 이어질 수 있습니다.

인간 게놈에는 19,000개에서 20,000개 사이의 단백질 코딩 유전자가 포함되어 있습니다. [13][14][15][16] 이 유전자들은 평균 10개의 인트론을 포함하고 있으며 인트론의 평균 크기는 약 6kb(6,000bp)입니다.[17] 이는 단백질 코딩 유전자의 평균 크기가 약 62kb이고 이러한 유전자가 게놈의 약 40%를 차지한다는 것을 의미합니다.[18]

엑손 서열은 성숙한 mRNA의 양쪽 끝에 있는 코딩 DNA와 번역되지 않은 영역(UTR)으로 구성됩니다. 코딩 DNA의 총 양은 게놈의 약 1-2%입니다.[19][17]

많은 사람들이 DNA를 코딩하는 것이 게놈의 가장 중요한 기능적 구성 요소라는 생각에 따라 게놈을 코딩 DNA와 비코딩 DNA로 나눕니다. 인간 게놈의 약 98-99%가 비코딩 DNA입니다.

비코딩 유전자

비코딩 RNA 분자는 세포, 특히 단백질 합성RNA 처리의 많은 반응에서 많은 필수적인 역할을 합니다. 비코딩 RNA는 tRNA, 리보솜 RNA, 마이크로RNA, snRNA 및 약 60,000개의 긴 비코딩 RNA(lncRNA)를 포함하는 기타 비코딩 RNA 유전자를 포함합니다.[20][21][22][23] 보고된 lncRNA 유전자의 수는 계속 증가하고 있고 인간 게놈의 정확한 수는 아직 정의되지 않았지만, 그 중 많은 수가 비기능적이라고 주장되고 있습니다.[24]

많은 ncRNA는 유전자 조절과 발현에 중요한 요소입니다. 비코딩 RNA는 후성유전학, 전사, RNA 스플라이싱 및 번역 기계에도 기여합니다. 유전자 조절 및 질병에서 RNA의 역할은 미개척 게놈 복잡성의 새로운 잠재적 수준을 제공합니다.[25]

유사유전자

유사유전자는 종종 유전자 복제에 의해 생성되는 단백질 코딩 유전자의 비활성 사본으로, 비활성화 돌연변이의 축적을 통해 기능하지 않게 되었습니다. 인간 게놈의 유사 유전자 수는 약 13,000개이며,[26] 일부 염색체의 경우 기능성 단백질 코딩 유전자 수와 거의 같습니다. 유전자 복제는 분자 진화 과정에서 새로운 유전 물질이 생성되는 주요 메커니즘입니다.

예를 들어, 후각 수용체 유전자 계열은 인간 게놈에서 가장 잘 문서화된 유사 유전자의 예 중 하나입니다. 이 과에 속하는 유전자의 60% 이상은 인간의 비기능성 유사유전자입니다. 이에 비해 생쥐 후각 수용체 유전자 계열의 유전자는 20%에 불과합니다. 연구에 따르면 가장 밀접하게 관련된 영장류들은 모두 비례적으로 더 적은 수의 유사 유전자를 가지고 있기 때문에 이것은 종별 특성이라고 합니다. 이 유전자 발견은 다른 포유류에 비해 인간의 후각이 덜 날카롭다는 것을 설명하는 데 도움이 됩니다.[27]

조절 DNA 염기서열

인간 게놈은 유전자 발현을 조절하는 데 중요한 다양한 조절 서열을 가지고 있습니다. 보수적인 추정치는 이러한 서열이 유전체의 8%를 구성한다는 것을 나타내지만,[28] ENCODE 프로젝트의 외삽은 유전체의 20-40[29]%[30]가 유전자 조절 서열임을 나타냅니다. 비코딩 DNA의 일부 유형은 단백질을 암호화하지는 않지만, 유전자가 발현되는 시기와 장소를 조절하는 유전자 "스위치"입니다(증강제라고 함).[31]

규제 시퀀스는 1960년대 후반부터 알려져 있습니다.[32] 인간 유전체에서 조절 서열을 처음 확인한 것은 재조합 DNA 기술에 의존했습니다.[33] 나중에 게놈 시퀀싱의 출현으로 이러한 서열의 식별은 진화적 보존에 의해 추론될 수 있었습니다. 예를 들어, 영장류 사이의 진화적 분기는 7,000만년에서 9,000만년 전에 발생했습니다.[34] 따라서 보존된 비암호화 서열을 식별하는 유전자 서열의 컴퓨터 비교는 유전자 조절과 같은 임무에서 유전자 서열의 중요성을 나타내는 지표가 될 것입니다.[35]

다른 유전체는 복어 유전체와 같이 보존 유도 방법을 돕기 위해 동일한 의도로 시퀀싱되었습니다.[36] 그러나 규제 시퀀스는 빠른 속도로 진화하는 동안 사라지고 다시 진화합니다.[37][38][39]

2012년 현재, DNA와 조절 단백질 사이의 상호작용을 ChIP-Seq 기술에 의해 찾는 것, 또는 DNA가 히스톤에 의해 포장되지 않는 갭(DNase 과민성 부위)으로 이동하고 있으며, 이들은 모두 조사된 세포 유형에서 활성 조절 서열이 어디에 있는지를 알려줍니다.[28]

반복적인 DNA 염기서열

반복적인 DNA 서열은 인간 게놈의 약 50%를 구성합니다.[40]

인간 게놈의 약 8%는 탠덤 DNA 배열 또는 탠덤 반복, 여러 개의 인접한 사본을 갖는 낮은 복잡성 반복 서열(예: "CAGCAGCAG...")[41]로 구성됩니다. 탠덤 서열은 2개의 뉴클레오티드에서 수십 개의 뉴클레오티드에 이르기까지 다양한 길이를 가질 수 있습니다. 이러한 서열은 밀접한 관련이 있는 개인들 사이에서도 매우 다양하기 때문에 계보 DNA 검사법의학 DNA 분석에 사용됩니다.[42]

10개 미만의 뉴클레오티드(예: 디뉴클레오티드 반복(AC))n의 반복 서열을 마이크로위성 서열이라고 합니다. 미세위성 서열 중 트리뉴클레오티드 반복은 단백질에 대한 유전자의 코딩 영역 내에서 발생하고 유전적 장애를 초래할 수 있기 때문에 특히 중요합니다. 예를 들어, 헌팅턴병은 인간 염색체 4번에 있는 헌팅틴 유전자 내의 삼뉴클레오티드 반복(CAG)n의 확장에서 비롯됩니다. 텔로미어(선형 염색체의 끝)는 서열의 미세위성 헥사뉴클레오티드 반복(TTAGGG)으로 끝납니다.n[citation needed]

더 긴 서열의 탠덤 반복(10-60 뉴클레오티드 길이의 반복 서열 배열)을 미니위성이라고 합니다.[43]

숙주 게놈 내의 다른 위치에서 자신의 사본을 복제하고 삽입할 수 있는 DNA 서열인 전위 유전 요소는 인간 게놈의 풍부한 구성 요소입니다. 가장 풍부한 트랜스포존 계통인 Alu는 약 5만 개의 활성 사본을 가지고 있으며,[44] 유전자 내 및 유전자 간 영역에 삽입할 수 있습니다.[45] 다른 계통인 LINE-1은 게놈당 약 100개의 활성 복사본을 가지고 있습니다(사람마다 그 수가 다릅니다).[46] 오래된 트랜스포존의 비기능성 유물과 함께 전체 인간 DNA의 절반 이상을 차지합니다.[47] 때때로 "점프 유전자"라고 불리는 트랜스포존은 인간 게놈을 조각하는 데 중요한 역할을 했습니다. 이러한 서열 중 일부는 내인성 레트로바이러스, 즉 유전체에 영구적으로 통합되어 현재 후속 세대로 전달되는 바이러스 서열의 DNA 사본을 나타냅니다.

인간 게놈 내의 모바일 요소는 Alu 요소를 포함한 LTR 레트로트랜스포존(전체 게놈의 8.3%), SINE(전체 게놈의 20.4%), SVA(SINE-VNTR-Alu) 및 Class II DNA 트랜스포존(전체 게놈의 2.9%)으로 분류할 수 있습니다.

정크 DNA

유전학자, 진화생물학자, 분자생물학자가 각기 다른 정의와 방법을 사용하기 때문에 게놈의 "기능적" 요소를 구성하는 것이 무엇인지에 대한 합의는 없습니다.[48][49] 용어의 모호성으로 인해 다양한 학파가 등장했습니다.[50] 진화론적 정의에서 "기능적" DNA는 코딩이든 비코딩이든 유기체의 적합성에 기여하므로 음의 진화적 압력에 의해 유지되는 반면 "비기능적" DNA는 유기체에 이점이 없으므로 중립적인 선택적 압력을 받습니다. 이러한 유형의 DNA는 정크 DNA[51][52] 설명되어 왔습니다. 유전적 정의에서 "기능적인" DNA는 표현형에 의해 DNA 분절이 나타나는 방법과 관련이 있고 "비기능적인" 것은 유기체에 대한 기능 상실 효과와 관련이 있습니다.[48] 생화학적 정의에서 "기능적" DNA는 분자 생성물(예: 비코딩 RNA) 및 유전자 또는 유전체 조절에서 기계적 역할을 갖는 생화학적 활성(예: 세포 유형, 상태 및 분자 과정과 같은 세포 수준 활성에 영향을 미치는 DNA 서열)을 지정하는 DNA 서열과 관련이 있습니다.[53][48] 기능적 DNA의 양에 대한 문헌의 합의는 없습니다. "기능"이 이해되는 방식에 따라 인간 게놈의 최대 90%가 기능적이지 않은 DNA([54]정크 DNA)일 가능성이 높기 때문입니다.[55] 정크 DNA가 미래에 기능을 획득하여 진화에 역할을 할 수도 있지만,[56] 이는 매우 드물게 일어날 가능성이 있습니다.[51] 마지막으로 생물체에 해롭고 음의 선택적 압력을 받는 DNA를 가비지 DNA라고 합니다.[52]

시퀀싱

최초의 인간 게놈 서열은 2001년 2월 인간 게놈 프로젝트[57] 셀레라 코퍼레이션에 의해 거의 완전한 초안 형태로 출판되었습니다.[58] 2004년 인간 게놈 프로젝트의 염기서열 분석 작업은 유전체 염기서열 초안을 발표하면서 발표되었는데, 이는 염기서열에 341개의 갭만을 남겨 당시 사용 가능한 기술로 염기서열을 분석할 수 없는 매우 반복적이고 다른 DNA를 나타냅니다.[59] 인간 게놈은 모든 척추동물 중에서 처음으로 이렇게 거의 완성된 서열로, 2018년 현재 100만 명이 넘는 개별 인간의 이배체 게놈이 차세대 서열 분석을 통해 결정되었습니다.[60]

이러한 데이터는 생물 의학, 인류학, 포렌식 및 기타 과학 분야에서 전 세계적으로 사용됩니다. 이러한 유전체 연구는 질병의 진단과 치료의 발전을 이끌었고, 인간 진화를 포함한 생물학의 많은 분야에서 새로운 통찰력을 얻었습니다.[citation needed]

2018년까지 총 유전자 수는 최소 46,831개,[61] 마이크로 RNA 유전자는 2300개로 증가했습니다.[62] 2018년 인구 조사에서 참조 서열에 포함되지 않은 또 다른 3억 개의 인간 게놈 염기를 발견했습니다.[63] 전체 유전체 서열을 획득하기 전에 인간 유전자 수에 대한 추정치는 50,000에서 140,000 사이였습니다(이러한 추정치가 비단백질 코딩 유전자를 포함하는지 여부에 대해 가끔 모호함).[64] 유전체 서열 품질과 단백질 코딩 유전자 식별 방법이 향상됨에 따라,[59] 인식된 단백질 코딩 유전자의 수는 19,000–20,000개로 떨어졌습니다.[65]

2022년 텔로미어-텔로미어(T2T) 컨소시엄은 X 염색체(2020년)와 22개의 상염색체(2021년 5월)의 모든 공백을 [4]메우며 인간 여성 게놈의 완전한 서열을 보고했습니다.[4][66] 이전에 시퀀싱되지 않은 부분에는 감염에 적응하고 생존하는 데 도움이 되는 면역 반응 유전자와 약물 반응 예측에 중요한 유전자가 포함되어 있습니다.[67] 완성된 인간 게놈 서열은 또한 개별 유기체로서의 인간 형성과 인간이 서로와 다른 종들 사이에서 어떻게 다른지에 대한 더 나은 이해를 제공할 것입니다.[67]

2001년 인간 게놈 프로젝트의 '완성'이 발표됐지만,[68] 전체 염기서열의 약 5~10%가 미확정 상태로 남아 수백 개의 공백이 남아 있었습니다. 누락된 유전자 정보는 대부분 반복적인 이종색소 영역과 중심체텔로미어 근처에 있었지만 일부 유전자를 암호화하는 유색소 영역도 있었습니다.[69] 이전에 시퀀싱되지 않은 다른 50개 영역에 걸친 서열이 결정되었을 때 2015년에는 160개의 유색성 갭이 남아 있었습니다.[70] 2020년에야 인간 염색체, 즉 X 염색체의 진정한 완전한 텔로미어 대 텔로미어 서열이 결정되었습니다.[71] 인간 상염색체인 8번 염색체의 첫 완전한 텔로미어 대 텔로미어 서열이 1년 후에 이어졌습니다.[72] 완전한 인간 게놈(Y 염색체 없음)은 2021년에 발표되었고, Y 염색체는 2022년 1월에 발표되었습니다.[4][3][73]

2023년 인간 판게놈 참조 초안이 발표되었습니다.[7] 다양한 민족성을 가진 사람들의 47개 유전체를 기반으로 합니다.[7] 더 넓은 표본에서 더 많은 생물 다양성을 포착하기 위한 개선된 참조 계획이 진행 중입니다.[7]

인간의 유전체 변이

인간 참조 유전체

일란성 쌍둥이를 제외한 모든 인간은 유전체 DNA 서열에 상당한 변화를 보입니다. 인간 참조 유전체(HRG)는 표준 서열 참조로 사용됩니다.

인간 참조 게놈과 관련하여 몇 가지 중요한 사항이 있습니다.

  • HRG는 반수체 서열입니다. 각 염색체는 한 번씩 표시됩니다.
  • HRG는 복합 시퀀스이며, 실제 인간 개체에는 해당되지 않습니다.
  • HRG는 오류, 모호성 및 알 수 없는 "갭"을 수정하기 위해 주기적으로 업데이트됩니다.
  • HRG는 결코 "이상적인" 또는 "완벽한" 인간 개인을 대표하지 않습니다. 단순히 비교 목적으로 사용되는 표준화된 표현 또는 모델입니다.

게놈 참조 컨소시엄은 HRG 업데이트를 담당합니다. 버전 38은 2013년 12월에 출시되었습니다.[74]

인간 유전자 변이 측정

인간의 유전적 변이에 대한 대부분의 연구는 염색체를 따라 개별 염기의 치환인 단일 뉴클레오티드 다형성(SNPs)에 초점을 맞추고 있습니다. 대부분의 분석에서는 SNP가 균일한 밀도로 발생하지는 않지만 유색 인간 게놈에서 평균적으로 1000개의 염기쌍 중 1개가 발생한다고 추정합니다. 따라서 대부분의 유전학자들은 이것이 어느 정도 자격을 갖추었지만, "인종에 관계없이 우리 모두는 유전적으로 99.9% 동일하다"는 대중적인 진술을 따릅니다.[75] 예를 들어, 유전체의 훨씬 더 큰 부분이 현재 카피 변화에 관여하는 것으로 생각됩니다.[76] 국제합맵 프로젝트는 인간 게놈의 SNP 변이를 목록화하기 위한 대규모 공동 작업을 수행하고 있습니다.[citation needed]

특정 유형의 작은 반복 서열의 유전체 유전자좌와 길이는 사람마다 매우 다양한데, 이는 DNA 지문DNA 친자확인 검사 기술의 근간입니다. 총 수억 개의 염기쌍을 가진 인간 게놈의 이질적인 부분은 또한 인간 집단 내에서 상당히 가변적인 것으로 생각됩니다 (그들은 너무 반복적이고 너무 길어서 현재의 기술로는 정확한 서열을 밝힐 수 없습니다). 이러한 영역은 유전자를 거의 포함하지 않으며, 중요한 표현형 효과가 반복 또는 헤테로크로마틴의 전형적인 변이에서 기인하는지 여부는 불분명합니다.

배우자 생식 세포의 대부분의 총체적인 게놈 돌연변이는 아마도 불가결한 배아를 낳을 것입니다. 그러나 많은 인간의 질병은 대규모 게놈 이상과 관련이 있습니다. 다운 증후군, 터너 증후군 및 기타 여러 질병은 전체 염색체의 비연속적인 기능으로 인해 발생합니다. 암세포는 염색체와 염색체 팔의 유배체를 가지고 있는 경우가 많지만, 유배체와 암의 인과관계는 아직 밝혀지지 않았습니다.

인간 유전체 변이 매핑

게놈 서열은 게놈의 모든 DNA 염기의 순서를 나열하는 반면, 게놈 지도는 랜드마크를 식별합니다. 게놈 지도는 게놈 서열보다 덜 상세하고 게놈 주위를 탐색하는 데 도움이 됩니다.[77][78]

변주 지도의 예로는 국제합지도 프로젝트에서 개발 중인 합지도가 있습니다. HapMap은 "인간 DNA 염기서열 변이의 일반적인 패턴을 설명할" 인간 게놈의 하플로타입 지도입니다.[79] 단일 DNA 문자 또는 염기를 포함하는 게놈의 소규모 변이 패턴을 카탈로그화합니다.

연구원들은 2008년 5월, 인간 게놈 전체에 걸친 대규모 구조적 변이에 대한 최초의 서열 기반 지도를 네이처지에 발표했습니다.[80][81] 대규모 구조적 변이는 DNA 염기 수가 수천 개에서 수백만 개에 이르는 사람들 간의 게놈 차이입니다. 어떤 것은 게놈 서열의 증가 또는 손실이고 다른 것은 서열의 증가를 다시 배열하는 것으로 나타납니다. 이러한 변형에는 특정 유전자에 대한 개인이 가지고 있는 사본 수의 차이, 삭제, 위치 이동 및 반전이 포함됩니다.

구조변화

구조적 변이는 점 돌연변이가 아닌 인간 게놈의 더 큰 부분에 영향을 미치는 유전적 변이를 말합니다. 종종, 구조적 변형(SV)은 삭제, 복제, 삽입, 반전 및 기타 재배열과 같은 50개의 염기쌍(bp) 이상의 변형으로 정의됩니다. 구조적 변이의 약 90%는 비코딩 삭제이지만 대부분의 개인은 이러한 삭제가 천 개 이상 있습니다. 삭제 크기는 수십 개의 염기쌍에서 수만 개의 bp에 이릅니다.[82] 평균적으로, 개인은 예를 들어 엑손을 삭제하는 등 코딩 영역을 변경하는 ~3개의 희귀한 구조적 변형을 가지고 있습니다. 약 2%의 개인이 초희귀 메가베이스 규모의 구조적 변형, 특히 재배열을 가지고 있습니다. 즉, 염색체 내에서 수백만 개의 염기쌍이 반전될 수 있으며, 초희귀는 개인이나 가족에게만 발견되므로 매우 최근에 발생했다는 것을 의미합니다.[82]

인간 게놈 전체의 SNP 빈도

단일 뉴클레오티드 다형성(SNPs)은 인간 게놈 전체에서 균질하게 발생하지 않습니다. 실제로 유전자 간 SNP 빈도에는 엄청난 다양성이 존재하며, 이는 유전자 간의 다른 선택적 압력뿐만 아니라 유전체 간의 다른 돌연변이 및 재조합 속도를 반영합니다. 그러나 SNP에 대한 연구는 코딩 영역에 치우쳐 있으며, 그로부터 생성된 데이터는 유전체 전체에 걸친 SNP의 전체 분포를 반영하지 못할 것으로 보입니다. 따라서 SNP 컨소시엄 프로토콜은 코딩 영역에 대한 편향이 없는 SNP를 식별하도록 설계되었으며 컨소시엄의 100,000개 SNP는 일반적으로 인간 염색체에 걸친 서열 다양성을 반영합니다. SNP 컨소시엄은 2001년 1분기 말까지 유전체 전체에서 확인된 SNP의 수를 300,000개로 확대하는 것을 목표로 하고 있습니다.[83]

22번 염색체의 장완을 따라 TSC SNP 분포(https://web.archive.org/web/20130903043223/http :/snp.cshl.org/ 에서 제공). 각 열은 1Mb 간격을 나타냅니다. 대략적인 세포유전학적 위치는 x축에 표시됩니다. SNP 밀도의 명확한 피크와 트로프를 볼 수 있으며, 이는 돌연변이, 재조합 및 선택 속도가 다를 수 있습니다.

비코딩 서열의 변화 및 코딩 서열의 동의어 변화는 일반적으로 비동의어 변화보다 더 일반적이며, 이는 아미노산 동일성을 지시하는 위치에서 더 큰 선택적 압력 감소 다양성을 반영합니다. 전이 변화는 전이보다 더 흔하며, CpG 디뉴클레오티드가 가장 높은 돌연변이율을 보이며, 아마도 탈아미노화로 인한 것으로 추정됩니다.[citation needed]

개인 유전체

개인 유전체 서열은 한 사람의 DNA를 구성하는 화학적 염기쌍의 (거의) 완전한 서열입니다. 단일 뉴클레오티드 다형성(SNPs)과 같은 유전자 변이로 인해 의료 치료가 사람마다 다른 영향을 미치기 때문에 개인 유전자 분석은 개인 유전자형에 따른 개인 맞춤형 의료 치료로 이어질 수 있습니다.[84]

최초로 결정된 개인 유전체 서열은 2007년 크레이그 벤터(Craig Venter)의 것이었습니다. 개인 유전체는 DNA 샘플을 제공한 자원봉사자의 신원을 보호하기 위해 공공 인간 유전체 프로젝트에서 시퀀싱되지 않았습니다. 그 서열은 다양한 집단의 여러 지원자의 DNA에서 파생되었습니다.[85] 그러나 Venter가 주도하는 Celera Genomics 게놈 시퀀싱 노력 초기에 복합 샘플 시퀀싱에서 단일 개인의 DNA를 사용하는 것으로 전환하기로 결정했으며 나중에 Venter 자신인 것으로 밝혀졌습니다. 따라서 2000년에 발표된 Celera 인간 게놈 서열은 주로 한 사람의 게놈 서열이었습니다. 초기 복합물 유래 데이터의 후속 대체와 이배체 서열의 결정은 원래 보고된 반수체 서열이 아닌 두 염색체 세트를 모두 나타내는 최초의 개인 유전체의 방출을 가능하게 했습니다.[86] 2008년 4월, 제임스 왓슨의 것도 완성되었습니다. 2009년 스티븐 퀘이크(Stephen Quake)는 자신의 디자인인 헬리스코프(Heliscope)의 시퀀서에서 파생된 자신의 게놈 서열을 발표했습니다.[87] 유안 애슐리(Euan Ashley)가 이끄는 스탠포드(Stanford) 팀은 퀘이크(Quake)의 게놈에 구현된 인간 게놈의 의학적 해석을 위한 프레임워크를 발표하고 처음으로 게놈에 기반한 전체 의학적 결정을 내렸습니다.[88] 그 팀은 일루미나의 개인 유전체 염기서열 분석 프로그램의 일부로 염기서열을 분석한 최초의 가족인 서부 가족으로 접근하는 방법을 더욱 확장했습니다.[89] 그 이후로 데스몬드 투투(Desmond Tutu)[91][92]팔레오-에스키모(Paleo-Eskimo)의 게놈 서열을 [90]포함한 수백 개의 개인 게놈 서열이 공개되었습니다.[93] 2012년에는 1092개의 유전체 중 2개의 패밀리 트리오의 전체 유전체 서열이 공개되었습니다.[8] 2013년 11월, 한 스페인 가족은 크리에이티브 커먼즈 퍼블릭 도메인 라이선스에 따라 4개의 개인 엑솜 데이터 세트(유전체의 약 1%)를 공개적으로 사용할 수 있도록 했습니다.[94][95] 개인 유전체 프로젝트(2005년 시작)는 유전체 서열과 그에 상응하는 의학적 표현형을 공개적으로 사용할 수 있는 몇 안 되는 프로젝트 중 하나입니다.[96][97]

개별 유전체의 시퀀싱은 이전에는 인식되지 않았던 유전적 복잡성의 수준을 더욱 드러냈습니다. 개인 유전체학은 SNP뿐만 아니라 구조적 변이에 기인한 인간 유전체의 상당한 수준의 다양성을 밝히는 데 도움이 되었습니다. 그러나 이러한 지식을 질병 치료 및 의료 분야에 적용하는 것은 시작에 불과합니다.[98] 엑솜 시퀀싱은 엑솜이 유전체 서열의 1%에 불과하지만 질병에 크게 기여하는 돌연변이의 약 85%를 차지하기 때문에 유전 질환 진단을 돕는 도구로 점점 인기를 얻고 있습니다.[99]

인간 녹아웃

인간의 경우 유전자 녹아웃이형접합 또는 동형접합 기능 상실 유전자 녹아웃으로 자연적으로 발생합니다. 이러한 녹아웃은 특히 이질적인 유전적 배경 내에서 구별하기 어려운 경우가 많습니다. 또한 저주파에서 발생하기 때문에 찾기가 어렵습니다.

높은 수준의 부모 관련성을 가진 집단은 순종 집단에 비해 더 많은 수의 동형 접합 유전자 녹아웃을 초래합니다.[100]

첫 사촌 결혼 비율이 높은 국가와 같이 친밀감이 높은 인구는 동형 접합 유전자 녹아웃의 가장 높은 빈도를 나타냅니다. 이러한 개체군에는 파키스탄, 아이슬란드 및 아미쉬 개체군이 포함됩니다. 부모 관련성이 높은 이 집단들은 인간의 특정 유전자의 기능을 결정하는 데 도움을 주는 인간 녹아웃 연구의 대상이 되었습니다. 특정 녹아웃을 구별함으로써, 연구자들은 녹아웃된 유전자를 특성화하는 것을 돕기 위해 이 개인들의 표현형 분석을 사용할 수 있습니다.

동형 접합 유전자 녹아웃을 보유한 자손으로 이어지는 첫 번째 사촌 교배(이중선으로 표시된 이형 녹아웃 교배를 운반하는 운반체 둘 다)를 나타내는 혈통

특정 유전자의 녹아웃은 유전 질환을 유발하거나 잠재적으로 유익한 영향을 미치거나 표현형 효과가 전혀 나타나지 않을 수도 있습니다. 그러나 녹아웃의 표현형 효과와 인간에 대한 효과를 결정하는 것은 어려울 수 있습니다. 녹아웃을 특성화하고 임상적으로 해석하는 데 어려움이 있는 것은 DNA 변이체의 호출, 단백질 기능의 중단(주석) 결정, 모자이크식이 표현형에 미치는 영향의 양을 고려하는 것입니다.[100]

인간 녹아웃을 조사한 주요 연구 중 하나는 파키스탄 심근경색 위험 연구입니다. APOC3 유전자에 대한 이형 접합 기능 상실 유전자 녹아웃을 보유한 개인은 돌연변이가 없는 개인에 비해 고지방 식사를 섭취한 후 혈중 중성지방이 낮은 것으로 밝혀졌습니다. 그러나 APOC3 유전자의 동형 접합 기능 상실 유전자 녹아웃을 가진 개인은 기능성 APOC3 단백질을 생성하지 않기 때문에 지방 부하 테스트 후 혈액에서 가장 낮은 수준의 트리글리세리드를 나타냈습니다.[101]

인간의 유전적 장애

인간 생물학의 대부분의 측면은 유전적(유전적) 요소와 비유전적(환경적) 요소를 모두 포함합니다. 일부 유전적 변이는 자연에서 의학적이지 않은 생물학적 측면(키, 눈 색깔, 특정 화합물의 맛이나 냄새를 맡을 수 있는 능력 등)에 영향을 미칩니다. 더욱이, 일부 유전적 장애는 적절한 환경적 요인(식이와 같은)과 결합하여 질병을 유발할 뿐입니다. 이러한 주의사항으로 유전적 장애는 유전체 DNA 서열 변이로 인한 임상적으로 정의된 질병으로 설명될 수 있습니다. 가장 단순한 경우에, 그 장애는 단일 유전자의 변이와 관련이 있을 수 있습니다. 예를 들어, 낭포성 섬유증은 CFTR 유전자의 돌연변이에 의해 발생하며, 1,300개 이상의 다른 돌연변이가 알려져 있는 백인 인구에서 가장 흔한 열성 질환입니다.[102]

특정 유전자의 질병을 유발하는 돌연변이는 대개 유전자 기능 측면에서 심각하고 다행히 드물어 유전적 장애도 마찬가지로 개별적으로 드문 경우입니다. 그러나 유전적 장애를 유발하기 위해 다양한 유전자가 존재하기 때문에, 종합적으로 볼 때, 특히 소아과 의학에서 알려진 의학적 상태의 중요한 구성 요소를 구성합니다. 분자적으로 특징지어지는 유전 질환은 근본적인 원인 유전자가 확인된 질환입니다. 현재 OMIM 데이터베이스에는 약 2,200개의 그러한 장애가 주석이 달려 있습니다.[102]

유전 질환에 대한 연구는 종종 가족 기반 연구를 통해 수행됩니다. 특히 핀란드, 프랑스-캐나다, 유타, 사르데냐 등과 같은 소위 설립자 인구의 경우에는 인구 기반 접근법이 사용되는 경우가 있습니다. 유전 질환의 진단 및 치료는 일반적으로 임상/의학 유전학 교육을 받은 유전학자-물리학자에 의해 수행됩니다. 인간 게놈 프로젝트의 결과는 유전자 관련 질환에 대한 유전자 검사의 가용성을 높이고, 결국 치료법을 개선할 가능성이 있습니다. 부모는 유전병에 대한 검진을 받고, 그 결과, 유전의 가능성, 그리고 자손의 유전을 피하거나 개선하는 방법에 대해 상담을 받을 수 있습니다.

완전한 여분의 염색체 또는 누락된 염색체부터 단일 뉴클레오티드 변화에 이르기까지 다양한 종류의 DNA 서열 변이가 있습니다. 일반적으로 인간 개체군에서 자연적으로 발생하는 유전적 변이는 표현형적으로 중립적이며, 즉, 개인의 생리학에 감지할 수 있는 영향이 거의 또는 전혀 없는 것으로 추정됩니다(진화 기간 동안 정의된 적합성에는 부분적인 차이가 있을 수 있음). 유전적 장애는 알려진 모든 유형의 서열 변이에 의해 발생할 수 있습니다. 새로운 유전 질환을 분자적으로 특성화하기 위해서는 특정 유전체 서열 변이와 조사 중인 임상 질환 사이의 인과 관계를 확립할 필요가 있습니다. 이러한 연구는 인간 분자 유전학의 영역을 구성합니다.

Human Genome and International HapMap Project의 등장으로 당뇨병, 천식, 편두통, 조현병 등과 같은 많은 일반적인 질병 상태에 대한 미묘한 유전적 영향을 탐구할 수 있게 되었습니다. 특정 유전자의 유전자 서열 변이와 이러한 질병 중 일부 사이에 일부 인과 관계가 이루어졌지만, 종종 일반 언론에서 많은 홍보와 함께 일반적으로 이러한 질병은 원인이 복잡하기 때문에 일반적으로 유전적 장애 그 자체로 간주되지 않습니다. 많은 다른 유전적 및 환경적 요인을 포함합니다. 따라서 특정 질병을 유전 질환이라고 불러야 하는지 여부에 대해 특정 경우에 이견이 있을 수 있습니다.

추가적으로 언급되는 유전 질환은 칼만 증후군파이퍼 증후군(유전자 FGFR1), 푹스 각막이상증(유전자 TCF4), 허쉬스프룽병(유전자 RET 및 FECH), 바데트-비들 증후군 1(유전자 CCDC28B 및 BBS1), 바데트-비들 증후군 10(유전자 BBS10), 파시오스카풀루머성 근이영양증 2형(유전자 D4Z4 및 SMCHD1)입니다.[103]

게놈 시퀀싱은 유전자 장애를 초래할 돌연변이를 보다 정확하게 찾기 위해 게놈을 특정 위치로 좁힐 수 있게 되었습니다. 또한 NGS(Next Generation Sequencing)라고 하는 새로운 시퀀싱 절차를 사용할 수 있는 유전체 시퀀싱과 동시에 CNV(복사 변이체) 및 단일 뉴클레오티드 변이체(SNV)를 검출할 수 있습니다.[104] 이것은 게놈의 약 1-2% 정도의 작은 부분만을 분석합니다. 이 시퀀싱 결과는 Usher 증후군, 망막 질환, 청각 장애, 당뇨병, 뇌전증, Lee 질병, 유전성 암, 신경 근육 질환, 일차 면역 결핍, 중증 복합 면역 결핍(SCID) 및 미토콘드리아 질환을 포함한 유전 질환의 임상 진단에 사용될 수 있습니다. NGS는 또한 임신 전에 질병의 보균자를 식별하는 데 사용할 수 있습니다. 이번 염기서열 분석에서 검출 가능한 질병은 Tay-Sachs병, Bloom 증후군, Gaucher병, Canavan병, 가족성 자율성 장애, 낭포성 섬유증, 척추 근위축증, fragile-X 증후군 등입니다. Next Genome Sequencing은 특정 민족 집단에서 더 널리 퍼진 질병을 구체적으로 찾기 위해 좁혀질 수 있습니다.[106]

일부 인간의 유전적 장애에 대한 유병률 및 관련 유전자/염색체
무질서 유행 염색체 또는 유전자 관련
염색체 상태
다운증후군 1:600 21번 염색체
클라인펠터 증후군 1:500–1000 수컷 추가 X염색체
터너 증후군 1:2000 여자 X염색체 소실
겸상적혈구빈혈 아프리카 일부 지역에서 출생 50명 중 1명; 다른 곳에서는 더 희귀함 β-글로빈(염색체 11번)
블룸증후군 1:48000 아슈케나지 유대인 BLM
유방암/난소암(감수성) 이러한 암 종류의 경우 ~5% BRCA1, BRCA2
FAP(유전성 비 용종성 대장균) 1:3500 APC
린치 증후군 전체 장암의 5-10% MLH1, MSH2, MSH6, PMS2
판코니 빈혈 1:13000 출생 FANCC
신경학적 조건
헌팅턴병 1:20000 헌팅틴
알츠하이머병 - 조기 발병 1:2500 PS1, PS2, APP
테이삭스 아슈케나지 유대인의 1:3600 출생 헥사 유전자(염색체 15번)
카나반병 동유럽 유대인 혈통 2.5% ASPA 유전자(염색체 17번)
가족성 자율성 장애 발견 이후 전 세계적으로 알려진 600건의 사례 IKBKAP 유전자(염색체 9번)
취약 X 증후군 남자 1.4:10000, 여자 0.9:10000 FMR1 유전자(X염색체 상)
점막지방증 IV형 아슈케나지 유대인 1:90~1:100 MCOLN1
기타조건
낭포성 섬유증 1:2500 CFTR
뒤첸 근위축 1:3500 소년들 디스트로핀
베커 근위축 1.5–6:100,000 남성 DMD
베타탈라세미아 1:100000 HBB
선천성 부신 비대증 아메리카 원주민과 유픽 에스키모인 1:280

1:15,000 미국계 백인

CYP21A2
글리코겐 저장병 I형 1:100,000명의 미국 출생자 G6PC
메이플 시럽 소변병 1:180000 in the U.S.

메노나이트/아미 공동체 1:176

오스트리아 1시 25분

BCKDHA, BCKDHB, DBT, DLD
니만-픽병, SMPD1 관련 전 세계적으로 1,200건 SMPD1
어셔 증후군 1:23000 in the U.S.

노르웨이 1:28000

독일 1:12 500

CDH23, CLRN1, DFNB31, GPR98, MYO7A, PCDH15, USH1C, USH1G, USH2A

진화

포유류 유전체에 대한 비교 유전체학 연구에 따르면 약 2억 년 전 현존하는 계통이 분기된 이후 인간 유전체의 약 5%가 진화에 의해 보존되었으며, 대부분의 유전자가 포함되어 있음을 시사합니다.[107][108] 공개된 침팬지 유전체는 인간 유전체와 직접 염기서열 비교에서 1.23% 차이가 납니다.[109] 이 수치의 약 20%는 각 종 내의 변이에 의해 설명되며, 공유 유전자에서 인간과 침팬지 사이에 ~1.06%의 일관된 서열 발산만 남깁니다.[110] 그러나 이 뉴클레오티드는 인간 또는 침팬지에게 고유한 기능 유전자의 약 6%를 포함하여 공유되지 않는 각 유전체의 부분에 의해 왜소합니다.[111]

즉, 인간과 침팬지의 상당한 차이는 공유된 유전자의 DNA 서열 변화보다는 유전자의 수, 기능 및 발현의 유전체 수준 변화에 상응하거나 더 기인할 수 있습니다. 실제로 인간 내에서도 인간 게놈의 5-15%를 구성할 수 있는 이전에 인식되지 않은 양의 복사 번호 변이(CNV)가 있는 것으로 밝혀졌습니다. 즉, 인간 사이에는 +/- 500,000,000개의 염기쌍이 존재할 수 있으며, 일부는 활성 유전자, 다른 일부는 비활성화되거나 다른 수준에서 활성화될 수 있습니다. 이 발견의 완전한 중요성은 두고 봐야 합니다. 평균적으로 인간의 전형적인 단백질 코딩 유전자는 침팬지 이종상동체와 단지 2개의 아미노산 치환에 의해 다릅니다. 인간 유전자의 거의 3분의 1이 침팬지 이종상동체와 정확히 같은 단백질 번역을 가지고 있습니다. 인간 염색체 2번은 침팬지 염색체 12번과 13번의 융합 산물에 해당하는 것으로 두 유전체의 주요 차이점입니다.[112]

인간은 최근 우리의 진화 과정에서 후각 수용체 유전자의 놀라운 손실을 겪었는데, 이는 대부분의 다른 포유류에 비해 상대적으로 조잡한 후각을 설명해줍니다. 진화적 증거는 인간과 다른 몇몇 영장류 종들의 색각의 출현이 후각의 필요성을 감소시켜 왔다고 암시합니다.[113]

2016년 9월, 과학자들은 인간의 DNA 유전자 연구에 기초하여, 오늘날 세계의 모든 비 아프리카인들은 5만년에서 8만년 전 사이에 아프리카를 떠났던 단일 개체군으로 추적될 수 있다고 보고했습니다.[114]

미토콘드리아 DNA

인간 미토콘드리아 DNA는 의심할 여지 없이 미토콘드리아 질환에 중요한 역할을 하기 때문에 유전학자들에게 엄청난 관심을 받고 있습니다. 그것은 또한 인간의 진화에 대해 조명합니다. 예를 들어, 인간 미토콘드리아 게놈의 변이 분석은 모계 혈통에 있는 모든 인간에 대한 최근 공통 조상의 가정으로 이어졌습니다(미토콘드리아 이브 참조).

미토콘드리아 DNA(mtDNA)는 복제 오류를 확인하는 시스템이 없기 [115]때문에 핵 DNA보다 더 빠른 변화 속도를 보입니다. 이렇게 20배 더 높은 돌연변이율을 통해 mtDNA를 보다 정확한 모계 혈통 추적에 사용할 수 있습니다.[citation needed] 개체군의 mtDNA에 대한 연구를 통해 시베리아에서[116] 아메리카 원주민의 이주나 동남아시아에서 폴리네시아인의 이주와 같은 고대 이주 경로를 추적할 수 있었습니다.[citation needed] 순수 모계 혈통을 통해 물려받은 유럽 유전자 혼합물에 네안데르탈인 DNA의 흔적이 없다는 것을 보여주는 데도 사용됐습니다.[117] mtDNA 유전 방식이 제한적이거나 전혀 없기 때문에 이 결과(네안데르탈인 mtDNA의 흔적 없음)는 네안데르탈인 조상의 비율이 크거나 해당 mtDNA에 대한 강력한 양성 선택이 없는 한 가능성이 높습니다. 예를 들어, 5세대를 거슬러 올라가면, 한 사람의 조상 32명 중 단 1명만이 그 사람의 mtDNA에 기여했습니다. 따라서 이 32명 중 한 명이 순수한 네안데르탈인이라면, 그 사람의 상염색체 DNA의 ~3%가 네안데르탈인일 것으로 예상되지만, 그들은 네안데르탈인 mtDNA의 흔적이 없을 가능성이 ~97%일 것입니다.[citation needed]

후성유전체

후성유전학은 염색질 포장, 히스톤 변형 및 DNA 메틸화와 같은 주요 DNA 서열을 초월하고 유전자 발현, 유전체 복제 및 기타 세포 과정을 조절하는 데 중요한 인간 유전체의 다양한 특징을 설명합니다. 후생유전학적 마커는 특정 유전자의 전사를 강화 및 약화시키지만 실제 DNA 뉴클레오티드의 서열에는 영향을 미치지 않습니다. DNA 메틸화는 유전자 발현에 대한 후성유전학적 통제의 주요 형태이며 후성유전학에서 가장 많이 연구된 주제 중 하나입니다. 인간의 DNA 메틸화 프로파일은 발달하는 동안 극적인 변화를 경험합니다. 초기 생식선 세포에서 게놈은 메틸화 수준이 매우 낮습니다. 이러한 낮은 수준은 일반적으로 활성 유전자를 설명합니다. 발달이 진행됨에 따라 부모 각인 태그는 메틸화 활성을 증가시킵니다.[118][119]

후성유전학적 패턴은 개인 내 조직 간뿐만 아니라 개인 자체 간에도 식별할 수 있습니다. 후성유전자 상태에서만 차이가 나는 동일한 유전자를 후성유전자라고 합니다. 에피알레는 개인의 유전자형에 의해 직접 결정되는 것, 유전자형에 의해 영향을 받는 것, 그리고 유전자형에 의해 완전히 독립된 것의 세 가지로 분류될 수 있습니다. 후성유전체는 또한 환경적 요인의 영향을 많이 받습니다. 식이, 독소 및 호르몬은 후성유전 상태에 영향을 미칩니다. 식이 조작에 대한 연구는 메틸 결핍 식이가 후성유전체의 저메틸화와 관련이 있음을 보여주었습니다. 이러한 연구는 후성유전학을 환경과 유전체 사이의 중요한 인터페이스로 확립합니다.[120]

참고 항목

참고문헌

  1. ^ Brown TA (2002). The Human Genome (2nd ed.). Oxford: Wiley-Liss.
  2. ^ "Homo sapiens Annotation Report". www.ncbi.nlm.nih.gov. Retrieved 17 April 2022.
  3. ^ a b "CHM13 T2T v1.1 – Genome – Assembly – NCBI". www.ncbi.nlm.nih.gov. Retrieved 26 July 2021.
  4. ^ a b c d e Nurk S, Koren S, Rhie A, Rautiainen M, Bzikadze AV, Mikheenko A, et al. (April 2022). "The complete sequence of a human genome". Science. 376 (6588): 44–53. Bibcode:2022Sci...376...44N. doi:10.1126/science.abj6987. PMC 9186530. PMID 35357919. S2CID 247854936.
  5. ^ Rhie A, Nurk S, Cechova M, Hoyt SJ, Taylor DJ, Altemose N, et al. (September 2023). "The complete sequence of a human Y chromosome". Nature. 621 (7978): 344–354. Bibcode:2023Natur.621..344R. doi:10.1038/s41586-023-06457-y. PMC 10752217. PMID 37612512. Received 2 December 2022
  6. ^ "Human assembly and gene annotation". Ensembl. 2022. Retrieved 28 February 2024.
  7. ^ a b c d e f Liao WW, Asri M, Ebler J, Doerr D, Haukness M, Hickey G, et al. (May 2023). "A draft human pangenome reference". Nature. 617 (7960): 312–324. Bibcode:2023Natur.617..312L. doi:10.1038/s41586-023-05896-x. PMC 10172123. PMID 37165242.
  8. ^ a b Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE, et al. (November 2012). "An integrated map of genetic variation from 1,092 human genomes". Nature. 491 (7422): 56–65. Bibcode:2012Natur.491...56T. doi:10.1038/nature11632. PMC 3498066. PMID 23128226.
  9. ^ Auton A, Brooks LD, Durbin RM, Garrison EP, Kang HM, Korbel JO, et al. (October 2015). "A global reference for human genetic variation". Nature. 526 (7571): 68–74. Bibcode:2015Natur.526...68T. doi:10.1038/nature15393. PMC 4750478. PMID 26432245.
  10. ^ Chimpanzee Sequencing Analysis Consortium (September 2005). "Initial sequence of the chimpanzee genome and comparison with the human genome". Nature. 437 (7055): 69–87. Bibcode:2005Natur.437...69.. doi:10.1038/nature04072. PMID 16136131. S2CID 2638825.
  11. ^ Varki A, Altheide TK (December 2005). "Comparing the human and chimpanzee genomes: searching for needles in a haystack". Genome Research. 15 (12): 1746–1758. doi:10.1101/gr.3737405. PMID 16339373.
  12. ^ "Human genome assembly". Ensembl. Retrieved 23 January 2024.
  13. ^ Abascal F, Juan D, Jungreis I, Martinez L, Rigau M, Rodriguez JM, et al. (2018). "Loose ends: almost one in five human genes still have unresolved coding status". Nucleic Acids Research. 46 (14): 7070–7084. doi:10.1093/nar/gky587. PMC 6101605. PMID 29982784.
  14. ^ Hatje K, Mühlhausen S, Simm D, Killmar M (2019). "The Protein-Coding Human Genome: Annotating High-Hanging Fruits". BioEssays. 41 (11): 1900066. doi:10.1002/bies.201900066.
  15. ^ Omenn GS, Lane L, Overall CM, Cristea IM, Corrales FJ, Lindskog C, et al. (2020). "Research on the human proteome reaches a major milestone:> 90% of predicted human proteins now credibly detected, according to the HUPO human proteome project". Journal of Proteome Research. 19 (12): 4735–4746. doi:10.1021/acs.jproteome.0c00485. hdl:10261/229720. PMID 32931287.
  16. ^ Amaral P, Carbonell-Sala S, De La Vega FM, Faial T, Frankish A, Gingeras T, et al. (2023). "The status of the human gene catalogue". Nature. 622 (7981): 41–47. arXiv:2303.13996. Bibcode:2023Natur.622...41A. doi:10.1038/s41586-023-06490-x. PMC 10575709. PMID 37794265.
  17. ^ a b Piovesan A, Antonaros F, Vitale L, Strippoli P, Pelleri MC, Caracausi M (2019). "Human protein-coding genes and gene feature statistics in 2019". BMC Research Notes. 12: 315. doi:10.1186/s13104-019-4343-8. PMC 6549324.
  18. ^ Francis WR, Wörheide G (June 2017). "Similar Ratios of Introns to Intergenic Sequence across Animal Genomes". Genome Biology and Evolution. 9 (6): 1582–1598. doi:10.1093/gbe/evx103. PMC 5534336. PMID 28633296.
  19. ^ Hatje K, Mühlhausen S, Simm D, Killmar M (2019). "The Protein-Coding Human Genome: Annotating High-Hanging Fruits". BioEssays. 41 (11): 1900066. doi:10.1002/bies.201900066.
  20. ^ Pennisi E (September 2012). "Genomics. ENCODE project writes eulogy for junk DNA". Science. 337 (6099): 1159–1161. doi:10.1126/science.337.6099.1159. PMID 22955811.
  21. ^ Iyer MK, Niknafs YS, Malik R, Singhal U, Sahu A, Hosono Y, et al. (March 2015). "The landscape of long noncoding RNAs in the human transcriptome". Nature Genetics. 47 (3): 199–208. doi:10.1038/ng.3192. PMC 4417758. PMID 25599403.
  22. ^ Eddy SR (December 2001). "Non-coding RNA genes and the modern RNA world". Nature Reviews Genetics. 2 (12): 919–929. doi:10.1038/35103511. PMID 11733745. S2CID 18347629.
  23. ^ Managadze D, Lobkovsky AE, Wolf YI, Shabalina SA, Rogozin IB, Koonin EV (2013). "The vast, conserved mammalian lincRNome". PLOS Computational Biology. 9 (2): e1002917. Bibcode:2013PLSCB...9E2917M. doi:10.1371/journal.pcbi.1002917. PMC 3585383. PMID 23468607.
  24. ^ Palazzo AF, Lee ES (2015). "Non-coding RNA: what is functional and what is junk?". Frontiers in Genetics. 6: 2. doi:10.3389/fgene.2015.00002. PMC 4306305. PMID 25674102.
  25. ^ Mattick JS, Makunin IV (April 2006). "Non-coding RNA". Human Molecular Genetics. 15 (Spec No 1): R17–29. doi:10.1093/hmg/ddl046. PMID 16651366.
  26. ^ Pei B, Sisu C, Frankish A, Howald C, Habegger L, Mu XJ, et al. (2012). "The GENCODE pseudogene resource". Genome Biology. 13 (9): R51. doi:10.1186/gb-2012-13-9-r51. PMC 3491395. PMID 22951037.
  27. ^ Gilad Y, Man O, Pääbo S, Lancet D (March 2003). "Human specific loss of olfactory receptor genes". Proceedings of the National Academy of Sciences of the United States of America. 100 (6): 3324–3327. Bibcode:2003PNAS..100.3324G. doi:10.1073/pnas.0535697100. PMC 152291. PMID 12612342.
  28. ^ a b Bernstein BE, Birney E, Dunham I, Green ED, Gunter C, Snyder M (September 2012). "An integrated encyclopedia of DNA elements in the human genome". Nature. 489 (7414): 57–74. Bibcode:2012Natur.489...57T. doi:10.1038/nature11247. PMC 3439153. PMID 22955616.
  29. ^ Birney E (5 September 2012). "ENCODE: My own thoughts". Ewan's Blog: Bioinformatician at large.
  30. ^ Stamatoyannopoulos JA (September 2012). "What does our genome encode?". Genome Research. 22 (9): 1602–1611. doi:10.1101/gr.146506.112. PMC 3431477. PMID 22955972.
  31. ^ Carroll SB, Gompel N, Prudhomme B (May 2008). "Regulating Evolution". Scientific American. 298 (5): 60–67. Bibcode:2008SciAm.298e..60C. doi:10.1038/scientificamerican0508-60. PMID 18444326.
  32. ^ Miller JH, Ippen K, Scaife JG, Beckwith JR (1968). "The promoter-operator region of the lac operon of Escherichia coli". J. Mol. Biol. 38 (3): 413–420. doi:10.1016/0022-2836(68)90395-1. PMID 4887877.
  33. ^ Wright S, Rosenthal A, Flavell R, Grosveld F (1984). "DNA sequences required for regulated expression of beta-globin genes in murine erythroleukemia cells". Cell. 38 (1): 265–273. doi:10.1016/0092-8674(84)90548-8. PMID 6088069. S2CID 34587386.
  34. ^ Nei M, Xu P, Glazko G (February 2001). "Estimation of divergence times from multiprotein sequences for a few mammalian species and several distantly related organisms". Proceedings of the National Academy of Sciences of the United States of America. 98 (5): 2497–2502. Bibcode:2001PNAS...98.2497N. doi:10.1073/pnas.051611498. PMC 30166. PMID 11226267.
  35. ^ Loots GG, Locksley RM, Blankespoor CM, Wang ZE, Miller W, Rubin EM, et al. (April 2000). "Identification of a coordinate regulator of interleukins 4, 13, and 5 by cross-species sequence comparisons". Science. 288 (5463): 136–140. Bibcode:2000Sci...288..136L. doi:10.1126/science.288.5463.136. PMID 10753117. 요약 2009년 11월 6일 Wayback Machine에서 아카이브됨
  36. ^ Meunier M. "Genoscope and Whitehead announce a high sequence coverage of the Tetraodon nigroviridis genome". Genoscope. Archived from the original on 16 October 2006. Retrieved 12 September 2006.
  37. ^ Romero IG, Ruvinsky I, Gilad Y (July 2012). "Comparative studies of gene expression and the evolution of gene regulation". Nature Reviews Genetics. 13 (7): 505–516. doi:10.1038/nrg3229. PMC 4034676. PMID 22705669.
  38. ^ Schmidt D, Wilson MD, Ballester B, Schwalie PC, Brown GD, Marshall A, et al. (May 2010). "Five-vertebrate ChIP-seq reveals the evolutionary dynamics of transcription factor binding". Science. 328 (5981): 1036–1040. Bibcode:2010Sci...328.1036S. doi:10.1126/science.1186176. PMC 3008766. PMID 20378774.
  39. ^ Wilson MD, Barbosa-Morais NL, Schmidt D, Conboy CM, Vanes L, Tybulewicz VL, et al. (October 2008). "Species-specific transcription in mice carrying human chromosome 21". Science. 322 (5900): 434–438. Bibcode:2008Sci...322..434W. doi:10.1126/science.1160930. PMC 3717767. PMID 18787134.
  40. ^ Treangen TJ, Salzberg SL (January 2012). "Repetitive DNA and next-generation sequencing: computational challenges and solutions". Nature Reviews Genetics. 13 (1): 36–46. doi:10.1038/nrg3117. PMC 3324860. PMID 22124482.
  41. ^ Duitama J, Zablotskaya A, Gemayel R, Jansen A, Belet S, Vermeesch JR, et al. (May 2014). "Large-scale analysis of tandem repeat variability in the human genome". Nucleic Acids Research. 42 (9): 5728–5741. doi:10.1093/nar/gku212. PMC 4027155. PMID 24682812.
  42. ^ Pierce BA (2012). Genetics : a conceptual approach (4th ed.). New York: W.H. Freeman. pp. 538–540. ISBN 978-1-4292-3250-0.
  43. ^ "minisatellite, n. meanings, etymology and more Oxford English Dictionary". www.oed.com. Retrieved 8 October 2023.
  44. ^ Bennett EA, Keller H, Mills RE, Schmidt S, Moran JV, Weichenrieder O, et al. (December 2008). "Active Alu retrotransposons in the human genome". Genome Research. 18 (12): 1875–1883. doi:10.1101/gr.081737.108. PMC 2593586. PMID 18836035.
  45. ^ Liang KH, Yeh CT (2013). "A gene expression restriction network mediated by sense and antisense Alu sequences located on protein-coding messenger RNAs". BMC Genomics. 14: 325. doi:10.1186/1471-2164-14-325. PMC 3655826. PMID 23663499.
  46. ^ Brouha B, Schustak J, Badge RM, Lutz-Prigge S, Farley AH, Moran JV, et al. (April 2003). "Hot L1s account for the bulk of retrotransposition in the human population". Proceedings of the National Academy of Sciences of the United States of America. 100 (9): 5280–5285. Bibcode:2003PNAS..100.5280B. doi:10.1073/pnas.0831042100. PMC 154336. PMID 12682288.
  47. ^ Barton NH, Briggs DE, Eisen JA, Goldstein DB, Patel NH (2007). Evolution. Cold Spring Harbor, NY: Cold Spring Harbor Laboratory Press. ISBN 978-0-87969-684-9.[페이지 필요]
  48. ^ a b c Kellis M, Wold B, Snyder MP, Bernstein BE, Kundaje A, Marinov GK, et al. (April 2014). "Defining functional DNA elements in the human genome". Proceedings of the National Academy of Sciences of the United States of America. 111 (17): 6131–6138. Bibcode:2014PNAS..111.6131K. doi:10.1073/pnas.1318948111. PMC 4035993. PMID 24753594.
  49. ^ Linquist S, Doolittle WF, Palazzo AF (April 2020). "Getting clear about the F-word in genomics". PLOS Genetics. 16 (4): e1008702. doi:10.1371/journal.pgen.1008702. PMC 7153884. PMID 32236092.
  50. ^ Doolittle WF (December 2018). "We simply cannot go on being so vague about 'function'". Genome Biology. 19 (1): 223. doi:10.1186/s13059-018-1600-4. PMC 6299606. PMID 30563541.
  51. ^ a b Graur D (2017). "Rubbish DNA: the functionless fraction of the human genome.". Evolution of the Human Genome I. Evolutionary Studies. Tokyo: Springer. pp. 19–60. arXiv:1601.06047. doi:10.1007/978-4-431-56603-8_2. ISBN 978-4-431-56603-8. S2CID 17826096.
  52. ^ a b Pena SD (2021). "An Overview of the Human Genome: Coding DNA and Non-Coding DNA". In Haddad LA (ed.). Human Genome Structure, Function and Clinical Considerations. Cham: Springer Nature. pp. 5–7. ISBN 978-3-03-073151-9.
  53. ^ Abascal F, Acosta R, Addleman NJ, Adrian J, et al. (30 July 2020). "Expanded Encyclopaedias of DNA elements in the Human and Mouse Genomes". Nature. 583 (7818): 699–710. Bibcode:2020Natur.583..699E. doi:10.1038/s41586-020-2493-4. PMC 7410828. PMID 32728249. Operationally, functional elements are defined as discrete, linearly ordered sequence features that specify molecular products (for example, protein-coding genes or noncoding RNAs) or biochemical activities with mechanistic roles in gene or genome regulation (for example, transcriptional promoters or enhancers).
  54. ^ Graur D (July 2017). "An Upper Limit on the Functional Fraction of the Human Genome". Genome Biology and Evolution. 9 (7): 1880–1885. doi:10.1093/gbe/evx121. PMC 5570035. PMID 28854598.요약 위치:
  55. ^ Dunham I, Kundaje A, Aldred SF, Collins PJ, Davis CA, Doyle F, et al. (The ENCODE Project Consortium) (September 2012). "An integrated encyclopedia of DNA elements in the human genome". Nature. 489 (7414): 57–74. Bibcode:2012Natur.489...57T. doi:10.1038/nature11247. PMC 3439153. PMID 22955616. These data enabled us to assign biochemical functions for 80% of the genome, in particular outside of the well-studied protein-coding regions..
  56. ^ Andolfatto P (October 2005). "Adaptive evolution of non-coding DNA in Drosophila". Nature. 437 (7062): 1149–52. Bibcode:2005Natur.437.1149A. doi:10.1038/nature04107. PMID 16237443. S2CID 191219. 요약 위치:
  57. ^ "International Human Genome Sequencing Consortium Publishes Sequence and Analysis of the Human Genome". National Human Genome Research Institute. National Institutes of Health, U.S. Department of Health and Human Resources. 12 February 2001.
  58. ^ Pennisi E (February 2001). "The human genome". Science. 291 (5507): 1177–1180. doi:10.1126/science.291.5507.1177. PMID 11233420. S2CID 38355565.
  59. ^ a b International Human Genome Sequencing Consortium (October 2004). "Finishing the euchromatic sequence of the human genome". Nature. 431 (7011): 931–945. Bibcode:2004Natur.431..931H. doi:10.1038/nature03001. PMID 15496913.
  60. ^ Molteni M (19 November 2018). "Now You Can Sequence Your Whole Genome For Just $200". Wired.
  61. ^ Saey TH (17 September 2018). "A recount of human genes ups the number to at least 46,831". Science News.
  62. ^ Alles J, Fehlmann T, Fischer U, Backes C, Galata V, Minet M, et al. (April 2019). "An estimate of the total number of true human miRNAs". Nucleic Acids Research. 47 (7): 3353–3364. doi:10.1093/nar/gkz097. PMC 6468295. PMID 30820533.
  63. ^ Zhang S (28 November 2018). "300 Million Letters of DNA Are Missing From the Human Genome". The Atlantic.
  64. ^ Wade N (23 September 1999). "Number of Human Genes Is Put at 140,000, a Significant Gain". The New York Times.
  65. ^ Ezkurdia I, Juan D, Rodriguez JM, Frankish A, Diekhans M, Harrow J, et al. (November 2014). "Multiple evidence strands suggest that there may be as few as 19,000 human protein-coding genes". Human Molecular Genetics. 23 (22): 5866–5878. doi:10.1093/hmg/ddu309. PMC 4204768. PMID 24939910.
  66. ^ Wrighton K (February 2021). "Filling in the gaps telomere to telomere". Nature Milestones: Genomic Sequencing: S21.
  67. ^ a b "Scientists sequence the complete human genome for the first time". CNN. 31 March 2022. Retrieved 1 April 2022.
  68. ^ Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. (February 2001). "Initial sequencing and analysis of the human genome". Nature. 409 (6822): 860–921. Bibcode:2001Natur.409..860L. doi:10.1038/35057062. hdl:2027.42/62798. PMID 11237011.
  69. ^ Zhang S (28 November 2018). "300 Million Letters of DNA Are Missing From the Human Genome". The Atlantic. Retrieved 16 August 2019.
  70. ^ Chaisson MJ, Huddleston J, Dennis MY, Sudmant PH, Malig M, Hormozdiari F, et al. (January 2015). "Resolving the complexity of the human genome using single-molecule sequencing". Nature. 517 (7536): 608–611. Bibcode:2015Natur.517..608C. doi:10.1038/nature13907. PMC 4317254. PMID 25383537.
  71. ^ Miga KH, Koren S, Rhie A, Vollger MR, Gershman A, Bzikadze A, et al. (September 2020). "Telomere-to-telomere assembly of a complete human X chromosome". Nature. 585 (7823): 79–84. Bibcode:2020Natur.585...79M. doi:10.1038/s41586-020-2547-7. PMC 7484160. PMID 32663838.
  72. ^ Logsdon GA, Vollger MR, Hsieh P, Mao Y, Liskovykh MA, Koren S, et al. (May 2021). "The structure, function and evolution of a complete human chromosome 8". Nature. 593 (7857): 101–107. Bibcode:2021Natur.593..101L. doi:10.1038/s41586-021-03420-7. PMC 8099727. PMID 33828295.
  73. ^ "Genome List – Genome – NCBI". www.ncbi.nlm.nih.gov. Retrieved 26 July 2021.
  74. ^ NCBI. "GRCh38 – hg38 – Genome – Assembly". ncbi.nlm.nih.gov. Retrieved 15 March 2019.
  75. ^ "from Bill Clinton's 2000 State of the Union address". Archived from the original on 21 February 2017. Retrieved 14 June 2007.
  76. ^ Redon R, Ishikawa S, Fitch KR, Feuk L, Perry GH, Andrews TD, et al. (November 2006). "Global variation in copy number in the human genome". Nature. 444 (7118): 444–454. Bibcode:2006Natur.444..444R. doi:10.1038/nature05329. PMC 2669898. PMID 17122850.
  77. ^ "What's a Genome?". Genomenewsnetwork.org. 15 January 2003. Retrieved 31 May 2009.
  78. ^ "Fact Sheet: Genome Mapping: A Guide to the Genetic Highway We Call the Human Genome". National Center for Biotechnology Information. U.S. National Library of Medicine, National Institutes of Health. 29 March 2004. Archived from the original on 19 July 2010. Retrieved 31 May 2009.
  79. ^ "About the Project". International HapMap Project. Archived from the original on 15 May 2008. Retrieved 31 May 2009.
  80. ^ "2008 Release: Researchers Produce First Sequence Map of Large-Scale Structural Variation in the Human Genome". genome.gov. Retrieved 31 May 2009.
  81. ^ Kidd JM, Cooper GM, Donahue WF, Hayden HS, Sampas N, Graves T, et al. (May 2008). "Mapping and sequencing of structural variation from eight human genomes". Nature. 453 (7191): 56–64. Bibcode:2008Natur.453...56K. doi:10.1038/nature06862. PMC 2424287. PMID 18451855.
  82. ^ a b Abel HJ, Larson DE, Regier AA, Chiang C, Das I, Kanchi KL, et al. (July 2020). "Mapping and characterization of structural variation in 17,795 human genomes". Nature. 583 (7814): 83–89. Bibcode:2020Natur.583...83A. doi:10.1038/s41586-020-2371-0. PMC 7547914. PMID 32460305.
  83. ^ Gray IC, Campbell DA, Spurr NK (2000). "Single nucleotide polymorphisms as tools in human genetics". Human Molecular Genetics. 9 (16): 2403–2408. doi:10.1093/hmg/9.16.2403. PMID 11005795.
  84. ^ Lai E (June 2001). "Application of SNP technologies in medicine: lessons learned and future challenges". Genome Research. 11 (6): 927–929. doi:10.1101/gr.192301. PMID 11381021.
  85. ^ "Human Genome Project Completion: Frequently Asked Questions". genome.gov. Retrieved 31 May 2009.
  86. ^ Singer E (4 September 2007). "Craig Venter's Genome". MIT Technology Review. Retrieved 25 May 2010.
  87. ^ Pushkarev D, Neff NF, Quake SR (September 2009). "Single-molecule sequencing of an individual human genome". Nature Biotechnology. 27 (9): 847–850. doi:10.1038/nbt.1561. PMC 4117198. PMID 19668243.
  88. ^ Ashley EA, Butte AJ, Wheeler MT, Chen R, Klein TE, Dewey FE, et al. (May 2010). "Clinical assessment incorporating a personal genome". Lancet. 375 (9725): 1525–1535. doi:10.1016/S0140-6736(10)60452-7. PMC 2937184. PMID 20435227.
  89. ^ Dewey FE, Chen R, Cordero SP, Ormond KE, Caleshu C, Karczewski KJ, et al. (September 2011). "Phased whole-genome genetic risk in a family quartet using a major allele reference sequence". PLOS Genetics. 7 (9): e1002280. doi:10.1371/journal.pgen.1002280. PMC 3174201. PMID 21935354.
  90. ^ "Complete Genomics Adds 29 High-Coverage, Complete Human Genome Sequencing Datasets to Its Public Genomic Repository" (Press release).
  91. ^ Sample I (17 February 2010). "Desmond Tutu's genome sequenced as part of genetic diversity study". The Guardian.
  92. ^ Schuster SC, Miller W, Ratan A, Tomsho LP, Giardine B, Kasson LR, et al. (February 2010). "Complete Khoisan and Bantu genomes from southern Africa". Nature. 463 (7283): 943–947. Bibcode:2010Natur.463..943S. doi:10.1038/nature08795. PMC 3890430. PMID 20164927.
  93. ^ Rasmussen M, Li Y, Lindgreen S, Pedersen JS, Albrechtsen A, Moltke I, et al. (February 2010). "Ancient human genome sequence of an extinct Palaeo-Eskimo". Nature. 463 (7282): 757–762. Bibcode:2010Natur.463..757R. doi:10.1038/nature08835. PMC 3951495. PMID 20148029.
  94. ^ Corpas M, Cariaso M, Coletta A, Weiss D, Harrison AP, Moran F, et al. (12 November 2013). "A Complete Public Domain Family Genomics Dataset". bioRxiv 10.1101/000216.
  95. ^ Corpas M (June 2013). "Crowdsourcing the corpasome". Source Code for Biology and Medicine. 8 (1): 13. doi:10.1186/1751-0473-8-13. PMC 3706263. PMID 23799911.
  96. ^ Mao Q, Ciotlos S, Zhang RY, Ball MP, Chin R, Carnevali P, et al. (October 2016). "The whole genome sequences and experimentally phased haplotypes of over 100 personal genomes". GigaScience. 5 (1): 42. doi:10.1186/s13742-016-0148-z. PMC 5057367. PMID 27724973.
  97. ^ Cai B, Li B, Kiga N, Thusberg J, Bergquist T, Chen YC, et al. (September 2017). "Matching phenotypes to whole genomes: Lessons learned from four iterations of the personal genome project community challenges". Human Mutation. 38 (9): 1266–1276. doi:10.1002/humu.23265. PMC 5645203. PMID 28544481.
  98. ^ Gonzaga-Jauregui C, Lupski JR, Gibbs RA (2012). "Human genome sequencing in health and disease". Annual Review of Medicine. 63: 35–61. doi:10.1146/annurev-med-051010-162644. PMC 3656720. PMID 22248320.
  99. ^ Choi M, Scholl UI, Ji W, Liu T, Tikhonova IR, Zumbo P, et al. (November 2009). "Genetic diagnosis by whole exome capture and massively parallel DNA sequencing". Proceedings of the National Academy of Sciences of the United States of America. 106 (45): 19096–19101. Bibcode:2009PNAS..10619096C. doi:10.1073/pnas.0910672106. PMC 2768590. PMID 19861545.
  100. ^ a b Narasimhan VM, Xue Y, Tyler-Smith C (April 2016). "Human Knockout Carriers: Dead, Diseased, Healthy, or Improved?". Trends in Molecular Medicine. 22 (4): 341–351. doi:10.1016/j.molmed.2016.02.006. PMC 4826344. PMID 26988438.
  101. ^ Saleheen D, Natarajan P, Armean IM, Zhao W, Rasheed A, Khetarpal SA, et al. (April 2017). "Human knockouts and phenotypic analysis in a cohort with a high rate of consanguinity". Nature. 544 (7649): 235–239. Bibcode:2017Natur.544..235S. doi:10.1038/nature22034. PMC 5600291. PMID 28406212.
  102. ^ a b Hamosh A, Scott AF, Amberger J, Bocchini C, Valle D, McKusick VA (January 2002). "Online Mendelian Inheritance in Man (OMIM), a knowledgebase of human genes and genetic disorders". Nucleic Acids Research. 30 (1): 52–55. doi:10.1093/nar/30.1.52. PMC 99152. PMID 11752252.
  103. ^ Katsanis N (November 2016). "The continuum of causality in human genetic disorders". Genome Biology. 17 (1): 233. doi:10.1186/s13059-016-1107-9. PMC 5114767. PMID 27855690.
  104. ^ Alekseyev YO, Fazeli R, Yang S, Basran R, Maher T, Miller NS, et al. (2018). "A Next-Generation Sequencing Primer-How Does It Work and What Can It Do?". Academic Pathology. 5: 2374289518766521. doi:10.1177/2374289518766521. PMC 5944141. PMID 29761157.
  105. ^ Wong JC (2017). "Overview of the Clinical Utility of Next Generation Sequencing in Molecular Diagnoses of Human Genetic Disorders". In Wong LJ (ed.). Next Generation Sequencing Based Clinical Molecular Diagnosis of Human Genetic Disorders. Cham: Springer International Publishing. pp. 1–11. doi:10.1007/978-3-319-56418-0_1. ISBN 978-3-319-56416-6.
  106. ^ Fedick A, Zhang J (2017). "Next Generation of Carrier Screening". In Wong LJ (ed.). Next Generation Sequencing Based Clinical Molecular Diagnosis of Human Genetic Disorders. Cham: Springer International Publishing. pp. 339–354. doi:10.1007/978-3-319-56418-0_16. ISBN 978-3-319-56416-6.
  107. ^ Waterston RH, Lindblad-Toh K, Birney E, Rogers J, Abril JF, Agarwal P, et al. (December 2002). "Initial sequencing and comparative analysis of the mouse genome". Nature. 420 (6915): 520–562. Bibcode:2002Natur.420..520W. doi:10.1038/nature01262. PMID 12466850. the proportion of small (50–100 bp) segments in the mammalian genome that is under (purifying) selection can be estimated to be about 5%. This proportion is much higher than can be explained by protein-coding sequences alone, implying that the genome contains many additional features (such as untranslated regions, regulatory elements, non-protein-coding genes, and chromosomal structural elements) under selection for biological function.
  108. ^ Birney E, Stamatoyannopoulos JA, Dutta A, Guigó R, Gingeras TR, Margulies EH, et al. (June 2007). "Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project". Nature. 447 (7146): 799–816. Bibcode:2007Natur.447..799B. doi:10.1038/nature05874. PMC 2212820. PMID 17571346.
  109. ^ The Chimpanzee Sequencing Analysis Consortium (September 2005). "Initial sequence of the chimpanzee genome and comparison with the human genome". Nature. 437 (7055): 69–87. Bibcode:2005Natur.437...69.. doi:10.1038/nature04072. PMID 16136131. We calculate the genome-wide nucleotide divergence between human and chimpanzee to be 1.23%, confirming recent results from more limited studies.
  110. ^ The Chimpanzee Sequencing Analysis Consortium (September 2005). "Initial sequence of the chimpanzee genome and comparison with the human genome". Nature. 437 (7055): 69–87. Bibcode:2005Natur.437...69.. doi:10.1038/nature04072. PMID 16136131. we estimate that polymorphism accounts for 14–22% of the observed divergence rate and thus that the fixed divergence is ~1.06% or less
  111. ^ Demuth JP, De Bie T, Stajich JE, Cristianini N, Hahn MW (2006). "The evolution of mammalian gene families". PLOS ONE. 1 (1): e85. Bibcode:2006PLoSO...1...85D. doi:10.1371/journal.pone.0000085. PMC 1762380. PMID 17183716. Our results imply that humans and chimpanzees differ by at least 6% (1,418 of 22,000 genes) in their complement of genes, which stands in stark contrast to the oft-cited 1.5% difference between orthologous nucleotide sequences
  112. ^ The Chimpanzee Sequencing Analysis Consortium (September 2005). "Initial sequence of the chimpanzee genome and comparison with the human genome". Nature. 437 (7055): 69–87. Bibcode:2005Natur.437...69.. doi:10.1038/nature04072. PMID 16136131. Human chromosome 2 resulted from a fusion of two ancestral chromosomes that remained separate in the chimpanzee lineage
    Olson MV, Varki A (January 2003). "Sequencing the chimpanzee genome: insights into human evolution and disease". Nature Reviews Genetics. 4 (1): 20–28. doi:10.1038/nrg981. PMID 12509750. S2CID 205486561. Large-scale sequencing of the chimpanzee genome is now imminent.
  113. ^ Gilad Y, Wiebe V, Przeworski M, Lancet D, Pääbo S (January 2004). "Loss of olfactory receptor genes coincides with the acquisition of full trichromatic vision in primates". PLOS Biology. 2 (1): E5. doi:10.1371/journal.pbio.0020005. PMC 314465. PMID 14737185. Our findings suggest that the deterioration of the olfactory repertoire occurred concomitant with the acquisition of full trichromatic color vision in primates.
  114. ^ Zimmer C (21 September 2016). "How We Got Here: DNA Points to a Single Migration From Africa". The New York Times. Retrieved 22 September 2016.
  115. ^ Copeland WC (January 2012). "Defects in mitochondrial DNA replication and human disease". Critical Reviews in Biochemistry and Molecular Biology. 47 (1): 64–74. doi:10.3109/10409238.2011.632763. PMC 3244805. PMID 22176657.
  116. ^ Nielsen R, Akey JM, Jakobsson M, Pritchard JK, Tishkoff S, Willerslev E (January 2017). "Tracing the peopling of the world through genomics". Nature. 541 (7637): 302–310. Bibcode:2017Natur.541..302N. doi:10.1038/nature21347. PMC 5772775. PMID 28102248.
  117. ^ Sykes B (9 October 2003). "Mitochondrial DNA and human history". The Human Genome. Archived from the original on 7 September 2015. Retrieved 19 September 2006.
  118. ^ Misteli T (February 2007). "Beyond the sequence: cellular organization of genome function". Cell. 128 (4): 787–800. doi:10.1016/j.cell.2007.01.028. PMID 17320514. S2CID 9064584.
  119. ^ Bernstein BE, Meissner A, Lander ES (February 2007). "The mammalian epigenome". Cell. 128 (4): 669–681. doi:10.1016/j.cell.2007.01.033. PMID 17320505. S2CID 2722988.
  120. ^ Scheen AJ, Junien C (May–June 2012). "[Epigenetics, interface between environment and genes: role in complex diseases]". Revue Médicale de Liège. 67 (5–6): 250–257. PMID 22891475.

외부 링크