레퍼런스 게놈
Reference genome레퍼런스 게놈(레퍼런스 어셈블리라고도 함)은 디지털 핵산 배열 데이터베이스로, 한 종의 이상화된 개별 유기체의 유전자 세트의 대표적인 예로서 과학자들에 의해 조립된다.그것들은 많은 개별 기증자들의 DNA 배열로부터 조립되기 때문에, 참조 게놈은 어떤 개별 유기체의 유전자 세트를 정확하게 나타내지 못한다.대신에 참조는 각 기증자의 다른 DNA 배열의 반수체 모자이크를 제공한다.예를 들어 가장 최근의 인간 기준 게놈(어셈블리 GRCh38/hg38)은 60개 이상의 게놈 클론 라이브러리에서 파생됩니다.[1] 다양한 종류의 바이러스, 박테리아, 곰팡이, 식물, 동물에 대한 참조 게놈이 있다.
DNA 염기서열 분석 비용이 떨어지고 새로운 게놈 염기서열 분석 기술이 등장함에 따라 더 많은 게놈 염기서열이 계속해서 생성되고 있습니다.참조 게놈은 일반적으로 새로운 게놈을 만드는 지침으로 사용되며, 초기 인간 게놈 프로젝트보다 훨씬 빠르고 저렴하게 조립할 수 있습니다.대부분의 사람들은 전체 게놈의 염기서열을 가지고 있습니다. 제임스 D처럼요. 왓슨은 그들의 게놈을 이렇게 조립했다.[2][3]대부분의 게놈에서, 참조는 단일 개체의 DNA에 대한 좋은 근사치를 제공합니다.그러나 인간의 주요 조직적합성 복합체와 생쥐의 주요 비뇨기 단백질과 같이 대립 유전자의 다양성이 높은 지역에서는 기준 게놈이 다른 [4][5][6]개체와 유의하게 다를 수 있다.참조(어셈블리 NCBI36/hg18)와 왓슨의 게놈을 비교한 결과 330만 개의 단일 뉴클레오티드 다형성 차이가 나타났으며, 그의 DNA의 약 1.4%는 참조 게놈과 [7][2]전혀 일치하지 않았다.대규모 변동이 있는 것으로 알려진 영역의 경우 기준 궤적을 따라 대체 궤적 세트가 조립된다.
참조 게놈은 Ensembl 또는 UCSC Genome [8]Browser와 같은 전용 브라우저를 사용하여 여러 위치에서 온라인으로 액세스할 수 있습니다.
참조 게놈의 특성
길이 측정
게놈의 길이는 다양한 방법으로 측정될 수 있다.
게놈 길이를 측정하는 간단한 방법은 [9]조립체의 염기쌍 수를 세는 것입니다.
황금 경로는 단수형 및 의사 자동 염색체 [10][11]영역과 같은 중복 영역을 생략하는 길이의 대체 척도이다.보통 물리 지도 위에 시퀀스 정보를 적층하여 비계 정보를 결합함으로써 구축됩니다.이는 게놈이 어떻게 생겼는지에 대한 '최상의 추정치'로, 일반적으로 갭을 포함하므로 일반적인 염기쌍 [12]조립체보다 길어집니다.
포유류의 게놈
인간과 생쥐의 기준 게놈은 유럽생물정보연구소, 국립생명공학정보센터, 생어연구소, 와신맥도넬 게놈연구소 등 다수의 게놈연구소에서 20명 미만의 과학자로 구성된 Genome Reference Consortium(GRC)에 의해 유지 및 개선된다.Gton University in St. Louis. GRC는 더 적은 갭을 포함하는 새로운 배열을 만들고 그 배열에서 잘못된 표현을 수정함으로써 참조 게놈을 지속적으로 개선하고 있습니다.
인간 참조 게놈
원래 인간 참조 게놈은 뉴욕 버팔로에서 온 13명의 익명의 지원자들로부터 파생되었다.기부자들은 1997년 3월 23일 일요일 버팔로 뉴스에 광고를 통해 모집되었다.첫 번째 10명의 남성과 10명의 여성 자원봉사자들은 이 프로젝트의 유전 상담사들과 약속을 잡고 DNA를 추출한 헌혈을 하도록 초대받았다.DNA 샘플이 처리된 결과, 기준 게놈의 약 80%가 8명의 사람으로부터 왔고 RP11이라고 불리는 한 명의 남성이 전체의 66%를 차지한다.ABO 혈액형 시스템은 사람마다 다르지만, 인간 참조 게놈에는 O 대립 유전자가 포함되어 있을 뿐이지만,[13][14][15][16][7] 다른 유전자는 주석이 붙어 있습니다.
인간 참조 게놈 GRCh38의 최신 패치가 2022년 [17]2월 3일 게놈 참조 컨소시엄에서 공개됐다.이 구조는 Y를 제외한 모든 염색체에 대해 공백이 없는 반면, 첫 번째 버전은 약 150,000개의 [14]공백이 있었다.GRCh38 어셈블리에서는 100개 이상의 갭이 닫히거나 감소했으며, 이 중 12개는 초장기 판독을 [19]통한 나노포어 시퀀싱에 의한 것이었습니다.참조에 기여하는 게놈 클론 라이브러리의 수는 꾸준히 증가하여 수년간 60개 이상으로 증가하였으나 개별 RP11은 게놈의 70%를 차지하고 있다.[1] 이 익명의 남성에 대한 게놈 분석은 그가 아프리카-유럽계 혈통임을 시사한다.[1]
참조 게놈은 게놈 특징의 색인 또는 위치추적으로서의 유용성을 제공하는 "단일" 구별된 배열이기 때문에, 그것이 얼마나 인간 게놈을 충실하게 표현하는지와 그 가변성에 있어 한계가 있다.1000개의 게놈 프로젝트는 참조 게놈으로는 [20]표현할 수 없는 인간 집단 간의 게놈 변이에 대한 정보를 제공하기 위한 데이터베이스를 만들고 있다.
최신 게놈 어셈블리는 다음과 같습니다.[21]
릴리스명 | 발매일 | 동등한 UCSC 버전 |
---|---|---|
GRCh38 | 2013년 12월 | hg38 |
GRCh37 | 2009년 2월 | hg19 |
NCBI 빌드 36.1 | 2006년 3월 | hg18 |
NCBI 빌드 35 | 2004년 5월 | hg17 |
NCBI 빌드 34 | 2003년 7월 | hg16 |
마우스 참조 게놈
최신 마우스 게놈 어셈블리는 다음과 같습니다.[21]
릴리스명 | 발매일 | 동등한 UCSC 버전 |
---|---|---|
GRCm39 | 2020년 6월 | mm39 |
GRCm38 | 2011년 12월 | mm10 |
NCBI 빌드 37 | 2007년 7월 | mm9 |
NCBI 빌드 36 | 2006년 2월 | mm8 |
NCBI 빌드 35 | 2005년 8월 | mm7 |
NCBI 빌드 34 | 2005년 3월 | mm6 |
레퍼런스
- ^ a b c "How many individuals were sequenced for the human reference genome assembly?". Genome Reference Consortium. Retrieved 7 April 2022.
- ^ a b Wheeler DA, Srinivasan M, Egholm M, Shen Y, Chen L, McGuire A, He W, Chen YJ, Makhijani V, Roth GT, Gomes X, Tartaro K, Niazi F, Turcotte CL, Irzyk GP, Lupski JR, Chinault C, Song XZ, Liu Y, Yuan Y, Nazareth L, Qin X, Muzny DM, Margulies M, Weinstock GM, Gibbs RA, Rothberg JM (2008). "The complete genome of an individual by massively parallel DNA sequencing". Nature. 452 (7189): 872–6. Bibcode:2008Natur.452..872W. doi:10.1038/nature06884. PMID 18421352.
- ^ 예외적으로 J. 크레이그 벤터는 엽총 배열 방법을 사용하여 DNA를 배열하고 조립했습니다.
- ^ MHC Sequencing Consortium (1999). "Complete sequence and gene map of a human major histocompatibility complex". Nature. 401 (6756): 921–923. Bibcode:1999Natur.401..921T. doi:10.1038/44853. PMID 10553908. S2CID 186243515.
- ^ Logan DW, Marton TF, Stowers L (2008). Vosshall LB (ed.). "Species specificity in major urinary proteins by parallel evolution". PLOS ONE. 3 (9): e3280. Bibcode:2008PLoSO...3.3280L. doi:10.1371/journal.pone.0003280. PMC 2533699. PMID 18815613.
- ^ Hurst J, Beynon RJ, Roberts SC, Wyatt TD (October 2007). Urinary Lipocalins in Rodenta:is there a Generic Model?. Chemical Signals in Vertebrates 11. Springer New York. ISBN 978-0-387-73944-1.
- ^ a b Wade, Nicholas (May 31, 2007). "Genome of DNA Pioneer Is Deciphered". New York Times. Retrieved February 21, 2009.
- ^ Flicek P, Aken BL, Beal K, et al. (January 2008). "Ensembl 2008". Nucleic Acids Res. 36 (Database issue): D707–14. doi:10.1093/nar/gkm988. PMC 2238821. PMID 18000006.
- ^ "Help - Glossary - Homo sapiens - Ensembl genome browser 87". www.ensembl.org.
- ^ "Golden path length VectorBase". www.vectorbase.org. Archived from the original on 2020-08-07. Retrieved 2016-12-12.
- ^ "Help - Glossary - Homo sapiens - Ensembl genome browser 87". www.ensembl.org.
- ^ "Whole assembly vs Golden path length in Ensembl? - SEQanswers". seqanswers.com. Retrieved 2016-12-12.
- ^ Scherer, Stewart (2008). A short guide to the human genome. CSHL Press. p. 135. ISBN 978-0-87969-791-4.
- ^ a b Editorial (October 2010). "E pluribus unum". Nature Methods. 7 (5): 910–918. doi:10.1038/nmeth0510-331. PMID 20440876.
- ^ Ballouz, Sara; Dobin, Alexander; Gillis, Jesse A. (9 August 2019). "Is it time to change the reference genome?". Genome Biology. 20 (1): 159. doi:10.1186/s13059-019-1774-4. PMC 6688217. PMID 31399121.
- ^ Rosenfeld, Jeffrey A.; Mason, Christopher E.; Smith, Todd M.; Seo, Jeong-Sun (11 July 2012). "Limitations of the Human Reference Genome for Personalized Genomics". PLOS ONE. 7 (7): e40294. Bibcode:2012PLoSO...740294R. doi:10.1371/journal.pone.0040294. PMC 3394790. PMID 22811759.
- ^ "GRCh38.p14 - Genome - Assembly". NCBI. Retrieved 2022-04-07.
- ^ Nurk, Sergey; Koren, Sergey; Rhie, Arang; Mikko, Rautianen; Bikadze, Andrey (2022-03-31). "The complete sequence of a human genome". Human Genomics. 376 (6588): 44–53. Bibcode:2022Sci...376...44N. doi:10.1126/science.abj6987. PMC 9186530. PMID 35357919. S2CID 247854936.
- ^ Jain, Miten; Koren, Sergey; Miga, Karen H; Quick, Josh; Rand, Arthur C; Sasani, Thomas A; Tyson, John R; Beggs, Andrew D; Dilthey, Alexander T (2018-01-29). "Nanopore sequencing and assembly of a human genome with ultra-long reads". Nature Biotechnology. 36 (4): 338–345. doi:10.1038/nbt.4060. ISSN 1546-1696. PMC 5889714. PMID 29431738.
- ^ "1000 Genomes A Deep Catalog of Human Genetic Variation". Internationalgenome.org. Retrieved 2022-07-19.
- ^ a b "UCSC Genome Bioinformatics: FAQ". genome.ucsc.edu. Retrieved 2016-08-18.