엽총 시퀀싱
Shotgun sequencing유전학에서 엽총 염기서열 분석은 무작위 DNA 가닥의 염기서열 분석을 위해 사용되는 방법이다. 그것은 산탄총의 빠르게 팽창하고 있는 준랜덤 샷 그룹과 유사하게 이름이 지어졌다.
DNA 염기서열의 체인-종단법("생어 염기서열")은 100~1000 염기쌍의 짧은 DNA 가닥에만 사용할 수 있다. 이 크기 제한 때문에 긴 시퀀스를 작은 조각으로 세분하여 따로 배열할 수 있으며, 이러한 시퀀스를 조합하여 전체 시퀀스를 제공한다.
엽총 시퀀싱에서 DNA는 무작위로 수많은 작은 세그먼트로 분할되며, 판독을 얻기 위해 체인 종료 방법을 사용하여 시퀀싱된다.[1][2] 대상 DNA에 대한 다중 중복 읽기는 이 단편화 및 염기서열을 여러 차례 수행하여 얻는다. 그런 다음 컴퓨터 프로그램은 서로 다른 읽기의 겹치는 끝을 사용하여 연속적인 순서로 그것들을 조립한다.[1]
산탄총 염기서열 분석은 전체 게놈 염기서열 분석을 가능하게 하는 전구 기술 중 하나이다.
예
예를 들어 다음 두 번의 샷건 판독을 고려해 보십시오.
스트랜드 | 순서 |
---|---|
오리지 | AGCATGCTGCAGTCATGCTTAGGCTA |
첫 번째 산탄총 시퀀스 | AGCATGCTGCAGTCATGCT------- -------------------TAGGCTA |
두 번째 샷건 시퀀스 | AGCATG-------------------- ------CTGCAGTCATGCTTAGGCTA |
재건 | AGCATGCTGCAGTCATGCTTAGGCTA |
이 극도로 단순화된 예에서 읽기는 원래 시퀀스의 전체 길이를 포함하지 않지만, 4개의 읽기는 끝의 중첩을 사용하여 원래 시퀀스로 조립하여 정렬하고 정렬할 수 있다. 실제로 이 과정은 모호함과 순서 오류가 난무하는 엄청난 양의 정보를 사용한다. 복잡한 게놈의 조립은 반복적인 시퀀스의 풍부함에 의해 더욱 복잡해진다. 즉, 유사한 짧은 읽기가 시퀀스의 완전히 다른 부분에서 나올 수 있다는 것을 의미한다.
이러한 어려움을 극복하고 시퀀스를 정확하게 조립하기 위해서는 원본 DNA의 각 부분에 대해 많은 중복 판독이 필요하다. 예를 들어, 인간 게놈 프로젝트를 완성하기 위해 인간 게놈의 대부분은 12배 이상의 범위 내에서 배열되었다. 즉, 최종 순서의 각 염기서열은 평균 12개의 다른 판독값으로 존재했다. 그럼에도 불구하고, 현재 방법은 2004년 현재 인간 게놈의 약 1%에 대해 신뢰할 수 있는 염기서열을 분리하거나 조립하는 데 실패했다.[3]
전체 게놈 산탄총 염기서열 분석
역사
작은 게놈(4000~7000베이스페어)에 대한 전체 게놈 산탄총 염기서열 분석은 1979년에 처음 제안되었다.[1] 산탄총 염기서열에 의해 배열된 최초의 게놈은 1981년에 발표된 콜리플라워 모자이크 바이러스였다.[4][5]
페어 엔드 시퀀싱
더 광범위한 애플리케이션은 쌍방향 엔드 시퀀싱으로, 구어체로 알려진 쌍방향 엔드 시퀀싱의 혜택을 받았다. 염기서열 프로젝트가 더 길고 더 복잡한 DNA 염기서열을 다루기 시작하면서, 여러 그룹들은 DNA 조각의 양쪽 끝을 염기서열화함으로써 유용한 정보를 얻을 수 있다는 것을 깨닫기 시작했다. 비록 같은 파편의 양쪽 끝을 배열하고 쌍을 이룬 데이터를 추적하는 것이 두 개의 뚜렷한 파편의 단 하나의 끝을 배열하는 것보다 더 번거로운 일이었지만, 두 시퀀스가 서로 반대 방향으로 향했고 서로 떨어져 있는 파편 길이 정도라는 지식은 그 파편의 순서를 재구성하는 데 귀중한 것이었다.원래의 목표 조각
역사. 쌍체 종단 사용에 대한 첫 번째 공개된 설명은 인간 HGPRT 위치의 시퀀싱의 일부로 1990년에[6] 발표되었지만, 쌍체 종단 사용은 전통적인 엽총 시퀀싱 접근법을 적용한 후 간격을 좁히는 것으로 제한되었다. 상수 길이의 파편을 가정하여 순수 쌍방향 끝 시퀀싱 전략의 첫 번째 이론적 설명은 1991년이었다.[7] 당시, 쌍으로 된 끝 시퀀싱의 최적 조각 길이는 시퀀스 읽기 길이의 3배가 될 것이라는 커뮤니티의 합의가 있었다. 1995년에 Roach 외 연구진은 다양한 크기의 조각들을 사용하는 혁신을 도입했고, 큰 목표물에서 순수한 쌍방향 엔드-시퀀싱 전략이 가능할 것이라는 것을 입증했다.[8] 그 전략은 1995년에 헤모필루스 인플루언제 박테리아 유전체의 염기서열을 분석하기 위해 게놈연구소(TIGR)에 의해 채택되었고,[9] 2000년에는 셀라 게노믹스에 의해 드로필라 멜라노가스터(과일파리) 게놈의 염기서열을 분석하기 위해,[10] 그 후 인간 게놈에 의해 채택되었다.
접근하다
이 전략을 적용하기 위해 고분자 무게의 DNA 가닥을 임의의 조각으로 깎아서 크기 선택(보통 2, 10, 50, 150 kb)한 다음 적절한 벡터로 복제한다. 그런 다음 두 개의 짧은 시퀀스를 생성하는 체인 종료 방법을 사용하여 복제본을 양쪽 끝에서 시퀀싱한다. 각 시퀀스를 엔드-리딩 또는 리딩 1이라고 하며 동일한 클론에서 리딩 2와 리딩 2를 짝쌍이라고 한다. 체인 종료 방법은 보통 500~1000 베이스 사이의 읽기만을 생성할 수 있기 때문에, 가장 작은 클론을 제외한 모든 부분에서, 짝쌍은 거의 겹치지 않는다.
조립
원래 시퀀스는 시퀀스 어셈블리 소프트웨어를 사용하여 읽기로부터 재구성된다. 첫째, 중복 읽기는 콘티그라고 알려진 더 긴 복합 시퀀스로 수집된다. 콘티그는 짝을 이루는 쌍들 간의 연결을 따라 비계로 함께 연결될 수 있다. 콘티그 사이의 거리는 도서관의 평균 조각 길이가 알려져 있고 편차의 창이 좁다면 짝쌍 위치에서 유추할 수 있다. 콘티그 사이의 간격의 크기에 따라 다른 기법을 사용하여 간격의 순서를 찾을 수 있다. 간극이 작은 경우(5~20kb) 중합효소 연쇄반응(PCR)을 사용하여 영역을 증폭한 후 시퀀싱을 수행해야 한다. 간극이 크면(>20kb) 박테리아 인공염색체(BAC)와 같은 특수 벡터에서 큰 파편을 복제한 뒤 벡터 염기서열 분석을 한다.
장단점
이 접근법의 지지자들은 대형 배열의 염기서열을 사용하여 게놈 전체의 염기서열을 한 번에 배열하는 것이 가능하다고 주장하는데, 이것은 전통적인 접근법보다 전체 과정을 훨씬 더 효율적으로 만든다. detractors는 이 기술이 DNA의 넓은 영역을 빠르게 배열하지만, 이러한 영역을 정확하게 연결하는 능력은 특히 반복적인 영역을 가진 게놈의 경우 의심된다고 주장한다. 시퀀스 조립 프로그램이 정교해지고 컴퓨팅 파워가 저렴해짐에 따라 이러한 한계를 극복할 수 있을 것이다.[citation needed]
커버리지
범위(읽기 깊이 또는 깊이)는 재구성된 시퀀스에서 주어진 뉴클레오티드를 나타내는 평균 읽기 수입니다. 원본 게놈의 길이(G), 판독 횟수(N), 평균 판독 길이(L)를 로 계산할 수 있다 예를 들어 평균 길이 500 뉴클레오티드의 8개 판독에서 2,000개의 염기쌍을 재구성하는 가상 게놈은 2배 중복성을 갖는다. 또한 이 매개변수를 통해 판독으로 덮인 게놈의 비율(때로는 커버리지라고도 함)과 같은 다른 양을 추정할 수 있다. 염기 호출과 조립의 오류를 극복할 수 있기 때문에 샷건 시퀀싱에서 높은 커버리지가 필요하다. DNA 염기서열 이론의 주제는 그러한 양의 관계를 다룬다.
때로는 시퀀스 커버리지와 물리적 커버리지 사이에서 구별된다. 시퀀스 적용 범위는 평균 베이스 읽기 횟수(위에서 설명한 대로)이다. 물리적 적용 범위는 한 베이스를 읽거나 짝을 이룬 읽기별로 스팬된 평균 횟수다.[11]
계층적 엽총 배열
엽총 염기서열 분석은 이론상 어떤 크기의 게놈에도 적용할 수 있지만, 대형 게놈(예를 들어 인간 게놈)의 염기서열 분석에는 직접 적용이 제한되어, 기술 발전으로 그 과정에 수반되는 방대한 양의 복잡한 데이터의 처리가 실용화되었던 1990년대 후반까지 가능했다.[12] 역사적으로, 전체 유전자 엽총 배열은 큰 게놈의 순전한 크기와 큰 게놈에 존재하는 반복 DNA의 높은 비율(인간 게놈의 50% 이상)에 의해 추가된 복잡성에 의해 제한된다고 여겨졌다.[13] 큰 게놈의 전체 유전자 엽총 순서가 신뢰할 수 있는 데이터를 제공한다는 것은 널리 받아들여지지 않았다. 이러한 이유로, 샷건 시퀀싱을 수행하기 전에 시퀀스 어셈블리의 계산 부하를 낮추는 다른 전략을 활용해야 했다.[13] top-down sequence라고도 하는 계층적 시퀀싱에서, 게놈의 저해상도 물리적 맵은 실제 시퀀싱에 앞서 만들어진다. 이 지도에서 염색체 전체를 덮고 있는 최소한의 파편만 골라 염기서열 분석을 한다.[14] 이런 식으로, 고투과 시퀀싱과 어셈블리의 최소 양이 필요하다.
증폭된 게놈은 우선 더 큰 조각(50~200kb)으로 깎고 BAC나 P1 유래 인공 염색체(PAC)를 이용해 박테리아 숙주로 복제된다. 여러 개의 게놈 복제본을 무작위로 깎았기 때문에 이들 복제에 포함된 파편들은 끝이 다르고, 충분한 커버리지(위 섹션 참조)로 게놈 전체를 덮는 BAC 콘티그의 비계를 찾는 것이 이론적으로 가능하다. 이 비계는 타일링 길이라고 불린다.
일단 타일링 경로가 발견되면, 이 경로를 형성하는 BAC는 무작위로 더 작은 조각으로 깎이고 더 작은 스케일의 산탄총을 사용하여 배열할 수 있다.
BAC 콘티그의 전체 순서는 알 수 없지만, 서로에 대한 그들의 방향은 알려져 있다. 이 주문을 추론하고 타일링 경로를 구성하는 BAC를 선택하는 방법에는 여러 가지가 있다. 일반적인 전략에는 서로 상대적인 클론의 위치를 파악한 다음 관심 영역 전체를 포괄하는 연속적인 비계를 형성하는 데 필요한 가장 적은 클론을 선택하는 것이 포함된다. 클론의 순서는 클론의 겹치는 방법을 결정함으로써 추론된다.[15] 겹치는 클론은 여러 가지 방법으로 식별할 수 있다. 시퀀스 태그가 지정된 사이트(STS)를 포함하는 라디오 또는 화학적으로 라벨이 표시된 작은 프로브를 클론이 인쇄되는 마이크로 어레이에 혼합할 수 있다.[15] 이와 같이 게놈에 특정 염기서열을 포함하는 모든 복제본이 확인된다. 이 복제들 중 하나의 끝은 새로운 탐침을 산출하기 위해 배열될 수 있고 그 과정은 염색체 걷기라고 불리는 방법으로 반복될 수 있다.
또는 BAC 라이브러리를 제한 소거할 수 있다. 여러 개의 조각 크기를 공통으로 가지고 있는 두 개의 복제본이 유사하게 간격을 두고 있는 여러 개의 제한 사이트를 공통으로 포함하고 있기 때문에 겹치는 것으로 추측된다.[15] 이러한 유전체 매핑 방법은 각 복제에 포함된 일련의 제한 사이트를 식별하기 때문에 제한 지문 채취라고 불린다. 일단 복제자들 사이의 중복이 발견되고 게놈과 관련된 그들의 순서가 알려지면, 게놈 전체를 덮고 있는 이 콘티그들의 최소 하위 집합의 비계가 산탄총으로 배열된다.[14]
먼저 게놈의 저해상도 지도를 만드는 것이 포함되기 때문에, 계층적 엽총 배열은 전유전자 엽총 배열보다 느리지만 전유전자 엽총 배열보다 컴퓨터 알고리즘에 덜 의존한다. 그러나 광범위한 BAC 라이브러리 생성 및 타일링 경로 선택 프로세스는 계층적 엽총 시퀀싱 속도를 느리고 노동 집약적으로 만든다. 이제 기술을 이용할 수 있고 데이터의 신뢰성이 입증되었기 때문에,[13] 전유전자 산탄총 염기서열의 속도와 비용 효율성은 게놈 염기서열의 주요 방법이 되었다.
새로운 시퀀싱 기술
고전적인 산탄총 염기서열 분석은 생어 염기서열 분석법에 기초했다: 이것은 1995-2005년의 게놈 염기서열 분석에서 가장 진보된 기법이었다. 그러나 산탄총 전략은 오늘날에도 여전히 적용되고 있지만, 짧은 읽기 순서나 긴 읽기 순서 같은 다른 순서 기술을 사용한다.
짧은 읽기 또는 "차세대" 시퀀싱은 더 짧은 읽기(25~500bp)를 생성하지만 비교적 짧은 시간(하루의 순서에 따라)에 수십만 또는 수백만 개의 읽기를 생성한다.[16] 이것은 높은 커버리지로 귀결되지만, 조립 과정은 훨씬 더 계산적으로 집약적이다. 이들 기술은 데이터 양이 많고 전체 게놈을 염기서열화하는 데 걸리는 시간이 상대적으로 짧기 때문에 상어 염기서열보다 월등히 우수하다.[17]
메타게놈 산탄총 염기서열
예를 들어 k-mer 기반 분류 분류기 소프트웨어를 사용하여 DNA의 게놈을 이미 알고 있다면, 400-500 염기쌍 길이의 판독을 갖는 것으로 DNA가 출처하는 유기체의 종이나 변종을 결정하기에 충분하다. 환경 샘플의 다음 세대 배열에서 수백만 번 읽음으로써, 내장 식물과 같은 수천 종의 복잡한 마이크로바이옴에 대한 전체 개요를 얻을 수 있다. 16S rRNA 엠프리콘 시퀀싱에 대한 장점은 박테리아에만 국한되지 않는 것, 엠프리콘 시퀀싱이 속만을 얻는 변형률 수준 분류, 그리고 메타게놈의 일부로서 전체 유전자를 추출하고 그 기능을 명시하는 가능성이다.[18] 메타게놈 염기서열의 민감성은 임상 사용을 위한 매력적인 선택으로 만든다.[19] 그러나 시료나 시퀀싱 파이프라인의 오염 문제를 강조한다.[20]
참고 항목
참조
- ^ a b c Staden, R (1979). "A strategy of DNA sequencing employing computer programs". Nucleic Acids Research. 6 (70): 2601–10. doi:10.1093/nar/6.7.2601. PMC 327874. PMID 461197.
- ^ Anderson, S (1981). "Shotgun DNA sequencing using cloned DNase I-generated fragments". Nucleic Acids Research. 9 (13): 3015–27. doi:10.1093/nar/9.13.3015. PMC 327328. PMID 6269069.
- ^ Human Genome Sequencing Consortium, International (21 October 2004). "Finishing the euchromatic sequence of the human genome". Nature. 431 (7011): 931–945. Bibcode:2004Natur.431..931H. doi:10.1038/nature03001. PMID 15496913.
- ^ Gardner, Richard C.; Howarth, Alan J.; Hahn, Peter; Brown-Luedi, Marianne; Shepherd, Robert J.; Messing, Joachim (1981-06-25). "The complete nucleotide sequence of an infectious clone of cauliflower mosaic virus by M13mp7 shotgun sequencing". Nucleic Acids Research. 9 (12): 2871–2888. doi:10.1093/nar/9.12.2871. ISSN 0305-1048. PMC 326899. PMID 6269062.
- ^ Doctrow, Brian (2016-07-19). "Profile of Joachim Messing". Proceedings of the National Academy of Sciences. 113 (29): 7935–7937. doi:10.1073/pnas.1608857113. ISSN 0027-8424. PMC 4961156. PMID 27382176.
- ^ Edwards, A; Caskey, T (1991). "Closure strategies for random DNA sequencing". Methods: A Companion to Methods in Enzymology. 3 (1): 41–47. doi:10.1016/S1046-2023(05)80162-8.
- ^ Edwards, A; Voss, H.; Rice, P.; Civitello, A.; Stegemann, J.; Schwager, C.; Zimmerman, J.; Erfle, H.; Caskey, T.; Ansorge, W. (1990). "Automated DNA sequencing of the human HPRT locus". Genomics. 6 (4): 593–608. doi:10.1016/0888-7543(90)90493-E. PMID 2341149.
- ^ Roach, JC; Boysen, C; Wang, K; Hood, L (1995). "Pairwise end sequencing: a unified approach to genomic mapping and sequencing". Genomics. 26 (2): 345–353. doi:10.1016/0888-7543(95)80219-C. PMID 7601461.
- ^ Fleischmann, RD; et al. (1995). "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd". Science. 269 (5223): 496–512. Bibcode:1995Sci...269..496F. doi:10.1126/science.7542800. PMID 7542800. S2CID 10423613.
- ^ Adams, MD; et al. (2000). "The genome sequence of Drosophila melanogaster" (PDF). Science. 287 (5461): 2185–95. Bibcode:2000Sci...287.2185.. CiteSeerX 10.1.1.549.8639. doi:10.1126/science.287.5461.2185. PMID 10731132.
- ^ Meyerson, M.; Gabriel, S.; Getz, G. (2010). "Advances in understanding cancer genomes through second-generation sequencing". Nature Reviews Genetics. 11 (10): 685–696. doi:10.1038/nrg2841. PMID 20847746. S2CID 2544266.
- ^ 던햄, 게놈 염기서열 분석. 생명과학 백과사전, 2005. doi:10.1038/npg.els.0005378
- ^ a b c 벤터, J. C. "인간 게놈을 쏘는 장면: 개인 견해" 생명과학 백과사전, 2006.
- ^ a b Genome Science S. V. A Primer of Genome Science. 깁슨, G.G. and Muse, S. V. A Primer of Genomic 제3판 P.84
- ^ a b c 친애하는 P. H. 게놈 지도. 생명과학 백과사전, 2005. doi:10.1038/npg.els.0005353.
- ^ Karl, V; et al. (2009). "Next Generation Sequencing: From Basic Research to Diagnostics". Clinical Chemistry. 55 (4): 41–47. doi:10.1373/clinchem.2008.112789. PMID 19246620.
- ^ Metzker, Michael L. (2010). "Sequencing technologies - the next generation" (PDF). Nat Rev Genet. 11 (1): 31–46. CiteSeerX 10.1.1.719.3885. doi:10.1038/nrg2626. PMID 19997069. S2CID 205484500.
- ^ Roumpeka, Despoina D.; et al. (2017). "A review of bioinformatics tools for bio-prospecting from metagenomic sequence data". Frontiers in Genetics. 8: 23. doi:10.3389/fgene.2017.00023. PMC 5337752. PMID 28321234.
- ^ Gu, Wei; et al. (2018). "Clinical Metagenomic Next-Generation Sequencing for Pathogen Detection". Annual Review of Pathology: Mechanisms of Disease. 14: 319–338. doi:10.1146/annurev-pathmechdis-012418-012751. PMC 6345613. PMID 30355154.
- ^ Thoendel, Matthew; et al. (2017). "Impact of contaminating DNA in whole genome amplification kits used for metagenomic shotgun sequencing for infection diagnosis". Journal of Clinical Microbiology. 55 (6): 1789–1801. doi:10.1128/JCM.02402-16. PMC 5442535. PMID 28356418.
추가 읽기
- "Shotgun sequencing comes of age". The Scientist. Retrieved December 31, 2002.
- "Shotgun sequencing finds nanoorganisms - Probe of acid mine drainage turns up unsuspected virus-sized Archaea". SpaceRef.com. Retrieved December 23, 2006.
외부 링크
이 문서에는 국가생명공학정보센터(National Center for Biological Information) 문서의 공용 도메인 자료가 포함되어 있다.