콘티그

Contig

콘티그(contig)는 중복되는 DNA 세그먼트의 집합으로,[1] 함께 DNA의 컨센서스 영역을 나타냅니다.상향식 염기서열 프로젝트에서 콘티그는 중복되는 염기서열 데이터(읽기)[2]참조하고 하향식 염기서열 프로젝트에서 콘티그는 염기서열과 [3]조립을 안내하는 데 사용되는 게놈의 물리적 지도를 구성하는 중복 클론을 말합니다.따라서 콘티그(contigs)는 맥락에 따라 중복되는 DNA 배열과 클론에 포함된 중복되는 물리적 세그먼트(fragment)를 모두 참조할 수 있습니다.

콘티그의 원래 정의

1980년에 Staden은 다음과 같이 썼다.샷건 방식의 시퀀싱으로 얻은 데이터에 대해 보다 쉽게 말할 수 있도록 "contig"라는 단어를 만들었습니다. 콘티그(contig)는 염기서열의 중첩에 의해 서로 관련된 겔 판독치 세트입니다. 모든 겔 판독치는 한 개의 콘티그에만 속하며 각 콘티그에는 하나 이상의 겔 판독치가 포함됩니다. 콘티그의 겔 판독치는 연속된 컨센서스 시퀀스를 형성하도록 합산할 수 있으며, 이 시퀀스의 길이는 콘티그의 길이이다.

시퀀스 콘티그

배열 콘티그는 보텀업 배열 전략에 의해 생성된 작은 DNA 조각의 재조립에 의해 생성된 연속(비연속) 배열이다.이 콘티그의 의미는 Rodger Staden(1979)[5]의 최초 정의와 일치한다.상향식 DNA 배열 전략은 게놈 DNA를 많은 작은 조각("바닥")으로 절단하고, 이 조각들을 배열하고, 그것들을 다시 콘티그(contig)로 재조립하고, 결국 전체 게놈("위")을 포함하는 것이다.현재의 기술은 비교적 짧은 DNA 조각(300-1000 뉴클레오티드)의 직접적인 염기서열을 허용하기 때문에 유전자 DNA는 염기서열 [6]분석 전에 작은 조각으로 조각화되어야 한다.상향식 배열 프로젝트에서 증폭된 DNA를 배열에 적합한 크기의 조각으로 랜덤하게 절단한다.후속 시퀀스 읽기(작은 fragment의 시퀀스를 포함하는 데이터)는 데이터베이스에 저장됩니다.그런[6] 다음 어셈블리 소프트웨어는 이 데이터베이스에서 중복되는 읽기 쌍을 검색합니다.이러한 쌍(물론 동일한 시퀀스의 복사본 1개만 포함)에서 판독치를 조합하면 시퀀싱된 DNA의 연속 판독(계속)이 길어집니다.이 과정을 여러 번 반복함으로써 처음에는 짧은 판독 쌍으로, 그리고 나서 이전의 조립의 결과인 점점 더 긴 판독 쌍을 사용함으로써 염색체 전체의 DNA 배열을 결정할 수 있다.

페어 엔드 시퀀싱의 중복된 판독치는 콘티그 형태이며, 알려진 길이의 콘티그와 갭은 발판을 형성합니다.

오늘날에는 크기가 일정한 긴 DNA 조각의 양끝이 배열되는 쌍단 배열 기술을 사용하는 것이 일반적입니다.여기서 contig는 읽기 오버랩에 의해 생성된 시퀀스 데이터의 연속된 스트레치를 말합니다.fragment는 기존의 길이이기 때문에, 각 fragment로부터의 2개의 엔드 리드 사이의 거리가 [7]알려져 있습니다.이것은 이러한 판독으로 만들어진 콘티그들의 방향에 대한 추가 정보를 제공하며, 비계라고 불리는 공정에서 콘티그들이 비계로 조립될 수 있도록 합니다.

스캐폴드는 알려진 길이의 간격에 의해 분리된 겹치는 콘텐트로 구성됩니다.콘티그들의 방향에 대한 새로운 제약은 게놈에 고도로 반복되는 염기서열을 배치할 수 있게 해준다.한쪽 끝 판독에 반복 시퀀스가 있는 경우, 그 짝쌍이 콘티그 내에 있는 한 그 위치가 알려져 있습니다.[7]비계 내의 콘티그 사이의 나머지 간격은 PCR 증폭에 이어 시퀀싱(작은 간격) 및 BAC 복제 방법에 이어 큰 [2]간격에 대한 시퀀싱 등 다양한 방법으로 시퀀싱할 수 있다.

BAC 콘티그먼트

콘티그는 또한 하향식 또는 계층적 배열 전략이 사용될 [1]때 염색체의 물리적 맵을 형성하는 중복 클론을 참조할 수 있다.본 발명의 배열방법은 게놈의 배열판독의 후순조립을 안내하는 프레임워크를 제공하기 위해 배열에 앞서 저해상도 맵을 작성한다.이 맵은 시퀀싱에 사용되는 클론의 상대적인 위치와 오버랩을 식별합니다.DNA의 연속적인 확장을 형성하는 중복 클론의 세트는 콘티그라고 불립니다; 전체 염색체를 덮는 콘티그를 형성하는 최소 클론의 수는 시퀀싱에 사용되는 타일링 경로를 구성합니다.타일링 경로를 선택하면 해당 구성 요소 BAC가 더 작은 조각으로 전단되고 시퀀스가 수행됩니다.따라서 콘티그(contig)는 계층적 [3]시퀀싱을 위한 프레임워크를 제공합니다.

콘티그 맵의 조합에는 몇 가지 단계가 포함됩니다.먼저 DNA를 더 큰 조각(50~200kb)으로 잘라 BAC 또는 PAC로 복제하여 BAC 라이브러리를 형성합니다.이 복제품들은 게놈/염색체 전체를 커버해야 하기 때문에 이론적으로 [1]염색체 전체를 커버하는 BAC의 집약이 가능하다.그러나 현실은 항상 이상적인 것은 아니다.간극이 남아 있는 경우가 많고, 지도 지역을 덮는 간극과 간극으로 구성된 발판이 종종 첫 번째 [1]결과입니다.콘티그 간의 간격은 아래에 설명된 다양한 방법으로 메울 수 있습니다.

BAC 콘티그먼트 구축

BAC 콘티그는 알려진 중첩의 BAC 영역을 다양한 방법으로 정렬하여 구성됩니다.하나의 일반적인 전략은 시퀀스 태그 부착 사이트(STS) 콘텐츠 매핑을 사용하여 BAC 간에 공통되는 고유한 DNA 사이트를 검출하는 것입니다.중복 정도는 두 개의 클론 간에 공통되는 STS 마커 수로 대략 추정되며, 공통되는 마커가 많을수록 [2]더 큰 중복을 나타냅니다.이 전략은 오버랩의 대략적인 추정치만을 제공하기 때문에 클론 오버랩의 보다 정확한 측정을 제공하는 제한 다이제스트 단편 분석이 자주 사용됩니다.[2]이 전략에서 클론은 하나 또는 두 개의 제한 효소와 전기영동에 의해 분리된 조각으로 처리된다.2개의 클론이 있는 경우, 2개의 클론은 공통의 제한 사이트를 가지고 있기 때문에, 복수의 [3]fragment를 공유할 가능성이 있습니다.공통의 조각의 수와 길이를 알 수 있기 때문에(길이는 사이즈 기준과 비교하여 판단한다), 겹치는 정도를 높은 정밀도로 추론할 수 있다.

콘티그먼트 간 간격

BAC 초기 시공 후에도 종종 갭이 남아 있습니다.이러한 차이는 스크리닝된 세균 인공 염색체(BAC) 라이브러리의 복잡성이 낮아서 STS 또는 제한 부위의 수가 많지 않거나 특정 부위가 복제 숙주에서 안정성이 떨어져 [1]라이브러리에서 충분히 나타나지 않는 경우에 발생한다.STS 랜드마크 매핑 및 제한 핑거프린트를 수행한 후에도 콘티그 사이에 틈이 남아 있는 경우 콘티그 끝의 시퀀스를 사용하여 이러한 틈을 좁힐 수 있습니다.이 엔드시퀀싱 전략은 기본적으로 다른 콘티지들을 스크리닝하는 새로운 STS를 만듭니다.또는 콘티그의 끝 시퀀스를 프라이머로 사용하여 [2]갭을 가로지르는 프라이머 워크를 할 수 있다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b c d e 그레고리, S. 콘티그 어셈블리생명과학 백과사전, 2005.
  2. ^ a b c d e Gibson, Greg; Muse, Spencer V. (2009). A Primer of Genome Science (3rd ed.). Sinauer Associates. p. 84. ISBN 978-0-878-93236-8.
  3. ^ a b c 친애하는 P. H. 게놈 지도생명과학 백과사전, 2005.doi:10.1038/npg.els.0005353.
  4. ^ Staden, R (1980). "A new computer method for the storage and manipulation of DNA gel reading data". Nucleic Acids Research. 8 (16): 3673–3694. doi:10.1093/nar/8.16.3673. PMC 324183. PMID 7433103.
  5. ^ Staden R (1979). "A strategy of DNA sequencing employing computer programs". Nucleic Acids Research. 6 (7): 2601–2610. doi:10.1093/nar/6.7.2601. PMC 327874. PMID 461197.
  6. ^ a b 던햄, I. 게놈 염기서열 분석.생명과학 백과사전, 2005.
  7. ^ a b Fullwood MJ, Wei C, Liu ET, et al. (2009). "Next-generation DNA sequencing of paired-end tags (PET) for transcriptome and genome analyses". Genome Research. 19 (4): 521–532. doi:10.1101/gr.074906.107. PMC 3807531. PMID 19339662.

외부 링크