2 기본 인코딩
2 base encoding2 베이스 인코딩은 SOLiD(올리고뉴클레오티드 레그레이션 및 검출에 의한 시퀀싱)라고도 하며, Applied Biosystems가 개발한 차세대 시퀀싱 기술로 2008년부터 상용화되었다. 이 기술들은 한번에 수십만 개의 작은 시퀀스 읽기를 생성한다. 그러한 DNA 염기서열 방법의 잘 알려진 예로는 454개의 파이로시퀀싱(2005년 도입), Solexa 시스템(2006년 도입), SOLiD 시스템(2007년 도입)이 있다. 이 방법들은 2004년 베이스당 $0.01에서 2006년 베이스당 $0.0001로 비용을 절감했고, 시퀀싱 용량을 2004년 100만 베이스/머신/일 단위에서 2006년 1억 베이스/일 단위 이상으로 늘렸다.
2-base 인코딩은 합성에 의한 시퀀싱이 아닌 레그레이션 시퀀싱에 기초한다.[1] 그러나 6개의 베이스를 구분하는 형광 라벨 9-메르 프로브를 사용하는 대신 2-베이스 인코딩은 2개의 3개의 가장 많은 베이스를 구분하지만 메이스빅츠 방법과 유사하게 사이클링할 수 있는 형광 라벨 8-메르 프로브를 활용하므로 6bp 이상의 리드를 얻을 수 있다(25-50bp 발행,[2] 2008년 2월 NCBI에서 50bp). 2 base 인코딩은 2배의 작업을 수행하지 않고도 각 base를 2회 읽을 수 있다.[3][4][5][6]
일반 기능
이러한 많은 차세대 시퀀싱 기술에 공통적인 일반적인 단계는 다음과 같다.
- 유전자 DNA의 무작위 단편화
- 비드 또는 평면 고형 표면과 같은 고형 지지대에 단일 DNA 조각 고정
- PCR을 이용한 고체 표면의 DNA 파편 증폭 및 중합효소 군집화[7]
- 형광 스캔 또는 화학 발광을 사용한 각 주기 후 상황 질문의 시퀀싱 및 후속.[8]
1988년 화이트리 외 연구진은 형광 라벨이 붙은 올리고뉴클레오티드 레깅스를 DNA 변형 검출에 사용하는 것을 시연했다.[9] 1995년 Macevicz는[10] 연속적인 DNA 변형을 검출하기 위해 과두핵화합물의 반복적인 난소를 입증했다. 2003년에 드레스맨 등은 에멀전 PCR을 사용하여 수백만 개의 클론 증폭 비드를 생성하여 이러한 반복적인 레그레이징 검사를 수행할 수 있다는 것을 입증했다.[11] 2005년에 션두어 외는 "8 base decorate" 9-mer probe에 따라 다른 base를 구별하는 형광 라벨을 부착한 "8 base decorivate" 9-mer probe의 larging을 수행하는 Whiteley와 드레스맨 기법을 결합한 시퀀싱 절차를 수행했다. 이 프로세스는 동일한 프라이머를 사용하되 (메이스빅츠와 같이 확장 가능한 끝을 재생하지 않고) 5->3 방향으로 6bp 읽기와 3->5 방향으로 6bp 읽기의 시퀀스를 설정하기 위해 서로 다른 비감속 기초를 식별한 라벨이 있는 프로브를 사용하여 반복되었다.
작동 방식
SOLiD 시퀀싱 시스템은 이중 베이스 인코딩이 있는 프로브를 사용한다.
기초 화학은 다음과 같은 단계로 요약된다.[12]
- 1단계, 라이브러리 준비: 이 단계는 유전체 DNA를 작은 조각으로 깎는 것으로 시작된다. 그런 다음 두 개의 다른 어댑터(예: A1 및 A2)가 추가된다. 결과 라이브러리에는 템플릿 DNA 조각이 포함되어 있으며, 각 끝단에 어댑터 1개로 태그가 지정되어 있다(A1-템플릿-A2).
- Step 2, Emulsion PCR: In this step, the emulsion (droplets of water suspended in oil) PCR reaction is performed using DNA fragments from library, two primers (P1 and P2) that complement to the previously used adapters (P1 with A1 and P2 with A2), other PCR reaction components and 1μm beads coupled with one of the primers (e.g. P1). make dilution DNA 라이브러리에서 하나의 DNA 조각과 하나의 구슬이 포함된 방울을 하나의 에멀전 방울로 최대화한다.
각 방울에서, DNA 템플릿은 그것의 A1 쪽에서 P1 결합 비드에 맞춰진다. 그런 다음 DNA 중합효소는 P1에서 확장되어 보완적 순서를 만들게 되며, 결과적으로 단일 템플릿에서 PCR 제품으로 농축된 비드가 된다. PCR 반응 후 템플릿은 변성되어 비드에서 분리된다. 드레스맨 등은 2003년에 처음으로 이 기술을 설명한다.
- 3단계, 비드 농축: 실제로 구슬의 30%만이 표적 DNA를 갖고 있다. 대상 DNA가 있는 구슬의 수를 늘리기 위해 A2로 코팅된 대형 폴리스티렌 구슬을 용액에 첨가한다. 따라서, 확장된 제품을 포함한 모든 비드는 그것의 P2 끝을 통해 폴리스티렌 비드를 결합할 것이다. 그 결과 생긴 복합체는 무타입 구슬로부터 분리될 것이고, 폴리스티렌으로부터 목표 구슬을 분리시키기 위해 녹일 것이다. 이 단계는 이 시스템의 처리량을 농축 전 30%에서 농축 후 80%로 증가시킬 수 있다.
농축 후, 3'-end of products(P2 end)가 수정되어 다음 단계에서 공밸런트 본딩이 가능해진다. 따라서 이 단계의 산물은 각 DNA 가닥의 3'수정 구슬과 함께 DNA 결합 구슬이다.
- 4단계, 비드 증착: 이 단계에서는 마지막 단계의 제품이 유리 슬라이드에 쌓인다. 구슬은 3개 변형 구슬과 유리의 공동 결합을 통해 유리 표면에 무작위로 부착된다.
- 5단계, 시퀀싱 반응: 앞서 언급했듯이 합성을 통해 시퀀싱을 수행하는 다른 차세대 방식과 달리 2-베이스 인코딩은 레깅에 의한 시퀀싱에 기반을 두고 있다. 레깅은 특정 8-mer 프로브를 사용하여 수행된다.
이 탐침은 길이 8 베이스로 3' 끝단에 자유 히드록실 그룹, 5' 끝단에 형광 염료, 5번째와 6번째 뉴클레오티드 사이의 갈라진 부위다. 처음 두 베이스(3' 끝에서 시작)는 시퀀싱되는 뉴클레오티드와 보완된다. 베이스 3 ~ 5는 퇴화되어 템플릿 시퀀스의 어떤 뉴클레오티드와도 결합할 수 있다. 염기 6-8도 퇴화되나 형광염료와 함께 반동이 계속되면서 갈라진다. 형광 염료와 염기 6-8을 쪼개면 5'의 인산염 집단이 더 이상 쓸 수 있게 된다. 이러한 방식으로 n+1과 n+2는 정확하게 기저에 손상되고, 그 다음에 n+6과 n+7이 정확하게 쌍으로 구성된다. 염기 구성 n+3,n+4 및 n+5는 시퀀싱 반응의 후속 라운드가 있을 때까지 결정되지 않은 상태로 남아 있다.
시퀀싱 단계는 기본적으로 5개의 라운드로 구성되며 각 라운드는 약 5-7 사이클로 구성된다(그림 2). 각 라운드는 P1 완성 범용 프라이머를 추가하는 것으로 시작한다. 예를 들어, 이 프라이머에는 n 뉴클레오티드가 있고 그것의 5' 끝은 P1의 3' 끝과 정확히 일치한다. 각 사이클마다 1루와 2루 베이스에 따라 8메르 프로브가 추가되고 묶인다. 그런 다음 나머지 결합되지 않은 프로브를 세척하고 바운드 프로브의 형광 신호를 측정하며 바운드 프로브를 5번째 뉴클레오티드와 6번째 뉴클레오티드 사이에서 분리한다. 마지막으로 프라이머와 프로브는 모두 다음 라운드를 위해 재설정된다.
다음 라운드에서 새로운 범용 프라이머가 포지션 n-1(그들의 5'-끝이 P1의 3' 끝 바로 앞에 베이스와 일치함)과 후속 사이클을 1라운드와 비슷하게 반복한다. 나머지 3라운드는 P1의 3'끝에 상대적인 n-2, n-3 및 n-4의 새로운 범용 프라이머 어닐링 위치로 수행된다.
5개의 라운드의 완전한 반응을 통해 P1에서 약 25개의 기본 쌍의 템플릿을 시퀀싱할 수 있다.
- 6단계, 데이터 디코딩: 색으로 표현되는 데이터를 해독하기 위해서는 우선 두 가지 중요한 요인을 알아야 한다. 첫째, 우리는 각각의 색이 두 개의 베이스를 나타낸다는 것을 알아야 한다. 둘째, 우리는 순서상 베이스 중 하나를 알 필요가 있다: 이 베이스는 마지막 (5번째) 스텝 5의 시퀀스에 통합된다. 이 알려진 베이스는 알려진 P1의 3'끝의 마지막 뉴클레오티드 입니다. 따라서 각 색은 각 디뉴클레오티드 단위의 제2 염기가 다음의 디뉴클레오티드 1 염기를 구성하는 2개의 뉴클레오티드를 나타내기 때문에, 염기서열에서 단 하나의 염기만을 알면 전체 염기서열을 해석하게 된다(그림 2).[13]
2 기본 인코딩 고려 사항
실제로 색상 호출에서 오류가 발생하는 순간 기본 호출의 프레임을 전환하기 때문에 색상 읽기를 기본 읽기로 직접 변환하는 것은 권장되지 않는다. 두 개의 기본 인코딩의 "오류 수정" 속성을 가장 잘 활용하려면 기본 참조 시퀀스를 컬러 스페이스로 변환하는 것이 가장 좋다. 기준 염기서열을 색상공간으로 모호하지 않게 변환하는 방법이 있으며, 그 반대의 경우도 사실이지만 시퀀스 오류가 있는 경우 변환이 매우 부정확할 수 있다.[14]
색상 공간 판독값을 색상 공간 참조에 매핑하면 인접한 색상 차이만이 진정한 기본 다형성을 나타낼 수 있는 2-base 인코딩 규칙을 적절히 활용할 수 있다. 컬러 판독을 직접 해독하거나 베이스로 변환하는 것은 다른 지식 없이 이것을 효율적으로 할 수 없다.
좀 더 구체적으로 말하면, 이 방법은 오류 수정 도구가 아니라 오류 변환 도구다. 색상 공간은 가장 일반적인 오류 모드(단일 측정 오류)를 가장 일반적인 형태의 DNA 변동(SNP 또는 단일 기저 변경)과는 다른 주파수로 변환한다. 이러한 단일 베이스 변화는 색상 공간의 인접 색상에 영향을 미친다. 인접한 오류를 '유효한' 인접 오류와 '유효하지 않은' 인접 오류로 수정하는 데 도움이 되는 논리 규칙이 있다.
50-bp 판독에서 두 개의 인접한 오류가 발생할 가능성을 추정할 수 있다. 50자 문자열(50-bp 읽기)을 인접하게 변경하는 방법에는 49가지가 있다. 50개의 문자열을 비인접적으로 변경하는 방법에는 1225가지가 있다(50개 선택 2). 간단히 말해서, 만약 오류가 완전히 무작위라고 가정한다면(보통 읽기 끝에서 더 높은 빈도로 가정한다) 1225개의 오류 중 49개만이 SNP의 후보가 될 것이다. 또한, 인접한 오류의 3분의 1만 프로브의 알려진 라벨링에 따라 유효 오류가 될 수 있으므로, 1225개의 오류 중 16개만 SNP의 후보가 될 수 있다. 이것은 낮은 커버리지에서 잘못된 긍정을 감소시키기 때문에 낮은 커버리지 SNP 검출에 특히 유용하다.[15]
이점
이 시퀀싱 방법의 각 베이스를 두 번 읽는다. 이로 인해 두 개의 인접한 색상 공간 호출의 색상이 변경되므로 SNP를 잘못 호출하려면 두 개의 인접한 색상이 잘못 호출되어야 한다. 이로 인해 SNP 오호율은 e^2의 순서로, 여기서 e는 장치 오류율이다.
단점들
base calling single color miscalls가 read의 나머지 부분에 오류를 일으킬 때 SNP 호출에서는 이 문제를 수정할 수 있으며, 이로 인해 SNP 호출 오류율이 낮아진다. 그러나 단순화된 노보 어셈블리의 경우 SNP 호출에 대해 보고된 0.06%보다 상당히 높은 원시 장치 오류율이 남게 된다. 읽기 품질 필터링은 더 높은 원시 정확도 판독을 제공할 수 있으며, 이는 형태 색상 콘티그에 맞춰 정렬되었을 때 2개의 기본 인코딩을 더 잘 활용할 수 있는 참조 시퀀스를 제공할 수 있다. 다른 기술을 가진 하이브리드 조립품도 2 베이스 인코딩을 더 잘 활용할 수 있다.
참고 항목
참조
- ^ 제이 쉰두레 외 (2005) 진화된 박테리아 게놈의 정확한 멀티플렉스 폴로니 시퀀싱 과학 309(5741), 1728 - 1732
- ^ 2-base 인코딩을 사용한 짧은 읽기, 대량 병렬 레인지 시퀀싱에 의해 밝혀진 인간 게놈의 시퀀스 및 구조 변화. McKernan KJ, Peckham HE, Costa GL, McLaughlin SF, Fu Y, Tsung EF, Clouser CR, Duncan C, Ichikawa JK, Lee CC, Zhang Z, Ranade SS, Dimalanta ET, Hyland FC, Sokolsky TD, Zhang L, Sheridan A, Fu H, Hendrickson CL, Li B, Kotler L, Stuart JR, Malek JA, Manning JM, Antipova AA, Perez DS, Moore MP, Hayashibara KC, Lyons MR, Beaudoin RE, Coleman BE, Laptewicz MW, 산니칸드로 AE, 로즈 MD, 갓티무칼라 RK, 양 S, 바프나 V, 바시르 A, 맥브라이드 A, 알칸 C, 키드 JM, 아이클러 EE, 리스 MG, 데 라 베가 FM, 블랜차드 AP. 게놈 연구 2009년 9월 19일 (9:1527-41) Epub 2009년 6월 22일.
- ^ 특허: 비드 기반 시퀀싱을 위한 시약, 방법 및 라이브러리
- ^ 기사: 고해상도 뉴클레오섬 위치 지도에 따르면 전 세계 선충의 부족이 드러난다...
- ^ 기사: 대규모 mRNA 시퀀싱을 통한 줄기세포 기록물 프로파일링
- ^ 차세대 염기서열 분석 기술인 게놈 연구, 2008년 18:1638-1642를 사용한 신속한 전유전자 돌연변이 프로파일링
- ^ 체트베린, NAR, 1993, Vol.21, 10 2349-2353번
- ^ MATHETH E. HUDN (2008) 게놈 생태학 및 진화 생물학을 위한 획기적인 발전 과정. 분자 생태 자원 8 (1) , 3–17
- ^ 화이트리 미국 특허번호 4,883,750번
- ^ 메이스빅츠 미국 특허 번호 5750,341번
- ^ 단일 DNA 분자를 형광 자분자로 변환하여 유전자 변이 검출 및 열거,PNAS 2004년 7월 22일 vol. 100 no. 15, 8817-8822
- ^ 적용된 바이오 시스템
- ^ 기술 요약: ABI의 SOLiD(올리고 레그먼트/탐지) - SEQanswers
- ^ [1] 컬러스페이스에서 FastQ까지의 예
- ^ 스미스 외, 게놈 연구 2008년 18:1638-1642