De novo transcriptome 어셈블리

De novo transcriptome assembly

De novo transcriptome assembly는 참조 게놈의 도움 없이 transcriptome을 생성하는 de novo 배열조립방법이다.

서론

새로운 시퀀싱 기술이 개발됨에 따라 2008년부터 2012년까지 시퀀싱 비용이 크게 감소했습니다.메가베이스와 게놈당 비용은 각각 [1]10만분의 1과 1만분의 1로 떨어졌다.이전에는 과학적 연구에 폭넓은 관심과 유용성이 있는 유기체의 전사체만 배열되었지만, 2010년대에 개발된 고처리량 배열 기술(차세대 배열 기술이라고도 함)은 비용 효율과 노동 효율이 모두 높으며, 이러한 방법을 통해 연구되는 유기체의 범위가 [2]확대되고 있다.그 후 병아리콩,[3] 플라나리아,[4] Parhale [5]hawaiensis뿐아니라 나일 악어, 옥수수 뱀, 턱수염 용, 그리고 붉은귀 슬라이더를 위한 트랜스크립텀이 만들어졌습니다.[6]

비모형 유기체를 검사하는 것은 [7]"매력적인 형태학적 혁신의 다양성"의 기초가 되는 메커니즘에 대한 새로운 통찰력을 제공할 수 있습니다.동식물에서 일반적인 모델 유기체에서는 볼 수 없는 "혁신"은 모방, 상호주의, 기생, 무성 생식이다.de novo transcriptome assembly는 게놈을 만드는 것보다 저렴하고 쉬우며 기존 게놈 없이는 참조 기반 방법이 불가능하기 때문에 종종 비모델 유기체를 연구하는 데 선호되는 방법이다.따라서 이러한 유기체의 전사체는 그러한 독특한 생물학적 현상에 관여하는 새로운 단백질과 그들의 동질성을 드러낼 수 있다.

새로운 기능과 레퍼런스 기반 어셈블리 비교

조립된 일련의 전사물은 초기 유전자 발현 연구를 가능하게 한다.전사체 조립 컴퓨터 프로그램의 개발 이전에, 전사체 데이터는 주로 참조 게놈에 매핑하여 분석되었습니다.게놈 정렬은 전사 서열을 특징짓는 강력한 방법이지만, 이 방법은 대체 스플라이싱[8]같은 mRNA 전사물의 구조적 변화 사건을 설명할 수 없다는 단점이 있다.게놈은 전사물에 존재할 수 있는 모든 인트론 및 엑손의 합을 포함하고 있기 때문에 게놈을 따라 연속적으로 정렬되지 않는 스플라이스 변이는 실제 단백질 동질체로 간주될 수 있다.참조 게놈을 사용할 수 있더라도 de novo 어셈블리가 수행되어야 합니다. 참조 게놈 [9]어셈블리에서 누락된 게놈 세그먼트에서 전사된 스크립트를 복구할 수 있기 때문입니다.

전사체 대 게놈 조립체

DNA의 비부호화 인트론 영역의 반복 함량에 따라 무작위로 달라질 수 있는 게놈 배열 커버리지 수준과는 달리, 전사체 배열 커버리지 수준은 유전자 발현 수준을 직접적으로 나타낼 수 있다.이러한 반복된 배열은 또한 유전자 집합의 콘티그 형성에 모호함을 만드는 반면, 전사체 집합 콘티그 형성의 모호함은 보통 접합된 아이소폼, 또는 유전자 [8]집합의 구성원들 사이의 작은 변이에 대응합니다.게놈 어셈블러는 여러 가지 이유로 트랜스크립텀 어셈블리에 직접 사용될 수 없습니다.첫째, 게놈 배열의 깊이는 보통 게놈 전체에서 동일하지만, 전사의 깊이는 다를 수 있습니다.둘째, 두 가닥은 항상 게놈 배열에서 배열되지만 RNA-seq는 가닥에 특이적일 수 있습니다.셋째, 같은 유전자의 전사 변이체들이 엑손들을 공유할 수 있고 모호하지 않게 해결하기 [9]어렵기 때문에 전사체 조립은 더 어렵다.

방법

RNA-seq

RNA가 세포에서 추출되고 정제되면 높은 처리량 배열 분석 시설로 보내지며, 여기서 먼저 역전사되어 cDNA 라이브러리를 생성합니다.이 cDNA는 시퀀싱에 사용되는 플랫폼에 따라 다양한 길이로 분할할 수 있습니다.다음 각 플랫폼에서는 각각 다른 유형의 기술을 사용하여 수백만 개의 짧은 읽기 시퀀싱(454 Sequencing, Illlumina, SOLiD)을 수행합니다.

어셈블리 알고리즘

cDNA 시퀀스 판독은 짧은 판독 스크립트 어셈블리 프로그램을 통해 스크립트로 조립됩니다.가장 가능성이 높은 것은 유사한 일부 아미노산 변이가 다른 단백질 동질 형태를 반영한다는 것이다.또한 그들은 같은 유전자 패밀리 내에서 다른 유전자를 나타낼 수도 있고, 심지어 변이의 정도에 따라 보존된 영역만을 공유하는 유전자일 수도 있다.

여러 어셈블리 프로그램을 사용할 수 있습니다(어셈블러 참조).이러한 프로그램들은 일반적으로 게놈 조립에 성공했지만, 트랜스크립텀 조립은 몇 가지 독특한 문제를 야기한다.게놈의 높은 염기서열 범위는 반복 염기서열의 존재를 나타낼 수 있지만(따라서 마스크됨), 전사체의 경우, 그것들은 풍부함을 나타낼 수 있다.또한 게놈 염기서열 분석과 달리, 트랜스크립트롬 염기서열 분석은 감지 및 안티센스 전사의 가능성 때문에 가닥 특이적일 수 있다.마지막으로, 모든 스플라이싱 아이소폼을 [9]재구성하고 분리하는 것은 어려울 수 있습니다.

짧은 읽기 어셈블러는 일반적으로 오버랩 그래프와 de Bruijn [10]그래프라는 두 가지 기본 알고리즘 중 하나를 사용합니다.오버랩 그래프는 Sanger 시퀀스 읽기용으로 설계된 대부분의 어셈블러에 사용됩니다.각 읽기 쌍 간의 중첩이 계산되어 그래프로 컴파일됩니다.이 그래프에서 각 노드는 단일 시퀀스 읽기를 나타냅니다.이 알고리즘은 de Bruijn 그래프보다 계산 부하가 높고 중복도가 높은 [10]읽기 수를 줄이는 데 가장 효과적입니다.De Bruijn 그래프는 k-1 시퀀스 보존에 따라 k-mer(일반적으로 25-50 bp)를 정렬하여 콘티그(contigue)를 생성합니다.k-mer는 읽기 길이보다 짧기 때문에 고속 해시가 가능하기 때문에 de Bruijn 그래프에서의 작업은 일반적으로 계산 집약도가 [10]낮습니다.

기능 주석

조립된 트랜스크립트의 기능적 주석을 통해 특정 분자 기능, 세포 구성 요소 및 추정 단백질이 관여하는 생물학적 과정에 대한 통찰력을 얻을 수 있습니다.Blast2GO(B2G)를 사용하면 GO 주석을 사용할 수 없는 시퀀스 데이터에 GO 온톨로지 기반 데이터 마이닝이 가능합니다.비모델 종에 [11]대한 기능성 유전체 연구에 자주 사용되는 연구 도구입니다.이것은 (NCBI에서) 비장 단백질 데이터베이스에 대해 조립된 콘티그를 블라스팅한 다음 배열 유사성에 따라 주석을 달아 작동한다.GOANNA는 비슷한 방식으로 작동하는 동식물 유전자 제품에 특화된 또 다른 GO 주석 프로그램이다.GO 주석 및 [12]분석을 위해 공개적으로 액세스할 수 있는 큐레이션된 계산 도구 모음의 AgBase 데이터베이스의 일부입니다.주석에 이어 KEGG(Kyoto Encyclopedia of Genes and Genetomes)[13]를 통해 대사 경로와 트랜스크립트롬에서 포착된 분자 상호작용 네트워크를 시각화할 수 있습니다.

콘티그는 GO 용어에 대한 주석을 달 수 있을 뿐만 아니라, 이러한 전사물로부터 유래한 단백질의 아미노산 배열을 예측하기 위해 Open Reading Frame(ORF; 개방형 판독 프레임)에 대해서도 스크리닝될 수 있다.또 다른 접근법은 단백질 도메인에 주석을 달아 특정 유전자가 아닌 유전자 패밀리의 존재를 결정하는 것이다.

검증 및 품질관리

잘 분해된 참조 게놈은 거의 이용할 수 없기 때문에, 컴퓨터 조립 콘텐트의 품질은 조립된 염기서열을 그것들을 생성하기 위해 사용된 판독치와 비교하거나(기준 없이), 또는 mRNA 전사물에서 발견된 보존된 유전자 도메인의 염기서열을 밀접하게 관련된 유전자 또는 유전자에 정렬함으로써 검증될 수 있다.s(참조 베이스).Transrate[14][15] DETONATE와 같은 도구를 사용하면 이러한 방법으로 조립품질을 통계적으로 분석할 수 있습니다.또 다른 방법은 예측된 트랜스크립트에 대한 PCR 프라이머를 설계한 후 cDNA 라이브러리에서 증폭하는 것입니다.대부분의 경우 예외적으로 짧은 읽기가 필터링됩니다.짧은 배열(< 40 아미노산)은 독립적으로 접을 수 [16]없고 소수성 코어를 형성할 수 없기 때문에 기능성 단백질을 나타낼 가능성이 낮다.

이러한 지표를 보완하여 유전자 함량의 정량적 평가는 어셈블리의 품질에 대한 추가적인 통찰력을 제공할 수 있다.이 단계를 수행하기 위해,[17] BUSCO와 같이 보존된 유전자를 기반으로 예상 유전자 공간을 모델링하는 도구를 사용할 수 있습니다.진핵 생물의 경우 [19]CEGMA도[18] 사용될 수 있지만 2015년부터 공식적으로 더 이상 지원되지 않습니다.

어셈블러

다음은 트랜스크립텀 생성에 사용된 어셈블리 소프트웨어의 일부 요약이며 과학 문헌에도 인용되어 있습니다.

SeqMan NGen

DNASTAR의 소프트웨어 파이프라인의 일부인 SeqMan NGen에는 소규모 또는 대규모 트랜스크립트롬 데이터 세트를 위한 de novo 트랜스크립트롬 어셈블러가 포함되어 있습니다.SeqMan NGen은 RefSeq를 사용하여 스크립트를 식별하고 병합하는 특허 알고리즘을 사용하며 DNASTAR의 자체 스크립트 주석 도구를 사용하여 조립된 스크립트에 자동으로 주석을 달아 알려진 새로운 [20]유전자를 식별하고 강조 표시합니다.

SOAPdenovo-Trans

SOAPdenovo-Trans는 SOAPdenovo2 프레임워크에서 계승된 de novo transcriptome 어셈블러로 대체 스플라이싱과 다른 표현 수준을 사용하여 transcriptome을 조립하도록 설계되었습니다.어셈블러는 SOAPdenovo2에 비해 전체 길이의 스크립트 세트를 구성하는 보다 포괄적인 방법을 제공합니다.

벨벳/오아시스

Velvet 알고리즘은 de Bruijn 그래프를 사용하여 스크립트를 조합합니다.시뮬레이션에서 벨벳은 원핵생물 데이터를 사용하여 최대 50kb N50 길이의 콘티그를 생성할 수 있으며 포유류 박테리아 인공염색체(BAC)[21]에서 3kb N50을 생성할 수 있습니다.이러한 예비 스크립트는 Oases로 전송되며, Oases는 쌍으로 구성된 엔드 읽기 및 롱 읽기 정보를 사용하여 전사 Isoform을 [22]작성합니다.

트랜스ABYSS

ABySS는 병렬 쌍으로 구성된 시퀀스 어셈블러입니다.트랜스ABYSS(Assembly By Short Sequences)는 ABySS에서 조립된 트랜스크립트옴 콘티그 분석을 위해 Python 및 Perl작성된 소프트웨어 파이프라인입니다.이 파이프라인은 광범위한 k개의 값에 걸쳐 생성된 어셈블리에 적용할 수 있습니다.먼저 데이터 세트를 더 작은 비장 콘티그 세트로 줄이고 exon-skiping, new exon, reserve intron, new intron 및 대체 스플라이싱 등의 스플라이싱 이벤트를 식별합니다.트랜스ABYSS 알고리즘은 또한 유전자 발현 수준을 추정할 수 있고 잠재적 폴리아데닐화 부위와 후보 유전자 융합 이벤트를 [23]식별할 수 있다.

삼위일체

트리니티는 먼저[24] 배열 데이터를 여러 de Bruijn 그래프로 나누며, 각각 단일 유전자 또는 궤적에서 전사 변화를 나타낸다.그런 다음 전장 스플라이싱 아이소폼을 추출하고 각 그래프에서 병렬 유전자에서 파생된 트랜스크립트를 구분한다.Trinity는 3개의 독립된 소프트웨어 모듈로 구성되어 있으며, 이들은 순차적으로 스크립트를 작성하기 위해 사용됩니다.

  • Inchworm은 RNA-Seq 데이터를 전사 시퀀스로 조립하여 종종 지배적인 Isoform에 대한 전체 길이 전사를 생성하지만 대체적으로 스플라이스된 전사 중 고유한 부분만 보고합니다.
  • 번데기는 Inchworm을 클러스터화하여 각 클러스터에 대해 완전한 de Bruijn 그래프를 작성합니다.각 클러스터는 주어진 유전자(또는 보존된 염기서열을 공유하는 유전자 패밀리 또는 유전자 세트)의 완전한 전사 복잡성을 나타냅니다.그런 다음 번데기는 전체 읽기 세트를 이러한 개별 그래프 간에 분할합니다.
  • 그런 다음 Butterfly는 개별 그래프를 병렬로 처리하여 그래프 내의 판독 경로를 추적하고 궁극적으로 대체적으로 스플라이싱된 Isoform에 대한 전체 길이 트랜스크립트를 보고하며 병렬 [25]유전자에 해당하는 트랜스크립트를 분리한다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Wettersrand, KA. "The Cost of Sequencing a Human Genome". Genome.gov. Retrieved 6 May 2021.
  2. ^ Surget-Groba Y, Montoya-Burgos JI (2010). "Optimization of de novo transcriptome assembly from next-generation sequencing data". Genome Res. 20 (10): 1432–1440. doi:10.1101/gr.103846.109. PMC 2945192. PMID 20693479.
  3. ^ Garg R, Patel RK, Tyagi AK, Jain M (2011). "De novo assembly of chickpea transcriptome using short reads for gene discovery and marker identification". DNA Res. 18 (1): 53–63. doi:10.1093/dnares/dsq028. PMC 3041503. PMID 21217129.
  4. ^ Adamidi C; et al. (2011). "De novo assembly and validation of planaria transcriptome by massive parallel sequencing and shotgun proteomics". Genome Res. 21 (7): 1193–1200. doi:10.1101/gr.113779.110. PMC 3129261. PMID 21536722.
  5. ^ Zeng V; et al. (2011). "De novo assembly and characterization of a maternal and developmental transcriptome for the emerging model crustacean Parhyale hawaiensis". BMC Genomics. 12: 581. doi:10.1186/1471-2164-12-581. PMC 3282834. PMID 22118449.
  6. ^ Tzika AC; et al. (2011). "Reptilian transcriptome v1.0, a glimpse in the brain transcriptome of five divergent Sauropsida lineages and the phylogenetic position of turtles" (PDF). EvoDevo. 2 (1): 19. doi:10.1186/2041-9139-2-19. PMC 3192992. PMID 21943375.
  7. ^ Rowan BA, Weigel D, Koenig D (2011). "Developmental genetics and new sequencing technologies: the rise of nonmodel organisms". Developmental Cell. 21 (1): 65–76. doi:10.1016/j.devcel.2011.05.021. PMID 21763609.
  8. ^ a b Birol I; et al. (2009). "De novo transcriptome assembly with ABySS". Bioinformatics. 25 (21): 2872–7. doi:10.1093/bioinformatics/btp367. PMID 19528083.
  9. ^ a b c Martin, Jeffrey A.; Wang, Zhong (2011). "Next-generation transcriptome assembly". Nature Reviews Genetics. 12 (10): 671–682. doi:10.1038/nrg3068. PMID 21897427. S2CID 3447321.
  10. ^ a b c Illumina, Inc. (2010). "De Novo Assembly Using Illumina Reads" (PDF).
  11. ^ Conesa A; et al. (2005). "Blast2GO: a universal tool for annotation, visualization and analysis in functional genomics research". Bioinformatics. 21 (18): 3674–3676. doi:10.1093/bioinformatics/bti610. PMID 16081474.
  12. ^ McCarthy FM; et al. (2006). "AgBase: a functional genomics resource for agriculture". BMC Genomics. 7: 229. doi:10.1186/1471-2164-7-229. PMC 1618847. PMID 16961921.
  13. ^ "KEGG PATHWAY Database".
  14. ^ 트랜스포트: 트랜스포트롬 어셈블리를 이해합니다.http://hibberdlab.com/transrate
  15. ^ Li B; et al. (2014). "Evaluation of de novo transcriptome assemblies from RNA-Seq data". Genome Biology. 15 (12): 553. doi:10.1186/s13059-014-0553-5. PMC 4298084. PMID 25608678.
  16. ^ Karplus, K. pdb-1: 단백질 배열의 최소 길이.https://lists.sdsc.edu/pipermail/pdb-l/2011-January/005317.html 를 참조해 주세요.
  17. ^ Seppey, Mathieu; Manni, Mosè; Zdobnov, Evgeny M. (2019), Kollmar, Martin (ed.), "BUSCO: Assessing Genome Assembly and Annotation Completeness", Gene Prediction, New York, NY: Springer New York, vol. 1962, pp. 227–245, doi:10.1007/978-1-4939-9173-0_14, ISBN 978-1-4939-9172-3, PMID 31020564, retrieved 2021-04-24
  18. ^ Parra, G.; Bradnam, K.; Korf, I. (2007-05-01). "CEGMA: a pipeline to accurately annotate core genes in eukaryotic genomes". Bioinformatics. 23 (9): 1061–1067. doi:10.1093/bioinformatics/btm071. ISSN 1367-4803. PMID 17332020.
  19. ^ "CEGMA". korflab.ucdavis.edu. Retrieved 2021-04-24.
  20. ^ "DNASTAR".
  21. ^ Zerbino DR, Birney E (2008). "Velvet: Algorithms for de novo short read assembly using de Bruijn graphs". Genome Res. 18 (5): 821–829. doi:10.1101/gr.074492.107. PMC 2336801. PMID 18349386.
  22. ^ "Oases: de novo transcriptome assembler for very short reads".
  23. ^ "Trans-ABySS: Analyze ABySS multi-k assembled shotgun transcriptome data".
  24. ^ "Trinity". 2018-11-24.
  25. ^ "Trinity RNA-Seq Assembly – software for the reconstruction of full-length transcripts and alternatively spliced isoforms". Archived from the original on July 12, 2011.