DNA 주석

DNA annotation

DNA 주석 또는 게놈 주석유전자의 위치와 모든 유전자의 코딩 영역을 식별하고 그 유전자가 무엇을 하는지를 결정하는 과정이다. 주석(문맥과 무관하게)은 설명이나 논평을 통해 추가된 주석이다. 게놈의 염기서열이 정해지면 이를 이해하기 위해 주석을 달아야 한다.[1] 진핵 게놈의 유전자는 FINDER를 이용하여 주석을 달 수 있다.[2]

DNA 주석의 경우, 이전에 알려지지 않았던 유전자 물질의 시퀀스 표현은 유전자위치, 규제 순서, 반복측정, 유전자 이름 및 단백질 생산물에 대한 정보로 풍부하다. 이 주석은 마우스 게놈 정보학, FlyBase, WormBase와 같은 게놈 데이터베이스에 저장된다. 2006년 Gene Ontology 주석 캠프의 생물학적 주석 일부 측면에 대한 교육 자료와 유사한 이벤트도 Gene Ontology 웹사이트에서 확인할 수 있다.[3]

국립 바이오메디컬 온톨로지 센터(www.bioontology.org)는 이러한 기록의 텍스트 설명을 기반으로 데이터베이스 레코드의 주석을[4] 자동화하는 도구를 개발한다.

일반적인 방법으로 dcGO[5] 기존 유전자/단백질 수준 주석에서 온톨로지 용어와 단백질 영역 또는 도메인 조합 사이의 연관성을 통계적으로 추론할 수 있는 자동화된 절차를 가지고 있다.

과정

게놈 주석은 세 가지 주요 단계로 구성된다.[6]

  1. 단백질을 코딩하지 않는 게놈의 일부분 식별
  2. 유전자 예측이라는 과정인 게놈의 원소 식별
  3. 이러한 요소에 생물학적 정보를 첨부하는 것

자동 주석 도구는 인간의 전문성을 수반하는 수동 주석(예: 큐레이션)과는 반대로 컴퓨터 분석을 통해 이러한 단계를 수행하려고 시도한다. 이상적으로는 이러한 접근법이 동일한 주석 파이프라인에서 공존하고 서로 보완한다.

유전자 주석을 위한 간단한 방법은 특정 데이터베이스에서 동질 유전자를 검색하기 위해 VLAST와 같은 동질학 기반의 검색 도구에 의존하며, 그 결과 정보는 유전자와 게놈에 주석을 달기 위해 사용된다.[7] 그러나 주석 플랫폼에 정보가 추가되면서 수동 주석자는 동일한 주석을 부여받은 유전자 간의 불일치를 디콘볼루션할 수 있게 된다. 일부 데이터베이스는 서브시스템 접근방식을 통해 게놈의 상황 정보, 유사성 점수, 실험 데이터 및 기타 자원의 통합을 사용하여 게놈 주석을 제공한다. 다른 데이터베이스(예: 앙상블)는 자동화된 게놈 주석 파이프라인에서 다양한 소프트웨어 도구뿐만 아니라 큐레이션된 데이터 소스에 의존한다.[8]

구조 주석은 유전적 요소의 식별으로 구성된다.

  • ORF 및 지역화
  • 유전자 구조
  • 부호화 지역
  • 규제 모티브의 위치

기능 주석(functional adnotation)은 게놈 요소에 생물학적 정보를 첨부하는 것으로 구성된다.

  • 생화학적 함수
  • 생물학적 함수
  • 관련 규정과 상호 작용
  • 표현

이 단계들은 생물학적 실험과 실리코 분석 둘 다를 포함할 수 있다. 프로테오제노믹스에 기반한 접근법은 게노믹스 주석을 개선하기 위해 종종 질량 분석으로부터 파생되는 표현된 단백질의 정보를 이용한다.[9]

과학자들이 게놈 주석을 보고 공유할 수 있도록 하기 위해 다양한 소프트웨어 도구가 개발되었다. 예를 들어, Maker와 같은 말이다.

게놈 주석은 인간 게놈을 연구하는 과학자들에게 중요한 과제로 남아 있는데, 현재 1,000명 이상의 인간 개인(영국 게놈 프로젝트 10만 개)과 여러 모델 유기체의 게놈 순서가 대체로 완성되어 있기 때문이다.[10][11] 유전자와 다른 유전적 통제 요소의 위치를 식별하는 것은 종종 유기체의 조립과 정상적인 작동을 위한 생물학적 "부품 리스트"를 정의하는 것으로 설명된다.[7] 과학자들은 이 부품 목록을 기술하는 과정과 모든 부품들이 어떻게 "함께 어울리느냐"[12]를 이해하는 과정에서 아직 초기 단계에 있다.

게놈 주석은 조사의 활발한 영역이며, 웹과 기타 전자적 수단을 통해 접근할 수 있는 공개적으로 이용 가능한 생물학적 데이터베이스에 대한 노력의 결과를 발표하는 생명과학계의 여러 다른 조직들을 포함한다. 다음은 게놈 주석과 관련된 진행 중인 프로젝트의 알파벳순 목록이다.

위키피디아에서 게놈 주석은 연구 데이터베이스에서 유전자 데이터를 수집하고 이를 기반으로 유전자 스터브를 만드는 을 운영하는 진위키 포털의 후원으로 자동화되기 시작했다.[13]

참조

  1. ^ "Definition of genome annotation".
  2. ^ Banerjee S, Bhandary P, Woodhouse M, Sen TZ, Wise RP, Andorf CM (April 2021). "FINDER: an automated software package to annotate eukaryotic genes from RNA-Seq data and associated protein sequences". BMC Bioinformatics. 44 (9): e89. doi:10.1186/s12859-021-04120-9. PMC 8056616. PMID 33879057.
  3. ^ "GO Teaching Resources". Archived from the original on 10 October 2006. Retrieved 21 September 2006.
  4. ^ http://bioontology.stanford.edu/annotator-service
  5. ^ Fang, H; Gough, J (2013). "DcGO: Database of domain-centric ontologies on functions, phenotypes, diseases and more". Nucleic Acids Research. 41 (Database issue): D536–44. doi:10.1093/nar/gks1080. PMC 3531119. PMID 23161684.
  6. ^ Stein, L. (2001). "Genome annotation: from sequence to biology". Nature Reviews Genetics. 2 (7): 493–503. doi:10.1038/35080529. PMID 11433356. S2CID 12044602.
  7. ^ a b Pevsner, Jonathan (2009). Bioinformatics and functional genomics (2nd ed.). Hoboken, N.J: Wiley-Blackwell. ISBN 9780470085851.
  8. ^ "Ensembl's genome annotation pipeline online documentation". Archived from the original on 5 March 2016.
  9. ^ Gupta, Nitin; Stephen Tanner; Navdeep Jaitly; Joshua N Adkins; Mary Lipton; Robert Edwards; Margaret Romine; Andrei Osterman; Vineet Bafna; Richard D Smith; Pavel A Pevzner (September 2007). "Whole proteome analysis of post-translational modifications: applications of mass-spectrometry for proteogenomic annotation". Genome Research. 17 (9): 1362–1377. doi:10.1101/gr.6427907. ISSN 1088-9051. PMC 1950905. PMID 17690205.
  10. ^ ENCODE Project Consortium (2011). Becker PB (ed.). "A User's Guide to the Encyclopedia of DNA Elements (ENCODE)". PLOS Biology. 9 (4): e1001046. doi:10.1371/journal.pbio.1001046. PMC 3079585. PMID 21526222. open access
  11. ^ McVean, G. A.; Abecasis, D. M.; Auton, R. M.; Brooks, G. A. R.; Depristo, D. R.; Durbin, A.; Handsaker, A. G.; Kang, P.; Marth, E. E.; McVean, P.; Gabriel, S. B.; Gibbs, R. A.; Green, E. D.; Hurles, M. E.; Knoppers, B. M.; Korbel, J. O.; Lander, E. S.; Lee, C.; Lehrach, H.; Mardis, E. R.; Marth, G. T.; McVean, G. A.; Nickerson, D. A.; Schmidt, J. P.; Sherry, S. T.; Wang, J.; Wilson, R. K.; Gibbs (Principal Investigator), R. A.; Dinh, H.; et al. (2012). "An integrated map of genetic variation from 1,092 human genomes". Nature. 491 (7422): 56–65. Bibcode:2012Natur.491...56T. doi:10.1038/nature11632. PMC 3498066. PMID 23128226.
  12. ^ Dunham, I.; Bernstein, A.; Birney, S. F.; Dunham, P. J.; Green, C. A.; Gunter, F.; Snyder, C. B.; Frietze, S.; Harrow, J.; Kaul, R.; Khatun, J.; Lajoie, B. R.; Landt, S. G.; Lee, B. K.; Pauli, F.; Rosenbloom, K. R.; Sabo, P.; Safi, A.; Sanyal, A.; Shoresh, N.; Simon, J. M.; Song, L.; Trinklein, N. D.; Altshuler, R. C.; Birney, E.; Brown, J. B.; Cheng, C.; Djebali, S.; Dong, X.; et al. (2012). "An integrated encyclopedia of DNA elements in the human genome". Nature. 489 (7414): 57–74. Bibcode:2012Natur.489...57T. doi:10.1038/nature11247. PMC 3439153. PMID 22955616.
  13. ^ Huss, Jon W.; Orozco, C; Goodale, J; Wu, C; Batalov, S; Vickers, TJ; Valafar, F; Su, AI (2008). "A Gene Wiki for Community Annotation of Gene Function". PLOS Biology. 6 (7): e175. doi:10.1371/journal.pbio.0060175. PMC 2443188. PMID 18613750.