GenBank

GenBank
GenBank
내용
묘사참고 문헌 및 생물학적 주석을 지원하는 300,000개 이상의 유기체에 대한 뉴클레오티드 배열.
데이터형
발동.
  • 뉴클레오티드 배열
  • 단백질 배열
유기체모든.
연락
연구소엔씨비
주요 인용문PMID 21071399
발매일1982년; 40년 전 (2012년)
접근
data 형식
웹 사이트엔씨비
다운로드 URLncbi ftp
서비스 URL
도구들
폭발.
스탠드아론폭발.
여러가지 종류의
면허증.불명확하다[1]

GenBank 배열 데이터베이스는 공개 가능한 모든 뉴클레오티드 배열과 그 단백질 번역에 대한 개방형 액세스, 주석 모음이다.이것은 국제 뉴클레오티드 배열 데이터베이스 콜라보레이션(INSDC)의 일부로서 미국 국립 생명공학정보센터(NCBI; National Institute of Health)에 의해 생산 및 관리된다.

GenBank와 그 협력자들은 공식적으로 기술된 500,000종 이상의 [2]종으로부터 전 세계 실험실에서 생성된 시퀀스를 받습니다.데이터베이스는 1982년 월터 고드로스 알라모스 국립 연구소의해 시작되었습니다.GenBank는 생물학 분야 연구의 중요한 데이터베이스가 되었으며, 최근 몇 년 [3][4]동안 18개월마다 약 두 배씩 기하급수적으로 성장했습니다.

2022년 6월에 발표된 릴리스 250.0은 2,450억 [5]개 이상의 염기서열에 17조 개 이상의 뉴클레오티드 염기를 포함하고 있다.GenBank는 개별 연구소에서 직접 제출하거나 대규모 시퀀싱 센터에서 대량 제출하여 구축됩니다.

투고

원본 시퀀스만 GenBank에 제출할 수 있습니다.웹 기반 양식인 BankIt 또는 독립형 제출 프로그램인 Sequin을 사용하여 GenBank에 직접 제출합니다.시퀀스 제출을 받은 GenBank 직원은 데이터의 원본성을 검사하고 시퀀스에 등록번호를 할당하여 품질보증 체크를 실시한다.다음으로 송신된 엔트리는 Entrez에 의해 취득되거나 FTP에 의해 다운로드될 수 있는 퍼블릭데이터베이스에 공개됩니다.대규모 염기서열 분석 센터에서는 EST(Expressed Sequence Tag), 염기서열 분석 사이트(STS), 게놈 조사 염기서열(GSS) 및 High-Throughput Genome Sequence(HTGS) 데이터를 대량 제출하는 경우가 가장 많습니다.GenBank의 직접 제출 그룹은 또한 완전한 미생물 게놈 [6][7]염기서열을 처리합니다.

역사

Los Alamos National Laboratory(LANL)의 이론생물학 및 생물물리학 그룹의 Walter Goad는 1979년에 Los Alamos Sequence Database를 구축했으며, 1982년에 공공 [8]GenBank가 설립되면서 그 정점에 도달했습니다.자금은 국립보건원, 국립과학재단, 에너지부, 국방부에서 제공되었다.LANL은 GenBank에서 Bolt, Beranek, Newman과 협업하여 1983년 말까지 2,000개 이상의 시퀀스가 저장되었습니다.

1980년대 중반 스탠포드 대학의 인텔리전트네틱스 생물정보학 회사는 LANL과 [9]협력하여 GenBank 프로젝트를 관리했습니다.GenBank 프로젝트는 최초의 인터넷 생물정보학 커뮤니티 프로젝트 중 하나로 생물학자 간의 개방적인 접근 통신을 촉진하기 위한 BIOSCI/Bionet 뉴스 그룹을 시작했습니다.1989년부터 1992년까지 GenBank 프로젝트는 새롭게 설립된 National Center for Biotechnology Information(NCBI)[10]으로 이행했습니다.

Genbank와 EMBL: Nucleotide Sequences 1986/1987 제1권부터 제7권까지
Genbank v100의 CDROM

성장

1982년부터 2018년까지 GenBank 기반 쌍 증가(반로그 규모)

릴리스 250.0(2022년 6월)의 GenBank 릴리스 노트에는 "1982년부터 현재까지 GenBank의 거점 수는 약 18개월마다 2배 증가했다"[5][11]고 기술되어 있다.2022년 6월 15일 현재, GenBank 릴리스 250.0은 보고된 2억3천900만 개의 [5]염기서열에서 2억3천900만 의 로키, 1,39조 개의 뉴클레오티드 베이스를 가지고 있다.

GenBank 데이터베이스에는 메인 시퀀스 데이터 수집에서 기계적으로 구성된 추가 데이터 세트가 포함되어 있으므로 이 카운트에서 제외됩니다.

GenBank 상위 20개 생물 (릴리스 250)[5]
유기체 염기쌍
트리티쿰 심미룸 2.15443744183×10^11
사스-CoV-2 1.65771825746×10^11
호데움 벌가레 서브스페어불량품 1.01344340096×10^11
근골근 3.0614386913×10^10
호모 사피엔스 2.7834633853×10^10
에비나 사티바 2.1127939362×10^10
대장균 1.5517830491×10^10
클렙시엘라 폐렴 1.1144687122×10^10
다니오 레리오 1.0890148966×10^10
보스 황소자리 1.0650671156×10^10
트리티쿰 터기덤 아속두릅나무 9.981529154×10^9
제아메이스 7.412263902×10^9
아베나 섬 6.924307246×10^9
세칼레레알 6.749247504×10^9
노베기쿠스 6.548854408×10^9
아에길롭스롱기시마 5.920483689×10^9
루푸스 낯익은 개 5.776499164×10^9
아에길롭스샤로넨시스 5.272476906×10^9
서스스크로파 5.179074907×10^9
히나트레마비타툼 5.178626132×10^9

식별이 불완전함

National Center for Biotechnology Information Basic Local Alignment Search Tool(NCBI BLAST)을 사용하여 검색할 수 있는 공용 데이터베이스에는 동료 검토된 유형 균주의 시퀀스 및 비 유형 균주의 시퀀스가 없습니다.한편, 상용 데이터베이스는 잠재적으로 고품질의 필터링된 시퀀스 데이터를 포함하지만, 참조 시퀀스 수는 제한적이다.

임상 미생물학[12] 저널(Journal of Clinical Microbiology)에 발표된 논문은 GenBank에서 분석된 16S rRNA 유전자 배열 결과를 EzTaxon-e[13] 및 BIBI[14] 데이터베이스와 같이 자유롭게 이용할 수 있고 품질 제어된 웹 기반 공공 데이터베이스와 함께 평가했다.그 결과, EzTaxon-e(카파 = 0.79)와 결합된 GenBank를 사용하여 수행된 분석은 GenBank(카파 = 0.66) 또는 다른 데이터베이스를 단독으로 사용하는 것보다 더 차별적이었다.

GenBank는 공개 데이터베이스로서 유기체의 초기 식별이 잘못되었기 때문에 특정 종에 잘못 할당된 시퀀스를 포함할 수 있다.게놈에 게재된 최근 기사에 따르면 미토콘드리아 시토크롬c 산화효소 I 서브유닛의 75%가 초기에 잘못 식별된 [15]개인의 배열의 지속적인 사용으로 인해 어류 Nemipterus mesoprion에 잘못 할당되었다.저자들은 잘못된 학명을 가진 공개적으로 이용 가능한 시퀀스의 추가 배포를 피하는 방법을 권고한다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ UCSC 다운로드 페이지에는 "NCBI는 GenBank 데이터의 사용 및 배포에 제한을 두지 않습니다.단, 일부 제출자는 제출한 데이터의 전부 또는 일부에 대해 특허, 저작권 또는 기타 지적재산권을 주장할 수 있습니다.NCBI는 이러한 청구의 유효성을 평가할 수 있는 위치에 있지 않기 때문에 GenBank에 포함된 정보의 사용, 복사 또는 배포에 관한 코멘트나 무제한 허가를 제공할 수 없습니다."
  2. ^ Eric W Sayers; Mark Cavanaugh; Karen Clark; Kim D Pruitt; Conrad L Schoch; Stephen T Sherry; Ilene Karsch-Mizrachi (7 January 2022). "GenBank". Nucleic Acids Archive. 50 (D1): D161–D164. doi:10.1093/nar/gkab1135.
  3. ^ Benson D; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Wheeler, D. L.; et al. (2008). "GenBank". Nucleic Acids Research. 36 (Database): D25–D30. doi:10.1093/nar/gkm929. PMC 2238942. PMID 18073190.
  4. ^ Benson D; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Sayers, E. W.; et al. (2009). "GenBank". Nucleic Acids Research. 37 (Database): D26–D31. doi:10.1093/nar/gkn723. PMC 2686462. PMID 18940867.
  5. ^ a b c d "GenBank release notes (Release 250)". NCBI. 15 June 2022. Retrieved 20 July 2022.
  6. ^ "How to submit data to GenBank". NCBI. Retrieved 20 July 2022.
  7. ^ "GenBank Submission Types". NCBI. Retrieved 20 July 2022.
  8. ^ Hanson, Todd (2000-11-21). "Walter Goad, GenBank founder, dies". Newsbulletin: obituary. Los Alamos National Laboratory.
  9. ^ LANL GenBank 이력
  10. ^ Benton D (1990). "Recent changes in the GenBank On-line Service". Nucleic Acids Research. 18 (6): 1517–1520. doi:10.1093/nar/18.6.1517. PMC 330520. PMID 2326192.
  11. ^ Benson, D. A.; Cavanaugh, M.; Clark, K.; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Sayers, E. W. (2012). "GenBank". Nucleic Acids Research. 41 (Database issue): D36–D42. doi:10.1093/nar/gks1195. PMC 3531190. PMID 23193287.
  12. ^ Kyung Sun Park; Chang-Seok Ki; Cheol-In Kang; Yae-Jean Kim; Doo Ryeon Chung; Kyong Ran Peck; Jae-Hoon Song; Nam Yong Lee (May 2012). "Evaluation of the GenBank, EzTaxon, and BIBI Services for Molecular Identification of Clinical Blood Culture Isolates That Were Unidentifiable or Misidentified by Conventional Methods". J. Clin. Microbiol. 50 (5): 1792–1795. doi:10.1128/JCM.00081-12. PMC 3347139. PMID 22403421.
  13. ^ EzTaxon-e Database eztaxon-e.ezbiocloud.net (2021년 3월 25일 접속)
  14. ^ leBIBI V5 pbil.univ-lyon1.fr (2021년 3월 25일 액세스 완료)
  15. ^ Ogwang, Joel; Bariche, Michel; Bos, Arthur R. (2021). "Genetic diversity and phylogenetic relationships of threadfin breams (Nemipterus spp.) from the Red Sea and eastern Mediterranean Sea". Genome. 64 (3): 207–216. doi:10.1139/gen-2019-0163.


외부 링크