참조

RefSeq
참조
US-NLM-NCBI-Logo.svg
콘텐츠
묘사유전자 배열 데이터베이스(genome)의 큐레이션된 비복제 배열 데이터베이스.
연락
연구소국립생명공학정보센터
주요 인용문Pruitt KD & al. (2005)[1]
접근
웹 사이트https://www.ncbi.nlm.nih.gov/RefSeq

기준 배열(RefSeq) 데이터베이스[1] 공개 가능한 뉴클레오티드 배열(DNA, RNA)과 그 단백질 생성물의 공개 액세스, 주석 및 큐레이션된 모음이다.RefSeq는 [2][3]2000년에 처음 도입되었습니다.이 데이터베이스는 National Center for Biotechnology Information(NCBI)에 의해 구축되었으며 GenBank와 달리 바이러스, 박테리아, 진핵생물 등 주요 유기체에 대해 각 자연생물 분자(DNA, RNA 또는 단백질)에 대한 단일 기록만 제공합니다.

모델 유기체에 대해 RefSeq는 게놈 DNA, 유전자 전사물, 그리고 이러한 전사물로부터 발생하는 단백질에 대한 분리되고 연결된 기록을 제공하는 것을 목표로 한다.RefSeq는 충분한 데이터를 이용할 수 있는 주요 유기체(2022년 [4]7월 현재 121,461개의 "명칭된" 유기체)로 제한되며, GenBank는 제출된 유기체(약 504,000개의 공식적으로 기술된 종)[5]에 대한 시퀀스를 포함한다.

RefSeq 카테고리

RefSeq 컬렉션은 원본이 서로 다른 다른 데이터 유형으로 구성되므로 각 데이터 유형을 저장하기 위해 표준 범주 및 식별자를 고정해야 합니다.가장 중요한 카테고리는 다음과 같습니다.

RefSeq 가입 범주 및 분자 유형
카테고리 묘사
엔씨 완전한 게놈 분자
NG 불완전한 게놈 영역
NM mRNA
NR ncRNA
NP 단백질
XM 예측 mRNA 모델
XR 예측 ncRNA 모델
XP 예측단백질모델(유핵배열)
WP 예측 단백질 모델(원핵 배열)

자세한 내용과 범주는 The Reference Sequence (RefSeq) Database 18장의 표 1을 참조하십시오.

RefSeq 프로젝트

현재 NCBI는 EMBL-EBI와 같은 연구 센터와 협력하여 RefSeq 서비스를 개선하기 위한 여러 프로젝트를 개발하고 있습니다.

  • 컨센서스 CDS(CCDS): 이 프로젝트는 인간과 생쥐의 단백질 코드 영역의 핵심 세트를 식별하고 게놈 주석 품질의 높고 일관된 수준을 가진 유전자 세트를 표준화하는 것을 목표로 한다.이 프로젝트는 2009년에 발표되어 아직 [6][7]개발 중입니다.
  • RefSeq 기능 요소(RefSeqFE):유전자 조절 영역인 비유전자 기능성 요소 설명에 초점을 맞추고 있다. 예를 들어 증강제, 소음제, DNase I 과민성 영역, DNA 복제 기원 등).현재 이 프로젝트의 범위는 인간과 생쥐의 [8]게놈으로 제한되어 있다.
  • RefSeqGene:이것의 주된 목표는 잘 특징지어진 유전자의 기준 표준으로 사용될 게놈 서열을 정의하는 것이다.앞서 설명한 mRNA와 단백질 및 염색체 배열은 유전자 측면 및 인트로닉 영역의 명확한 게놈 좌표를 제공하지 않을 뿐만 아니라 새로운 게놈 조립체마다 변화하는 어색하게 큰 좌표를 보인다는 약점을 가지고 있다.RefSeqGene 프로젝트는 이러한 [9]오류를 제거하도록 설계되었습니다.
  • 대상 위치:본 프로젝트는 계통발생바코드 분석에 사용되는 분자 마커, 특히 단백질 코드 및 리보솜 RNA 위치를 기록합니다.이 프로젝트의 범위는 Entrez BLAST 쿼리를 통해 접근할 수 있는 고세균, 박테리아 균류 유기체의 시퀀스를 포함한다.또한 BLAST [10]쿼리를 통해 액세스할 수 있는 동물, 식물프로티스트대한 GenBank 시퀀스도 포함되어 있습니다.
  • 바이러스 종류(ViV):인플루엔자 바이러스, 에볼라 바이러스, 메르스 코로나 바이러스 또는 지카 바이러스와 같은 여러 바이러스 그룹의 시퀀스를 표시하고 검색하기 위한 시퀀스 데이터 처리 파이프라인 및 분석 도구의 특정 자원이다.새로운 바이러스, 처리 파이프라인, 도구 및 기타 기능이 [11]정기적으로 포함됩니다.
  • RefSeq 선택:이 프로젝트는 임상 데이터베이스에서 사전 사용, 전사 발현, 부호화 영역의 진화적 보존 등 여러 기준에 따라 모든 단백질 부호화 유전자에 대해 가장 대표적인 RefSeq 선택 전사 데이터 세트를 선택하는 것을 목표로 한다.많은 유전자가 대체 스플라이싱의 생물학적 과정으로 인해 여러 RefSeq 전사/단백질에 의해 나타나기 때문에, 이 복잡성은 비교 유전체학이나 임상 변이 [12]데이터의 교환과 같은 연구에서 문제가 있다.
  • MANE(NCBI 및 EMBL-EBI의 일치 주석):이것은 인간 게놈의 모든 단백질 코드 유전자에 대한 일련의 전사물과 그 단백질을 정의하는 것이 주된 목표인 NCBI와 EMBL-EBI 사이의 협업 프로젝트이다.이를 통해 RefSeq와 Ensembl/GENCODE 주석 시스템 간의 전사 주석 차이를 줄일 수 있다.MANE Select 스크립트 세트는 임상 보고 및 비교 또는 진화 유전체학을 위한 유용한 범용 표준으로 작성됩니다.번째 MANE Plus 임상 세트도 추가 기록과 함께 생성되어 공공 리소스에서 [13]사용 가능한 모든 병원성(P) 또는 가능성 병원성(LP) 임상 변형을 보고한다.이 프로젝트는 2018년 발표됐으며 2022년 완료될 예정이다.

통계 정보

RefSeq 릴리스 213(2022년 7월)에 따르면, 데이터베이스에 고유한 분류 ID를 계산하여 표현되는 종의 수는 다음과 같다.[4]

분류 ID 종.
고세균 1443
박테리아 69122
완성하다 121461
곰팡이 16869
무척추동물 5715
미토콘드리아 13648
식물. 9177
플라스미드 6073
플라스틱 9430
원생동물 746
척추동물(동물) 1509
바이러스 11620
척추동물(기타) 5237
다른. 4

분자 유형당 결합 및 염기쌍의 [4]계수는 다음과 같다.

분자형 접속 베이스페어/레지드
유전체학 40,758,769 2.923212393984×10^12
RNA 45,781,716 1.22253022047×10^11
단백질 234,520,053 9.129062394×10^10

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b Pruitt KD, Tatusova T, Maglott DR (January 2005). "NCBI Reference Sequence (RefSeq): a curated non-redundant sequence database of genomes, transcripts and proteins". Nucleic Acids Research. 33 (Database issue): D501–D504. doi:10.1093/nar/gki025. PMC 539979. PMID 15608248.
  2. ^ Maglott DR, Katz KS, Sicotte H, Pruitt KD (January 2000). "NCBI's LocusLink and RefSeq". Nucleic Acids Research. 28 (1): 126–128. doi:10.1093/nar/28.1.126. PMC 102393. PMID 10592200.
  3. ^ Pruitt KD, Katz KS, Sicotte H, Maglott DR (January 2000). "Introducing RefSeq and LocusLink: curated human genome resources at the NCBI". Trends in Genetics. 16 (1): 44–47. doi:10.1016/s0168-9525(99)01882-x. PMID 10637631.
  4. ^ a b c RefSeq Release 213 Statistics (Report). National Library of Medicine. 11 July 2022. Retrieved 20 July 2022.
  5. ^ Sayers EW, Cavanaugh M, Clark K, Pruitt KD, Schoch CL, Sherry ST, Karsch-Mizrachi I (January 2022). "GenBank". Nucleic Acids Research. 50 (D1): D161–D164. doi:10.1093/nar/gkab1135. PMC 8690257. PMID 34850943.
  6. ^ Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, et al. (July 2009). "The consensus coding sequence (CCDS) project: Identifying a common protein-coding gene set for the human and mouse genomes". Genome Research. 19 (7): 1316–1323. doi:10.1101/gr.080531.108. PMC 2704439. PMID 19498102.
  7. ^ Pujar S, O'Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, et al. (January 2018). "Consensus coding sequence (CCDS) database: a standardized set of human and mouse protein-coding regions supported by expert curation". Nucleic Acids Research. 46 (D1): D221–D228. doi:10.1093/nar/gkx1031. PMC 5753299. PMID 29126148.
  8. ^ Farrell CM, Goldfarb T, Rangwala SH, Astashyn A, Ermolaeva OD, Hem V, et al. (January 2022). "RefSeq Functional Elements as experimentally assayed nongenic reference standards and functional interactions in human and mouse". Genome Research. 32 (1): 175–188. doi:10.1101/gr.275819.121. PMC 8744684. PMID 34876495.
  9. ^ Gulley ML, Braziel RM, Halling KC, Hsi ED, Kant JA, Nikiforova MN, et al. (June 2007). "Clinical laboratory reports in molecular pathology". Archives of Pathology & Laboratory Medicine. 131 (6): 852–863. doi:10.5858/2007-131-852-CLRIMP. PMID 17550311.
  10. ^ "NCBI RefSeq Targeted Loci Project". www.ncbi.nlm.nih.gov. Retrieved 2022-07-27.
  11. ^ Hatcher EL, Zhdanov SA, Bao Y, Blinkova O, Nawrocki EP, Ostapchuck Y, et al. (January 2017). "Virus Variation Resource - improved response to emergent viral outbreaks". Nucleic Acids Research. 45 (D1): D482–D490. doi:10.1093/nar/gkw1065. PMC 5210549. PMID 27899678.
  12. ^ "NCBI RefSeq Select". www.ncbi.nlm.nih.gov. Retrieved 2022-07-27.
  13. ^ Morales J, Pujar S, Loveland JE, Astashyn A, Bennett R, Berry A, et al. (April 2022). "A joint NCBI and EMBL-EBI transcript set for clinical genomics and research". Nature. 604 (7905): 310–315. doi:10.1038/s41586-022-04558-8. PMC 9007741. PMID 35388217.

원천

외부 링크