유니프로트

UniProt
유니프로트
UPlogo1.png
콘텐츠
묘사UniProtUniversal Prot, TrEMBL 및 PIR-PSD 데이터베이스를 결합하여 생성된 단백질 데이터의 중앙 저장소인 Universal Prot 자원입니다.
데이터형
발동.
단백질 주석
유기체모든.
연락
연구소EMBL-EBI(영국), SIB(스위스), PIR(미국)
주요 인용문UniProt 컨소시엄[1]
접근
data 형식커스텀 플랫 파일, FASTA, GFF, RDF, XML.
웹 사이트www.uniprot.org
www.uniprot.org/news/
다운로드 URLwww.uniprot.org/downloads 및 완전한 데이터 세트를 다운로드하려면 ftp.uniprot.org를 방문하십시오.
서비스 URL○ – Java API는 이쪽, REST이쪽
도구들
고급 검색, BLAST, ClusteralO, 대량 검색/다운로드, ID 매핑
여러가지 종류의
면허증.Creative Commons Attribution-NoDerivs
버전 관리네.
데이터 릴리즈
빈도수.
8주
큐레이션 정책있음 – 수동 및 자동데이터베이스 큐레이터 및 계산 알고리즘에 의해 생성되는 자동 주석 규칙입니다.
북마크 가능
엔티티
○ – 개별 단백질 입력 및 검색 모두

UniProt는 자유롭게 액세스할 수 있는 단백질 배열 및 기능 정보 데이터베이스이며, 많은 항목이 게놈 배열 프로젝트에서 파생됩니다.그것은 연구 문헌에서 파생된 단백질의 생물학적 기능에 대한 많은 정보를 포함하고 있다.그것은 여러 유럽 생물 정보학 조직과 워싱턴 DC, 미국 재단으로 구성된 UniProt 컨소시엄에 의해 유지된다.

UniProt 컨소시엄

UniProt 컨소시엄은 유럽생물정보학연구소(EBI), 스위스생물정보학연구소(SIB) 및 단백질정보자원(PIR)로 구성되어 있습니다.EBI는 영국 힌스턴의 웰컴 트러스트 게놈 캠퍼스에 위치하고 있으며 생물정보학 데이터베이스와 서비스의 대규모 자원을 보유하고 있습니다.스위스 제네바에 위치한 SIB는 프로테오믹스 도구와 데이터베이스의 핵심 자원인 ExPASy(Expert Protein Analysis System) 서버를 관리하고 있습니다.미국 워싱턴 DC에 있는 조지타운 대학 메디컬 센터에서 NBRF(National Biomedical Research Foundation)가 주최하는 PIR는 가장 오래된 단백질 배열 데이터베이스인 Margaret Dayhoff의 단백질 배열 및 구조 아틀라스(Atlas of Protein Sequence and Structure)의 계승자이다.[2]2002년, EBI, SIB 및 PIR는 UniProt [3]컨소시엄으로 협력했습니다.

UniProt 데이터베이스의 루트

각 컨소시엄 구성원은 단백질 데이터베이스 유지 보수 및 주석 작업에 크게 관여합니다.최근까지 EBI와 SIB는 함께 Swiss-Prot 및 TrEMBL 데이터베이스를 생성했으며 PIR는 단백질 배열 데이터베이스(PIR-PSD)[4][5][6]를 생성했다.이러한 데이터베이스는 서로 다른 단백질 배열 범위와 주석 우선 순위와 공존했다.

Swiss-Prot는 1986년 박사과정 중 Amos Bairoch에 의해 개발되었으며 스위스 생물정보학 연구소에 의해 개발되었으며 이후 유럽 생물정보학 [7][8][9]연구소의 Rolf Apweiler에 의해 개발되었습니다.Swiss-Prot는 높은 수준의 주석(단백질 기능 설명, 도메인 구조, 번역수정, 변형 등), 최소 수준의 중복성 및 다른 데이터베이스와의 높은 통합과 관련된 신뢰할 수 있는 단백질 시퀀스를 제공하는 것을 목표로 했다.시퀀스 데이터가 Swiss-Prot의 능력을 초과하는 속도로 생성되고 있음을 인식하여 TrEMBL(Translated EMBL Nucleotide Sequence Data Library)은 Swiss-Prot에 없는 단백질에 대한 자동 주석을 제공하기 위해 생성되었습니다.한편, PIR는 PIR-PSD와 단백질 배열 및 큐레이티드 패밀리의 데이터베이스인 iProClass를 포함한 관련 데이터베이스를 유지하였다.

컨소시엄 구성원들은 중복되는 리소스와 전문지식을 모아 2003년 [10]12월에 UniProt를 출시했습니다.

UniProt 데이터베이스 구성

UniProt는 다음 4가지 핵심 데이터베이스를 제공합니다.UniProtKB(Swiss-Prot 및 TrEMBL 하위 부분 포함), UniParc, UniRef.

UniProtKB

UniProt Knowledge Base(UniProtKB)는 전문가에 의해 부분적으로 큐레이션된 단백질 데이터베이스로, 다음 2개의 섹션으로 구성됩니다.UniProtKB/Swiss-Prot(검토된 수동 주석 첨부 항목 포함) 및 UniProtKB/TrEMBL(미검토 자동 주석 첨부 [11]항목 포함)2014년 3월 19일 현재 UniProtKB/Swiss-Prot의 릴리스 '2014_03'은 542,782개의 배열 항목(22만6,896개의 참조에서 추출한 193,019,802개의 아미노산 포함), UniProtKB/TrEMBL의 릴리스 '2014_03'은 54,247,468개의 배열 항목 포함(17,468개)이다.

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot는 수동으로 주석을 단 비장 단백질 배열 데이터베이스입니다.그것은 과학 문헌에서 추출한 정보와 바이오쿨레이터가 평가한 컴퓨터 분석을 결합한다.UniProtKB/Swiss-Prot의 목적은 특정 단백질에 대해 알려진 모든 관련 정보를 제공하는 것입니다.주석을 정기적으로 검토하여 현재 과학적 발견을 따라잡습니다.항목의 수동 주석에는 단백질 배열과 과학 [14]문헌에 대한 자세한 분석이 포함됩니다.

같은 유전자 및 같은 종으로부터의 배열을 같은 데이터베이스 엔트리에 결합한다.시퀀스 간의 차이를 식별하고 그 원인을 문서화합니다(를 들어 대체 스플라이싱, 자연 변화, 잘못된 시작 부위, 잘못된 Exon 경계, 프레임 이동, 확인되지 않은 충돌).UniProtKB/Swiss-Prot 항목의 주석에는 다양한 시퀀스 분석 도구가 사용됩니다.컴퓨터 예측은 수동으로 평가되며 엔트리에 포함할 관련 결과가 선택됩니다.이러한 예측에는 번역 후 수정, 막 통과 도메인과 위상, 신호 펩타이드, 도메인 식별 및 단백질 패밀리 [14][15]분류가 포함됩니다.

관련 출판물은 PubMed와 같은 데이터베이스를 검색하여 식별할 수 있습니다.각 논문의 전문을 읽고 정보를 추출하여 엔트리에 추가한다.과학 문헌에서 발생하는 주석에는 다음이 포함되지만 이에 [10][14][15]한정되지 않는다.

주석이 달린 엔트리는 UniProtKB/Swiss-Prot에 포함되기 전에 품질보증을 받습니다.새 데이터를 사용할 수 있게 되면 항목이 업데이트됩니다.

UniProtKB/TrEMBL

UniProtKB/TrEMBL에는 고품질 계산 분석 레코드가 포함되어 있으며 자동 주석 기능이 강화되어 있습니다.UniProtKB/Swiss-Prot의 시간과 노동력이 많이 드는 수동 주석 프로세스를 모든 사용 가능한 단백질 [10]서열을 포함하도록 확장할 수 없었기 때문에 게놈 프로젝트에서 비롯된 데이터 흐름 증가에 대응하여 도입되었다.EMBL-Bank/GenBank/DDBJ 뉴클레오티드 배열 데이터베이스의 주석 코드 배열 번역은 자동으로 처리되어 UniProtKB/TrEMBL에 입력된다.UniProtKB/TrEMBL은 또한 Ensembl, RefSeqCCDS[16]포함한 PDB 및 유전자 예측으로부터 얻은 염기서열을 포함하고 있다. 2021년 7월 22일부터 알파폴드 3차 [18]및 알파폴드 멀티미어로 예측된 염기서열도[17] 포함하고 있다.

UniParc

UniProt Archive(UniParc)는 포괄적이고 비장화된 데이터베이스로,[19] 일반적으로 이용 가능한 주요 단백질 배열 데이터베이스의 모든 단백질 배열을 포함합니다.단백질은 여러 다른 소스 데이터베이스에 존재할 수 있으며, 동일한 데이터베이스의 여러 복사본에 존재할 수 있습니다.용장성을 피하기 위해 UniParc는 각 고유 시퀀스를 1회만 저장합니다.같은 종이든 다른 종이든 상관없이 동일한 염기서열이 병합됩니다.각 시퀀스에는 안정적이고 고유한 식별자(UPI)가 부여되어 서로 다른 소스 데이터베이스에서 동일한 단백질을 식별할 수 있습니다.UniParc에는 주석 없이 단백질 시퀀스만 포함되어 있습니다.UniParc 엔트리의 데이터베이스 상호 참조를 통해 원본 데이터베이스에서 단백질에 대한 추가 정보를 검색할 수 있습니다.소스 데이터베이스의 시퀀스가 변경되면 이러한 변경이 UniParc에 의해 추적되고 모든 변경 내역이 아카이브됩니다.

원본 데이터베이스

현재 UniParc에는 다음과 같은 공개 데이터베이스로부터의 단백질 시퀀스가 포함되어 있습니다.

UniRef

UniProt Reference Clusters(UniRef)는 UniProtKB와 선택된 UniParc [22]레코드의 클러스터된 단백질 시퀀스의 3개의 데이터베이스로 구성됩니다.UniRef100 데이터베이스는 동일한 시퀀스 및 시퀀스프래그먼트(어느 유기체로부터의 것)를 단일 UniRef 엔트리에 결합합니다.대표적인 단백질의 시퀀스, Marge된 모든 엔트리의 등록번호 및 대응하는 UniProtKB 및 UniParc 레코드에 대한 링크가 표시됩니다.UniRef100 시퀀스는 CD-HIT 알고리즘을 사용하여 클러스터화되어 UniRef90 및 UniRef50을 [22][23]구축합니다.각 클러스터는 가장 긴 시퀀스에 대해 각각 90% 또는 50% 이상의 시퀀스 ID를 갖는 시퀀스로 구성됩니다.시퀀스를 클러스터링하면 데이터베이스 크기가 대폭 줄어들어 시퀀스 검색이 고속화됩니다.

UniRef 는 UniProt FTP 사이트에서 이용할 수 있습니다.

자금 조달

UniProt는 National Human Genome Research Institute, NIH(National Institute of Health), 유럽위원회, 연방교육과학청을 통한 스위스 연방정부, NCI-CABIG 및 미국 [11]국방부의 보조금으로 자금을 조달하고 있습니다.

레퍼런스

  1. ^ UniProt, Consortium. (January 2015). "UniProt: a hub for protein information". Nucleic Acids Research. 43 (Database issue): D204–12. doi:10.1093/nar/gku989. PMC 4384041. PMID 25348405.
  2. ^ Dayhoff, Margaret O. (1965). Atlas of protein sequence and structure. Silver Spring, Md: National Biomedical Research Foundation.
  3. ^ "2002 Release: NHGRI Funds Global Protein Database". National Human Genome Research Institute (NHGRI). Archived from the original on 24 September 2015. Retrieved 14 April 2018.
  4. ^ O'Donovan, C.; Martin, M. J.; Gattiker, A.; Gasteiger, E.; Bairoch, A.; Apweiler, R. (2002). "High-quality protein knowledge resource: SWISS-PROT and TrEMBL". Briefings in Bioinformatics. 3 (3): 275–284. doi:10.1093/bib/3.3.275. PMID 12230036.
  5. ^ Wu, C. H.; Yeh, L. S.; Huang, H.; Arminski, L.; Castro-Alvear, J.; Chen, Y.; Hu, Z.; Kourtesis, P.; Ledley, R. S.; Suzek, B. E.; Vinayaka, C. R.; Zhang, J.; Barker, W. C. (2003). "The Protein Information Resource". Nucleic Acids Research. 31 (1): 345–347. doi:10.1093/nar/gkg040. PMC 165487. PMID 12520019.
  6. ^ Boeckmann, B.; Bairoch, A.; Apweiler, R.; Blatter, M. C.; Estreicher, A.; Gasteiger, E.; Martin, M. J.; Michoud, K.; O'Donovan, C.; Phan, I.; Pilbout, S.; Schneider, M. (2003). "The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003". Nucleic Acids Research. 31 (1): 365–370. doi:10.1093/nar/gkg095. PMC 165542. PMID 12520024.
  7. ^ Bairoch, A.; Apweiler, R. (1996). "The SWISS-PROT protein sequence data bank and its new supplement TREMBL". Nucleic Acids Research. 24 (1): 21–25. doi:10.1093/nar/24.1.21. PMC 145613. PMID 8594581.
  8. ^ Bairoch, A. (2000). "Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times!". Bioinformatics. 16 (1): 48–64. doi:10.1093/bioinformatics/16.1.48. PMID 10812477.
  9. ^ 세베린 알타이라크, "나상스 방크도네: 교수님 인터뷰 아모스 바이로흐.2006년 8월, ' 라 운', Protéines A la Un.ISSN 1660-9824.
  10. ^ a b c Apweiler, R.; Bairoch, A.; Wu, C. H. (2004). "Protein sequence databases". Current Opinion in Chemical Biology. 8 (1): 76–80. doi:10.1016/j.cbpa.2003.12.004. PMID 15036160.
  11. ^ a b Uniprot, C. (2009). "The Universal Protein Resource (UniProt) in 2010". Nucleic Acids Research. 38 (Database issue): D142–D148. doi:10.1093/nar/gkp846. PMC 2808944. PMID 19843607.
  12. ^ "UniProtKB/Swiss-Prot Release 2018_03 statistics". web.expasy.org. Retrieved 14 April 2018.
  13. ^ EMBL-EBI. "Current Release Statistics < Uniprot < EMBL-EBI". www.ebi.ac.uk. Archived from the original on 25 April 2019. Retrieved 14 April 2018.
  14. ^ a b c "How do we manually annotate a UniProtKB entry?". www.uniprot.org. Retrieved 14 April 2018.
  15. ^ a b Apweiler, R.; Bairoch, A.; Wu, C. H.; Barker, W. C.; Boeckmann, B.; Ferro, S.; Gasteiger, E.; Huang, H.; Lopez, R.; Magrane, M.; Martin, M. J.; Natale, D. A.; o’Donovan, C.; Redaschi, N.; Yeh, L. S. (2004). "UniProt: The Universal Protein knowledgebase". Nucleic Acids Research. 32 (90001): 115D–1119. doi:10.1093/nar/gkh131. PMC 308865. PMID 14681372.
  16. ^ "Where do the UniProtKB protein sequences come from?". www.uniprot.org. Retrieved 14 April 2018.
  17. ^ Humphreys, Ian R.; Pei, Jimin; Baek, Minkyung; Krishnakumar, Aditya; Anishchenko, Ivan; Ovchinnikov, Sergey; Zhang, Jing; Ness, Travis J.; Banjade, Sudeep; Bagde, Saket R.; Stancheva, Viktoriya G. (2021). "Computed structures of core eukaryotic protein complexes". Science. 374 (6573): eabm4805. doi:10.1126/science.abm4805. PMC 7612107. PMID 34762488.
  18. ^ "Putting the power of AlphaFold into the world's hands". Deepmind. Retrieved 24 July 2021.
  19. ^ Leinonen, R.; Diez, F. G.; Binns, D.; Fleischmann, W.; Lopez, R.; Apweiler, R. (2004). "UniProt archive". Bioinformatics. 20 (17): 3236–3237. doi:10.1093/bioinformatics/bth191. PMID 15044231.
  20. ^ "Protein Research Foundation".
  21. ^ ftp://ftp.isrec.isb-sib.ch/pub/databases/trome[영구 데드링크]
  22. ^ a b Suzek, B. E.; Huang, H.; McGarvey, P.; Mazumder, R.; Wu, C. H. (2007). "UniRef: Comprehensive and non-redundant UniProt reference clusters". Bioinformatics. 23 (10): 1282–1288. doi:10.1093/bioinformatics/btm098. PMID 17379688.
  23. ^ Li, W.; Jaroszewski, L.; Godzik, A. (2001). "Clustering of highly homologous sequences to reduce the size of large protein databases". Bioinformatics. 17 (3): 282–283. doi:10.1093/bioinformatics/17.3.282. PMID 11294794.

외부 링크