팜
Pfam![]() | |
---|---|
내용 | |
묘사 | Pfam 데이터베이스는 단백질 도메인에 대한 정렬 및 숨겨진 마르코프 모델을 제공한다. |
데이터형 발동. | 단백질 패밀리 |
유기체 | 모든. |
연락 | |
연구소 | EBI |
주요 인용문 | PMID 19920124 |
접근 | |
data 형식 | 스톡홀름 형식 |
웹 사이트 | pfam |
다운로드 URL | FTP 1 FTP 2 |
여러가지 종류의 | |
면허증. | GNU 약소 일반 공중 사용 허가서 |
버전 | 33.1 |
북마크 가능 엔티티 | 네. |
Pfam은 숨겨진 마르코프 [1][2][3]모델을 사용하여 생성된 주석과 다중 배열이 포함된 단백질 패밀리 데이터베이스이다.가장 최신 버전인 Pfam 34.0은 2021년 3월에 출시되었으며 19,179개의 [4]패밀리를 포함하고 있다.
사용하다
Pfam 데이터베이스의 일반적인 목적은 단백질 패밀리와 [5]도메인의 완전하고 정확한 분류를 제공하는 것이다.원래, 데이터베이스를 만든 근거는 게놈 [6]주석의 효율성을 개선하기 위해 알려진 단백질군에 대한 정보를 큐레이션하는 반자동 방법을 갖는 것이었다.단백질 계열의 Pfam 분류는 단백질의 광범위한 범위와 합리적인 명명 규칙 [7]때문에 생물학자들에 의해 널리 채택되어 왔다.
특정 단백질을 연구하는 실험 생물학자, 구조 생물학자, 컴퓨터 생물학자, 단백질의 [8]기원을 추적하는 진화 생물학자 등에 의해 사용된다.인간 및 파리와 같은 초기 게놈 프로젝트는 게놈 [9][10][11]데이터의 기능적 주석을 위해 Pfam을 광범위하게 사용했다.
Pfam 웹사이트는 사용자가 단백질 또는 DNA 염기서열을 제출하여 데이터베이스 내의 가족과의 일치를 검색할 수 있도록 합니다.DNA가 송신되면, 6 프레임의 변환이 실행되어 [12]각 프레임이 검색됩니다.전형적인 BLAST 검색을 수행하는 대신, Pfam은 보존된 사이트의 일치에 더 큰 무게를 주는 프로파일 숨겨진 마르코프 모델을 사용하여, 더 나은 원격 호몰로지 검출을 가능하게 하여, 잘 주석된 가까운 [13]친척이 없는 유기체의 게놈에 주석을 달기에 더 적합하게 만든다.
또한 Pfam은 구조 데이터베이스의 정보와 이러한 [14]구조에 대한 Pfam 도메인의 매핑을 기반으로 단백질 내부 및 간 도메인 상호작용을 분류하는 iPfam과 같은 다른 자원의 생성에도 사용되어 왔다.
특징들
Pfam의 각 가정에 대해 다음을 수행할 수 있습니다.
- 패밀리에 대한 설명 보기
- 여러 정렬 보기
- 단백질 도메인 아키텍처 표시
- 종 분포 조사
- 다른 데이터베이스로의 링크 팔로우
- 알려진 단백질 구조 보기
엔트리는 패밀리, 도메인, 반복 또는 모티브의 몇 가지 유형으로 할 수 있습니다.패밀리는 기본 클래스입니다.이것은 단순히 멤버가 관련되어 있음을 나타냅니다.도메인은 여러 단백질 컨텍스트에서 찾을 수 있는 자율 구조 단위 또는 재사용 가능한 시퀀스 단위로 정의됩니다.반복은 일반적으로 격리된 상태에서는 안정적이지 않지만 도메인 또는 확장 구조를 형성하기 위해 일반적으로 탠덤 반복을 형성해야 합니다.모티브는 일반적으로 구상 [9]영역 밖에서 발견되는 짧은 배열 단위이다.
Pfam 제품군에 대한 설명은 일반 대중이 위키피디아를 사용하여 관리합니다(이력 참조).
릴리스 29.0 현재 UniprotKB의 단백질 배열 중 76.1%가 최소 1개의 Pfam [15]도메인과 일치했다.
신규 엔트리 작성
새로운 가족은 다양한 소스, 주로 PDB와 Pfam이 [16]히트하지 않은 유전자를 찾기 위한 완전한 프로테옴의 분석으로부터 옵니다.
각 패밀리에 대해 시퀀스의 대표 서브셋이 고품질 시드 정렬로 정렬됩니다.시드 얼라인먼트의 배열은 주로 pfamseq(기준 프로테옴의 비장 데이터베이스)에서 추출되며 UniprotKB에서 [15]일부 보충된다.이 시드 얼라인먼트는 HMMER를 사용하여 프로파일을 숨긴 마르코프 모델을 구축하기 위해 사용됩니다.이 HMM은 시퀀스 데이터베이스에 대해 검색되며 큐레이션된 수집 임계값에 도달하는 모든 히트는 단백질 패밀리의 멤버로 분류됩니다.그 후 구성원의 집합이 프로파일 HMM에 맞춰져 완전한 정렬이 생성됩니다.
각 패밀리에 대해 수동으로 큐레이션된 수집 임계값이 할당되어 패밀리에 대한 실제 일치 수를 최대화하고 잘못된 양의 일치 수는 제외합니다.폴스 포지티브는 동일 클랜이 아닌 Pfam 패밀리 히트 간의 오버랩을 관찰함으로써 추정됩니다.이 임계값은 패밀리 HMM과의 일치가 단백질 패밀리에 포함되어야 하는지 여부를 평가하는 데 사용됩니다.Pfam을 업데이트할 때마다 수집 임계값을 재평가하여 신규 [16]패밀리와 기존 패밀리의 중복을 방지합니다.
알 수 없는 기능의 도메인
Domains of Unknown Function(DUF; 미지의 함수)은 Pfam 데이터베이스의 증가하는 부분을 나타냅니다.이 과는 여러 종에 걸쳐 보존되어 있는 것으로 밝혀졌기 때문에 그렇게 이름 붙여졌지만, 알려지지 않은 역할을 한다.새로 추가된 각 DUF는 추가 순서대로 이름이 지정됩니다.이러한 엔트리의 이름은 기능이 식별되면 업데이트됩니다.통상, DUF에 속하는 적어도 1개의 단백질의 기능이 결정되면, DUF 전체의 기능이 갱신되어 패밀리의 이름이 변경된다.일부 명명된 패밀리는 대표적인 단백질(예: YbbR)의 이름을 딴 미지의 기능 영역이다.보존된 함수의 시퀀스가 시퀀스 데이터에서 계속 식별됨에 따라 DUF의 수는 계속 증가할 것으로 예상된다.DUF는 결국 알려진 [16]기능을 가진 제품군보다 많아질 것으로 예상됩니다.
클랜
시간이 지남에 따라 수열과 잔기의 범위가 모두 증가했고, 가족이 성장함에 따라, 가족을 [8]씨족으로 묶을 수 있는 더 많은 진화적 관계가 발견되었습니다.클랜은 2005년에 Pfam 데이터베이스에 처음 도입되었습니다.구조,[5] 기능, 시퀀스 및 HMM 비교에 의해 확인된 바와 같이 단일 진화 기원을 공유하는 관련 패밀리 그룹입니다.릴리스 29.0 현재 단백질 패밀리의 약 3분의 1이 [15]클랜에 속해 있습니다.이 비율은 2019년(버전 32.0)[17]까지 약 3/4로 증가했습니다.
가능한 클랜 관계를 식별하기 위해 Pfam 큐레이터는 ECOD 데이터베이스의 [17]정보뿐만 아니라 Simple Comparison Of Outputs 프로그램(SCOUP)을 사용한다.ECOD는 알려진 구조를 가진 단백질 패밀리의 반자동 계층형 데이터베이스로, Pfam 엔트리에 쉽게 매핑되는 패밀리와 일반적으로 Pfam [18]패밀리에 매핑되는 호몰로지 레벨이다.
역사
Pfam은 Erik [6]Sonhammer, Sean Eddy, Richard Durbin에 의해 다세포 동물의 단백질 코드 유전자에 주석을 달기 위해 사용될 수 있는 일반적으로 발생하는 단백질 도메인의 모음으로 1995년에 설립되었습니다.그것의 시작의 주요 목표 중 하나는 C. elegans [6]게놈의 주석을 돕는 것이었다.이 프로젝트는 사이러스 코티아가 '분자생물학자를 위한 1,000개의 가족'에서 약 1500개의 서로 다른 단백질 집단이 있으며 대부분의 단백질이 단지 1000개의 [5][19]단백질 집단에 속한다고 주장한 것에 의해 부분적으로 추진되었다.이 주장과 반대로 Pfam 데이터베이스는 현재 고유한 단백질 도메인과 패밀리에 대응하는 16,306개의 엔트리를 포함하고 있다.그러나 이들 패밀리 중 상당수는 공통의 진화적 기원을 나타내는 구조적, 기능적 유사성을 포함하고 있다([5]클랜 참조).
시작 당시 Pfam과 다른 데이터베이스 간의 주요 차이점은 엔트리에 대해 두 가지 정렬 유형을 사용하는 것이었다. 즉, 시드 정렬에서 작성된 프로파일의 숨겨진 마르코프 모델에 시퀀스를 정렬하여 작성된 전체 정렬이다.이 작은 시드 정렬은 시퀀스 데이터베이스의 새로운 릴리스가 출시됨에 따라 업데이트하기가 쉬워졌고, 따라서 게놈 시퀀싱이 더욱 효율화되고 시간이 지남에 따라 더 많은 데이터를 처리해야 하는 딜레마에 대한 유망한 해결책이 되었습니다.버전 24.0에서는 데이터베이스 업데이트 속도가 더욱 향상되었으며,[8] HMER2보다 최대 100배 빠르고 민감도가 높은 HMER3가 도입되었습니다.
Pfam-A의 엔트리가 알려진 모든 단백질을 포함하는 것은 아니기 때문에 Pfam-B라고 불리는 자동 생성 보충제가 제공되었다.Pfam-B에는 [20]ADDA라는 알고리즘에 의해 생성된 클러스터에서 파생된 다수의 소가족이 포함되어 있었다.품질은 낮지만 Pfam-A 패밀리가 발견되지 않았을 때 Pfam-B 패밀리가 유용할 수 있다.Pfam-B는 릴리즈 28.[21]0에서 단종되어 새로운 클러스터링 알고리즘 MMSeqs2를 [22]사용하여 릴리즈 33.1에서 재도입되었습니다.
Pfam은 원래 용장성을 유지하기 위해 전 세계 3개의 미러 사이트에서 호스팅되었습니다.그러나 2012년에서 2014년 사이에 Pfam 리소스는 EMBL-EBI로 이동되었고, 이를 통해 중복된 독립 데이터 센터를 사용하여 1개의 도메인(xfam.org)에서 웹사이트를 호스팅할 수 있게 되었습니다.이를 통해 업데이트를 보다 효율적으로 중앙 집중화하고 Rfam, TreeFam, iPfam 등의 다른 Xfam 프로젝트와 그룹화할 수 있었으며, 동시에 [23]여러 센터에서 호스팅함으로써 제공되는 중요한 복원력을 유지할 수 있었다.
Pfam은 지난 2년 동안 큐레이션과 관련된 수작업을 더욱 줄이고 보다 빈번한 [15]업데이트를 허용하기 위해 상당한 조직 개편을 거쳤다.
커뮤니티 큐레이션
이러한 대규모 데이터베이스의 큐레이션은 새로운 패밀리 및 추가가 필요한 최신 정보의 양을 따라잡는 측면에서 문제를 제시했습니다.데이터베이스 릴리스를 고속화하기 위해 개발자들은 데이터베이스 관리에 커뮤니티가 더 많이 관여할 수 있도록 많은 이니셔티브를 시작했습니다.
엔트리 업데이트 및 개선의 중요한 단계는 릴리스 26.[16]0에서 Pfam 도메인의 기능 주석을 위키백과 커뮤니티에 개방하는 것이었다.이미 Wikipedia 엔트리가 있는 엔트리에 대해서는 Pfam 페이지에 링크되어 있습니다.또, 엔트리가 없는 엔트리에 대해서는 커뮤니티가 엔트리를 작성하고 큐레이터에게 통지해 링크되도록 했습니다.커뮤니티의 개입으로 이들 가족의 주석 수준이 크게 개선될 것으로 예상되지만, 일부는 위키피디아에 포함하기에는 충분히 주목받지 못하고, 이 경우 원래의 Pfam 기술을 유지할 것으로 예상된다.아연 핑거 기사처럼 일부 위키피디아 기사는 여러 패밀리를 다루고 있습니다.InterPro 및 Pfam 데이터를 기반으로 한 자동 문서 생성 절차도 구현되어 있습니다. 이 절차에서는 정보 및 데이터베이스 링크 및 사용 가능한 이미지로 페이지를 채우고 큐레이터가 기사를 검토하면 Sandbox에서 Wikipedia로 이동합니다.기사의 반달리즘을 방지하기 위해 각 위키피디아 개정판은 Pfam 웹사이트에 게시되기 전에 큐레이터에 의해 검토됩니다.그러나 [16]반달리즘의 거의 모든 사례는 큐레이터에게 전달되기 전에 지역사회에 의해 수정되었다.
Pfam은 세 그룹으로 구성된 국제 컨소시엄에 의해 운영된다.Pfam의 이전 릴리스에서는 패밀리 엔트리는 영국 캠브리지 사이트에서만 수정할 수 있었고, 따라서 컨소시엄 구성원의 사이트 큐레이션에 기여할 수 있는 능력이 제한되었다.릴리스 26.0에서 개발자는 전 세계 어디에서나 등록 사용자가 Pfam [16]패밀리를 추가하거나 수정할 수 있는 새로운 시스템으로 이동했습니다.
「 」를 참조해 주세요.
- 생물학적 데이터베이스 목록
- 단백질 도메인을 포함하는 생물학적 데이터베이스인 PANDIT
- 보존된 비코드 RNA 패밀리를 위한 Rfam 데이터베이스
- TreeFam 동물 유전자 계통수 데이터베이스
- 자동 단백질 배열 주석을 수행하는 TrEMBL 데이터베이스
- 단백질 도메인과 단백질 패밀리 데이터베이스의 InterPro 통합
- PDBfam - 단백질 데이터 뱅크(PDB)[24][25]의 시퀀스에 Pfam 도메인을 완전히 할당합니다.
레퍼런스
- ^ Finn RD, Tate J, Mistry J, Coggill PC, Sammut SJ, Hotz HR, Ceric G, Forslund K, Eddy SR, Sonnhammer EL, Bateman A (2008). "The Pfam protein families database". Nucleic Acids Res. 36 (Database issue): D281–8. doi:10.1093/nar/gkm960. PMC 2238907. PMID 18039703.
- ^ Finn, R. D.; Mistry, J.; Schuster-Böckler, B.; Griffiths-Jones, S.; Hollich, V.; Lassmann, T.; Moxon, S.; Marshall, M.; Khanna, A.; Durbin, R.; Eddy, S. R.; Sonnhammer, E. L.; Bateman, A. (January 2006). "Pfam: clans, web tools and services" (Free full text). Nucleic Acids Research. 34 (Database issue): D247–D251. doi:10.1093/nar/gkj149. ISSN 0305-1048. PMC 1347511. PMID 16381856.
- ^ Bateman, A.; Coin, L.; Durbin, R.; Finn, R. D.; Hollich, V.; Griffiths-Jones, S.; Khanna, A.; Marshall, M.; Moxon, S.; Sonnhammer, E. L.; Studholme, D. J.; Yeats, C.; Eddy, S. R. (2004). "The Pfam protein families database". Nucleic Acids Research. 32 (Database issue): 138D–1141. doi:10.1093/nar/gkh121. ISSN 0305-1048. PMC 308855. PMID 14681378.
- ^ "Pfam 34.0 is released". Xfam Blog. Retrieved 2 July 2021.
- ^ a b c d Sammut, Stephen; Finn, Robert D.; Bateman, Alex (2008). "Pfam 10 years on: 10 000 families and still growing". Briefings in Bioinformatics. 9 (3): 210–219. doi:10.1093/bib/bbn010. PMID 18344544.
- ^ a b c Sonnhammer, Erik L.L.; Eddy, Sean R.; Durbin, Richard (1997). "Pfam: A Comprehensive Database of Protein Domain Families Based on Seed Alignments". Proteins. 28 (3): 405–420. doi:10.1002/(sici)1097-0134(199707)28:3<405::aid-prot10>3.0.co;2-l. PMID 9223186.
- ^ Xu, Qifang; Dunbrack, Roland L. (2012). "Assignment of protein sequences to existing domain and family classification systems: Pfam and the PDB". Bioinformatics. 28 (21): 2763–2772. doi:10.1093/bioinformatics/bts533. PMC 3476341. PMID 22942020.
- ^ a b c Finn, R. D.; Mistry, J.; Tate, J.; Coggill, P.; Heger, A.; Pollington, J. E.; Gavin, O. L.; Gunasekaran, P.; Ceric, G.; Forslund, K.; Holm, L.; Sonnhammer, E. L. L.; Eddy, S. R.; Bateman, A. (2009). "The Pfam protein families database". Nucleic Acids Research. 38 (Database): D211–D222. doi:10.1093/nar/gkp985. ISSN 0305-1048. PMC 2808889. PMID 19920124.
- ^ a b Bateman A, Birney E, Cerruti L, Durbin R, Etwiller L, Eddy SR, Griffiths-Jones S, Howe KL, Marshall M, Sonnhammer EL (2002). "The Pfam protein families database". Nucleic Acids Res. 30 (1): 276–80. doi:10.1093/nar/30.1.276. PMC 99071. PMID 11752314.
- ^ Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD, et al. (2000). "The genome sequence of Drosophila melanogaster". Science. 287 (5461): 2185–95. Bibcode:2000Sci...287.2185.. CiteSeerX 10.1.1.549.8639. doi:10.1126/science.287.5461.2185. PMID 10731132.
- ^ Lander, Eric S.; Linton, Lauren M.; Birren, Bruce; Nusbaum, Chad; Zody, Michael C.; et al. (2001). "Initial sequencing and analysis of the human genome". Nature. 409 (6822): 860–921. doi:10.1038/35057062. ISSN 0028-0836. PMID 11237011.
- ^ Finn, Robert D.; Bateman, Alex; Clements, Jody; Coggill, Penelope; Eberhardt, Ruth Y.; Eddy, Sean R.; Heger, Andreas; Hetherington, Kirstie; Holm, Liisa; Mistry, Jaina; Sonnhammer, Erik L. L.; Tate, John; Punta, Marco (2014). "Pfam: the protein families database". Nucleic Acids Research. 42 (D1): D222–D230. doi:10.1093/nar/gkt1223. ISSN 0305-1048. PMC 3965110. PMID 24288371.
- ^ Sonnhammer EL, Eddy SR, Birney E, Bateman A, Durbin R (1998). "Pfam: multiple sequence alignments and HMM-profiles of protein domains". Nucleic Acids Res. 26 (1): 320–2. doi:10.1093/nar/26.1.320. PMC 147209. PMID 9399864.
- ^ Finn, R. D.; Marshall, M.; Bateman, A. (2004). "iPfam: visualization of protein-protein interactions in PDB at domain and amino acid resolutions". Bioinformatics. 21 (3): 410–412. doi:10.1093/bioinformatics/bti011. ISSN 1367-4803. PMID 15353450.
- ^ a b c d Finn, Robert D.; Coggill, Penelope; Eberhardt, Ruth Y.; Eddy, Sean R.; Mistry, Jaina; Mitchell, Alex L.; Potter, Simon C.; Punta, Marco; Qureshi, Matloob; Sangrador-Vegas, Amaia; Salazar, Gustavo A.; Tate, John; Bateman, Alex (2016). "The Pfam protein families database: towards a more sustainable future". Nucleic Acids Research. 44 (D1): D279–D285. doi:10.1093/nar/gkv1344. ISSN 0305-1048. PMC 4702930. PMID 26673716.
- ^ a b c d e f Punta, M.; Coggill, P. C.; Eberhardt, R. Y.; Mistry, J.; Tate, J.; Boursnell, C.; Pang, N.; Forslund, K.; Ceric, G.; Clements, J.; Heger, A.; Holm, L.; Sonnhammer, E. L. L.; Eddy, S. R.; Bateman, A.; Finn, R. D. (2011). "The Pfam protein families database". Nucleic Acids Research. 40 (D1): D290–D301. doi:10.1093/nar/gkr1065. ISSN 0305-1048. PMC 3245129. PMID 22127870.
- ^ a b El-Gebali, Sara; Mistry, Jaina; Bateman, Alex; Eddy, Sean R; Luciani, Aurélien; Potter, Simon C; Qureshi, Matloob; Richardson, Lorna J; Salazar, Gustavo A; Smart, Alfredo; Sonnhammer, Erik L L; Hirsh, Layla; Paladin, Lisanna; Piovesan, Damiano; Tosatto, Silvio C E; Finn, Robert D (8 January 2019). "The Pfam protein families database in 2019". Nucleic Acids Research. 47 (D1): D427–D432. doi:10.1093/nar/gky995. PMC 6324024. PMID 30357350.
- ^ "Evolutionary Classification of Protein Domains". prodata.swmed.edu. Retrieved 18 May 2019.
- ^ Chothia, Cyrus (1992). "One thousand families for the molecular biologist". Nature. 357 (6379): 543–544. Bibcode:1992Natur.357..543C. doi:10.1038/357543a0. ISSN 0028-0836. PMID 1608464. S2CID 4355476.
- ^ Heger, A.; Wilton, C. A.; Sivakumar, A.; Holm, L. (January 2005). "ADDA: a domain database with global coverage of the protein universe" (Free full text). Nucleic Acids Research. 33 (Database issue): D188–D191. doi:10.1093/nar/gki096. ISSN 0305-1048. PMC 540050. PMID 15608174.
- ^ "Pfam 28.0 release notes". Retrieved 30 June 2015.
- ^ "A new Pfam-B is released". Xfam Blog. 30 June 2020.
- ^ "Moving to xfam.org". Retrieved 25 November 2016.
- ^ Dunbrack, Roland. "PDBfam". Fox Chase Cancer Center. Retrieved 9 March 2013.
- ^ Xu, Qifang; Dunbrack, Roland (2012). "Assignment of protein sequences to existing domain and family classification systems: Pfam and the PDB". Bioinformatics. 28 (21): 2763–72. doi:10.1093/bioinformatics/bts533. PMC 3476341. PMID 22942020.