단백질 데이터베이스의 구조분류

Structural Classification of Proteins database
SCOP
Structural Classification of Proteins database logo.gif
내용
설명단백질 구조 분류
연락처
리서치센터분자생물학 연구소
작가들알렉세이 G.머진, 스티븐 E. 브레너, 팀 J. P. 허바드, 사이러스 조티아
1차 인용PMID 7723011
출시일자1994
접근
웹사이트http://scop.mrc-lmb.cam.ac.uk/scop/
잡다한
버전1.75(2009년 6월; 3,902개 패밀리로 분류된 38,221개 구조에서 110,800개의 도메인)[1]
큐레이션 정책수동의
범위
내용
설명SCOP - 확장
연락처
작가들나오미 K.폭스, 스티븐 브레너, 존-마크 찬도니아
1차 인용PMID 24304899
접근
웹사이트https://scop.berkeley.edu
잡다한
버전2.07(2018년 3월; 4,919가족으로 분류된 87,224개 구조물의 276,231개 도메인)[2]
큐레이션 정책수동(신규 분류) 및 자동화(신규 구조, 블라스트)

구조 분류 단백질(SCOP) 데이터베이스구조아미노산 염기서열의 유사성에 기초하여 단백질 구조 영역의 크게 수동 분류다.이 분류의 동기는 단백질 사이의 진화적 관계를 결정하는 것이다.모양은 같지만 염기서열이나 기능적 유사성이 거의 없는 단백질은 서로 다른 슈퍼 패밀리에 배치되며, 아주 먼 공통 조상만을 가지고 있는 것으로 추정된다.동일한 모양과 약간의 염기서열 및/또는 기능의 유사성을 가진 단백질은 "가족"에 위치하며, 더 가까운 공통 조상을 가지고 있는 것으로 가정한다.

CathPfam 데이터베이스와 유사하게, SCOP는 상당한 수의 다른 도메인을 포함할 수 있는 전체 단백질의 분류가 아닌, 단백질의 개별 구조 영역의 분류를 제공한다.

SCOP 데이터베이스는 인터넷에서 자유롭게 접속할 수 있다.SCOP는 1994년 단백질 공학 센터분자 생물학 연구소에서 만들어졌다.[3]그것은 알렉세이 G에 의해 유지되었다.2010년 폐쇄될 때까지 단백질 공학 센터의 머진과 그의 동료들은 영국 캠브리지의 분자 생물학 연구소에서 일했다.[4][5][6][1]

SCOP 1.75에 대한 작업은 2014년에 중단되었다.이후 UC 버클리의 SCOPe 팀은 자동화된 방법과 수동적인 방법을 조합하여 호환 가능한 방식으로 데이터베이스를 업데이트하는 책임을 지고 있다.2019년 4월 현재, 최신 발매는 SCOPe 2.07(2018년 3월)이다.[2]

새로운 구조 분류 단백질 버전 2(SCOP2) 데이터베이스는 2020년 초에 출시되었다.새로운 업데이트는 향상된 데이터베이스 스키마, 새로운 API 및 현대화된 웹 인터페이스를 특징으로 했다.이는 SCOP 1.75 이후 케임브리지 그룹에 의해 가장 중요한 업데이트였으며 SCOP 2 프로토타입에서 얻은 스키마의 진보에 기초한다.[7]

계층적 조직

단백질 구조의 근원은 단백질 데이터 뱅크다.SCOP에서 구조 분류 단위는 단백질 영역이다.SCOP 저자들이 말하는 "도메인"은 작은 단백질과 대부분의 중간 크기의 단백질은 단지 하나의 영역만을 가지고 있다는 그들의 진술과 [8]αβ22 구조를 가진 [9]인간 헤모글로빈에 α와 β 서브 유닛을 위한 하나의 영역인 두 개의 SCOP 영역이 할당된다는 관찰에 의해 제시된다.

도메인의 모양은 SCOP에서 "폴드"라고 불린다.동일한 접힘에 속하는 도메인은 동일한 위상학적 연결로 동일한 배열로 동일한 주요 2차 구조를 가지고 있으며, 1195 접힘은 SCOP 버전 1.75로 주어진다.각 접힌 부분에 대한 간략한 설명이 제공된다.예를 들어, "글로빈과 같은" 접기는 중심부로 설명된다: 나선형 6개, 접힌 잎, 부분적으로 열린 잎.도메인이 속하는 접기는 소프트웨어보다는 검사에 의해 결정된다.

SCOP 버전 1.75의 수준은 다음과 같다.

  1. 클래스: 접힘 유형(예: 베타 시트).
  2. 접기: 클래스 내 여러 가지 도메인 모양.
  3. 슈퍼 패밀리:접힌 영역은 적어도 먼 공통 조상을 가진 슈퍼 패밀리로 분류된다.
  4. 가족: 슈퍼 패밀리의 도메인들은 가족으로 분류되는데, 이것은 더 최근의 공통 조상을 가지고 있다.
  5. 단백질 영역:가족의 영역은 단백질 영역으로 분류되는데, 이것은 근본적으로 동일한 단백질이다.
  6. 종:"단백질 도메인"의 도메인은 종에 따라 분류된다.
  7. 도메인: 단백질의 일부.단순한 단백질은 단백질 전체가 될 수 있다.

수업

SCOP 버전 1.75에서 가장 넓은 그룹은 단백질 접힘 등급이다.이 세분류는 2차 구조 구성은 유사하지만 전체적인 3차 구조와 진화적으로 기원이 다른 구조물을 분류한다.이것은 SCOP 계층 분류의 최상위 레벨 "루트"이다.

  1. 모든 알파 단백질 [46456](284): α-헬리크로 구성된 영역
  2. 모든 베타 단백질 [48724] (174):β-시트로 구성된 도메인
  3. 알파 및 베타 단백질 (a/b) [51349] (147) : 주로 평행 베타 시트(베타-알파-베타 단위)
  4. 알파 및 베타 단백질 (a+b) [53931](376): 주로 대척성 베타 시트(알파베타 영역)
  5. 다중 도메인 단백질(알파 및 베타) [5672] (66) : 서로 다른 등급에 속하는이상의 도메인으로 구성된 접기
  6. 및 세포표면 단백질과 펩타이드[56835] (58) : 면역체계 단백질을 포함하지 않는다.
  7. 소단백질 [56992] (90): 보통 금속 리간드, 공동 인자 및/또는 이황화 교량 의해 지배된다.
  8. 코일 코일 단백질[57942] (7): 참 등급이 아님
  9. 저해상도 단백질 구조 [58117](26) : 펩타이드 파편 진짜 클래스가 아님
  10. 펩타이드 [58231](121): 펩타이드파편. 진짜 수업은 아니다.
  11. 설계 단백질 [58788] (44) : 본질적으로 비자연적인 염기서열을 가진 단백질의 실험 구조. 진짜 클래스가 아님

괄호 안의 숫자는 "sunid"라고 불리며, SCOP 계층 구조에서 각 노드에 대한 SCOP 고유 정수 식별자다.괄호 안의 숫자는 각 범주에 있는 원소의 수를 나타낸다.예를 들어, "모든 알파 단백질" 등급에는 284개의 접힘이 있다.계층의 각 구성원은 계층의 다음 레벨에 대한 링크다.

접다

각 클래스에는 여러 개의 뚜렷한 접힌 부분이 있다.이 분류 수준은 유사한 3차 구조를 나타내지만 반드시 진화적 관련성은 아니다.예를 들어, "All-α 단백질" 등급은 글로빈 유사(핵심: 6 헬리컬, 접힌 잎, 부분 개방), 긴 알파-헤어핀(2 헬리컬, 반팔렐 헤어핀, 왼손 트위스트) 및 Type I 도케린 도메인(EF-hand와 구별되는 두 개의 칼슘 결합 루프-헬릭스 모티브의 반복)을 포함하여 280개의 뚜렷한 주름을 포함한다.

슈퍼 패밀리

한 접의 영역은 더 나아가 슈퍼 패밀리로 분류된다.이것은 구조 유사성이 진화 관련성을 나타내기에 충분하고 따라서 공통 조상을 공유하기에 가장 큰 단백질 그룹이다.그러나, 이 조상은 서로 다른 초가족의 구성원들이 낮은 순서의 정체성을 가지고 있기 때문에 먼 것으로 추정된다.예를 들어, "글로빈 유사" 폴드의 두 개의 슈퍼 패밀리는 글로빈 슈퍼 패밀리와 알파헬리컬 페레독신 슈퍼 패밀리(Fe4-S4 클러스터 2개 포함)이다.

가족들

단백질 가족은 슈퍼 패밀리보다 더 밀접하게 연관되어 있다.도메인은 다음 중 하나에 해당하는 경우 동일한 패밀리에 배치된다.

  1. 30% 이상 시퀀스 아이덴티티
  2. 일부 시퀀스 ID(예: 15%) 및 동일한 기능 수행

염기서열과 구조의 유사성은 이들 단백질이 같은 슈퍼 패밀리의 단백질보다 더 가까운 진화적 관계를 가지고 있다는 증거다.블라스트와 같은 시퀀스 도구는 슈퍼 패밀리와 패밀리에 도메인을 배치하는 데 도움을 주기 위해 사용된다.For example, the four families in the "globin-like" superfamily of the "globin-like" fold are truncated hemoglobin (lack the first helix), nerve tissue mini-hemoglobin (lack the first helix but otherwise is more similar to conventional globins than the truncated ones), globins (Heme-binding protein), and phycocyanin-like phycobilisome proteins (olN-terminus에서 2개의 추가 나선형 나선형을 포함하는 2개의 서로 다른 유형의 글로빈 유사 서브유닛의 이그노머는 이린 색소포레(bilin cromophore)를 결합한다).SCOP의 패밀리에는 각각 간결한 분류 문자열인 scs가 할당되는데, 여기서 문자는 도메인이 속한 클래스를 식별한다. 다음 정수는 각각 접이식, 슈퍼 패밀리 및 패밀리(예: "글로빈" 패밀리의 경우 a.1.2)를 식별한다.[10]

PDB 항목 도메인

"TaxId"는 분류법 ID 번호로, 단백질이 속한 종에 대한 더 많은 정보를 제공하는 NCBI 분류법 브라우저에 연결된다.종이나 ISO 양식을 클릭하면 도메인 목록이 표시된다.예를 들어, 「인간으로부터의 헤모글로빈, 알파 체인(호모 사피엔스)」 단백질은 2dn3(cmo와 복합), 2dn1(헴, mbn, 옥시와 복합)과 같은 단백질 구조를 190 이상 해결했다.PDB 번호를 클릭하면 분자의 구조가 표시되도록 되어 있지만 링크는 현재 끊어진다(SCOP 이전에서는 링크가 작동함).

SCOP의 대부분의 페이지에는 검색 상자가 포함되어 있다."트립신 + 인간"에 들어가면 인간으로부터 단백질 트립시노겐을 포함한 여러 단백질을 회수한다.해당 항목을 선택하면 대부분의 SCOP 페이지의 맨 위에 있는 "라인"을 포함하는 페이지가 표시된다.

인간 트립소노겐 혈통
  1. 루트: 스코프
  2. 클래스: 모든 베타 단백질 [48724]
  3. 접기: 트립신 유사 세린 프로테아제 [50493]
    배럴, 닫힘; n=6, S=8; 그리스 키
    중복: 동일한 폴드의 두 영역으로 구성됨
  4. 슈퍼 패밀리:트립신 유사 세린 프로테아제 [50494]
  5. 가족: 진핵 프로테아제[50514]
  6. 단백질:트립신(ogen) [50515]
  7. 종:인간(호모 사피엔스) [택시ID: 9606] [50519]

"Subtilisin"을 검색하면 "Bacillus subilisin from Bacillus subtilisin, carlsberg"라는 단백질이 다음과 같은 혈통을 가지고 돌아온다.

바실러스 아열대의 아열대, 칼스버그 혈통
  1. 루트: 스코프
  2. 등급 : 알파 및 베타 단백질 (a/b) [51349]
    주로 병렬 베타 시트(베타-알파-베타 단위)
  3. 접기: 하위실리신 유사 [52742]
    3개 층: a/b/a, 7개 가닥의 병렬 베타 쌍, 2314567 주문, 2와 3개 가닥 사이의 좌측 교차 연결
  4. 슈퍼 패밀리: 서브틸리신 유사 [52743]
  5. 패밀리: 하위 작업 [52744]
  6. 단백질:하위실리신 [52745]
  7. 종:바실러스 미분비, 칼스버그 [TaxId: 1423] [52746]

이 두 단백질 모두 프로테아제지만 같은 접이식에도 속하지 않는데, 이는 수렴성 진화의 예가 되는 것과 일치한다.

다른 분류체계와의 비교

SCOP 분류는 주요 경쟁사인 Cath에 의한 반자동 분류보다 수동 결정에 더 의존한다.인간의 전문지식은 특정 단백질이 진화적으로 관련되는지, 따라서 동일한 슈퍼 패밀리에 할당되어야 하는지, 또는 그 유사성은 구조적 제약의 결과물이며 따라서 동일한 접종에 속하는지 여부를 결정하기 위해 사용된다.또 다른 데이터베이스인 FSSP는 순수하게 자동으로 생성되지만(일반적인 자동 업데이트를 포함) 분류가 제공되지 않아 사용자가 개별 단백질 구조의 쌍방향 비교에 근거한 구조적 관계의 중요성에 대해 스스로 결론을 도출할 수 있다.

SCOP 후계자

2009년까지 원본 SCOP 데이터베이스는 3만 8천 개의 PDB 항목을 엄격한 계층 구조로 수동으로 분류했다.단백질 구조 간행물의 속도가 빨라짐에 따라, 분류의 제한된 자동화가 따라가지 못해, 비종합 데이터 집합으로 이어졌다.SCOPe(Structural Classification of Protects extended) 데이터베이스는 동일한 계층 시스템의 훨씬 더 큰 자동화와 함께 2012년에 출시되었으며 SCOP 버전 1.75와 완전히 역호환된다.2014년에는 정확한 구조 배정을 유지하기 위해 SCOPe에 수동 큐레이션을 다시 도입하였다.2015년 2월 현재 SCOPe 2.05는 전체 PDB 11만 건 중 7만1000건을 분류했다.[11]

SCOP2 프로토타입은 단백질 구조 진화에 내재된 진화적 복잡성을 더 많이 목표로 한 단백질 구조 분류와 분류 시스템의 베타 버전이었다.[12]따라서 그것은 단순한 계층 구조가 아니라 순환 순열, 도메인 융합, 도메인 붕괴와 같은 구조 및 진화적 관계를 나타내는 단백질 슈퍼패밀리를 연결하는 방향의 순환 그래프 네트워크다.따라서 도메인은 엄격한 고정된 경계에 의해 분리되는 것이 아니라 가장 유사한 다른 구조와의 관계에 의해 정의된다.프로토타입은 SCOP 버전 2 데이터베이스 개발에 사용되었다.[7]2020년 1월 출시되는 SCOP 버전 2는 3902가족과 1962년 SCOP 1.75가족과 비교하여 5134가족과 2485가족을 포함하고 있다.분류 수준은 504,000개 이상의 단백질 구조를 나타내는 41,000개 이상의 비중복 도메인을 구성한다.

2014년에 발표된 단백질 도메인의 진화 분류(ECOD) 데이터베이스는 SCOP 버전 1.75의 SCOPe 확장 버전과 유사하다.호환되는 SCOPe와는 달리, 클래스-폴드-슈퍼 패밀리 계층 구조를 아키텍처-X-호몰로지-토폴로지-패밀리(A-XHTF) 그룹으로 명칭을 변경하고, 마지막 레벨은 Pfam에 의해 정의되며, 분류되지 않은 시퀀스에 대한 HHsearch 클러스터링으로 보완된다.[13]ECOD는 모든 PDB 구조를 포괄하며 격주로 업데이트되는 등 세 명의 후임자 모두 최고의 PDB 커버리지를 가지고 있다.[14]Pfam에 대한 직접 매핑은 "클랜" 그룹을 보완하기 위해 호몰로지 수준 범주를 사용하는 Pfam 큐레이터들에게 유용하다는 것이 입증되었다.[15]

참고 항목

참조

  1. ^ a b Andreeva A, Howorth D, Chandonia JM, Brenner SE, Hubbard TJ, Chothia C, Murzin AG (January 2008). "Data growth and its impact on the SCOP database: new developments". Nucleic Acids Research. 36 (Database issue): D419-25. doi:10.1093/nar/gkm993. PMC 2238974. PMID 18000004.
  2. ^ a b Chandonia JM, Fox NK, Brenner SE (January 2019). "SCOPe: classification of large macromolecular structures in the structural classification of proteins-extended database". Nucleic Acids Research. 47 (D1): D475–D481. doi:10.1093/nar/gky1134. PMC 6323910. PMID 30500919.
  3. ^ Murzin AG, Brenner SE, Hubbard T, Chothia C (April 1995). "SCOP: a structural classification of proteins database for the investigation of sequences and structures". Journal of Molecular Biology. 247 (4): 536–40. doi:10.1006/jmbi.1995.0159. PMID 7723011.
  4. ^ Hubbard TJ, Ailey B, Brenner SE, Murzin AG, Chothia C (January 1999). "SCOP: a Structural Classification of Proteins database". Nucleic Acids Research. 27 (1): 254–6. doi:10.1093/nar/27.1.254. PMC 148149. PMID 9847194.
  5. ^ Lo Conte L, Ailey B, Hubbard TJ, Brenner SE, Murzin AG, Chothia C (January 2000). "SCOP: a structural classification of proteins database". Nucleic Acids Research. 28 (1): 257–9. doi:10.1093/nar/28.1.257. PMC 102479. PMID 10592240.
  6. ^ Andreeva A, Howorth D, Brenner SE, Hubbard TJ, Chothia C, Murzin AG (January 2004). "SCOP database in 2004: refinements integrate structure and sequence family data". Nucleic Acids Research. 32 (Database issue): D226-9. doi:10.1093/nar/gkh039. PMC 308773. PMID 14681400.
  7. ^ a b Andreeva A, Kulesha E, Gough J, Murzin AG (January 2020). "SCOP database in 2020: : expanded classification of representative family and superfamily domains of known protein structures". Nucleic Acids Research. 48 (Database issue): D376–D382. doi:10.1093/nar/gkz1064. PMC 7139981. PMID 31724711.
  8. ^ Murzin AG, Brenner SE, Hubbard T, Chothia C (April 1995). "SCOP: a structural classification of proteins database for the investigation of sequences and structures" (PDF). Journal of Molecular Biology. 247 (4): 536–40. doi:10.1016/S0022-2836(05)80134-2. PMID 7723011. Archived from the original (PDF) on 2012-04-26.
  9. ^ PDB: 2DN1; Park SY, Yokoyama T, Shibayama N, Shiro Y, Tame JR (July 2006). "1.25 A resolution crystal structures of human haemoglobin in the oxy, deoxy and carbonmonoxy forms". Journal of Molecular Biology. 360 (3): 690–701. doi:10.1016/j.jmb.2006.05.036. PMID 16765986.
  10. ^ Lo Conte L, Brenner SE, Hubbard TJ, Chothia C, Murzin AG (January 2002). "SCOP database in 2002: refinements accommodate structural genomics". Nucleic Acids Research. 30 (1): 264–7. doi:10.1093/nar/30.1.264. PMC 99154. PMID 11752311.
  11. ^ "What is the relationship between SCOP, SCOPe, and SCOP2". scop.berkeley.edu. Retrieved 2015-08-22.
  12. ^ Andreeva A, Howorth D, Chothia C, Kulesha E, Murzin AG (January 2014). "SCOP2 prototype: a new approach to protein structure mining". Nucleic Acids Research. 42 (Database issue): D310-4. doi:10.1093/nar/gkt1242. PMC 3964979. PMID 24293656.
  13. ^ Cheng H, Schaeffer RD, Liao Y, Kinch LN, Pei J, Shi S, Kim BH, Grishin NV (December 2014). "ECOD: an evolutionary classification of protein domains". PLOS Computational Biology. 10 (12): e1003926. Bibcode:2014PLSCB..10E3926C. doi:10.1371/journal.pcbi.1003926. PMC 4256011. PMID 25474468.
  14. ^ "Evolutionary Classification of Protein Domains". prodata.swmed.edu. Retrieved 18 May 2019.
  15. ^ El-Gebali S, Mistry J, Bateman A, Eddy SR, Luciani A, Potter SC, Qureshi M, Richardson LJ, Salazar GA, Smart A, Sonnhammer EL, Hirsh L, Paladin L, Piovesan D, Tosatto SC, Finn RD (January 2019). "The Pfam protein families database in 2019". Nucleic Acids Research. 47 (D1): D427–D432. doi:10.1093/nar/gky995. PMC 6324024. PMID 30357350.

외부 링크