CATH 데이터베이스

CATH database
캐스
CATH - Protein Structure Classification Database.png
내용
묘사단백질 구조 분류
연락
연구소유니버시티 칼리지 런던
실험실.구조 분자 생물학 연구소
주요 인용문도슨 외 연구진 (2016)
발매일1997
접근
웹 사이트cathdb.info
다운로드 URLcathdb.info/download
여러가지 종류의
데이터 릴리즈
빈도수.
CATH-B는 매일 출시됩니다.공식 릴리스는 대략 연간입니다.
버전4.3

CATH 단백질 구조 분류 데이터베이스는 단백질 도메인의 진화 관계에 대한 정보를 제공하는 무료 공개 온라인 리소스입니다.1990년대 중반 크리스틴 오렌고 교수와 재닛 손튼, 데이비드 [2]존스 등 동료들에 의해 만들어졌으며, 유니버시티 칼리지 런던의 오렌고 그룹에 의해 계속 개발되고 있다.CATH는 SCOP 리소스와 많은 광범위한 기능을 공유하지만 세부 분류가 크게 [3][4][5][6]다른 영역도 많이 있습니다.

계층 구성

실험적으로 결정된 단백질 3차원 구조는 단백질 데이터 뱅크에서 얻어지며 해당되는 경우 연속된 폴리펩타이드 체인으로 분할된다.단백질 도메인은 자동 방법과 수동 큐레이션의 혼합물을 사용하여 이러한 사슬 내에서 식별됩니다.

그런 다음 도메인은 CATH 구조 계층 내에서 분류된다. 클래스(C) 수준에서 도메인은 2차 구조 내용, 즉 모든 알파, 모든 베타, 알파와 베타 혼합 또는 거의 2차 구조에 따라 할당된다. 아키텍처(A) 수준에서 2차 구조 배열에 대한 정보는 3차원이다.l 공간은 할당에 사용된다. 토폴로지/폴드(T) 수준에서는 2차 구조 요소가 어떻게 연결되고 배열되는지에 대한 정보가 사용된다. 도메인이 진화에 의해 관련된다는 좋은 증거가 있는 경우(즉, 도메인이 동질적이라는 것)는 호몰로지 슈퍼 패밀리(H) 수준에 할당된다.

CATH 계층의 4가지 주요 레벨은 다음과 같습니다.
# 레벨 묘사
1 클래스 도메인의 전체적인 secondary-structure 콘텐츠(SCOP 클래스와 동일)
2 아키텍처 구조적인 유사성은 높지만 호몰로지의 증거는 없다.
3 토폴로지/폴드 특정 구조적 특징을 공유하는 토폴로지의 대규모 그룹(SCOP의 '접힘' 수준과 동일)
4 상동성 슈퍼패밀리 입증 가능한 진화적 관계를 나타낸다.(SCOP 슈퍼패밀리와 동등)

실험적으로 결정된 구조가 없는 도메인에 대한 추가 배열 데이터는 상동 슈퍼패밀리를 채우는 데 사용되는 CATH의 자매 자원인 Gene3D에 의해 제공된다.UniProtKB 및 Ensembl로부터의 단백질 배열을 CATH HMM에 대해 스캔하여 도메인 배열 경계를 예측하고 상동 슈퍼 패밀리를 할당합니다.

릴리스

CATH 팀은 12개월마다 CATH 분류의 정식 릴리스를 제공하는 것을 목표로 하고 있습니다.이 릴리스 프로세스는 내부 검증, 추가 주석 및 분석을 제공할 수 있기 때문에 중요합니다.그러나 PDB에 나타나는 새로운 구조와 최신 공식 CATH 릴리스 사이에 시간 지연이 있을 수 있습니다.

이 문제를 해결하기 위해: CATH-B는 최신 도메인 주석(예: 도메인 경계 및 슈퍼 패밀리 분류)에 제한된 양의 정보를 제공합니다.

CATH-Gene3D(v4.3)의 최신 릴리스는 2020년 12월에 출시되었으며 다음과 같이 구성되어 있습니다.

  • 500,238개의 구조단백질 도메인
  • 151mln 비구조 단백질 도메인 엔트리
  • 5,481개의 상동 슈퍼패밀리 엔트리
  • 212,872개의 기능 패밀리 엔트리

오픈 소스 소프트웨어

CATH는 오픈 소스 소프트웨어 프로젝트로, 개발자는 다수의 오픈 소스 [7]도구를 개발하고 유지관리합니다.CATH는 외부 사용자가 CATH 단백질 구조 분류와 관련된 문제를 생성하고 추적할 수 있도록 GitHub에 할 일 목록을 유지합니다.

레퍼런스

  1. ^ a b c d e Dawson, NL; Lewis, TE; Das, S; Lees, JG; Lee, D; Ashford, P; Orengo, CA; Sillitoe, I (28 November 2016). "CATH: an expanded resource to predict protein function through structure and sequence". Nucleic Acids Research. 45 (D1): D289–D295. doi:10.1093/nar/gkw1098. PMC 5210570. PMID 27899584.
  2. ^ a b Orengo, CA; Michie, AD; Jones, S; Jones, DT; Swindells, MB; Thornton, JM (1997). "CATH – a hierarchic classification of protein domain structures". Structure. 5 (8): 1093–1109. doi:10.1016/S0969-2126(97)00260-8. ISSN 0969-2126. PMID 9309224.
  3. ^ "CATH: Protein Structure Classification Database at UCL". Cathdb.info. Retrieved 9 March 2017.
  4. ^ "CATH". Cathdb.info. Retrieved 9 March 2017.
  5. ^ "CATH Database (@CATHDatabase)". Twitter. Retrieved 9 March 2017.
  6. ^ Pearl, F. M. G. (2003). "The CATH database: an extended protein family resource for structural and functional genomics". Nucleic Acids Research. 31 (1): 452–455. doi:10.1093/nar/gkg062. ISSN 1362-4962. PMC 165509. PMID 12520050.
  7. ^ "Tools". cathdb.info. Retrieved 18 December 2016.