단백질 패밀리

Protein family
일부 구성원의 이성질체 구조로 대표되는 인간 사이클로필린족

단백질 패밀리는 진화적으로 관련된 단백질의 그룹이다.많은 경우 단백질 패밀리는 대응하는 유전자 패밀리를 가지며, 각 유전자는 대응하는 단백질을 1:1 관계로 암호화한다."단백질족"이라는 용어는 분류학에서 사용되므로 어족과 혼동해서는 안 된다.

가족의 단백질은 공통의 조상으로부터 내려오고 일반적으로 유사한 3차원 구조, 기능, 그리고 상당한 배열 [citation needed]유사성을 가지고 있다.이것들 중 가장 중요한 것은 호몰로지의 가장 엄격한 지표이고 따라서 공통 [citation needed]조상의 가장 명확한 지표이기 때문에 배열 유사성입니다.시퀀스 정렬 방법을 사용하여 시퀀스 그룹 간의 유사성의 유의성을 평가하기 위해 상당히 잘 개발된 프레임워크가 존재한다.공통 조상을 공유하지 않는 단백질은 통계적으로 유의한 배열 유사성을 보일 가능성이 매우 낮으며, 배열 정렬은 단백질[citation needed] 패밀리의 구성원을 식별하기 위한 강력한 도구이다.가족은 식별 가능한 시퀀스 호몰로지가 보이지 않더라도 구조 및 기계적 유사성에 기초하여 슈퍼 패밀리라고 불리는 더 큰 집단으로 그룹화되기도 한다.

현재, "단백질 패밀리"의 정의의 모호성이 연구자마다 매우 다양한 수로 이어지지만, 60,000개 이상의 단백질 패밀리가 [1]정의되었다.

용어와 사용방법

많은 생물학적 용어와 마찬가지로, 단백질 패밀리의 사용은 어느 정도 맥락에 의존합니다; 단백질 패밀리의 사용은 감지 가능한 배열 유사성의 가장 낮은 수준을 가진 큰 그룹의 단백질, 또는 거의 동일한 배열, 기능, 3차원 구조를 가진 매우 좁은 그룹의 단백질, 또는 그 사이의 모든 종류의 그룹을 나타낼 수 있습니다.이러한 상황을 구별하기 위해 단백질 슈퍼패밀리라는 용어는 배열 유사성에 의해 검출될 수 없고, 단지 공유된 구조적 [2][3][4]특징과만 관련이 있는 원거리 관련 단백질에 종종 사용된다.단백질 클래스, 그룹, 클랜, 서브패밀리와 같은 다른 용어들이 몇 년에 걸쳐 만들어졌지만, 모든 용어들은 비슷한 사용법의 모호함을 겪고 있다.일반적인 용도는 슈퍼 패밀리(구조 호몰로지)가 하위 패밀리를 포함하는 패밀리(시퀀스 호몰로지)를 포함하는 것이다.따라서 프로테아제 PA 클랜과 같은 슈퍼패밀리는 포함된 패밀리 중 하나인 C04 패밀리보다 배열 보존이 훨씬 낮다.정확한 정의는 합의될 가능성이 거의 없으며 이러한 용어가 특정 맥락에서 어떻게 사용되는지는 독자에게 정확히 식별될 수 있다.

이상, PA클랜프로테아제(슈퍼패밀리) 250명의 배열 보존.C04 단백질분해효소 계열 70명의 배열 보존:화살표는 DALI에 따라 정렬된 촉매 3중 잔류물을 나타냅니다.

단백질 영역 및 모티브

단백질 패밀리의 개념은 극소수의 단백질 구조나 배열이 알려진 시기에 고안되었다; 그 당시에는 주로 미오글로빈, 헤모글로빈, 시토크롬 c와 같은 작은 단일 도메인 단백질이 구조적으로 이해되었다.그 이후로, 많은 단백질은 여러 개의 독립적인 구조 및 기능 단위 또는 도메인을 구성하는 것으로 밝혀졌다.진화적 교란으로 인해 단백질의 다른 도메인은 독립적으로 진화해 왔다.이것은, 최근 몇년간, 단백질 도메인의 패밀리에 초점을 맞추게 되었다.다수의 온라인 리소스는 이러한 도메인을 식별하고 카탈로그화하는 데 사용됩니다.

각 단백질의 영역은 서로 다른 기능적 제약(단백질의 구조와 기능에 중요한 특징)을 가지고 있다.예를 들어 효소의 활성 부위는 특정 아미노산 잔류물이 3차원으로 정확히 배향되어야 한다.그러나 단백질-단백질 결합 계면은 아미노산 잔류물의 소수성 또는 극성에 제약을 받는 큰 표면으로 구성될 수 있다.단백질의 기능적으로 제약된 영역은 표면 루프와 같은 제약되지 않은 영역보다 더 느리게 진화하여 단백질 패밀리의 염기서열을 비교할 때 보존된 염기서열의 식별 가능한 블록을 생성한다(다중 염기서열 정렬 참조).이러한 블록은 다른 용어(블록, 서명, 지문 등)가 많이 사용되지만 일반적으로 모티브라고 합니다.다시 말하지만, 많은 온라인 리소스는 단백질 모티브를 식별하고 분류하는 데 전념하고 있습니다.

단백질 패밀리의 진화

현재 합의된 바에 따르면, 단백질 패밀리는 두 가지 방법으로 발생한다.첫째, 부모종이 두 개의 유전적으로 분리된 후손 종으로 분리됨으로써 유전자/단백질이 독립적으로 이 두 개의 계통에 변이(변종)를 축적할 수 있다.이것은 보통 보존된 배열 모티브를 가진 직교 단백질의 패밀리를 낳는다.둘째, 유전자 복제는 유전자의 두 번째 복사본을 만들 수 있다.원래 유전자는 여전히 그 기능을 수행할 수 있기 때문에, 복제된 유전자는 분리가 자유롭고 (임의의 돌연변이에 의해) 새로운 기능을 획득할 수 있다.특정 유전자/단백질 가족, 특히 진핵 생물의 경우, 진화의 과정에서, 때로는 전체 게놈 복제와 함께 극심한 팽창과 수축을 겪습니다.단백질 계열의 이러한 확장과 수축은 게놈 진화의 중요한 특징 중 하나이지만, 그것의 중요성과 영향은 현재 불분명하다.

RAS 슈퍼패밀리의 계통수:이 트리는 FigTree(무료 온라인 소프트웨어)를 사용하여 작성되었습니다.

단백질 패밀리의 사용 및 중요성

배열된 단백질의 총 수가 증가하고 단백질 분석에 대한 관심이 확대됨에 따라, 단백질을 가족으로 구성하고 그들의 구성 영역과 모티브를 설명하려는 노력이 계속되고 있다.단백질 패밀리의 신뢰성 있는 식별은 계통발생학적 분석, 기능적 주석 및 주어진 계통발생학적 분기에서 단백질 기능의 다양성 탐구에 매우 중요하다.효소 기능 이니셔티브는 알려지지 않은 [5]기능을 가진 효소의 대규모 기능 할당을 위한 배열/구조 기반 전략의 개발을 위한 기초로서 단백질 패밀리 및 슈퍼 패밀리를 사용하고 있다.단백질 패밀리를 대규모로 확립하기 위한 알고리즘 수단은 유사성의 개념에 기초하고 있다.대부분의 경우 에 대한 접근과 유일한 유사점은 시퀀스 유사성입니다.

단백질 패밀리 리소스

많은 생물학적 데이터베이스는 단백질 패밀리의 예를 기록하고 사용자가 새로 확인된 단백질이 알려진 패밀리에 속하는지 확인할 수 있도록 한다.다음은 몇 가지 예입니다.

  • Pfam - 정렬 및 HMM의 단백질 패밀리 데이터베이스
  • PROSITE - 단백질 도메인, 패밀리 및 기능 사이트 데이터베이스
  • PIRSF - 슈퍼 패밀리 분류 시스템
  • PASS2 - 구조 슈퍼 패밀리로서의 단백질 정렬 v2 - PASS2@NCBS[6]
  • SUPER FAMILY - 모든 완전 배열 유기체에 대한 슈퍼 패밀리를 나타내는 HMM 라이브러리 및 (슈퍼 패밀리와 패밀리) 주석 데이터베이스
  • SCOP CATH - 단백질 구조를 슈퍼 패밀리, 패밀리 및 도메인으로 분류

마찬가지로 다음과 같은 많은 데이터베이스 검색 알고리즘이 존재합니다.

  • BLAST - DNA 배열 유사성 검색
  • BLASTP - 단백질 배열 유사성 검색
  • OrthoFinder: 단백질을 패밀리(정통 그룹)로 클러스터링하는 빠르고 확장 가능하며 정확한 방법

「 」를 참조해 주세요.

단백질 패밀리

레퍼런스

  1. ^ Kunin V, Cases I, Enright AJ, de Lorenzo V, Ouzounis CA (2003). "Myriads of protein families, and still counting". Genome Biology. 4 (2): 401. doi:10.1186/gb-2003-4-2-401. PMC 151299. PMID 12620116.
  2. ^ Dayhoff MO (December 1974). "Computer analysis of protein sequences". Federation Proceedings. 33 (12): 2314–6. PMID 4435228.
  3. ^ Dayhoff MO, McLaughlin PJ, Barker WC, Hunt LT (1975). "Evolution of sequences within protein superfamilies". Die Naturwissenschaften. 62 (4): 154–161. Bibcode:1975NW.....62..154D. doi:10.1007/BF00608697. S2CID 40304076.
  4. ^ Dayhoff MO (August 1976). "The origin and evolution of protein superfamilies". Federation Proceedings. 35 (10): 2132–8. PMID 181273.
  5. ^ Gerlt JA, Allen KN, Almo SC, Armstrong RN, Babbitt PC, Cronan JE, Dunaway-Mariano D, Imker HJ, Jacobson MP, Minor W, Poulter CD, Raushel FM, Sali A, Shoichet BK, Sweedler JV (November 2011). "The Enzyme Function Initiative". Biochemistry. 50 (46): 9950–62. doi:10.1021/bi201312u. PMC 3238057. PMID 21999478.
  6. ^ Gandhimathi A, Nair AG, Sowdhamini R (January 2012). "PASS2 version 4: an update to the database of structure-based sequence alignments of structural domain superfamilies". Nucleic Acids Research. 40 (Database issue): D531–4. doi:10.1093/nar/gkr1096. PMC 3245109. PMID 22123743.
  7. ^ Emms DM, Kelly S (August 2015). "OrthoFinder: solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy". Genome Biology. 16: 157. doi:10.1186/s13059-015-0721-2. PMC 4531804. PMID 26243257.
  8. ^ Emms DM, Kelly S (November 2019). "OrthoFinder: phylogenetic orthology inference for comparative genomics". Genome Biology. 20 (1): 238. doi:10.1186/s13059-019-1832-y. PMC 6857279. PMID 31727128.

외부 링크