통계적 결합 분석
Statistical coupling analysis통계 결합 분석 또는 SCA는 단백질 다중 시퀀스 정렬(MSA)에서 아미노산 쌍 사이의 공분산을 측정하기 위해 생물정보학에서 사용되는 기법이다.좀 더 구체적으로, 그것은 다른 위치 j에서 아미노산 분포의 섭동 시 i의 어떤 위치에서의 아미노산 분포가 얼마나 변화하는지 정량화한다.그 결과로 나타나는 통계적 결합 에너지는 잔류물 사이의 진화적 의존도를 나타내며, 의존성 증가에 해당하는 높은 결합 에너지를 가지고 있다.[1]
통계적 결합 에너지의 정의
통계적 결합 에너지는 MSA의 한 부위에서 아미노산 분포의 섭동이 다른 부위에서 아미노산 분포에 어떻게 영향을 미치는지 측정한다.예를 들어, 각 부지에 아미노산이 일부 분포되어 있는 사이트 a ~ z 사이의 사이트(또는 열)와 다중 시퀀스 정렬을 고려하십시오.위치 i에서 시퀀스의 60%는 발린을, 나머지 40%는 루신을, 위치 j에서 분포는 이졸레우신 40%, 히스티딘 40%, 메티오닌 20%이며, k는 평균 분포(모든 단백질에서 볼 수 있는 거의 동일한 주파수에서 20개의 아미노산이 존재함), l는 히스티딘 80%, 발린을 가진다.위치 i, j, l은 모든 단백질에서 관찰된 평균 분포와 다른 아미노산 분포를 가지고 있기 때문에 어느 정도 보존이 되어 있다고 한다.
In statistical coupling analysis, the conservation (ΔGstat) at each site (i) is defined as: .[2]
여기서 P는ix 위치 i에서 아미노산 x를 발견할 확률을 설명하며, 다음과 같이 이항형태의 함수로 정의된다.
여기서 N은 100이고, n은x 위치 i에 잔류물 x(예: 메티오닌)가 있는 시퀀스의 백분율이며, p는x 모든 시퀀싱된 단백질 중 모든 위치에서 아미노산 x의 대략적인 분포에 해당한다.총합은 20개의 아미노산 전체에 걸쳐 있다.ΔG를istat 계산한 후, ΔGi δjstat (ΔG)에서 아미노산 분포의 섭동 후 생성된 하위 정렬에서 위치 i에 대한 보존을 취한다.ΔG로i, jstat 알려진 통계적 결합 에너지는 단순히 이 두 값 사이의 차이일 뿐이다.즉,
통계적 결합 에너지는 종종 고정된 섭동 위치와 MSA의 모든 다른 위치 사이에서 체계적으로 계산된다. 섹션의 시작부터 MSA의 예를 계속하여 아미노 분포가 40% I, 40% H, 20% M에서 100% I로 변하는 위치 j에서의 섭동을 고려한다.후속 하위 정렬에서 이 경우 i의 분포가 60% V, 40% L에서 90% V, 10% L로 변경되지만 위치 l에서는 분포가 변경되지 않는 경우, i와 j 사이에 통계적 결합 에너지가 어느 정도 존재하지만 l와 j 사이에는 없다.
적용들
랑가나단과 록리스는 원래 단백질 내 잔류물 쌍의 열역학(에너제틱) 결합을 검사하기 위해 SCA를 개발했다.[3]PDZ 도메인 패밀리를 사용하여 바인딩 사이트 잔여물과 정력적으로 결합된 작은 잔류물 네트워크를 식별할 수 있었다.네트워크는 접촉 쌍이라 불리는 3번째 접합의 결합 부위와 공간적으로 가까운 잔류물과 더 먼 거리의 에너지 상호작용에 참여하는 잔류물로 구성되었다.나중에 GPCR, 세린 프로테아제 및 헤모글로빈 계열의 랑가나단 그룹에 의한 SCA의 적용은 또한 알로스테리 통신에 협력하는 희박한 잔류물 네트워크에서 에너지 결합을 보였다.[4]
통계적 결합 분석은 또한 계산 단백질 설계의 기초로 사용되어 왔다.2005년에는 Socolich 등.[5]자연 WW 도메인과 유사한 열역학적 안정성과 구조를 가진 인공 단백질을 만들기 위해 WW 도메인을 위한 SCA를 사용했다.43개 중 12개가 자연 WW 영역과 동일한 SCA 프로필을 가진 단백질을 적절히 접은 것은 단백질 접기를 지정하는데 필요한 정보가 거의 없다는 강력한 증거를 제공했다.이러한 SCA 가설의 지원은 a) 성공적으로 접힌 단백질은 자연 WW 접힘에 대한 평균 시퀀스 ID가 36%에 불과하며, b) 결합 정보를 적절하게 접지 않고 설계한 인공 단백질은 하나도 없다는 점을 고려해 더욱 설득력이 있었다.동반된 연구는 인공 WW 도메인이 리간드 결합 친화성과 특수성에서 천연 WW 도메인과 기능적으로 유사하다는 것을 보여주었다.[6]
de novo 단백질 구조 예측에서, SCA 기반 채점이 단순한 잔류-재배 거리 측정 기준과 결합할 경우, 고유 단백질 접힘과 비원성 단백질 접힘을 상당히 정확하게 구별할 수 있는 것으로 나타났다.[7]
참고 항목
외부 링크
- WW 도메인이란?
- 통계 결합 분석에 대한 랑가나단 강의(오디오 포함)
- 단백질 접기 - 한 걸음 더 가까이? - 인공적이면서도 기능적인 WW 도메인의 랑가나단 연구소의 SCA 기반 설계 요약.
참조
- ^ "Supplementary Material for 'Evolutionarily conserved networks of residues mediate allosteric communication in proteins.'".
- ^ Dekker; Fodor, A; Aldrich, RW; Yellen, G; et al. (2004). "A perturbation-based method for calculating explicit likelihood of evolutionary co-variance in multiple sequence alignments". Bioinformatics. 20 (10): 1565–1572. doi:10.1093/bioinformatics/bth128. PMID 14962924.
- ^ Lockless SW, Ranaganathan R (1999). "Evolutionarily conserved pathways of energetic connectivity in protein families". Science. 286 (5438): 295–299. doi:10.1126/science.286.5438.295. PMID 10514373.
- ^ Suel; Lockless, SW; Wall, MA; Ranganathan, R; et al. (2003). "Evolutionarily conserved networks of residues mediate allosteric communication in proteins". Nature Structural Biology. 10 (1): 59–69. doi:10.1038/nsb881. PMID 12483203. S2CID 67749580.
- ^ Socolich; Lockless, SW; Russ, WP; Lee, H; Gardner, KH; Ranganathan, R; et al. (2005). "Evolutionary information for specifying a protein fold". Nature. 437 (7058): 512–518. Bibcode:2005Natur.437..512S. doi:10.1038/nature03991. PMID 16177782. S2CID 4363255.
- ^ Russ; Lowery, DM; Mishra, P; Yaffe, MB; Ranganathan, R; et al. (2005). "Natural-like function in artificial WW domains". Nature. 437 (7058): 579–583. Bibcode:2005Natur.437..579R. doi:10.1038/nature03990. PMID 16177795. S2CID 4424336.
- ^ Bartlett GJ, Taylor WR (2008). "Using scores derived from statistical coupling analysis to distinguish correct and incorrect folds in de-novo protein structure prediction". Proteins. 71 (1): 950–959. doi:10.1002/prot.21779. PMID 18004776. S2CID 33836866. Archived from the original on 2012-12-17.