통계적 잠재력
Statistical potential단백질 구조 예측에서 통계적 잠재력 또는 지식 기반 잠재력은 단백질 데이터 뱅크(PDB)에서 알려진 단백질 구조 분석에서 도출된 기능을 채점하고 있다.
그러한 잠재력을 얻기 위한 원래의 방법은 미야자와와 제르니건 때문에 준화학 근사치라고 할 수 있다.[2]이후 Sippl이 개발한 평균력(통계적 PMF )의 잠재력이 뒤따랐다.[3]획득한 점수는 종종 자유 에너지(즉, 의사-에너지로 언급됨)의 근사치로 간주되지만, 이러한 물리적 해석은 부정확하다.[4][5]그럼에도 불구하고, 그것들은 종종 실제 깁스 자유 에너지 차이와 상관관계가 있기 때문에 많은 경우에 성공을 적용받는다.[6]
개요
의사 에너지를 할당할 수 있는 가능한 특징은 다음과 같다.
그러나 고전적 적용은 쌍방향 아미노산 접점 또는 거리에 기초하여 통계적 원자간 전위를 생성한다.쌍방향 아미노산 접점의 경우, 통계적 전위는 각각의 가능한 표준 아미노산 쌍에 중량 또는 에너지 값을 할당하는 상호작용 매트릭스로 공식화된다.그런 다음 특정 구조 모델의 에너지는 구조에서 모든 쌍방향 접촉(각각의 일정한 거리 내에 두 개의 아미노산으로 정의됨)의 결합 에너지다.에너지는 알려진 단백질 구조의 데이터베이스에서 아미노산 접촉에 대한 통계를 사용하여 결정된다(PDB로부터 확인).
역사
초기개발
많은 교과서는 Sippl이 제안한 통계적 PMF를 아미노산 사이의 쌍방향 거리에 적용되는 볼츠만 분포의 단순한 결과로 제시한다.이것은 정확하지는 않지만, 실제로 잠재력을 구축하기 위한 유용한 시작이다.특정 쌍의 아미노산에 적용되는 볼츠만 분포는 다음을 통해 주어진다.
여기서 은 (는) 거리,k {\은 (는) 볼츠만 상수, 은 온도, Z은 (는) 파티션 함수,
수량 ( ) 은 쌍방향 시스템에 할당된 자유 에너지 입니다.단순한 재배열은 역 볼츠만 공식으로 나타나며, 자유 F( ) 을 ( ) 의 함수로 표현한다
그런 다음 PMF를 구성하려면 해당 Q 과 (와) 파티션 함수 을를) 갖는 소위 기준 상태를 소개하고 다음과 같은 자유 에너지 차이를 계산한다.
기준 상태는 일반적으로 아미노산 사이의 특정 상호작용이 없는 가상 시스템에서 발생한다. 및 R 을 포함하는 두 번째 용어는 상수이므로 무시할 수 있다.
실제로 알려진 구조의 데이터베이스에서 ( r) 을(를) 추정하는 반면, R( ) 은 일반적으로 계산이나 시뮬레이션에서 발생한다.예를 들어, ( ) P은(는 서로 에 주어진 거리 r 에서 세린의 Cβ {\ } 원자를 찾을 수 있는 조건부 확률이 되어 자유 에너지 차이 을 발생시킬 수 있다그런 다음 단백질이 모든 쌍에너지의 합이라고 한다.
합계가 아미노산 쌍 j < 포함) 및 r 에 걸쳐져 있는 경우 해당 거리가 된다.많은 연구에서 은(는) 아미노산 순서에 의존하지 않는다.[7]
개념적 문제
직관적으로 에 대한 낮은 값은 구조물의 거리 집합이 기준 상태보다 단백질에서 더 가능성이 높다는 것을 나타낸다.그러나 이러한 통계적 PMF의 물리적 의미는 도입 이후 널리 논란이 되고 있다.[4][5][8][9]주요 쟁점은 다음과 같다.
- 이 "잠재적"을 실제적이고 물리적으로 유효한 평균 힘의 잠재력으로 잘못 해석함
- 소위 기준 상태의 특성과 최적 제형
- 쌍별 거리를 벗어난 일반화의 유효성.
논쟁의 여지가 있는 비유
물리적 타당성에 관한 문제에 대응하여, Sippl에 의해 통계적 PMF의 첫 번째 정당성을 시도하였다.[10]액체의 통계물리학과의 유추에 근거한 것이었다.액체의 경우 평균 힘의 잠재력은 다음과 같은 방법으로 주어지는 방사상 분포 함수 ( ) 과 관련이 있다[11]
여기서 ) 및 은 액체 및 기준 상태에서 서로 떨어져 r 거리에서 두 입자를 찾을 수 있는 각각의 확률이다.액체의 경우 기준 상태가 명확하게 정의되어 있으며, 이상 기체에 해당하며, 비상호작용 입자로 구성된다.평균 힘 ( ) 의 2개 입자 전위는 다음에 의해 ( ) 과(와) 관련이 있다.
가역적 작업 정리에 따르면 평균 힘 ( r) 의 2개 입자 전위는 액체 속의 두 입자를 서로 무한 분리로부터 r{\로 가져오는 데 필요한 가역적 작업이다.[11]
Sippl은 통계적 PMF를 단백질 구조 예측에 사용하기 위해 도입한 지 몇 년 후 액체에 대한 가역적 작업 정리와의 유추에 호소함으로써 사용을 정당화했다.액체의 경우 ( r) 은(는) 소각 X선 산란을 사용하여 실험적으로 측정할 수 있으며, 단백질의 경우 앞의 절에서 설명한 바와 같이 단백질 구조의 집합에서 P( r) 을(는) 얻는다.그러나 벤나임(Ben-Naim)이 이 주제에 관한 출판물에서 쓴 것처럼 다음과 같다.[5]
[...] 단백질 데이터 뱅크(PDB)에서 도출된 "통계학적 잠재력", "구조 기반 잠재력" 또는 "평균 힘의 공기 잠재력"이라고 불리는 양은 액체와 용액에 관한 문헌에서 사용되는 일반적인 의미에서 "잠재력"도 아니고 "평균 힘의 잠재력"도 아니다.
더구나 이 비유는 단백질에 적합한 기준 상태를 어떻게 명시할 것인가 하는 문제를 해결하지 못한다.
머신러닝
2000년대 중반, 저자들은 서로 다른 구조적 특징에서 파생된 여러 통계적 잠재력을 종합 점수로 결합하기 시작했다.[12]이를 위해 SVM(지원 벡터 머신)과 같은 머신러닝 기법을 사용했다.확률적 신경망(PNN)도 위치별 거리 의존적 통계 잠재력 훈련에 적용되었다.[13]딥마인드 인공지능 연구소는 2016년부터 비틀림과 거리에 따른 통계 잠재력 개발에 딥러닝 기법을 적용하기 시작했다.[14]알파폴드(AlphaFold)라는 이름의 이 방법은 43개의 자유 모델링 도메인 중 25개의 가장 정확한 구조를 정확하게 예측하여 제13회 단백질 구조 예측 기법 평가(CASP)에서 우승했다.
설명
베이지안 확률
베이커와 동료들은 베이지안 관점에서 통계적 PMF를 정당화했고 거친 갈린 ROSETTA 에너지 함수의 구축에 이러한 통찰력을 이용했다.베이시안 확률 미적분학에 따르면 아미노산 순서 A을를) 고려할 때 구조 의 조건부 P는 다음과 같이 쓸 수 있다.
is proportional to the product of the likelihood times the prior . By assuming that the likelihood can be approximated as a product of pairwise probabilities, and applying Bayes' theorem, the가능성은 다음과 같이 기록할 수 있다.
나 그냥 j{j\displaystyle}{\displaystyle 나는}아미노산 간에 제품 ij를 명확히 설명, j{\displaystyle a_{나는},a_{j}}(로 나는 <, j{\displaystyle i<. j}), r{\displaystyle r_{ij}모든 아미노산 쌍을}거리이다. 명백한 것은 그 expressio의 로그에 대한 부정적.n다분모가 기준 상태의 역할을 하는 전형적인 쌍방향 거리 통계 PMF와 동일한 기능 형태.이 설명에는 두 가지 단점이 있다. 즉, 가능성은 쌍방향 확률의 산물로 표현될 수 있는 근거 없는 가정에 의존하며, 순전히 질적인 것이다.
확률 운동학
Hamelryck와 동료들은 후에 통계적 잠재력에 대한 양적 설명을 했는데, 통계적 잠재력에 따르면 그들은 리처드 제프리 때문에 확률론적 추론의 한 형태에 가깝고 확률론적 운동학이라고 명명되었다.베이지안 사고의 이 변종("제프리 조건화"라고도 함)은 전자의 지지에 있는 파티션 요소의 확률에 관한 새로운 정보에 기초하여 사전 분포를 갱신할 수 있게 한다.이러한 관점에서 (i) 잠재력을 구축하기 위해 사용되는 단백질 구조의 데이터베이스가 볼츠만 분포를 따른다고 가정할 필요는 없으며, (ii) 통계 잠재력은 쌍의 차이를 넘어 쉽게 일반화되며, (iii) 기준 비율은 이전 분포에 의해 결정된다.
기준비
통계적 PMF와 유사한 표현은 단백질 구조 예측에서 발생하는 근본적인 문제를 해결하기 위해 확률 이론을 적용한 결과 자연적으로 나타난다: 확률 분포도를 사용하여 첫 번째 X Q에 대해 불완전한 확률 분포 displaystyle X)를 개선하는 방법. ( )에 대한 두 번째 Y Y}에 displaystyle P Y= f {\[6]Y 으로 X {\ }및 Y {\은 미세하고 거친 갈림 변수들이다.예를 들어 ( ) 은(는) 단백질의 국부 구조에 관련될 수 있고, (Y) 은(는) 아미노산 사이의 쌍방향 거리에 관련될 수 있다.이 경우 예를 X X은 모든 원자 위치를 지정하는 이면각의 벡터가 될 수 있다(이상적인 결합 길이와 각도를 가정).두 가지 분포를 결합하려면, 지역 가Q ( ) Q에 따라 분포되는 반면 의 는 P( Y) {\Y에 따라 분포되도록 다음과 같은 표현이 필요하다.
여기서 ( ) 은 (는) ( X) 이(가) 하는 Y 에 대한 분포다표현식의 비율은 PMF에 해당한다.일반적으로 ( ) 은(는) 샘플링(일반적으로 단편 라이브러리에서)으로 가져오며 명시적으로 평가되지 않는다. 대조적으로 명시적으로 평가되는 비율은 Sippl의 PMF에 해당한다.이 설명은 정량적이며, 쌍방향 거리에서 임의의 거친 갈림형 변수에 이르기까지 통계적 PMF를 일반화할 수 있다.또한 ( ) 가 암시하는 기준 상태에 대한 엄격한 정의를 제공한다 종래의 쌍방향 거리 통계 PMF 적용은 이들을 완전하게 엄격하게 만드는 데 필요한 두 가지 특성이 부족하다. 단백질에서 쌍방향 거리에 대한 적절한 확률 분포의 사용과 인식.기준 상태가 ( X) 에 의해 엄격하게 정의된 이온
적용들
통계적 잠재력은 호몰로지 모델링 또는 단백질 나사산에 의해 생성된 구조적 모델의 앙상블 평가에서 에너지 함수로 사용된다.많은 다른 매개변수화된 통계적 잠재력은 디코이나 비원형 구조의 앙상블에서 원시 상태 구조를 성공적으로 식별하는 것으로 나타났다.[16]통계적 잠재력은 단백질 구조 예측뿐만 아니라 단백질 접이 경로 모델링에도 사용된다.[17][18]
참고 항목
메모들
참조
- ^ Postic, Guillaume; Hamelryck, Thomas; Chomilier, Jacques; Stratmann, Dirk (2018). "MyPMFs: a simple tool for creating statistical potentials to assess protein structural models". Biochimie. 151: 37–41. doi:10.1016/j.biochi.2018.05.013. ISSN 0300-9084. PMID 29857183.
- ^ Miyazawa S, Jernigan R (1985). "Estimation of effective interresidue contact energies from protein crystal structures: quasi-chemical approximation". Macromolecules. 18 (3): 534–552. Bibcode:1985MaMol..18..534M. CiteSeerX 10.1.1.206.715. doi:10.1021/ma00145a039.
- ^ a b Sippl MJ (1990). "Calculation of conformational ensembles from potentials of mean force. An approach to the knowledge-based prediction of local structures in globular proteins". J Mol Biol. 213 (4): 859–883. doi:10.1016/s0022-2836(05)80269-4. PMID 2359125.
- ^ a b Thomas PD, Dill KA (1996). "Statistical potentials extracted from protein structures: how accurate are they?". J Mol Biol. 257 (2): 457–469. doi:10.1006/jmbi.1996.0175. PMID 8609636.
- ^ a b c Ben-Naim A (1997). "Statistical potentials extracted from protein structures: Are these meaningful potentials?". J Chem Phys. 107 (9): 3698–3706. Bibcode:1997JChPh.107.3698B. doi:10.1063/1.474725.
- ^ a b c Hamelryck T, Borg M, Paluszewski M, et al. (2010). Flower DR (ed.). "Potentials of mean force for protein structure prediction vindicated, formalized and generalized". PLOS ONE. 5 (11): e13714. arXiv:1008.4006. Bibcode:2010PLoSO...513714H. doi:10.1371/journal.pone.0013714. PMC 2978081. PMID 21103041.
- ^ Rooman M, Wodak S (1995). "Are database-derived potentials valid for scoring both forward and inverted protein folding?". Protein Eng. 8 (9): 849–858. doi:10.1093/protein/8.9.849. PMID 8746722.
- ^ Koppensteiner WA, Sippl MJ (1998). "Knowledge-based potentials–back to the roots". Biochemistry Mosc. 63 (3): 247–252. PMID 9526121.
- ^ Shortle D (2003). "Propensities, probabilities, and the Boltzmann hypothesis". Protein Sci. 12 (6): 1298–1302. doi:10.1110/ps.0306903. PMC 2323900. PMID 12761401.
- ^ Sippl MJ, Ortner M, Jaritz M, Lackner P, Flockner H (1996). "Helmholtz free energies of atom pair interactions in proteins". Fold Des. 1 (4): 289–98. doi:10.1016/s1359-0278(96)00042-9. PMID 9079391.
- ^ a b Chandler D (1987) 현대 통계역학에 대한 소개.뉴욕: 미국 옥스퍼드 대학 출판부
- ^ Eramian, David; Shen, Min‐yi; Devos, Damien; Melo, Francisco; Sali, Andrej; Marti-Renom, Marc (2006). "A composite score for predicting errors in protein structure models". Protein Science. 15 (7): 1653–1666. doi:10.1110/ps.062095806. PMC 2242555. PMID 16751606.
- ^ Zhao, Feng; Xu, Jinbo (2012). "A Position-Specific Distance-Dependent Statistical Potential for Protein Structure and Functional Study". Structure. 20 (6): 1118–1126. doi:10.1016/j.str.2012.04.003. PMC 3372698. PMID 22608968.
- ^ Senior AW, Evans R, Jumper J, et al. (2020). "Improved protein structure prediction using potentials from deep learning" (PDF). Nature. 577 (7792): 706–710. Bibcode:2020Natur.577..706S. doi:10.1038/s41586-019-1923-7. PMID 31942072. S2CID 210221987.
- ^ Simons KT, Kooperberg C, Huang E, Baker D (1997). "Assembly of protein tertiary structures from fragments with similar local sequences using simulated annealing and Bayesian scoring functions". J Mol Biol. 268 (1): 209–225. CiteSeerX 10.1.1.579.5647. doi:10.1006/jmbi.1997.0959. PMID 9149153.
- ^ Lam SD, Das S, Sillitoe I, Orengo C (2017). "An overview of comparative modelling and resources dedicated to large-scale modelling of genome sequences". Acta Crystallogr D. 73 (8): 628–640. doi:10.1107/S2059798317008920. PMC 5571743. PMID 28777078.
{{cite journal}}
: CS1 maint : 복수이름 : 작성자 목록(링크) - ^ Kmiecik S and Kolinski A (2007). "Characterization of protein-folding pathways by reduced-space modeling". Proc. Natl. Acad. Sci. U.S.A. 104 (30): 12330–12335. Bibcode:2007PNAS..10412330K. doi:10.1073/pnas.0702265104. PMC 1941469. PMID 17636132.
- ^ Adhikari AN, Freed KF, Sosnick TR (2012). "De novo prediction of protein folding pathways and structure using the principle of sequential stabilization". Proc. Natl. Acad. Sci. U.S.A. 109 (43): 17442–17447. Bibcode:2012PNAS..10917442A. doi:10.1073/pnas.1209000109. PMC 3491489. PMID 23045636.