고분자 도킹
Macromolecular docking고분자 도킹은 2개 이상의 생물학적 고분자에 의해 형성된 복합체의 2분자 구조를 계산적으로 모델링한 것이다. 단백질-단백질 복합체가 그러한 모델링의 가장 일반적인 시도 대상이며, 단백질-핵산 복합체가 그 뒤를 따르고 있다.
도킹의 궁극적인 목표는 살아있는 유기체에서 일어날 수 있는 관심의 고분자 복합체의 3차원 구조를 예측하는 것이다. 도킹 자체가 그럴듯한 후보 구조만 만들어낸다. 이들 지원자는 자연에서 발생할 가능성이 가장 높은 구조를 식별하기 위해 채점 기능 등의 방법으로 순위를 매겨야 한다.
도킹(docking)이라는 용어는 1970년대 후반에 더 제한적인 의미를 가지고 생겨났으며, 그렇다면 도킹(docking)은 상호작용자 사이의 분리를 최적화하되 상대적 방향성을 고정시킴으로써 복잡한 구조물의 모형을 다듬는 것을 의미했다. 이후 모델링에서 상호 작용하는 파트너의 상대적 방향은 달라질 수 있도록 허용되었지만, 각 파트너의 내부 기하학은 고정적으로 유지되었다. 이러한 유형의 모델링을 "강체 도킹"이라고도 한다. 계산력이 더욱 증가함에 따라, 콤플렉스가 형성되었을 때 발생할 수 있는 상호작용하는 파트너의 내부 기하학적 변화를 모델링하는 것이 가능해졌다. 이러한 유형의 모델링은 "유연한 도킹"이라고 한다.
배경
대부분의 단백질의 생물학적 역할은 그들이 상호작용하는 다른 고분자와 특징지어지듯이 기껏해야 불완전하게 알려져 있다. 잘 연구된 생물학적 과정(예: Krebs 주기)에 참여하는 단백질도 그 과정과 무관한 예기치 않은 상호작용 파트너나 기능을 가질 수 있다.
알려진 단백질-단백질 상호작용의 경우, 다른 문제가 발생한다. 유전성 질환(예: 낭포성 섬유증)은 잘못 접히거나 돌연변이된 단백질에 의해 발생하는 것으로 알려져 있으며, 주어진 돌연변이가 어떤 변칙적인 단백질-단백질 상호작용을 일으킬 수 있는지 이해하고자 하는 욕구가 있다. 먼 장래에 단백질은 생물학적 기능을 수행하도록 설계될 수 있으며, 그러한 단백질들의 잠재적인 상호작용에 대한 결정이 필수적일 것이다.
주어진 단백질의 집합에 대해서는, 기술이나 자연사의 관점에서, 다음과 같은 질문이 관심의 대상이 될 수 있다.
- 이 단백질들은 체내에서 결합되는가?
만약 그들이 묶인다면
만약 그들이 묶이지 않는다면
- 돌연변이를 유도하여 결합시킬 수 있는가?
단백질-단백질 도킹은 궁극적으로 이러한 모든 문제를 해결하기 위해 계획된다. 더욱이 도킹 방법은 순전히 물리적 원리에 기초할 수 있기 때문에 기능을 알 수 없는 단백질(또는 상대적으로 연구가 적은 단백질)도 도킹할 수 있다. 유일한 전제조건은 그들의 분자 구조가 실험적으로 결정되었거나 단백질 구조 예측 기법으로 추정될 수 있다는 것이다.
단백질-핵산 상호작용은 살아있는 세포에서 두드러지게 나타난다. 유전자 발현을 조절하는 전사 인자와 복제를 촉진하는 중합체는 단백질로 구성되며, 이들이 상호작용하는 유전 물질은 핵산으로 구성된다. 단백질-핵산 복합체를 모델링하는 것은 아래에 설명된 바와 같이 몇 가지 독특한 문제를 제시한다.
역사
1970년대에 복잡한 모델링은 상호작용자 표면의 특징을 수동으로 식별하고 결합, 기능 및 활동에 대한 결과를 해석하는 것을 중심으로 진행되었다. 모든 컴퓨터 프로그램은 일반적으로 모델링 과정의 마지막에 사용되었고, 그 후에도 남아 있는 비교적 적은 수의 구성을 구별하기 위해 사용되었다.휴리스틱한 제약이 가해졌었다. 컴퓨터의 첫 사용은 낫 세포 섬유에서 헤모글로빈 상호작용에 관한 연구였다.[1] 이것은 1978년에 트립신-B에 대한 작업이 뒤따랐다.PTI 복합체.[2] 컴퓨터는 큰 인터페이스 영역을 보상하는 점수 매기기 기능과 접촉하지만 동일한 공간을 차지하지 않는 분자 쌍을 사용하여 좋은 모델과 나쁜 모델을 구별했다. 컴퓨터는 각각의 잔여물에 대해 하나의 상호작용 센터를 가지고 상호작용하는 단백질의 단순화된 표현을 사용했다. 수소 결합을 포함한 정전기적 교호작용이 손으로 확인되었다.[3]
1990년대 초에는, 더 많은 복합체 구조가 결정되었고, 이용 가능한 계산 능력이 상당히 증가하였다. 생물정보학의 출현과 함께, 허용 가능한 계산 비용으로 임의의 콤플렉스에 적용될 수 있는 일반화된 기법을 개발하는 쪽으로 초점을 이동했다. 그 새 방법들 또는 실험적 계통 발생적 단서가 없어도에 적용하기; 어떠한 특정한 사전 지식은 여전히 선택의 단계에서에서 가장 높은 순위를 출력 모델들 사이에, 또는 알고리즘에 부응했는지 입력으로 누명을 쓰다 도입될 수 있다. 1992년 상관 관계의 출판 본 알고리즘은 어느 method,[4]할 것으로 예상되는 있었다.u고속 푸리에 변환을 통해 강체-신체 모델에서 거친 모양 보완성을 평가하기 위해 크게 개선된 확장성을 제공한다. 이것은 거친 전기학을 다루기 위해 1997년에 확장되었다.[5]
1996년 1차 블라인드 시험 결과가 발표되었는데,[6] 6개의 연구 단체가 베타 락타마제 억제제 단백질(BLIP)을 함유한 TEM-1 베타 락타마제의 복잡한 구조를 예측하려고 시도하였다. 이 연습은 순응적 변화를 수용해야 할 필요성과 순응자 간 차별의 어려움을 중점적으로 다루었다. 2001년 데뷔한 CAPRI 평가 시리즈의 시제품 역할도 했다.[citation needed]
강체 도킹 대 유연한 도킹
복잡한 생성 단계에서 구성 요소의 결합 각도, 결합 길이 및 비틀림 각도를 수정하지 않으면 강성 차체 도킹으로 알려져 있다. 추측의 주제는 강체 도킹이 대부분의 도킹에 충분한지 여부다. 복잡한 형성의 시점에 구성 요소 내에서 상당한 순응적 변화가 발생하는 경우, 강체 도킹은 부적절하다. 그러나 가능한 모든 순응적 변화를 채점하는 것은 컴퓨터 시간에서 엄청나게 비싸다. 순응적 변경 또는 유연한 도킹 절차를 허용하는 도킹 절차는 고려를 위해 가능한 순응적 변경의 작은 부분 집합을 지능적으로 선택해야 한다.
방법들
도킹에 성공하려면 다음 두 가지 조건이 필요하다.
- 하나 이상의 올바른 구성을 안정적으로 포함하는 구성 집합 생성.
- 거의 정확한 구성을 다른 구성과 신뢰성 있게 구분
많은 상호작용에서, 결합 부위는 도킹할 하나 이상의 단백질에 알려져 있다. 항체와 경쟁억제제의 경우가 그렇다. 다른 경우, 결합 사이트는 돌연변이 유발 또는 유전학적 증거에 의해 강력하게 제안될 수 있다. 단백질이 심하게 침투하는 구성도 선험적으로 배제될 수 있다.
사전 지식이나 입체 화학적 충돌에 근거하여 배제를 한 후, 가능한 복잡한 구조의 잔여 공간은 거의 적중할 것을 보장할 수 있을 만큼 충분히 커버리지로 배타적으로 표본 추출해야 한다. 각 구성은 최소한 10만 개의 대안 위에 거의 정확한 구조의 순위를 매길 수 있는 측정치로 점수를 매겨야 한다. 이것은 계산적으로 집약적인 작업이며, 다양한 전략이 개발되었다.
상호 공간 방법
각각의 단백질은 단순한 입방 격자로 표현될 수 있다. 그러면 이산경련인 점수의 등급에 대해서는 정확한 격자 벡터에 의한 한 단백질의 번역에 의해 서로 관련되는 구성은 모두 경련 정리를 적용하여 거의 동시에 채점할 수 있다.[4] 대략적인 경우 입체화학 및 정전기적 피트니스 모두를 대표하는 합리적, 콘볼루션 같은 스코어링 기능을 구축할 수 있다.
상호 공간 방법은 방대한 수의 구성을 평가할 수 있는 능력을 위해 광범위하게 사용되어 왔다. 비틀림 변화가 도입되면 속도 우위를 잃게 된다. 선행지식을 효율적으로 활용할 수 없다는 점도 단점이다. 경련이 최선의 콤플렉스를 신뢰성 있게 식별하기에는 점수 매기기능의 등급이 너무 제한적인지 여부도 여전히 의문이다.
몬테카를로 방법
몬테카를로에서는 일정 수의 스텝이 시도될 때까지 유도된 점수 향상에 기초하여 합격 또는 불합격되는 무작위 스텝(메트로폴리스 기준 참조)을 취함으로써 초기 구성을 정제한다. 최상의 구조로의 수렴은 많은 종류의 초기 구성에서 발생해야 하며, 그 중 하나만 고려할 필요가 있다. 초기 구성은 거칠게 샘플링될 수 있으며, 많은 계산 시간을 절약할 수 있다. 정확한 구성에 대한 차별성이 높고 먼 거리에서도 정확한 구성에 수렴되는 채점 기능을 찾기 어려워 채점 기능이 다른 두 가지 수준의 정교함을 활용하자는 제안이 나왔다.[7] 비틀림은 각 무작위 이동의 부가적인 성질로서 몬테카를로에게 자연스럽게 소개될 수 있다.
몬테카를로 방법은 철저한 검색을 보장하지 않기 때문에 이론적으로 그것을 식별할 수 있는 채점 기능을 사용해도 최상의 구성이 누락될 수 있다. 이것이 도킹에 얼마나 심각한 문제인지 확실히 규명되지 않았다.
평가하기
채점 기능
최상의 구성을 선택하기 위한 일관된 기준을 형성하는 점수를 찾기 위해 단백질-단백질 상호작용 사례의 표준 벤치마크(아래 참조)에서 연구를 수행한다. 채점 기능은 최고의 구조에 할당되는 순위(이상적으로 최상의 구조는 1위)와 커버리지(허용 가능한 결과를 얻는 벤치마크 사례의 비율)에서 평가된다. 연구된 점수의 유형은 다음과 같다.
- 잔여 접촉에 기초한 휴리스틱 점수.
- 분자 표면의 상보성("스테레오케미컬")을 형상화한다.
- 자유 에너지, CHARMM 또는 호박과 같은 분자 역학 분야의 매개변수를 사용하여 추정한다.
- 상호 작용하는 부위의 계통적 만족도.
- 군집화 계수.
- 정보 기반 신호.
벤치마크에서 사례에 최적화된 가중치를 가진 가중치 합계로 위의 하나 이상의 범주를 결합하여 혼합 점수를 생성하는 것이 일반적이다. 편견을 피하기 위해 가중치를 최적화하는 데 사용되는 벤치마크 사례가 점수의 최종 시험을 위해 사용된 사례와 중복되지 않아야 한다.
단백질-단백질 도킹의 궁극적인 목표는 콤플렉스의 친화성에 대한 통찰력을 줄 수 있는 점수 체계에 따라 이상적인 순위 솔루션을 선택하는 것이다. 그러한 발전은 실리코 단백질 공학, 컴퓨터 보조 약물 설계 및/또는 단백질이 결합하거나 결합하지 않는 고투과 주석(상호작용의 알림)에서 추진될 것이다. 바인딩 친화력/자유 에너지 예측을 위해 몇 가지 채점 기능이 제안되었다.[7][8][9][10][11] 그러나 실험적으로 결정된 결합 친화성과 일반적으로 사용되는 9개의 채점 함수의 예측 사이의 상관관계는 거의 직교(R2 ~ 0)인 것으로 밝혀졌다.[12] 또한 채점 알고리즘의 일부 구성요소는 전체 점수보다 실험 바인딩 에너지와 더 나은 상관관계를 보일 수 있다는 것이 관찰되었으며, 이는 서로 다른 채점 알고리즘의 적절한 기여를 결합하여 상당히 더 나은 성능을 얻을 수 있음을 시사한다. 결합 친화력 결정을 위한 실험 방법은 표면 플라스몬 공명(SPR), ö스터 공진 에너지 전달, 방사리간드 기반 기술, 등온 적정 열도측정법(ITC), 마이크로 스케일 열도상(MST) 또는 분광 측정법 및 기타 형광학 기법이다. 과학 기사의 텍스트 정보는 채점에 유용한 단서를 제공할 수 있다.[13]
벤치마크
도킹 방법을 시험하기 위해 84개의 단백질-단백질 상호작용의 벤치마크가 개발되었다.[14] 이 세트는 광범위한 상호작용 유형을 다루고 SCOP 데이터베이스에 따른 상호작용자의 구조 패밀리의 프로필과 같은 반복적인 특징을 방지하기 위해 선택된다. 벤치마크 요소는 세 가지 난이도(백본 순응의 가장 큰 변화를 포함하는 가장 어려운 수준)로 분류된다. 단백질-단백질 도킹 벤치마크는 효소 억제제, 항원-항원-항원-항원-항원-항원 복합체의 예를 포함한다.
단백질-단백질 도킹 벤치마크의 최신 버전은 230개의 콤플렉스로 구성되어 있다.[15] 단백질-DNA 도킹 벤치마크는 47개의 테스트 케이스로 구성된다.[16] 단백질-RNA 도킹 벤치마크는 X선 결정학만으로 해결된 콤플렉스를 가진 45개의 비중복 테스트 사례의[17] 데이터 집합과 호몰로지 모델링에서 파생된 구조를 가진 71개의 테스트 사례의 확장 데이터 집합으로 큐레이션되었다.[18] 단백질-RNA 벤치마크는 X선 결정학에 의해 해결된 더 많은 구조를 포함하도록 업데이트되었으며, 현재는 126개의 테스트 케이스로 구성되어 있다.[19] 벤치마크는 총 209개 단지의 데이터 집합을 가지고 있다.[20]
결합 친화도 벤치마크는 단백질-단백질 도킹 벤치마크를 기반으로 한다.[12] 실험 친화력이 알려진 81개의 단백질-단백질 콤플렉스가 포함된다. 이러한 콤플렉스는 친화력 면에서 11배 이상의 크기에 이른다. 벤치마크의 각 항목에는 친화력을 결정하는 데 사용되는 방법과 함께 실험 데이터와 관련된 몇 가지 생화학적 매개변수가 포함된다. 이 벤치마크는 채점 기능이 고분자 복합체의 친화력을 어느 정도까지 예측할 수 있는지를 평가하는 데 사용되었다.
이 벤치마크는 사후 검토되고 상당히 확장되었다.[21] 새로운 세트는 G단백질 및 수용체 세포외 영역을 포함하는 콤플렉스와 항원/항원/항원, 효소/항원, 효소/항원 복합체, 효소/하사 복합체 등이 대표되는 생물학적 기능 측면에서 다양하다. K가d 10−5~10M에−14 이르는 등 파트너 간 호감도도 다양하다. 9쌍의 출품작들은 유사한 구조를 가지고 있지만 매우 다른 친화력을 가진 밀접하게 관련된 콤플렉스를 나타내며, 각 쌍은 코인 어셈블리와 비인지 어셈블리로 구성된다. 성분 단백질의 결합되지 않은 구조를 이용할 수 있으며, 순응 변화를 평가할 수 있다. 그것들은 대부분의 단지에서 중요하며, 큰 움직임이나 장애 대 주문 전환이 자주 관찰된다. 이 세트는 최종 제품 대신 단백질-단백질 상호작용의 구조와 친화력을 연관시키는 것을 목표로 하는 생물물리학적 모델을 벤치마킹하기 위해 사용될 수 있다.[21]
CAPRI 평가
상호[22] 작용의 PRedicative Assessment는 지역사회 전체의 연구자들이 평가자들이 제공한 것과 동일한 단백질을 도킹하려고 노력하는 일련의 진행 중인 사건이다. 회진은 약 6개월마다 열린다. 각 라운드에는 최근 실험적으로 구조가 결정된 1~6개의 표적 단백질-단백질 콤플렉스가 들어 있다. 좌표와 좌표는 평가자가 개인적으로 보유하고 있으며, 이를 결정한 구조 생물학자들의 협조 하에 보관된다. 제출에 대한 평가는 이중 맹목적이다.
CAPRI는 높은 수준의 참여(전 세계적으로 37개 그룹이 7라운드에 참가)와 생물학계 전반의 높은 관심을 끌고 있다. 각 라운드에서 대상자 수가 적어 CAPRI 결과는 통계적으로 큰 의미가 없지만, 자극 담화에서 CAPRI의 역할은 유의하다.(CASP 평가는 단백질 구조 예측 분야에서 비슷한 운동이다.)
참고 항목
참조
- ^ Levinthal C, Wodak SJ, Kahn P, Dadivanian AK (1975). "Hemoglobin Interactions in Sickle Cell Fibers: I. Theoretical Approaches to the Molecular Contacts". Proceedings of the National Academy of Sciences. 72 (4): 1330–1334. Bibcode:1975PNAS...72.1330L. doi:10.1073/pnas.72.4.1330. PMC 432527. PMID 1055409.
- ^ Wodak SJ, Janin J (1978). "Computer Analysis of Protein-Protein Interactions". Journal of Molecular Biology. 124 (2): 323–342. doi:10.1016/0022-2836(78)90302-9. PMID 712840.
- ^ Wodak SJ, De Crombrugghe M, Janin J (1987). "Computer Studies of Interactions between Macromolecules". Progress in Biophysics and Molecular Biology. 49 (1): 29–63. doi:10.1016/0079-6107(87)90008-3. PMID 3310103.
- ^ a b Katchalski-Katzir E, Shariv I, Eisenstein M, Friesem AA, Aflalo C, Vakser IA (1992). "Molecular surface recognition: determination of geometric fit between proteins and their ligands by correlation techniques". Proc. Natl. Acad. Sci. U.S.A. 89 (6): 2195–2199. Bibcode:1992PNAS...89.2195K. doi:10.1073/pnas.89.6.2195. PMC 48623. PMID 1549581.
- ^ Gabb HA, Jackson RM, Sternberg MJ (September 1997). "Modelling protein docking using shape complementarity, electrostatics and biochemical information". J. Mol. Biol. 272 (1): 106–120. doi:10.1006/jmbi.1997.1203. PMID 9299341.
- ^ Strynadka NC, Eisenstein M, Katchalski-Katzir E, Shoichet BK, Kuntz ID, Abagyan R, Totrov M, Janin J, Cherfils J, Zimmerman F, Olson A, Duncan B, Rao M, Jackson R, Sternberg M, James MN (1996). "Molecular Docking Programs Successfully Predict the Binding of a Beta-lactamase Inhibitory Protein to TEM-1 Beta-Lactamase". Nature Structural & Molecular Biology. 3 (3): 233–239. doi:10.1038/nsb0396-233. PMID 8605624. S2CID 40212654.
- ^ a b Gray JJ, Moughon S, Wang C, Schueler-Furman O, Kuhlman B, Rohl CA, Baker D (2003). "Protein–protein docking with simultaneous optimization of rigid-body displacement and side-chain conformations". J. Mol. Biol. 331 (1): 281–299. doi:10.1016/S0022-2836(03)00670-3. PMID 12875852.
- ^ Camacho CJ, Vajda S (2008). "Protein docking along smooth association pathways". Proceedings of the National Academy of Sciences. 98 (19): 10636–10641. doi:10.1073/pnas.181147798. PMC 58518. PMID 11517309.
- ^ Camacho CJ, Vajda S (2007). "In silico screening of mutational effects on enzyme-proteic inhibitor affinity: a docking-based approach". BMC Structural Biology. 7: 37. doi:10.1186/1472-6807-7-37. PMC 1913526. PMID 17559675.
- ^ Zhang C, Liu S, Zhu Q, Zhou Y (2005). "A knowledge-based energy function for protein–ligand, protein–protein, and protein–DNA complexes". Journal of Medicinal Chemistry. 48 (7): 2325–2335. doi:10.1021/jm049314d. PMID 15801826.
- ^ Esmaielbeiki R, Nebel JC (2014). "Scoring docking conformations using predicted protein interfaces". BMC Bioinformatics. 15: 171. doi:10.1186/1471-2105-15-171. PMC 4057934. PMID 24906633.
- ^ a b Kastritis PL, Bonvin AM (May 2010). "Are scoring functions in protein–protein docking ready to predict interactomes? Clues from a novel binding affinity benchmark". J. Proteome Res. 9 (5): 2216–2225. doi:10.1021/pr9009854. hdl:1874/202590. PMID 20329755.
- ^ Badal, VD, Kundrotas, PJ, Vakser, IA (2018). "Natural language processing in text mining for structural modeling of protein complexes". BMC Bioinformatics. 19 (1): 84. doi:10.1186/s12859-018-2079-4. PMC 5838950. PMID 29506465.
- ^ Mintseris J, Wiehe K, Pierce B, Anderson R, Chen R, Janin J, Weng Z (2005). "Protein-Protein Docking Benchmark 2.0: an update". Proteins. 60 (2): 214–216. doi:10.1002/prot.20560. PMID 15981264. S2CID 24049376.
- ^ Vreven T, Moal IH, Vangone A, Pierce BG, Kastritis PL, Torchala M, Chaleil R, Jiménez-García B, Bates PA, Fernandez-Recio J, Bonvin AM, Weng Z (September 2015). "Updates to the Integrated Protein-Protein Interaction Benchmarks: Docking Benchmark Version 5 and Affinity Benchmark Version 2". Journal of Molecular Biology. 427 (19): 3031–41. doi:10.1016/j.jmb.2015.07.016. PMC 4677049. PMID 26231283.
- ^ van Dijk M, Bonvin AM (August 2008). "A protein-DNA docking benchmark". Nucleic Acids Research. 36 (14): e88. doi:10.1093/nar/gkn386. PMC 2504314. PMID 18583363.
- ^ Barik A, C N, P M, Bahadur RP (July 2012). "A protein-RNA docking benchmark (I): nonredundant cases". Proteins. 80 (7): 1866–71. doi:10.1002/prot.24083. PMID 22488669. S2CID 437472.
- ^ Pérez-Cano L, Jiménez-García B, Fernández-Recio J (July 2012). "A protein-RNA docking benchmark (II): extended set from experimental and homology modeling data". Proteins. 80 (7): 1872–82. doi:10.1002/prot.24075. PMID 22488990. S2CID 20322388.
- ^ Nithin C, Mukherjee S, Bahadur RP (November 2016). "A non-redundant protein-RNA docking benchmark version 2.0". Proteins. 85 (2): 256–267. doi:10.1002/prot.25211. PMID 27862282. S2CID 26814049.
- ^ Nithin, Chandran; Ghosh, Pritha; Bujnicki, Janusz; Nithin, Chandran; Ghosh, Pritha; Bujnicki, Janusz M. (2018-08-25). "Bioinformatics Tools and Benchmarks for Computational Docking and 3D Structure Prediction of RNA-Protein Complexes". Genes. 9 (9): 432. doi:10.3390/genes9090432. PMC 6162694. PMID 30149645.
- ^ a b Kastritis PL, Moal IH, Hwang H, Weng Z, Bates PA, Bonvin AM, Janin J (March 2011). "A structure-based benchmark for protein-protein binding affinity". Protein Science. 20 (3): 482–491. doi:10.1002/pro.580. PMC 3064828. PMID 21213247.
- ^ Janin J, Henrick K, Moult J, Eyck LT, Sternberg MJ, Vajda S, Vakser I, Wodak SJ (2003). "CAPRI: a Critical Assessment of PRedicted Interactions". Proteins. 52 (1): 2–9. CiteSeerX 10.1.1.461.3355. doi:10.1002/prot.10381. PMID 12784359. S2CID 31489448.