전역 거리 시험

Global distance test

'총점수'를 나타내기 위해 GDT_TS로도 작성된 지구 거리 시험(Global Distance Test, GDT)은 알려진 아미노산 대응(예: 동일한 아미노산 시퀀스)을 가지고 있지만 다른 3차 구조를 가진 두 단백질 구조 사이의 유사성을 측정하는 것이다.X선 결정학, 단백질 NMR, 또는 극저온 현미경 검사에 의해 측정된 단백질 구조 예측 결과를 실험적으로 결정된 구조와 비교하는 데 가장 흔히 사용된다.측정기준은 로렌스 리버모어 국립연구소의 아담 제믈라에 의해 개발되었으며, 원래 LGA(Local-Global Alignment) 프로그램에서 구현되었다.[1][2]이는 일반적인 RMSD(근위-평균-제곱 편차) 메트릭보다 더 정확한 측정으로, 예를 들어, 달리 합리적으로 정확한 구조에서 개별 루프 영역을 잘못 모델링하여 생성된 특이치 영역에 민감하다.[1]기존의 GDT_TS 점수는 알파 탄소 원자를 통해 계산되며 0 ~ 100 범위의 백분율로 보고된다.일반적으로 GDT_TS 점수가 높을수록 모형은 주어진 기준 구조에 근접한다.

GDT_TS 측정은 현재 모델링 기법 평가 전용 구조 예측 커뮤니티의 대규모 실험인 CASP(Critical Assessment of Structure Prediction) 결과의 생산에 주요 평가 기준으로 사용된다.[1][3][4]이 측정기준은 1998년 2년차 실험(CASP3)의 3차 반복에서 평가기준으로 처음 도입됐다.[3]원래 방법에 대한 다양한 확장이 개발되었다; 측면 사슬의 위치를 설명하는 변화를 지구 거리 계산(GDC)이라고 한다.[5]

계산

GDT 점수는 두 구조물을 반복적으로 중첩시킨 후, 실험 구조물에서 위치의 정의된 거리 컷오프 내에 들어가는 모델 구조에서 가장 큰 아미노산 잔류물의 알파 탄소 원자의 집합으로 계산된다.원래 설계에 의해 GDT 알고리즘은 20개의 연속 거리 컷오프 각각에 대해 20개의 GDT 점수를 계산한다(0.5 å, 1.0 å, 1.5 å, ... 10.0 å).[2]구조물 유사성 평가의 경우, 여러 컷오프 거리의 GDT 점수를 사용하고자 하며, 컷오프가 증가함에 따라 점수가 일반적으로 증가한다.이 증가의 고원은 실험 구조와 예측 구조물 사이의 극한 차이를 나타낼 수 있으며, 따라서 합리적인 거리의 어떤 컷오프에도 추가 원자가 포함되지 않는다.기존 CASP의 GDT_TS 총점은 1, 2, 4, 8 å의 컷오프 평균 결과물이다.[1][6][7]

변형 및 확장

원본 GDT_TS는 LGA(Local-Global Alignment) 프로그램에서 산출한 중첩과 GDT 점수를 바탕으로 계산한다.[1]GDT_HA라고 하는 "고정확도" 버전은 더 작은 컷오프 거리(GDT_TS 크기의 절반)를 선택하여 계산되므로 기준 구조에서 더 큰 편차를 더 심하게 벌칙한다.CASP7의 높은 정확도 범주에 사용되었다.[8] CASP8은 GDT_TS에서 너무 가까이 군집된 잔류물에 대해 벌점을 뺀 새로운 "TR 점수"를 정의했는데, 이는 예측 구조물의 장력 충돌을 벌하기 위한 것으로, 때로는 GDT의 컷오프 측정치를 내기 위한 것이다.[9][10]

1차 GDT 평가는 알파 탄소 원자만을 사용한다.아미노산 잔류물 사이드 체인에 중첩 기반 스코어링을 적용하기 위해 2008년 LGA 프로그램 내에서 "측면 체인에 대한 전역 거리 계산"(GDC_sc)이라는 GDT급 스코어가 설계 및 구현되었다.[1][5]알파 탄소를 기반으로 잔류물 위치를 비교하는 대신, GDC_sc는 각 잔류물 끝 부근에 미리 정의된 "특성 원자"를 사용하여 재결합 간 거리 편차를 평가한다.GDC 점수(GDC_all)의 "모든 원자" 변형은 전체 모델 정보를 사용하여 계산되며, CASP의 주최자 및 평가자가 예측 구조 모델의 정확성을 평가하기 위해 사용하는 표준 척도 중 하나이다.[5][7][11]

GDT 점수는 일반적으로 단일 기준 구조와 관련하여 계산된다.경우에 따라 단백질 NMR에 의해 결정된 기준 구조물에 대한 GDT 점수가 낮은 구조 모델은 기초 실험 데이터에 더 잘 적합할 수 있다.[12]단백질 유연성과 기준 구조의 불확실성으로 인한 GDT 점수의 불확실성을 추정하는 방법이 개발됐다.[13]

참고 항목

참조

  1. ^ a b c d e f Zemla A (2003). "LGA: A method for finding 3D similarities in protein structures". Nucleic Acids Research. 31 (13): 3370–3374. doi:10.1093/nar/gkg571. PMC 168977. PMID 12824330.
  2. ^ a b Lawrence Livermore National Security, LLC에 할당된 2011년 9월 20일 발행된 미국 특허 8024127 B2, Adam Zemla, "단백질 구조에서 3D 유사점을 찾기 위한 지역-글로벌 정렬"
  3. ^ a b Zemla A, Venclovas C, Moult J, Fidelis K (1999). "Processing and analysis of CASP3 protein structure predictions". Proteins. S3: 22–29. doi:10.1002/(SICI)1097-0134(1999)37:3+<22::AID-PROT5>3.0.CO;2-W. PMID 10526349.
  4. ^ Zemla A, Venclovas C, Moult J, Fidelis K (2001). "Processing and evaluation of predictions in CASP4". Proteins. 45 (S5): 13–21. doi:10.1002/prot.10052. PMID 11835478. S2CID 28166260.
  5. ^ a b c Keedy, D.A.; Williams, CJ; Headd, JJ; Arendall, WB; Chen, VB; Kapral, GJ; Gillespie, RA; Block, JN; Zemla, A; Richardson, DC; Richardson, JS (2009). "The other 90% of the protein: Assessment beyond the α-carbon for CASP8 template-based and high-accuracy models". Proteins. 77 (Suppl 9): 29–49. doi:10.1002/prot.22551. PMC 2877634. PMID 19731372.
  6. ^ Kryshtafovych, A; Prlic, A; Dmytriv, Z; Daniluk, P; Milostan, M; Eyrich, V; Hubbard, T; Fidelis, K (2007). "New tools and expanded data analysis capabilities at the Protein Structure Prediction Center". Proteins. 69 Suppl 8: 19–26. doi:10.1002/prot.21653. PMC 2656758. PMID 17705273.
  7. ^ a b "Results Table Help". 14th Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction. Retrieved 27 December 2020.
  8. ^ Read, Randy J.; Chavali, Gayatri (2007). "Assessment of CASP7 predictions in the high accuracy template-based modeling category". Proteins. 69 (S8): 27–37. doi:10.1002/prot.21662. PMID 17894351. S2CID 33172629.
  9. ^ Shi, S; Pei, J; Sadreyev, RI; Kinch, LN; Majumdar, I; Tong, J; Cheng, H; Kim, BH; Grishin, NV (2009). "Analysis of CASP8 targets, predictions and assessment methods". Database: The Journal of Biological Databases and Curation. 2009: bap003. doi:10.1093/database/bap003. PMC 2794793. PMID 20157476.. 관련 페이지
  10. ^ Sadreyev, RI; Shi, S; Baker, D; Grishin, NV (15 May 2009). "Structure similarity measure with penalty for close non-equivalent residues". Bioinformatics. 25 (10): 1259–63. doi:10.1093/bioinformatics/btp148. PMC 2677741. PMID 19321733.
  11. ^ Modi V, Xu QF, Adhikari S, Dunbrack RL (2016). "Assessment of template‐based modeling of protein structure in CASP11". Proteins. 84: 200–220. doi:10.1002/prot.25049. PMC 5030193. PMID 27081927.
  12. ^ MacCallum, Justin L.; Hua, Lan; Schnieders, Michael J.; Pande, Vijay S.; Jacobson, Matthew P.; Dill, Ken A. (2009). "Assessment of the protein-structure refinement category in CASP8". Proteins: Structure, Function, and Bioinformatics. 77 (S9): 66–80. doi:10.1002/prot.22538. PMC 2801025. PMID 19714776.
  13. ^ Li, Wenlin; Schaeffer, R. Dustin; Otwinowski, Zbyszek; Grishin, Nick V. (5 May 2016). "Estimation of Uncertainties in the Global Distance Test (GDT_TS) for CASP Models". PLOS ONE. 11 (5): e0154786. Bibcode:2016PLoSO..1154786L. doi:10.1371/journal.pone.0154786. PMC 4858170. PMID 27149620.

외부 링크

  • CASP14 결과 - 컷오프 거리 함수로 GDT 점수 예제 그림을 포함하여 2020년에 실행된 최신 CASP 실험의 요약 표
  • GDT, GDC, LCS LGA 기술 서비스 및 구조 비교 및 유사성 측정에 대한 문서.