나사산(단백질 순서)

Threading (protein sequence)

단백질 실링(pold accognition)은 알려진 구조의 단백질과 같은 접이지만 알려진 구조를 가진 동음이의 단백질을 가지고 있지 않은 단백질을 모형화하는 데 사용되는 단백질 모델링 방법이다.단백질 데이터 뱅크(PDB)에 동질 단백질 구조가 축적되지 않은 단백질에는 it(단백질 나사산)이, 단백질 데이터 뱅크(PDB)에는 homological modeling이 사용되기 때문에 구조 예측의 homology modeling 방식과는 다르다.나사산은 PDB에 축적된 구조물과 모델링하고자 하는 단백질 순서의 관계에 대한 통계적 지식을 이용하여 작동한다.null

예측은 대상 시퀀스의 각 아미노산을 템플릿 구조의 위치에 "스레딩"(즉, 배치, 정렬)하고, 대상이 템플릿에 얼마나 잘 맞는지 평가함으로써 이루어진다.최적 맞춤 템플릿을 선택한 후 선택한 템플릿과의 정렬을 기반으로 시퀀스의 구조 모델이 작성된다.단백질 나사산은 자연에서 서로 다른 접힘의 수가 상당히 적다는(약 1300개), 그리고 최근 3년 동안 PDB에 제출된 새로운 구조물의 90%가 이미 PDB에 있는 구조 접힘과 유사한 구조 접힘을 가지고 있다는 두 가지 기본적인 관찰에 근거한다.null

단백질 구조 분류

구조 단백질 분류 데이터베이스는 알려진 구조의 구조 및 진화 관계에 대한 상세하고 포괄적인 설명을 제공한다.단백질은 구조 및 진화 관련성을 모두 반영하도록 분류된다.계층에는 여러 수준이 존재하지만, 주요 수준은 가족, 슈퍼 패밀리 및 폴드(fold)이다.

  • 가족(분명한 진화적 관계):가족으로 뭉쳐진 단백질은 분명히 진화적으로 관련이 있다.일반적으로, 이것은 두 개의 단백질 사이의 잔여물 정체성이 30% 이상이라는 것을 의미한다.그러나, 어떤 경우에는 유사한 기능과 구조가 높은 순서의 정체성이 없는 경우 공통의 하강에 대한 결정적인 증거를 제공한다. 예를 들어, 일부 구성원의 순서의 정체성은 15%에 불과하지만 많은 글로빈이 한 가족을 형성한다.
  • 슈퍼 패밀리(확증 가능한 공통 진화 기원):염기서열 정체성은 낮지만 구조 및 기능적 특징이 공통적인 진화적 기원이 될 가능성이 있음을 시사하는 단백질은 슈퍼 패밀리에 함께 배치된다.예를 들어 열충격 단백질ATPase 영역인 액틴과 헥소키나제가 함께 슈퍼 패밀리를 형성한다.
  • 접기(주요 구조 유사성):단백질은 동일한 배열에서 동일한 주요 2차 구조를 가지고 있고 동일한 위상학적 연결을 가지고 있다면 공통 접이식(common fold)을 갖는 것으로 정의된다.같은 접이식 단백질을 가진 다른 단백질은 종종 2차 구조의 주변 요소를 가지고 있고 크기와 순응이 다른 지역을 돌린다.어떤 경우에는 이러한 서로 다른 주변지역이 구조의 절반을 차지할 수 있다.동일한 접이식 범주에 함께 배치된 단백질은 공통적인 진화적 기원을 갖지 않을 수 있다: 구조적인 유사성은 단지 특정 포장 배열과 체인 토폴로지를 선호하는 단백질의 물리학과 화학에서 발생할 수 있다.

방법

단백질 나사산의 일반적인 패러다임은 다음 4단계로 구성된다.

  1. 구조물 템플리트 데이터베이스 작성:단백질 구조 데이터베이스에서 단백질 구조를 구조 템플릿으로 선택하십시오.여기에는 일반적으로 수열의 유사성이 높은 단백질 구조를 제거한 후 PDB, FSSP, SCOP, CAT 등의 데이터베이스에서 단백질 구조를 선택하는 작업이 포함된다.
  2. 점수 매기기 기능의 설계:구조와 시퀀스 사이의 알려진 관계에 대한 지식을 바탕으로 대상 시퀀스와 템플릿 사이의 적합성을 측정하기 위한 좋은 점수 매기기 기능을 설계한다.좋은 점수 매김 기능은 돌연변이 가능성, 환경 적합성 가능성, 쌍방향 가능성, 이차 구조 호환성 및 갭 페널티를 포함해야 한다.에너지 기능의 품질은 예측 정확도, 특히 정렬 정확도와 밀접한 관련이 있다.
  3. 나사산 정렬:설계한 채점 기능을 최적화하여 각 구조 템플릿에 목표 시퀀스를 맞추십시오.이 단계는 쌍방향 접촉 가능성을 고려하는 모든 나사산 기반 구조 예측 프로그램의 주요 작업 중 하나이다. 그렇지 않으면 동적 프로그래밍 알고리즘이 이를 충족할 수 있다.
  4. 스레딩 예측:통계적으로 가장 가능성이 높은 스레딩 선형을 스레딩 예측으로 선택하십시오.그런 다음 대상 시퀀스의 백본 원자를 선택한 구조 템플릿의 정렬된 백본 위치에 배치하여 대상에 대한 구조 모델을 작성한다.

호몰로지 모델링과 비교

호몰로지 모델링과 단백질 스레딩은 모두 템플릿 기반 방법이며 예측 기법 측면에서 이들 사이에 엄격한 경계가 없다.그러나 그들의 목표물의 단백질 구조는 다르다.호몰로지 모델링은 알려진 구조를 가진 호몰로컬 단백질을 가진 표적을 위한 것이며, 단백질 나사산은 접이식 수준의 호몰로지만을 발견한 표적을 위한 것이다.즉, 호몰로지 모델링은 "더 쉬운" 표적을 위한 것이고 단백질 나사산은 "더 단단한" 표적을 위한 것이다.null

호몰로지 모델링은 정렬의 템플릿을 시퀀스로 처리하며, 예측에는 시퀀스 호몰로지만 사용된다.단백질 나사산은 선형에서 템플릿을 구조물로 취급하며, 선형에서 추출한 시퀀스 및 구조 정보를 모두 예측에 사용한다.유의미한 호몰로지(homology)가 발견되지 않는 경우, 단백질 나사산은 구조 정보를 바탕으로 예측을 할 수 있다.그것은 또한 많은 경우에 단백질 실링이 동종학 모델링보다 더 효과적일 수 있는 이유를 설명해준다.null

실제로 시퀀스 정렬에서 시퀀스 ID가 낮을 때(예: <25%) 동질학 모델링은 유의미한 예측을 생성하지 못할 수 있다.이 경우 대상자에 대해 원거리 호몰로지(homology)가 발견되면 단백질 나사산이 잘 예측될 수 있다.null

스레딩에 대한 자세한 정보

접이식 인식 방법은 크게 두 가지 유형으로 나눌 수 있다. 접이식 라이브러리의 각 구조에 대해 1-D 프로필을 도출하고 이러한 프로파일에 목표 순서를 맞추는 유형과 단백질 템플릿의 전체 3-D 구조를 고려하는 유형이다.프로파일 표현에 대한 간단한 예로는 구조물의 각 아미노산을 가져다가 단백질의 핵심에 묻히는지 표면에 노출되었는지에 따라 간단히 라벨을 붙이는 것이다.보다 정교한 프로파일은 국부 2차 구조(예: 아미노산이 알파 나선의 일부인지 여부) 또는 심지어 진화 정보(아미노산이 얼마나 보존되어 있는지)를 고려할 수 있다.3-D 표현에서 구조물은 원자간 거리의 집합으로 모델링된다. 즉, 구조물에 있는 원자 쌍의 일부 또는 전체 사이의 거리를 계산한다.이것은 구조물에 대한 훨씬 풍부하고 유연한 설명이지만, 정렬을 계산할 때 사용하는 것이 훨씬 어렵다.프로파일 기반 폴드 인식 접근법은 1991년 보위, 뤼시, 데이비드 아이젠버그가 처음 설명한 것이다.[1]스레딩이라는 용어는 데이비드 존스, 윌리엄 R에 의해 처음 만들어졌다.Taylor와 Janet Thornton은 1992년에 특별히 단백질 템플릿의 완전한 3-D 구조 원자 표현을 접이식 인식으로 사용하는 것을 언급하였다.[2]오늘날, 나사산 인식과 접이식 인식이라는 용어는 자주(약간 부정확하긴 하지만) 서로 바꾸어 사용된다.null

접이식 인식법은 대부분 진화의 결과지만 또한 폴리펩타이드 체인의 기초물리학 및 화학에 의해 부과되는 제약 때문에 자연에 서로 다른 단백질 접힘의 수가 엄격히 제한되어 있다고 믿기 때문에 널리 사용되고 효과적이다.따라서 대상 단백질과 유사한 접이식 단백질을 X선 결정학이나 핵자기공명(NMR) 분광학으로 이미 연구해 PDB에서 확인할 수 있는 좋은 가능성(현재 70~80%)이 있다.현재 거의 1300개의 다른 단백질 접힘이 알려져 있지만, 현재 진행 중인 구조 유전체학 프로젝트 때문에 여전히 매년 새로운 접힘이 발견되고 있다.null

구조물에 대한 시퀀스의 올바른 스레딩을 찾기 위해 많은 다른 알고리즘이 제안되었지만, 많은 알고리즘은 어떤 형태로든 동적 프로그래밍을 사용한다.완전한 3-D 나사산의 경우 최적의 정렬을 식별하는 문제가 매우 어렵다(일부 나사산 모델의 경우 NP-하드 문제임).[citation needed]연구자들은 경험적 해결책에 도달하기 위해 조건부 무작위 필드, 시뮬레이션 어닐링, 분기 바인딩선형 프로그래밍과 같은 많은 조합 최적화 방법을 사용해 왔다.나사산 방법을 두 개의 단백질 구조(단백질 구조 정렬)를 정렬하려는 방법과 비교하는 것이 흥미로우며, 실제로 두 문제 모두에 동일한 알고리즘이 많이 적용되었다.null

단백질 나사산 소프트웨어

  • HHPred숨겨진 마르코프 모델의 쌍방향 비교를 기반으로 원격 호몰로지 탐지에 널리 사용되는 소프트웨어인 HHsearch를 실행하는 인기 스레딩 서버다.
  • RAPTOR(소프트웨어)는 정수 프로그래밍 기반 단백질 스레딩 소프트웨어다.단백질 모델링 분석을 위한 새로운 단백질 나사산 프로그램 RaptorX/소프트웨어로 대체되었으며, 단일 템플릿과 다중 템플릿 기반 단백질 나사산에 대한 확률론적 그래픽 모델과 통계적 추론을 채택하고 있다.[3][4][5][6]RaptorX는 RAPTOR를 크게 능가하며 특히 희박한 시퀀스 프로필에 단백질 정렬에 뛰어나다.RaptorX 서버는 공개가 자유롭다.
  • 피레hhsearchab initio, multiple-template modeling을 결합한 인기 있는 스레드 서버다.
  • MUSTER는 동적 프로그래밍 및 시퀀스 프로파일 정렬에 기반한 표준 스레딩 알고리즘이다.또한 복수의 구조적 자원을 결합하여 시퀀스 프로파일 정렬을 지원한다.[7]
  • 스파크스 X는 조회의 예측된 1차원 구조 특성과 템플릿의 해당 네이티브 특성 사이의 확률론적 기반 시퀀스 대 구조물이다.[8]
  • BioShell은 예측된 2차 구조와 결합된 최적화된 프로파일 간 동적 프로그래밍 알고리즘을 사용하는 스레딩 알고리즘이다.[9]

참고 항목

참조

  1. ^ Bowie JU, Lüthy R, Eisenberg D (1991). "A method to identify protein sequences that fold into a known three-dimensional structure". Science. 253 (5016): 164–170. Bibcode:1991Sci...253..164B. doi:10.1126/science.1853201. PMID 1853201.
  2. ^ Jones DT, Taylor WR, Thornton JM (1992). "A new approach to protein fold recognition". Nature. 358 (6381): 86–89. Bibcode:1992Natur.358...86J. doi:10.1038/358086a0. PMID 1614539. S2CID 4266346.
  3. ^ Peng, Jian; Jinbo Xu (2011). "RaptorX: exploiting structure information for protein alignment by statistical inference". Proteins. 79 Suppl 10: 161–171. doi:10.1002/prot.23175. PMC 3226909. PMID 21987485.
  4. ^ Peng, Jian; Jinbo Xu (2010). "Low-homology protein threading". Bioinformatics. 26 (12): i294–i300. doi:10.1093/bioinformatics/btq192. PMC 2881377. PMID 20529920.
  5. ^ Peng, Jian; Jinbo Xu (April 2011). "A multiple-template approach to protein threading". Proteins. 79 (6): 1930–1939. doi:10.1002/prot.23016. PMC 3092796. PMID 21465564.
  6. ^ Ma, Jianzhu; Sheng Wang; Jinbo Xu (June 2012). "A conditional neural fields model for protein threading". Bioinformatics. 28 (12): i59–66. doi:10.1093/bioinformatics/bts213. PMC 3371845. PMID 22689779.
  7. ^ Wu S, Zhang Y (2008). "MUSTER: Improving protein sequence profile–profile alignments by using multiple sources of structure information". Proteins. 72 (2): 547–56. doi:10.1002/prot.21945. PMC 2666101. PMID 18247410.
  8. ^ Yang Y, Faraggi E, Zhao H, Zhou Y (2011). "Improving protein fold recognition and template-based modeling by employing probabilistic-based matching between predicted one-dimensional structural properties of query and corresponding native properties of templates". Bioinformatics. 27 (15): 2076–2082. doi:10.1093/bioinformatics/btr350. PMC 3137224. PMID 21666270.
  9. ^ Gront D, Blaszczyk M, Wojciechowski P, Kolinski A (2012). "BioShell Threader: protein homology detection based on sequence profiles and secondary structure profiles". Nucleic Acids Research. 40 (W1): W257–W262. doi:10.1093/nar/gks555. PMC 3394251. PMID 22693216.

추가 읽기