단백질 구조 예측

Protein structure prediction
2차, 3차 및 4차 단백질 구조를 예측하기 위해 구성 아미노산을 분석할 수 있다.

단백질 구조 예측아미노산 배열로부터 단백질의 3차원 구조를 추론하는 것이다. 즉, 1차 구조로부터 단백질2차3차 구조를 예측하는 것이다.단백질 설계의 역문제와 구조 예측은 다르다.단백질 구조 예측은 컴퓨터 생물학에 의해 추구되는 가장 중요한 목표 중 하나이다; 그리고 그것은 의학과 생명공학에서 중요하다.

1994년부터는 CASP 실험(단백질구조예측기법의 중요평가)에서 2년마다 현행 방법의 성과를 평가한다.단백질 구조 예측 웹 서버의 지속적인 평가는 커뮤니티 프로젝트 CAMEO3D에 의해 이루어진다.

단백질 구조 및 용어

단백질은 펩타이드 결합에 의해 결합된 아미노산 사슬이다.이 체인의 많은 구성은 Cα 원자에서 2개의 비틀림 각도 θ 및 θ를 중심으로 메인 체인이 회전하기 때문에 가능합니다(그림 참조).이러한 구조 유연성은 단백질의 3차원 구조의 차이를 야기한다.사슬의 펩타이드 결합은 극성이며, 즉 수소 결합 수용체 역할을 할 수 있는 카르보닐 그룹과 수소 결합 공여체 역할을 할 수 있는 NH 그룹에서 양전하와 음전하(부분 전하)를 분리하였다.따라서 이러한 그룹은 단백질 구조에서 상호작용할 수 있다.단백질은 대부분 20가지 다른 종류의 L-α-아미노산(단백질 생성 아미노산)으로 구성되어 있습니다.이것들은 사이드 체인의 화학작용에 따라 분류될 수 있으며, 이것은 또한 중요한 구조적 역할을 한다.글리신은 가장 작은 측쇄인 수소 원자가 1개밖에 없어 단백질 구조의 국소 유연성을 높일 수 있는 특별한 위치를 차지한다.한편, 시스테인은 다른 시스테인 잔기와 반응하여 하나의 시스틴을 형성할 수 있으며, 이로 인해 구조 전체를 안정화시키는 크로스 링크를 형성할 수 있다.

단백질 구조는 α 나선 및 β 시트와 같은 2차 구조 요소의 배열로 간주될 수 있다.이들 2차 구조에서 공간적으로 인접한 아미노산의 주쇄 NH기와 CO기 사이에 H-결합의 규칙적인 패턴이 형성되어 아미노산은 유사한 δ각 [1]δ각도를 가진다.

단백질 주쇄의 비틀림 각도 θ 및 θ

이러한 2차 구조의 형성은 펩타이드 결합의 수소 결합 용량을 효율적으로 만족시킨다.2차 구조는 소수성 환경에서 단백질 코어에 단단히 채워질 수 있지만 극지방 단백질 표면에도 나타날 수 있습니다.각 아미노산 측쇄는 점유할 수 있는 부피가 제한되고 인근의 다른 측쇄와의 가능한 상호작용 횟수도 제한되며, 이는 분자 모델링 및 [2]정렬에서 고려해야 할 상황이다.

α의

수소 결합을 가진 알파 나선(노란색 점)

α-나선은 단백질에서 가장 풍부한 2차 구조 유형이다.α-나선은 매 네 번째 잔기 사이에 H-결합이 형성되며, 평균 길이는 10개의 아미노산(3바퀴) 또는 10Ω이지만 5~40개(1.5~11바퀴)까지 다양하다.H 결합의 정렬은 나선의 아미노 말단에서 부분 양전하를 갖는 나선에 쌍극자 모멘트를 생성한다.이 지역은 자유 NH2 그룹을 가지고 있기 때문에, 인산염과 같이 음전하를 띤 그룹과 상호작용할 것이다.α-헬리케인의 가장 일반적인 위치는 단백질 코어 표면에 있으며, 여기서 수성 환경과의 계면을 제공한다.나선의 안쪽 면에는 소수성 아미노산이, 바깥쪽 면에는 친수성 아미노산이 있는 경향이 있다.따라서, 사슬을 따라 있는 4개의 아미노산 중 3분의 1은 매우 쉽게 검출될 수 있는 패턴인 소수성 경향이 있을 것이다.류신 지퍼 모티브는 인접한 2개의 헬리클과 마주보는 쪽의 류신 반복 패턴이 모티브의 예측성이 높다.나선형 휠 그림을 사용하여 이 반복 패턴을 표시할 수 있습니다.단백질 코어 또는 세포막에 매설된 다른 α-헬리체는 소수성 아미노산의 보다 높고 규칙적인 분포를 가지며, 이러한 구조를 매우 예측하기 쉽다.표면에 노출된 나선형은 소수성 아미노산의 비율이 낮습니다.아미노산 함량은 α-나선 영역을 예측할 수 있다.알라닌(A), 글루탐산(E), 류신(L) 및 메티오닌(M)이 풍부하고 프롤린(P), 글리신(G), 티로신(Y) 및 세린(S)이 약하면 α-나선을 형성하는 경향이 있다.프롤린은 α-나선을 불안정하게 하거나 파괴하지만 더 긴 나선형으로 나타나 굴곡을 형성할 수 있습니다.

β시트

β-시트는 사슬의 한 부분에서 평균 5~10개의 연속 아미노산 사이의 H-결합에 의해 형성되고, 또 다른 5~10개의 연속 아미노산은 사슬 아래로 형성된다.상호 작용 영역은 짧은 루프를 사이에 두고 인접할 수도 있고, 다른 구조를 사이에 두고 멀리 떨어져 있을 수도 있습니다.모든 체인은 평행 시트를 형성하기 위해 같은 방향으로 달릴 수도 있고, 다른 체인은 반평행 시트를 형성하기 위해 역화학 방향으로 달릴 수도 있고, 또는 혼합 시트를 형성하기 위해 반평행 및 반평행할 수도 있다.H 본딩의 패턴은 병렬 구성과 반평행 구성이 다릅니다.시트 내부 가닥의 각 아미노산은 인접한 아미노산과 2개의 H-결합을 형성하고, 외부 가닥의 각 아미노산은 내부 가닥과 1개의 결합만을 형성한다.시트를 가로질러 가닥과 직각으로 보면, 더 먼 가닥이 약간 시계 반대 방향으로 회전하여 왼손으로 꼬인다.Cα-atoms는 시트 위아래로 주름 구조로 번갈아 나타나며, 아미노산의 R측 그룹은 주름 위아래로 번갈아 나타난다.시트 내 아미노산의 δ 및 δ 각도는 라마찬드란 플롯의 한 영역에서 상당히 다르다.β-시트의 위치를 예측하는 것은 α-헬리스의 위치보다 더 어렵다.여러 배열 배열의 아미노산 변화를 고려할 때 상황은 다소 개선된다.

루프

단백질의 일부는 고정된 3차원 구조를 가지고 있지만, 어떠한 규칙적인 구조를 형성하지 않는다.단백질의 무질서하거나 전개된 세그먼트 또는 고정된 3차원 구조가 없는 전개된 폴리펩타이드 사슬인 랜덤 코일과 혼동해서는 안 된다.이 부분들은 β-시트와 α-헬리스를 연결하기 때문에 종종 "루프"라고 불립니다.루프는 보통 단백질 표면에 위치하기 때문에 잔류물의 돌연변이가 더 쉽게 허용된다.시퀀스 정렬의 특정 영역에 더 많은 치환, 삽입 및 삭제가 있는 것은 루프의 징후일 수 있습니다.게놈 DNA에서 침입자의 위치는 암호화된 단백질의[citation needed] 루프 위치와 관련이 있을 수 있습니다.루프는 또한 하전 및 극성 아미노산을 갖는 경향이 있고 종종 활성 부위의 구성요소이다.

단백질 분류

단백질은 구조 및 배열 유사성에 따라 분류될 수 있다.구조 분류를 위해 위 항에서 설명한 이차 구조물의 크기와 공간 배열을 알려진 3차원 구조에서 비교한다.시퀀스 유사성에 기초한 분류가 역사적으로 가장 먼저 사용되었다.처음에는 전체 시퀀스의 정렬에 기반한 유사성이 수행되었습니다.이후 단백질은 보존된 아미노산 패턴의 발생에 기초하여 분류되었다.이러한 방법 중 하나 또는 그 이상에 의해 단백질을 분류하는 데이터베이스를 사용할 수 있다.단백질 분류 체계를 고려할 때 몇 가지 관찰 결과를 염두에 두는 것이 중요합니다.첫째, 서로 다른 진화적 기원의 완전히 다른 두 단백질 배열은 유사한 구조로 접힐 수 있다.반대로, 주어진 구조에 대한 고대 유전자의 배열은 동일한 기본적인 구조적 특징을 유지하면서 다른 종으로 상당히 분산되었을 수 있다.이러한 경우 나머지 시퀀스 유사성을 인식하는 것은 매우 어려운 작업일 수 있습니다.둘째, 서로 또는 세 번째 염기서열과 상당한 수준의 염기서열 유사성을 공유하는 두 단백질은 또한 진화적 기원을 공유하며 일부 구조적 특징도 공유해야 한다.하지만, 진화 중에 유전자 복제와 유전자 재배열은 새로운 유전자 복제를 일으킬 수 있고, 이것은 새로운 기능과 [2]구조를 가진 단백질로 진화할 수 있다.

단백질 구조 및 배열 분류에 사용되는 용어

단백질 사이의 진화적, 구조적 관계에 대해 더 일반적으로 사용되는 용어는 다음과 같습니다.단백질에서 발견되는 다양한 종류의 구조적 특징에 많은 추가 용어들이 사용됩니다.이러한 용어에 대한 설명은 CATH 웹사이트, 단백질 구조분류(SCOP) 웹사이트 및 스위스 생물정보학 박람회 웹사이트의 Glaxo Wellcome 튜토리얼에서 확인할 수 있다.

활성 사이트
화학적으로 특정한 기질과 상호작용할 수 있고 단백질에 생물학적 활성을 제공하는 3차(3차원) 또는 4차(기질 서브유닛) 구조 내의 아미노산 측면 그룹의 국소적 조합.매우 다른 아미노산 배열의 단백질은 동일한 활성 부위를 생성하는 구조로 접힐 수 있습니다.
건축
유사한 루프 구조를 공유하는지 여부에 관계없이 3차원 구조에서 보조 구조의 상대적 방향입니다.
접기(토폴로지)
보존된 루프 구조를 가진 아키텍처의 일종입니다.
블록
단백질 패밀리의 보존된 아미노산 배열 패턴입니다.패턴에는 표시된 시퀀스의 각 위치에서 일련의 가능한 일치 항목이 포함되지만 패턴 또는 시퀀스에 삽입되거나 삭제된 위치는 없습니다.반대로 시퀀스 프로파일은 삽입 및 삭제가 포함된 유사한 패턴 세트를 나타내는 스코어링 매트릭스의 일종입니다.
학급
단백질 도메인을 2차 구조 함량과 구성에 따라 분류하는 데 사용되는 용어.Levitt과 Chothia(1976)에 의해 4개의 클래스가 최초로 인식되었으며, 다른 몇 개의 클래스가 SCOP 데이터베이스에 추가되었다.CATH 데이터베이스에는 주로-α, 주로-β 및 α-β의 세 가지 클래스가 있으며, α-β 클래스는 α/β 및 α+β 구조를 모두 포함한다.
코어
α-아세틸과 β-아세틸의 소수성 내부를 구성하는 접힌 단백질 분자의 부분.이 콤팩트한 구조는 아미노산들의 측면 그룹을 상호작용할 수 있도록 충분히 가까이 모읍니다.SCOP 데이터베이스에서와 같이 단백질 구조를 비교할 때, 코어는 공통 접힘을 공유하거나 동일한 슈퍼패밀리에 속하는 대부분의 구조에 공통되는 영역이다.구조 예측에서 코어(core)는 진화적 변화 동안 보존될 가능성이 있는 이차 구조의 배열로 정의되기도 한다.
도메인(시퀀스 컨텍스트)
사슬의 다른 세그먼트의 존재에 관계없이 3차원 구조로 접힐 수 있는 폴리펩타이드 사슬의 세그먼트.주어진 단백질의 개별 도메인은 광범위하게 상호작용할 수도 있고, 폴리펩타이드 사슬의 길이에 의해서만 결합될 수도 있다.여러 개의 도메인을 가진 단백질은 다른 분자와의 기능적 상호작용을 위해 이러한 도메인을 사용할 수 있다.
패밀리(시퀀스 컨텍스트)
정렬 시 50% 이상 동일한 유사한 생화학적 기능을 가진 단백질 그룹단백질 정보 자원(PIR)에서도 같은 컷오프가 사용되고 있습니다.단백질 패밀리는 다른 유기체(정통 배열)에서 동일한 기능을 가진 단백질을 포함하지만 유전자 복제 및 재배열에서 유래한 동일한 유기체(패럴로그 배열) 내의 단백질을 포함할 수도 있다.단백질 패밀리의 다중 배열이 단백질의 길이 전체에 걸쳐 공통적인 유사성 수준을 나타내는 경우, PIR는 패밀리를 동형 패밀리라고 한다.정렬된 영역을 동형 도메인이라고 하며, 이 영역은 다른 패밀리와 공유되는 여러 개의 작은 호몰로지 도메인으로 구성될 수 있다.계열은 하위 계열로 세분되거나 각각의 높은 또는 낮은 수준의 시퀀스 유사성에 기초하여 상위 계열로 분류될 수 있다.SCOP 데이터베이스는 1296 패밀리와 CATH 데이터베이스(버전 1.7 베타)를 보고하고 있으며, 1846 패밀리는 보고하고 있습니다.
동일한 기능을 가진 단백질의 배열을 더 자세히 조사하면, 일부는 높은 배열 유사성을 공유하는 것으로 밝혀졌다.위의 기준에 따르면 그들은 분명히 같은 가족의 구성원이다.그러나 다른 가족 구성원과 배열 유사성이 거의 없거나 심지어 중요하지 않은 것으로 밝혀졌다.이러한 경우, 먼 두 가족 A와 C 사이의 가족 관계는 종종 A와 C 모두와 유의한 유사성을 공유하는 추가적인 가족 B를 발견함으로써 입증될 수 있다.따라서 B는 A와 C 사이의 접속 링크를 제공합니다.또 다른 접근법은 보존도가 높은 일치에 대해 원거리 정렬을 조사하는 것입니다.
50%의 동일성 수준에서 단백질은 동일한 3차원 구조를 가질 가능성이 높으며, 배열 배열에서 동일한 원자도 구조 모델에서 약 1Ω 이내에 중첩된다.따라서 가족 중 한 명의 구조가 알려진 경우 두 번째 가족에 대해 신뢰할 수 있는 예측을 할 수 있으며, 정체성 수준이 높을수록 예측이 더 신뢰할 수 있습니다.단백질 구조 모델링은 아미노산 치환이 3차원 구조의 핵심에 얼마나 잘 들어맞는지 검사함으로써 이루어진다.
패밀리(구조 컨텍스트)
FSSP 데이터베이스(구조적으로 유사한 단백질 패밀리)와 DALI/FSSP 웹사이트에 사용된 것처럼, 구조 유사성이 유의하지만 반드시 유의한 배열 유사성은 아닌 두 가지 구조이다.
접다
구조 모티브와 유사하며, 동일한 구성의 2차 구조 유닛의 더 큰 조합을 포함한다.따라서, 동일한 접힘을 공유하는 단백질은 유사한 루프로 연결된 2차 구조의 동일한 조합을 가지고 있다.예를 들어 여러 개의 교대로 이루어진 α나선과 평행한 β가닥으로 이루어진 로스만 접힘이 있다.SCOP, CATH 및 FSSP 데이터베이스에서 알려진 단백질 구조는 구조 복잡성의 계층적 수준으로 분류되었으며, 접힘은 기본 분류 수준으로 분류되었다.
상동 도메인(시퀀스 컨텍스트)
정렬된 시퀀스 간에 공통적인 진화적 기원을 나타내는 일반적으로 시퀀스 정렬 방법에 의해 일반적으로 시퀀스 정렬 방법에 의해 발견됩니다.호몰로지 영역은 일반적으로 모티브보다 길다.도메인은 주어진 단백질 배열의 전체 또는 배열의 일부만을 포함할 수 있다.일부 도메인은 복잡하고 진화 과정에서 더 큰 도메인을 형성하기 위해 결합된 여러 개의 작은 호몰로지 도메인으로 구성됩니다.전체 시퀀스를 포함하는 도메인을 PIR(Protein Information Resource)에 의해 동형 도메인이라고 합니다.
모듈
하나 이상의 모티브로 구성되며 구조 또는 기능의 기본 단위로 간주되는 보존된 아미노산 패턴의 영역모듈의 존재는 또한 단백질을 가족으로 분류하는데 사용되어 왔다.
모티브(시퀀스 컨텍스트)
두 개 이상의 단백질에서 발견되는 보존된 아미노산 패턴프로사이트 카탈로그에서 모티브는 유사한 생화학적 활성을 가진 단백질 군에서 발견되는 아미노산 패턴이며, 종종 단백질의 활성 부위 근처에 있다.시퀀스 모티브 데이터베이스의 예로는 프로사이트 카탈로그와 스탠포드 모티브 [3]데이터베이스가 있습니다.
모티브(구조 컨텍스트)
폴리펩타이드 사슬의 인접 부분을 특정 3차원 구성으로 접어서 생성된 여러 2차 구조 요소의 조합.그 예로는 나선 루프 나선 모티브가 있습니다.구조적 모티브는 초 이차적 구조와 접힘이라고도 한다.
위치별 스코어링 매트릭스(시퀀스 컨텍스트, 가중치 또는 스코어링 매트릭스라고도 함)
갭이 없는 다중 시퀀스 정렬에서 보존된 영역을 나타냅니다.각 행렬 열은 다중 시퀀스 정렬의 한 열에 있는 변동을 나타냅니다.
위치별 스코어링 매트릭스—3D(구조적 컨텍스트)
동일한 구조 등급에 속하는 단백질 정렬에서 발견되는 아미노산 변이를 나타냅니다.매트릭스 컬럼은 배열된 구조에서 하나의 아미노산 위치에서 발견되는 아미노산 변이를 나타냅니다.
일차 구조
펩타이드 결합에 의해 결합된 아미노산으로 구성된 폴리펩타이드 사슬인 단백질의 선형 아미노산 배열
프로파일(시퀀스 컨텍스트)
단백질 패밀리의 다중 배열 정렬을 나타내는 점수 행렬.프로파일은 보통 다중 시퀀스 정렬의 잘 보존된 영역에서 가져옵니다.프로필은 각 열이 배열의 위치를 나타내고 각 행이 아미노산 중 하나를 나타내는 매트릭스 형태입니다.매트릭스 값은 배열의 해당 위치에서 각 아미노산의 우도를 제공합니다.동적 프로그래밍 알고리즘을 통해 최적의 스코어링 영역을 찾기 위해 대상 시퀀스를 따라 프로파일이 이동합니다.매칭 중에는 간극이 허용되며, 아미노산이 매칭되지 않은 경우에는 간극 패널티가 음의 점수로 포함된다.시퀀스 프로파일은 프로파일HMM이라고 불리는 숨겨진 마르코프 모델에 의해서도 표현될 수 있다.
프로파일(구조 컨텍스트)
어떤 아미노산이 잘 맞아야 하는지, 그리고 알려진 단백질 구조에서 순차적인 위치에 잘 맞아야 하는지를 나타내는 점수 매트릭스.프로파일 열은 구조 내의 순차적 위치를 나타내며 프로파일 열은 20개의 아미노산을 나타냅니다.시퀀스 프로파일과 마찬가지로 구조 프로파일은 동적 프로그래밍 알고리즘에 의해 가능한 가장 높은 얼라인먼트 점수를 찾기 위해 타깃 시퀀스를 따라 이동한다.공백이 포함되어 벌칙을 받을 수 있습니다.결과 점수는 표적 단백질이 그러한 구조를 채택할 수 있는지 여부에 대한 지표를 제공한다.
4차 구조
여러 개의 독립된 폴리펩타이드 사슬을 포함하는 단백질 분자의 3차원 구성
이차 구조
폴리펩타이드 사슬의 아미노산에서 C, O 및 NH 그룹 간에 발생하는 상호작용으로 α-헬리시스, β-시트, 턴, 루프 및 기타 형태를 형성하고 3차원 구조로 접히는 것을 용이하게 한다.
슈퍼 패밀리
멀지만 검출 가능한 배열 유사성에 의해 관련이 있는 동일하거나 다른 길이의 단백질 패밀리 그룹.따라서 특정 슈퍼패밀리의 구성원들은 공통적인 진화적 기원을 가지고 있다.원래 Dayhoff는 정렬 점수에 기초하여 수퍼패밀리 상태에 대한 컷오프를 10 6과 관련되지 않은 확률로 정의했다(Dayhoff et al. 1978).배열의 정렬에서 거의 동일성이 없지만 설득력 있게 공통적인 수의 구조적 및 기능적 특징을 가진 단백질은 동일한 슈퍼패밀리에 배치된다.3차원 구조 수준에서 슈퍼패밀리 단백질은 공통의 주름과 같은 공통의 구조적 특징을 공유하지만, 2차 구조의 수와 배열에도 차이가 있을 수 있다.PIR 자원은 동형 슈퍼 패밀리라는 용어를 사용하여 끝에서 끝까지 정렬할 수 있는 시퀀스로 구성된 슈퍼 패밀리를 참조한다.이것은 정렬 전체에 걸쳐 확장되는 유사성의 영역인 단일 시퀀스 호몰로지 도메인의 공유를 나타낸다.이 도메인은 또한 다른 단백질 패밀리 및 슈퍼 패밀리와 공유되는 더 작은 호몰로지 도메인을 구성할 수 있다.주어진 단백질 염기서열이 여러 슈퍼패밀리에서 발견되는 도메인을 포함할 수 있고, 따라서 복잡한 진화 이력을 나타내지만, 염기서열은 다중 염기서열 정렬 전반에 걸친 유사성의 존재에 기초하여 하나의 동종 동형 수퍼패밀리에만 할당될 것이다.또한 상위 패밀리 선형에는 선형 내부 또는 끝에 정렬되지 않은 영역이 포함될 수 있습니다.반면, 동일한 패밀리의 시퀀스는 선형 전체에서 잘 정렬됩니다.
초이차 구조
구조적인 모티브와 비슷한 의미를 가진 용어3차 구조는 폴리펩타이드 [2]사슬의 2차 구조를 함께 채우거나 접어서 형성되는 3차원 또는 구상 구조이다.

이차 구조

2차 구조 예측아미노산 배열에 대한 지식만을 바탕으로 단백질국소 2차 구조를 예측하는 것을 목표로 하는 생물 정보학 기술이다.단백질의 경우, 예측은 아미노산 배열의 영역을 가능성 있는 알파 나선, 베타 가닥(흔히 "확장된" 형태라고 언급됨) 또는 회전으로 할당하는 것으로 구성된다.예측의 성공 여부는 단백질의 결정 구조에 적용된 DSSP 알고리즘(또는 유사한 SRIDE)의 결과와 비교하여 결정된다.단백질의 [2]통과 나선코일 코일 등 특정 패턴을 검출하기 위해 특수 알고리즘이 개발되었습니다.

단백질에서 2차 구조 예측의 현대 최선의 방법과 순서 맞춤 학습 기계를 사용한 후 80%의 정확도를 손을 내밀[4]이 높은 정확성 주름을 인식할 수 있으며 에어로빅initio 단백질 구조 예측, 구조적 모티브의 구분, 및 세부 얼마나 자주'o'를 개선 이 예언의 특징은 사용할 수 있다고 주장했다fs에쿠스 얼라인먼트LiveBench, EVA 등의 주간 벤치마크에서 현행 단백질 2차 구조 예측 방법의 정확성을 평가합니다.

배경

1960년대와 1970년대 [5][6][7][8][9]초에 도입된 2차 구조 예측의 초기 방법은 가능한 알파 나선 식별에 초점을 맞추고 주로 나선-코일 전이 [10]모델에 기초했다.베타 시트를 포함한 훨씬 더 정확한 예측은 1970년대에 도입되었고 알려진 해결된 구조에서 도출된 확률 매개변수에 기초한 통계 평가에 의존했다.이러한 방법은 단일 시퀀스에 적용되며 일반적으로 최대 60~65%의 정확도를 보이며 [2]종종 베타 시트를 예측하지 못합니다.2차 구조의 진화적 보존은 정렬된 아미노산 열의 순 2차 구조 성향을 계산함으로써 다중 배열 정렬에서 많은 상동적 서열을 동시에 평가함으로써 이용할 수 있다.알려진 단백질 구조와 신경망 서포트 벡터 기계와 같은 최신 기계 학습 방법의 더 큰 데이터베이스와 함께, 이러한 방법[11]구상 단백질에서 전체 정확도의 80%를 달성할 수 있다.정확도의 이론적인 상한은 약 [11]90%이며, 부분적으로는 2차 구조물의 끝 부근의 DSSP 할당의 특이성에 기인한다.이 경우 국소적인 구성은 네이티브 조건 하에서 변화하지만 패킹 제약으로 인해 결정의 단일 구성을 가정해야 할 수 있다.더욱이, 전형적인 2차 구조 예측 방법은 2차 구조 형성에 대한 3차 구조의 영향을 고려하지 않는다. 예를 들어, 단백질의 베타 시트 영역 내에 위치하는 경우 가능성이 높은 나선으로 예측된 염기서열은 여전히 베타 스트랜드 배열을 채택할 수 있다.이웃을 괴롭힙니다.단백질의 기능 또는 환경과 관련된 극적인 구조 변화는 또한 국소적인 2차 구조를 바꿀 수 있다.

역사적 관점

현재까지 20개 이상의 2차 구조 예측 방법이 개발되었다.첫 번째 알고리즘 중 하나는 Chou-Fasman 방법이었는데, 이는 주로 각 이차 [12]구조 유형에서 각 아미노산 출현의 상대적 빈도에서 결정된 확률 매개변수에 의존한다.1970년대 중반에 해결된 구조의 작은 표본에서 결정된 원래의 Chou-Fasman 매개변수는 모수화가 처음 발표된 이후 업데이트되었지만 현대 방법에 비해 결과가 좋지 않다.Chou-Fasman 방법은 2차 [2]구조를 예측하는 데 약 50-60% 정확하다.

다음으로 주목할 만한 프로그램은 GOR 방식이 정보 이론에 기반한 방식이라는 것입니다.그것은 베이지안 [13]추론의 보다 강력한 확률론적 기법을 사용한다.GOR법은 특정 2차 구조를 가진 아미노산의 확률뿐만 아니라 이웃의 기여가 주어진 각 구조를 가정한 아미노산의 조건부 확률도 고려한다(주변 아미노산이 동일한 구조를 가지고 있다고 가정하지 않는다).아미노산 구조 성질은 프롤린글리신과 같은 소수의 아미노산에만 강하기 때문에 Chou와 Fasman보다 더 민감하고 정확합니다.많은 이웃들의 기여가 약하면 전체적으로 강한 효과가 나타날 수 있다.원래 GOR 방법은 대략 65% 정확했으며, 루프 또는 비조직적인 [2]영역으로 자주 잘못 예측된 베타 시트보다 알파 헬리스를 훨씬 성공적으로 예측했다.

또 하나의 큰 진보는 기계 학습 방법을 사용하는 것이었습니다.첫 번째 인공신경망 방법이 사용되었다.훈련 세트로서 그들은 해결된 구조를 사용하여 2차 구조의 특정 배열과 관련된 공통 시퀀스 모티브를 식별한다.이러한 방법은 완전한 베타 [2]시트의 존재에 필요한 확장 배열을 형성하도록 촉진할 수 있는 수소 결합 패턴의 평가를 가능하게 하는 3차원 구조 정보의 부족으로 인해 베타 가닥이 여전히 예측에서 70% 이상 정확하다.PSIPREDJPRED는 단백질 2차 구조 예측을 위한 신경망에 기반한 가장 알려진 프로그램 중 일부입니다.다음으로, 서포트 벡터 기계는 통계 [14][15]방법으로는 식별하기 어려운 턴의 위치를 예측하는 데 특히 유용한 것으로 입증되었다.

기계 학습 기술의 확장은 할당되지 않은 영역의 백본 이면각같은 단백질의 보다 세밀한 국소 특성을 예측하려고 시도한다.[16] 문제에는 [14]SVM과[17] 뉴럴네트워크가 모두 적용되고 있습니다.보다 최근에는 SPINE-X에 의해 실값 비틀림 각도를 정확하게 예측할 수 있으며 [18]ab initio 구조 예측에 성공적으로 사용할 수 있다.

기타 개선 사항

단백질 배열 외에 2차 구조 형성은 다른 요인에 따라 달라지는 것으로 보고되었다.예를 들어 2차 구조 경향은 국소 환경,[19] [20]잔류물의 용매 접근성, 단백질 구조 클래스,[21] 그리고 심지어 단백질이 얻어지는 [22]유기체에 의해서도 좌우된다고 보고되고 있다.이러한 관찰을 바탕으로 단백질 구조 등급,[23] 잔류물 접근 표면적[24][25] 및 연락처 정보[26]추가하여 2차 구조 예측을 개선할 수 있다는 연구 결과가 나왔다.

3차 구조

단백질 구조 예측의 실질적인 역할은 그 [27]어느 때보다 중요하다.인간 게놈 프로젝트와 같은 현대의 대규모 DNA 염기서열 분석 노력에 의해 대량의 단백질 염기서열 데이터가 생산된다.구조 유전체학에서 지역사회 전반의 노력에도 불구하고, 실험적으로 결정된 단백질 구조(일반적으로 시간이 많이 걸리고 상대적으로 비용이 많이 드는 X선 결정학 또는 NMR 분광학)의 출력은 단백질 시퀀스의 출력보다 훨씬 뒤떨어져 있다.

단백질 구조 예측은 여전히 매우 어렵고 해결되지 않은 작업이다.두 가지 주요 문제는 단백질 자유 에너지의 계산과 이 에너지의 전지구적 최소치를 찾는 것입니다.단백질 구조 예측 방법은 천문학적으로 큰 단백질 구조의 공간을 탐색해야 한다.이러한 문제는 "비교적" 또는 호몰로지 모델링 및 접힘 인식 방법에서 부분적으로 우회할 수 있으며, 이 방법에서는 문제의 단백질이 실험적으로 결정된 다른 단백질의 구조에 가까운 구조를 채택한다는 가정에 따라 탐색 공간이 제거된다.한편, de novo 단백질 구조 예측 방법은 이러한 문제를 명시적으로 해결해야 한다.단백질 구조 예측의 진보와 도전은 [28]장에 의해 검토되었다.

모델링 전

로제타와 같은 대부분의 3차 구조 모델링 방법은 단일 단백질 도메인의 3차 구조를 모델링하기 위해 최적화되었다.도메인 해석 또는 도메인 경계 예측이라고 불리는 단계는 일반적으로 단백질을 잠재적인 구조 도메인으로 분할하기 위해 먼저 수행됩니다.나머지 3차 구조 예측과 마찬가지로, 이는 알려진 구조[29] 또는 ab initio에서만 (일반적으로 기계 학습에 의해, 공변화에 [30]의해 보조됨) 비교될 수 있다.개별 도메인의 구조는 도메인 어셈블리라고 불리는 프로세스에서 도킹되어 최종 3차 [31][32]구조를 형성합니다.

Ab initio 단백질 모델링

에너지 기반 및 프래그먼트 기반 방법

ab initio 또는 de novo-단백질 모델링 방법은 "처음부터" 즉, 이전에 해결된 구조 위에 (직접) 있지 않고 물리적 원리에 기초한 3차원 단백질 모델 구축을 추구한다.단백질 접힘을 모방하거나 가능한 솔루션을 검색하기 위해 확률적 방법을 적용하는 많은 절차가 있다(즉, 적합한 에너지 기능의 전역 최적화).이러한 절차는 방대한 계산 자원을 필요로 하는 경향이 있으며, 따라서 작은 단백질에 대해서만 수행되었다.더 큰 단백질의 단백질 구조를 예측하려면 강력한 슈퍼컴퓨터(Blue Gene 또는 MDGRAPE-3 등) 또는 분산 컴퓨팅(Folding@home, Human Proteom Folding Project 및 Rosetta@Home 등)에서 제공되는 것과 같은 더 나은 알고리즘과 더 큰 계산 리소스가 필요합니다.이러한 계산 장벽은 크지만 (예측 또는 실험 방법에 의한) 구조 유전학의 잠재적 이점은 ab initio 구조 예측을 활성 연구 [28]분야로 만든다.

2009년 현재 슈퍼컴퓨터에서 50개의 잔류 단백질을 [33]1밀리초 동안 원자별로 시뮬레이션할 수 있습니다.2012년부터는 새로운 그래픽 카드와 보다 정교한 [34]알고리즘을 갖춘 표준 데스크톱에서도 이와 유사한 안정 상태 샘플링을 수행할 수 있습니다.거친 세분화[35][36]모델링을 사용하면 훨씬 더 큰 시뮬레이션 타임스케일을 달성할 수 있습니다.

3D 접점을 예측하기 위한 진화적 공변화

1990년대에 시퀀싱이 보편화됨에 따라, 몇몇 그룹은 상관 돌연변이를 예측하기 위해 단백질 배열 정렬을 사용하였고, 이러한 공진화된 잔류물이 (NMR과 같은 실험 절차로부터의 거리 제약에 대한 유추를 사용하여) 3차 구조를 예측하는 데 사용될 수 있을 것으로 기대되었다.단일 잔류물 돌연변이가 약간 유해한 경우, 잔류물과 잔류물 상호작용을 복원하기 위해 보상 돌연변이가 발생할 수 있다는 가정이다.이 초기 연구는 단백질 배열에서 상관된 돌연변이를 계산하기 위해 국소적 방법으로 알려진 방법을 사용했지만, 각 잔류물 쌍을 다른 모든 [37][38][39]쌍과 독립적으로 취급함으로써 발생하는 간접적 잘못된 상관관계로 인해 어려움을 겪었다.

2011년, 다른 글로벌 통계 접근방식은 이용 가능한 배열이 충분하다면 예측된 공진화 잔류물이 단백질의 3D 접힘을 예측하기에 충분하다는 것을 입증했다(1,000개 이상의 상동 배열 필요).[40] 방법인 EVfold는 호몰로지 모델링, 스레드화 또는 3D 구조 조각을 사용하지 않으며 수백 개의 잔류물이 있는 단백질에도 표준 PC에서 실행할 수 있습니다.이것과 관련된 접근방식을 사용하여 예측된 접촉의 정확성은 실험적으로 해결되지 않은 막 통과 [44]단백질의 예측을 포함하여 많은 알려진 구조와 접촉 [41][42][43]지도에서 입증되었다.

단백질 비교 모델링

비교 단백질 모델링은 이전에 해결된 구조를 시작점 또는 템플릿으로 사용합니다.이것은 비록 실제 단백질의 수는 방대하지만, 대부분의 단백질이 속한 3차 구조 모티브의 제한된 세트가 있기 때문에 효과적이다.수백만 개의 다른 단백질이 있음에도 불구하고 자연에는 약 2,000개의 뚜렷한 단백질 접힘이 있다고 제안되어 왔다.비교 단백질 모델링은 구조 [45]예측에서 진화적 공변화와 결합할 수 있다.

이러한 방식은, 다음의 2개의 [28]그룹으로 나눌 수도 있습니다.

  • 호몰로지 모델링은 두 의 호몰로지 단백질이 매우 유사한 구조를 공유할 것이라는 합리적인 가정에 기초한다.단백질의 접힘은 아미노산 배열보다 진화적으로 보존되기 때문에 표적과 템플릿의 관계가 배열 배열을 통해 식별될 수 있다면 표적 배열을 매우 먼 관련 템플릿 상에서 합리적인 정확도로 모델링할 수 있다.비교 모델링의 주요 병목 현상은 알려진 양호한 [46]정렬이 주어진 구조 예측의 오류보다는 정렬의 어려움에서 발생한다는 것이 제안되었다.당연하게도, 호몰로지 모델링은 대상과 템플릿이 유사한 시퀀스를 가질 때 가장 정확하다.
  • 단백질 스레딩[47] 해결된 구조의 데이터베이스에 대해 알려지지 않은 구조의 아미노산 배열을 스캔합니다.각 경우에 스코어링 함수는 구조에 대한 시퀀스의 호환성을 평가하기 위해 사용되며, 따라서 가능한 3차원 모델을 산출한다.이 방법은 3차원 구조와 선형 단백질 배열 간의 호환성 분석으로 인해 3D-1D 접힘 인식으로도 알려져 있다.이 방법은 또한 주어진 구조의 호환성을 평가하여 큰 시퀀스 데이터베이스와 함께 역폴딩 검색을 수행하는 방법을 발생시켜 어떤 시퀀스가 주어진 폴딩을 생성할 수 있는지 예측한다.

사이드 체인 구성 모델링

아미노산 측쇄의 정확한 패킹은 단백질 구조 예측에서 별개의 문제를 나타낸다.특히 사이드 체인 지오메트리의 예측 문제에 대처하는 방법에는 데드 엔드 제거와 자기 정합성 평균 필드 방법이 있습니다.낮은 에너지의 사이드 체인 구성은 보통 견고한 폴리펩타이드 백본에서 결정되며 "로타머"로 알려진 일련의 이산 사이드 체인 구성을 사용합니다.이 방법에서는 모형의 전체 에너지를 최소화하는 로타머 집합을 식별하려고 합니다.

이러한 방법들은 단백질의 각 잔기 유형에 대한 바람직한 배열을 모은 로타머 라이브러리를 사용한다.로타머 라이브러리는 구성, 주파수 및 표본 [48]추출에 사용할 수 있는 평균 이면각의 표준 편차에 대한 정보를 포함할 수 있습니다.로타머 라이브러리는 단백질의 알려진 실험 구조에서 구조 생물 정보학 또는 사이드 체인 구성의 다른 통계 분석에서 도출된다. 예를 들어, 교차된 (60°, 180°, -60°) 근처에 있는 사면체 탄소들에 대한 관측된 구성을 클러스터링함으로써 도출된다.가치.

로타머 라이브러리는 백본에 의존하지 않고, 2차 구조에 의존하거나, 백본에 의존할 수 있습니다.백본 독립형 로타머 라이브러리는 백본 배열을 참조하지 않고 특정 유형의 사용 가능한 모든 사이드 체인에서 계산된다([49]예를 들어 1987년 예일 대학의 폰더와 리처즈가 수행한 로타머 라이브러리의 첫 번째 예).2차 구조의존 라이브러리는α {\ ,[50]β {\ -시트 또는 코일 2차 구조에 서로 다른 2면체 각도 및/또는 로타머 주파수를 제공합니다.백본 의존형 로타머 라이브러리는 2차 [51]구조에 관계없이 백본 (\에 의해 정의된 로컬 백본 구성에 따라 구성 및/또는 주파수를 나타냅니다.

대부분의 소프트웨어에 사용되는 이러한 라이브러리의 최신 버전은 확률 또는 빈도의 다차원 분포로 제시되며, 여기서 피크는 목록의 개별 로타머로 간주되는 2면체 각도 구성에 해당합니다.일부 버전은 매우 세심하게 큐레이션된 데이터에 기반하여 구조 [52]검증에 주로 사용되는 반면, 다른 버전은 훨씬 더 큰 데이터 세트에서 상대 주파수를 강조하며 Dunbrack 로타머 [53]라이브러리와 같은 구조 예측에 주로 사용되는 형식입니다.

사이드 체인 패킹 방법은 사이드 체인이 더 촘촘히 패킹된 단백질의 소수성 코어를 분석하는 데 가장 유용합니다. 사이드 체인 패킹 방법은 종종 [54][55]하나의 로타머 구성이 아닌 여러 개의 로타머 구성을 차지하는 표면 잔류물의 느슨한 제약과 높은 유연성을 다루는 데 더 어려움이 있습니다.

4차 구조

단백질의 구조가 알려져 있거나 높은 정확도로 예측할 수 있는 2개 이상의 단백질 복합체의 경우 단백질-단백질 도킹 방법을 사용하여 복합체의 구조를 예측할 수 있다.특정 부위의 돌연변이가 복합체의 친화성에 미치는 영향에 대한 정보는 복잡한 구조를 이해하고 도킹 방법을 안내하는 데 도움이 됩니다.

소프트웨어

단백질 구조 예측을 위한 수많은 소프트웨어 도구가 존재합니다.접근법에는 호몰로지 모델링, 단백질 스레드화, ab initio 방법, 2차 구조 예측 및 막간나선 및 신호 펩타이드 예측이 포함된다.CASP 실험에 기초한 최근 성공한 방법으로는 I-TASSER, HHpred AlphaFold가 있습니다.알파폴드는 현재 최고의 성능을 [56]보이고 있는 것으로 알려졌다.

단백질의 구조를 아는 것은 종종 기능적인 예측도 가능하게 한다.예를 들어 콜라겐을 길게 뻗은 섬유상 체인으로 접어 섬유단백질로 한다.최근에는 단백질 접힘과 단백질 구조를 예측하기 위해 Itasser, AlphaFold와 같은 여러 기술이 개발되었습니다.

알파폴드는 많은 경우 단백질 구조를 거의 실험적인 정확도로 예측할 수 있는 최초의 컴퓨터 접근법이다.알파폴드는 다른 경쟁 방식에 비해 정확한 구조를 예측했다.또한 도메인의 정확성을 갖는 방법 및 매우 긴 단백질에 대한 확장 가능한 방법으로 정확한 측쇄를 생성한다.잔량당 [56]예측이 정확하기 때문에 모형을 자신 있게 사용할 수 있습니다.

주어진 단백질에 대한 모든 중원자의 3D 좌표는 상동체의 아미노산 배열과 배열된 배열을 사용하여 AlphaFold 네트워크에 의해 직접 예측된다.알파폴드 네트워크는 반복 레이어를 통해 입력을 처리하는 트렁크와 명시적인 3D [56]구조를 도입하는 구조 모듈로 구성됩니다.

a, The performance of AlphaFold on the CASP14 dataset (n = 87 protein domains) relative to the top-15 entries (out of 146 entries), group numbers correspond to the numbers assigned to entrants by CASP. Data are median and the 95% confidence interval of the median, estimated from 10,000 bootstrap samples. b, Our prediction of CASP14 target T1049 (PDB 6Y4F, blue) compared with the true (experimental) structure (green). Four residues in the C terminus of the crystal structure are B-factor outliers and are not depicted. c, CASP14 target T1056 (PDB 6YJ1). An example of a well-predicted zinc-binding site (AlphaFold has accurate side chains even though it does not explicitly predict the zinc ion). d, CASP target T1044 (PDB 6VR4)—a 2,180-residue single chain—was predicted with correct domain packing (the prediction was made after CASP using AlphaFold without intervention).



Model architecture. Arrows show the information flow among the various components described in this paper. Array shapes are shown in parentheses with s, number of sequences (Nseq in the main text); r, number of residues (Nres in the main text); c, number of channels.


알파폴드는 단백질 좌표를 직접 출력하기 때문에 단백질 [56]배열 길이에 따라 그래픽 처리장치(GPU) 분 단위에서 GPU 시간 단위로 예측이 이뤄진다.

자동구조예측서버 평가

CASP는 단백질 구조 예측을 위한 기술의 비판적 평가(Critical Assessment of Technologies for Protechnical Structure Prediction)의 약자로 1994년부터 2년마다 실시되고 있는 단백질 구조 예측을 위한 지역사회 차원의 실험이다.CASP는 이용 가능한 인간, 비자동화 방법론(인간 카테고리) 및 단백질 구조 예측용 자동 서버(서버 카테고리, CASP7에서 도입)[57]의 품질을 평가할 기회를 제공합니다.

CAMEO3D Continuous Automated Model EvaluatiOn Server는 새롭게 출시된 단백질 구조에 대한 블라인드 예측을 이용하여 매주 자동화된 단백질 구조 예측 서버를 평가합니다.CAMEO는 그 결과를 홈페이지에 공개합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Iupac-Iub Comm. On Biochem. Nomenclature (1 September 1970). "IUPAC-IUB Commission on Biochemical Nomenclature. Abbreviations and symbols for the description of the conformation of polypeptide chains. Tentative rules (1969)". Biochemistry. 9 (18): 3471–3479. doi:10.1021/bi00820a001. PMID 5509841. S2CID 196933.
  2. ^ a b c d e f g h Mount DM (2004). Bioinformatics: Sequence and Genome Analysis. Vol. 2. Cold Spring Harbor Laboratory Press. ISBN 978-0-87969-712-9.
  3. ^ Huang JY, Brutlag DL (January 2001). "The EMOTIF database". Nucleic Acids Research. 29 (1): 202–4. doi:10.1093/nar/29.1.202. PMC 29837. PMID 11125091.
  4. ^ Pirovano W, Heringa J (2010). "Protein secondary structure prediction". Data Mining Techniques for the Life Sciences. Methods in Molecular Biology. Vol. 609. pp. 327–48. doi:10.1007/978-1-60327-241-4_19. ISBN 978-1-60327-240-7. PMID 20221928.
  5. ^ Guzzo AV (November 1965). "The influence of amino-acid sequence on protein structure". Biophysical Journal. 5 (6): 809–22. Bibcode:1965BpJ.....5..809G. doi:10.1016/S0006-3495(65)86753-4. PMC 1367904. PMID 5884309.
  6. ^ Prothero JW (May 1966). "Correlation between the distribution of amino acids and alpha helices". Biophysical Journal. 6 (3): 367–70. Bibcode:1966BpJ.....6..367P. doi:10.1016/S0006-3495(66)86662-6. PMC 1367951. PMID 5962284.
  7. ^ Schiffer M, Edmundson AB (March 1967). "Use of helical wheels to represent the structures of proteins and to identify segments with helical potential". Biophysical Journal. 7 (2): 121–35. Bibcode:1967BpJ.....7..121S. doi:10.1016/S0006-3495(67)86579-2. PMC 1368002. PMID 6048867.
  8. ^ Kotelchuck D, Scheraga HA (January 1969). "The influence of short-range interactions on protein onformation. II. A model for predicting the alpha-helical regions of proteins". Proceedings of the National Academy of Sciences of the United States of America. 62 (1): 14–21. Bibcode:1969PNAS...62...14K. doi:10.1073/pnas.62.1.14. PMC 285948. PMID 5253650.
  9. ^ Lewis PN, Go N, Go M, Kotelchuck D, Scheraga HA (April 1970). "Helix probability profiles of denatured proteins and their correlation with native structures". Proceedings of the National Academy of Sciences of the United States of America. 65 (4): 810–5. Bibcode:1970PNAS...65..810L. doi:10.1073/pnas.65.4.810. PMC 282987. PMID 5266152.
  10. ^ Froimowitz M, Fasman GD (1974). "Prediction of the secondary structure of proteins using the helix-coil transition theory". Macromolecules. 7 (5): 583–9. Bibcode:1974MaMol...7..583F. doi:10.1021/ma60041a009. PMID 4371089.
  11. ^ a b Dor O, Zhou Y (March 2007). "Achieving 80% ten-fold cross-validated accuracy for secondary structure prediction by large-scale training". Proteins. 66 (4): 838–45. doi:10.1002/prot.21298. PMID 17177203. S2CID 14759081.
  12. ^ Chou PY, Fasman GD (January 1974). "Prediction of protein conformation". Biochemistry. 13 (2): 222–45. doi:10.1021/bi00699a002. PMID 4358940.
  13. ^ Garnier J, Osguthorpe DJ, Robson B (March 1978). "Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins". Journal of Molecular Biology. 120 (1): 97–120. doi:10.1016/0022-2836(78)90297-8. PMID 642007.
  14. ^ a b Pham TH, Satou K, Ho TB (April 2005). "Support vector machines for prediction and analysis of beta and gamma-turns in proteins". Journal of Bioinformatics and Computational Biology. 3 (2): 343–58. doi:10.1142/S0219720005001089. PMID 15852509.
  15. ^ Zhang Q, Yoon S, Welsh WJ (May 2005). "Improved method for predicting beta-turn using support vector machine". Bioinformatics. 21 (10): 2370–4. doi:10.1093/bioinformatics/bti358. PMID 15797917.
  16. ^ Zimmermann O, Hansmann UH (December 2006). "Support vector machines for prediction of dihedral angle regions". Bioinformatics. 22 (24): 3009–15. doi:10.1093/bioinformatics/btl489. PMID 17005536.
  17. ^ Kuang R, Leslie CS, Yang AS (July 2004). "Protein backbone angle prediction with machine learning approaches". Bioinformatics. 20 (10): 1612–21. doi:10.1093/bioinformatics/bth136. PMID 14988121.
  18. ^ Faraggi E, Yang Y, Zhang S, Zhou Y (November 2009). "Predicting continuous local structure and the effect of its substitution for secondary structure in fragment-free protein structure prediction". Structure. 17 (11): 1515–27. doi:10.1016/j.str.2009.09.006. PMC 2778607. PMID 19913486.
  19. ^ Zhong L, Johnson WC (May 1992). "Environment affects amino acid preference for secondary structure". Proceedings of the National Academy of Sciences of the United States of America. 89 (10): 4462–5. Bibcode:1992PNAS...89.4462Z. doi:10.1073/pnas.89.10.4462. PMC 49102. PMID 1584778.
  20. ^ Macdonald JR, Johnson WC (June 2001). "Environmental features are important in determining protein secondary structure". Protein Science. 10 (6): 1172–7. doi:10.1110/ps.420101. PMC 2374018. PMID 11369855.
  21. ^ Costantini S, Colonna G, Facchiano AM (April 2006). "Amino acid propensities for secondary structures are influenced by the protein structural class". Biochemical and Biophysical Research Communications. 342 (2): 441–51. doi:10.1016/j.bbrc.2006.01.159. PMID 16487481.
  22. ^ Marashi SA, Behrouzi R, Pezeshk H (January 2007). "Adaptation of proteins to different environments: a comparison of proteome structural properties in Bacillus subtilis and Escherichia coli". Journal of Theoretical Biology. 244 (1): 127–32. Bibcode:2007JThBi.244..127M. doi:10.1016/j.jtbi.2006.07.021. PMID 16945389.
  23. ^ Costantini S, Colonna G, Facchiano AM (October 2007). "PreSSAPro: a software for the prediction of secondary structure by amino acid properties". Computational Biology and Chemistry. 31 (5–6): 389–92. doi:10.1016/j.compbiolchem.2007.08.010. PMID 17888742.
  24. ^ Momen-Roknabadi A, Sadeghi M, Pezeshk H, Marashi SA (August 2008). "Impact of residue accessible surface area on the prediction of protein secondary structures". BMC Bioinformatics. 9: 357. doi:10.1186/1471-2105-9-357. PMC 2553345. PMID 18759992.
  25. ^ Adamczak R, Porollo A, Meller J (May 2005). "Combining prediction of secondary structure and solvent accessibility in proteins". Proteins. 59 (3): 467–75. doi:10.1002/prot.20441. PMID 15768403. S2CID 13267624.
  26. ^ Lakizadeh A, Marashi SA (2009). "Addition of contact number information can improve protein secondary structure prediction by neural networks" (PDF). Excli J. 8: 66–73.
  27. ^ Dorn, Márcio; e Silva, Mariel Barbachan; Buriol, Luciana S.; Lamb, Luis C. (2014-12-01). "Three-dimensional protein structure prediction: Methods and computational strategies". Computational Biology and Chemistry. 53: 251–276. doi:10.1016/j.compbiolchem.2014.10.001. ISSN 1476-9271. PMID 25462334.
  28. ^ a b c Zhang Y (June 2008). "Progress and challenges in protein structure prediction". Current Opinion in Structural Biology. 18 (3): 342–8. doi:10.1016/j.sbi.2008.02.004. PMC 2680823. PMID 18436442.
  29. ^ Ovchinnikov S, Kim DE, Wang RY, Liu Y, DiMaio F, Baker D (September 2016). "Improved de novo structure prediction in CASP11 by incorporating coevolution information into Rosetta". Proteins. 84 Suppl 1: 67–75. doi:10.1002/prot.24974. PMC 5490371. PMID 26677056.
  30. ^ Hong SH, Joo K, Lee J (November 2018). "ConDo: Protein domain boundary prediction using coevolutionary information". Bioinformatics. 35 (14): 2411–2417. doi:10.1093/bioinformatics/bty973. PMID 30500873.
  31. ^ Wollacott AM, Zanghellini A, Murphy P, Baker D (February 2007). "Prediction of structures of multidomain proteins from structures of the individual domains". Protein Science. 16 (2): 165–75. doi:10.1110/ps.062270707. PMC 2203296. PMID 17189483.
  32. ^ Xu D, Jaroszewski L, Li Z, Godzik A (July 2015). "AIDA: ab initio domain assembly for automated multi-domain protein structure prediction and domain-domain interaction prediction". Bioinformatics. 31 (13): 2098–105. doi:10.1093/bioinformatics/btv092. PMC 4481839. PMID 25701568.
  33. ^ Shaw DE, Dror RO, Salmon JK, Grossman JP, Mackenzie KM, Bank JA, Young C, Deneroff MM, Batson B, Bowers KJ, Chow E (2009). Millisecond-scale molecular dynamics simulations on Anton. Proceedings of the Conference on High Performance Computing Networking, Storage and Analysis - SC '09. p. 1. doi:10.1145/1654059.1654126. ISBN 9781605587448.
  34. ^ Pierce LC, Salomon-Ferrer R, de Oliveira CA, McCammon JA, Walker RC (September 2012). "Routine Access to Millisecond Time Scale Events with Accelerated Molecular Dynamics". Journal of Chemical Theory and Computation. 8 (9): 2997–3002. doi:10.1021/ct300284c. PMC 3438784. PMID 22984356.
  35. ^ Kmiecik S, Gront D, Kolinski M, Wieteska L, Dawid AE, Kolinski A (July 2016). "Coarse-Grained Protein Models and Their Applications". Chemical Reviews. 116 (14): 7898–936. doi:10.1021/acs.chemrev.6b00163. PMID 27333362.
  36. ^ Cheung NJ, Yu W (November 2018). "De novo protein structure prediction using ultra-fast molecular dynamics simulation". PLOS ONE. 13 (11): e0205819. Bibcode:2018PLoSO..1305819C. doi:10.1371/journal.pone.0205819. PMC 6245515. PMID 30458007.
  37. ^ Göbel U, Sander C, Schneider R, Valencia A (April 1994). "Correlated mutations and residue contacts in proteins". Proteins. 18 (4): 309–17. doi:10.1002/prot.340180402. PMID 8208723. S2CID 14978727.
  38. ^ Taylor WR, Hatrick K (March 1994). "Compensating changes in protein multiple sequence alignments". Protein Engineering. 7 (3): 341–8. doi:10.1093/protein/7.3.341. PMID 8177883.
  39. ^ Neher E (January 1994). "How frequent are correlated changes in families of protein sequences?". Proceedings of the National Academy of Sciences of the United States of America. 91 (1): 98–102. Bibcode:1994PNAS...91...98N. doi:10.1073/pnas.91.1.98. PMC 42893. PMID 8278414.
  40. ^ Marks DS, Colwell LJ, Sheridan R, Hopf TA, Pagnani A, Zecchina R, Sander C (2011). "Protein 3D structure computed from evolutionary sequence variation". PLOS ONE. 6 (12): e28766. Bibcode:2011PLoSO...628766M. doi:10.1371/journal.pone.0028766. PMC 3233603. PMID 22163331.
  41. ^ Burger L, van Nimwegen E (January 2010). "Disentangling direct from indirect co-evolution of residues in protein alignments". PLOS Computational Biology. 6 (1): e1000633. Bibcode:2010PLSCB...6E0633B. doi:10.1371/journal.pcbi.1000633. PMC 2793430. PMID 20052271.
  42. ^ Morcos F, Pagnani A, Lunt B, Bertolino A, Marks DS, Sander C, Zecchina R, Onuchic JN, Hwa T, Weigt M (December 2011). "Direct-coupling analysis of residue coevolution captures native contacts across many protein families". Proceedings of the National Academy of Sciences of the United States of America. 108 (49): E1293-301. arXiv:1110.5223. Bibcode:2011PNAS..108E1293M. doi:10.1073/pnas.1111471108. PMC 3241805. PMID 22106262.
  43. ^ Nugent T, Jones DT (June 2012). "Accurate de novo structure prediction of large transmembrane protein domains using fragment-assembly and correlated mutation analysis". Proceedings of the National Academy of Sciences of the United States of America. 109 (24): E1540-7. Bibcode:2012PNAS..109E1540N. doi:10.1073/pnas.1120036109. PMC 3386101. PMID 22645369.
  44. ^ Hopf TA, Colwell LJ, Sheridan R, Rost B, Sander C, Marks DS (June 2012). "Three-dimensional structures of membrane proteins from genomic sequencing". Cell. 149 (7): 1607–21. doi:10.1016/j.cell.2012.04.012. PMC 3641781. PMID 22579045.
  45. ^ Jin, Shikai; Chen, Mingchen; Chen, Xun; Bueno, Carlos; Lu, Wei; Schafer, Nicholas P.; Lin, Xingcheng; Onuchic, José N.; Wolynes, Peter G. (9 June 2020). "Protein Structure Prediction in CASP13 Using AWSEM-Suite". Journal of Chemical Theory and Computation. 16 (6): 3977–3988. doi:10.1021/acs.jctc.0c00188. PMID 32396727. S2CID 218618842.
  46. ^ Zhang Y, Skolnick J (January 2005). "The protein structure prediction problem could be solved using the current PDB library". Proceedings of the National Academy of Sciences of the United States of America. 102 (4): 1029–34. Bibcode:2005PNAS..102.1029Z. doi:10.1073/pnas.0407152101. PMC 545829. PMID 15653774.
  47. ^ Bowie JU, Lüthy R, Eisenberg D (July 1991). "A method to identify protein sequences that fold into a known three-dimensional structure". Science. 253 (5016): 164–70. Bibcode:1991Sci...253..164B. doi:10.1126/science.1853201. PMID 1853201.
  48. ^ Dunbrack RL (August 2002). "Rotamer libraries in the 21st century". Current Opinion in Structural Biology. 12 (4): 431–40. doi:10.1016/S0959-440X(02)00344-5. PMID 12163064.
  49. ^ Ponder JW, Richards FM (February 1987). "Tertiary templates for proteins. Use of packing criteria in the enumeration of allowed sequences for different structural classes". Journal of Molecular Biology. 193 (4): 775–91. doi:10.1016/0022-2836(87)90358-5. PMID 2441069.
  50. ^ Lovell SC, Word JM, Richardson JS, Richardson DC (August 2000). "The penultimate rotamer library". Proteins. 40 (3): 389–408. doi:10.1002/1097-0134(20000815)40:3<389::AID-PROT50>3.0.CO;2-2. PMID 10861930. S2CID 3055173.
  51. ^ Shapovalov MV, Dunbrack RL (June 2011). "A smoothed backbone-dependent rotamer library for proteins derived from adaptive kernel density estimates and regressions". Structure. 19 (6): 844–58. doi:10.1016/j.str.2011.03.019. PMC 3118414. PMID 21645855.
  52. ^ Chen VB, Arendall WB, Headd JJ, Keedy DA, Immormino RM, Kapral GJ, Murray LW, Richardson JS, Richardson DC (January 2010). "MolProbity: all-atom structure validation for macromolecular crystallography". Acta Crystallographica. Section D, Biological Crystallography. 66 (Pt 1): 12–21. doi:10.1107/S0907444909042073. PMC 2803126. PMID 20057044.
  53. ^ Bower MJ, Cohen FE, Dunbrack RL (April 1997). "Prediction of protein side-chain rotamers from a backbone-dependent rotamer library: a new homology modeling tool". Journal of Molecular Biology. 267 (5): 1268–82. doi:10.1006/jmbi.1997.0926. PMID 9150411.
  54. ^ Voigt CA, Gordon DB, Mayo SL (June 2000). "Trading accuracy for speed: A quantitative comparison of search algorithms in protein sequence design". Journal of Molecular Biology. 299 (3): 789–803. CiteSeerX 10.1.1.138.2023. doi:10.1006/jmbi.2000.3758. PMID 10835284.
  55. ^ Krivov GG, Shapovalov MV, Dunbrack RL (December 2009). "Improved prediction of protein side-chain conformations with SCWRL4". Proteins. 77 (4): 778–95. doi:10.1002/prot.22488. PMC 2885146. PMID 19603484.
  56. ^ a b c d Jumper, John; Evans, Richard; Pritzel, Alexander; Green, Tim; Figurnov, Michael; Ronneberger, Olaf; Tunyasuvunakool, Kathryn; Bates, Russ; Žídek, Augustin; Potapenko, Anna; Bridgland, Alex (August 2021). "Highly accurate protein structure prediction with AlphaFold". Nature. 596 (7873): 583–589. Bibcode:2021Natur.596..583J. doi:10.1038/s41586-021-03819-2. ISSN 1476-4687. PMC 8371605. PMID 34265844.
  57. ^ Battey JN, Kopp J, Bordoli L, Read RJ, Clarke ND, Schwede T (2007). "Automated server predictions in CASP7". Proteins. 69 Suppl 8 (Suppl 8): 68–82. doi:10.1002/prot.21761. PMID 17894354. S2CID 29879391.

추가 정보

외부 링크