This is a good article. Click here for more information.

구조 정렬

Structural alignment
인간과 파리 드로필라 멜라노가스터의 구조 정렬.단백질은 리본으로 표시되며, 인간 단백질은 빨간색으로 표시되고, 파리는 노란색으로 표시된다.PDB 3TRX1XWC에서 생성.

구조 정렬은 형태와 3차원 순응에 기초하여 둘 이상의 폴리머 구조 사이에 동질성을 확립하려고 시도한다.이 과정은 보통 단백질 3차 구조에 적용되지만 큰 RNA 분자에도 사용될 수 있다.최소 두 구조물의 등가 잔류물이 알려진 단순 구조 중첩과는 대조적으로 구조 정렬은 등가 위치에 대한 사전 지식이 필요하지 않다.구조 정렬은 염기서열 유사성이 낮은 단백질을 비교하는 데 귀중한 도구로, 단백질 간의 진화 관계를 표준 염기서열 정렬 기법으로 쉽게 발견할 수 없다.따라서 구조 정렬은 매우 적은 공통 순서를 공유하는 단백질 사이의 진화적 관계를 암시하는 데 사용될 수 있다.그러나 공통의 3차 구조에서 관련 없는 여러 아미노산 시퀀스가 수렴되는 수렴 진화의 교란 효과 가능성 때문에 결과를 공동 진화 조상의 증거로 사용할 때는 주의를 기울여야 한다.

구조 정렬은 두 시퀀스 또는 여러 시퀀스를 비교할 수 있다.이러한 정렬은 모든 쿼리 시퀀스의 3차원 순응에 대한 정보에 의존하기 때문에, 이 방법은 이러한 구조가 알려진 시퀀스에만 사용할 수 있다.이것들은 보통 X선 결정학이나 NMR 분광학에 의해 발견된다.구조 예측 방법에 의해 생성된 구조물에 대해 구조 정렬을 수행할 수 있다.실제로 그러한 예측을 평가하려면 종종 모델의 품질을 평가하기 위해 모델과 실제 알려진 구조 사이의 구조적 정렬이 필요하다.[1]구조 맞춤은 구조 유전체학단백질학 노력의 데이터를 분석하는 데 특히 유용하며, 순서에 기반한 생물정보학 방법에 의해 생성된 맞춤을 평가하기 위한 비교 포인트로 사용할 수 있다.[2][3][4]

구조 정렬의 출력은 원자 좌표 세트의 중첩과 구조물 사이의 최소 루트 평균 제곱 편차(RMSD)이다.두 개의 정렬된 구조물의 RMSD는 서로 다른 구조와의 차이를 나타낸다.정렬할 두 구조물 사이의 도메인의 상대적 방향의 변화는 인위적으로 RMSD를 팽창시킬 수 있기 때문에, 구조 정렬은 하나 이상의 입력 구조물 내에 여러 단백질 도메인의 존재에 의해 복잡해질 수 있다.

구조 정렬에 의해 생성된 데이터

성공적인 구조 정렬에서 생성된 최소 정보는 구조물 간에 동등한 것으로 간주되는 일련의 잔류물이다.이 동등성 집합은 일반적으로 각 입력 구조에 대한 3차원 좌표를 과대포장하는 데 사용된다.(하나의 입력 요소를 참조로 고정할 수 있으므로 그 중첩 좌표는 변경되지 않는다는 점에 유의하십시오.적합된 구조물은 상호 RMSD 값 계산에 사용될 수 있을 뿐만 아니라 전역 거리 시험(GDT,[5] CASP에서 사용되는 측정지표)과 같은 구조 유사성의 다른 보다 정교한 측도에도 사용할 수 있다.구조 정렬은 또한 입력 구조 간에 동일한 시퀀스 ID 또는 잔류물의 백분율을 두 시퀀스가 얼마나 밀접하게 연관되어 있는지를 측정하기 위해 계산할 수 있는 해당 1차원 시퀀스 정렬을 의미한다.

비교 유형

단백질 구조는 공통 단백질 백본에 의해 연결아미노산으로 구성되기 때문에, 단백질 고분자를 구성하는 원자의 가능한 많은 하위 집합을 구조 정렬을 생성하고 그에 상응하는 RMSD 값을 계산하는 데 사용할 수 있다.구조물을 매우 다른 시퀀스로 정렬할 때, 사이드 체인 원자는 정렬된 많은 잔류물들 사이에서 그들의 정체성이 다르기 때문에 일반적으로 고려되지 않는다.이러한 이유로 구조 정렬 방법은 기본적으로 펩타이드 결합에 포함된 백본 원자만 사용하는 것이 일반적이다.단순성과 효율성을 위해 펩타이드 결합은 최소 변이 평면적 순응을 가지기 때문에 알파 탄소 위치만 고려하는 경우가 많다.정렬할 구조가 매우 유사하거나 심지어 동일할 때만 사이드 체인 원자 위치를 정렬하는 것이 의미가 있으며, 이 경우 RMSD는 단백질 백본의 순응뿐만 아니라 사이드 체인의 회전식 상태도 반영한다.소음을 줄이고 양성 일치를 강화하는 다른 비교 기준으로는 이차 구조 배정, 고유 접촉 지도 또는 잔류물 상호작용 패턴, 사이드 체인 패킹 측정, 수소 결합 유지 측정 등이 있다.[6]

구조 중첩

단백질 구조 간에 가능한 가장 기본적인 비교는 입력 구조를 정렬하려는 시도를 하지 않으며, 시퀀스의 잔류물 중 어떤 것이 RMSD 계산에서 고려될 것인지를 결정하기 위한 입력으로서 사전 계산된 정렬을 요구한다.구조 중첩은 일반적으로 동일한 단백질의 다중 적합성(순서가 같기 때문에 정렬이 필요하지 않은 경우)을 비교하고 구조를 알 수 있는 두 개 이상의 시퀀스 사이의 시퀀스 정보만을 사용하여 생성된 선형 품질을 평가하기 위해 사용된다.이 방법은 전통적으로 단순 최소 제곱 피팅 알고리즘을 사용하며, 중첩에 있는 모든 구조물 사이의 제곱 거리 합계를 최소화하여 최적의 회전과 변환을 찾아낸다.[7]최근에는 최대우도법과 베이지안법이 중첩에 대한 추정 회전, 번역, 공분산 행렬의 정확도를 크게 높였다.[8][9]

다차원 회전과 변형된 쿼터니온에 기초한 알고리즘은 미리 정해진 정렬 없이도 단백질 구조 사이의 위상학적 관계를 식별하기 위해 개발되었다.그러한 알고리즘은 4헬릭스 번들과 같은 표준 접힌 부분을 성공적으로 식별했다.[10]SuperPose 방법은 상대적 영역 회전 및 기타 구조적 함정에 대해 수정하기에 충분히 확장 가능하다.[11]

유사성 평가

흔히 구조 중첩을 추구하는 목적은 중첩 그 자체가 아니라, 두 구조물의 유사성에 대한 평가나 원격 정렬에 대한 자신감이다.[1][2][3]최대 구조 중첩과의 미묘하지만 중요한 구분은 선형에서 의미 있는 유사성 점수로의 변환이다.[12][13]대부분의 방법은 중첩의 품질을 나타내는 일종의 "점수"를 출력한다.[5][14][15][12][13]그러나 실제로 원하는 것은 단순히 우연히 관측된 중첩을 보는 추정된 "Z점수"나 추정된 E-값일 만 아니라 추정된 E-값이 실제 E-값과 밀접한 상관관계가 있기를 바라는 것이다.비판적으로, 한 방법의 추정된 E-값이 평균적으로 정확하게 정확하더라도, 추정된 값 생성 과정에 낮은 표준 편차가 없다면, 비교 집합에 대한 질의 단백질의 상대적 유사성의 순위 순서는 "참" 순서와 거의 일치하지 않을 것이다.[12][13]

다른 방법은 서로 다른 품질 보증과 "overlap"의 다른 정의를 사용하기 때문에 서로 다른 수의 잔류물을 중첩시킬 것이다. 어떤 것은 여러 개의 국소 및 글로벌 중첩 기준을 충족하는 잔류물만 포함하고 다른 것들은 더 탐욕스럽고 유연하며 비규칙적이다.더 많은 수의 중첩된 원자는 더 많은 유사성을 의미할 수 있지만, 중첩의 비적합성을 계량화하는 최선의 E-값을 항상 산출하지는 않을 수 있으며, 따라서 특히 원격 호몰로그램에서 유사성을 평가하는데 그렇게 유용하지 않을 수 있다.[1][2][3][4]

알고리즘 복잡성

최적용액

알려진 구조물에 대한 단백질 시퀀스의 최적 "스레딩"과 최적의 다중 시퀀스 정렬의 생산은 NP-완전한 것으로 나타났다.[16][17]그러나 이는 구조 정렬 문제가 NP-완전하다는 것을 의미하지는 않는다.엄밀히 말하면 단백질 구조 정렬 문제에 대한 최적의 해결책은 단백질 구조 예측 실험, GDT_TS[5], MaxSub 등 특정 단백질 구조 유사성 측정에만 알려져 있다.[14]이러한 측정은 사전 정의된 거리 컷오프에 따라 중첩될 수 있는 두 개의 단백질 내 원자의 수를 최대화할 수 있는 알고리즘을 사용하여 엄격하게 최적화할 수 있다.[15]불행히도 최적의 솔루션을 위한 알고리즘은 그 가동 시간이 길이뿐만 아니라 입력 단백질의 본질적인 기하학에도 의존하기 때문에 실용적이지 않다.

근사 용액

주어진 채점 함수에 대한 근사치 매개변수 내에서 "최적" 솔루션 제품군을 생성하는 구조 정렬을 위한 대략적인 다항식 시간 알고리즘이 개발되었다.[15][18]이러한 알고리즘들은 이론적으로 근사적인 단백질 구조 정렬 문제를 "추적 가능"으로 분류하지만, 대규모 단백질 구조 분석에는 여전히 계산적으로 너무 비싸다.그 결과 점수화 함수가 주어진 정렬의 글로벌 솔루션으로 수렴하는 실용 알고리즘은 존재하지 않는다.따라서 대부분의 알고리즘은 휴리스틱하지만, 적어도 채점 함수의 국소 최대화자에 대한 수렴을 보장하고 실용성을 보장하는 알고리즘이 개발되었다.[19]

구조물의 표현

단백질 구조는 어떤 좌표 독립적인 공간에 표시되어야만 비교가 가능하다.이것은 일반적으로 고정 좌표 공간에 상대적인 절대 거리보다는 비교 지표를 포괄하는 시퀀스 대 시퀀스 매트릭스 또는 일련의 매트릭스를 구성함으로써 달성된다.직관적인 표현은 거리 행렬로, 각 구조에서 원자의 일부 부분 집합(알파본 등) 사이의 모든 쌍별 거리를 포함하는 2차원 행렬이다.행렬은 동시에 정렬할 구조물의 수가 증가함에 따라 차원성이 증가한다.단백질을 이차 구조 요소(SSE)나 구조 파편과 같은 거친 미터법으로 감소시키면 노이즈도 폐기되기 때문에 폐기 거리로 인한 정보 손실에도 불구하고 합리적인 선형을 만들 수 있다.[20]계산을 용이하게 하기 위해 표현을 선택하는 것은 효율적인 정렬 메커니즘을 개발하는 데 매우 중요하다.

방법들

구조 정렬 기법은 개별 구조물 또는 구조물 집합을 비교하는 데 사용되었을 뿐만 아니라, 단백질 데이터 뱅크(PDB)에 존재하는 모든 구조물 쌍 사이의 차이를 측정하는 "전체" 비교 데이터베이스의 생산에도 사용되었다.그러한 데이터베이스는 단백질을 접어서 분류하는 데 사용된다.

달리

SSAP로 계산된 원자 대 원자 벡터 그림.이러한 벡터로부터 예를 들어 단백질 1의 (FA)와 단백질 2의 (SI) 사이의 일련의 벡터 차이가 생성될 것이다.두 개의 염기서열은 매트릭스의 두 차원에 표시되어 두 단백질 사이에 차이 매트릭스를 형성한다.동적 프로그래밍은 가능한 모든 차이 행렬에 적용되어 요약 매트릭스를 형성하기 위해 요약 매트릭스를 구성하는 일련의 최적 로컬 정렬 경로를 구성하며, 여기에서 두 번째 동적 프로그래밍이 수행된다.

공통적이고 대중적인 구조 정렬 방법은 DALI, 즉 거리 매트릭스 ALIgnment 방식으로 입력 구조물을 육각형 파편으로 분해하고 연속 파편 사이의 접촉 패턴을 평가하여 거리 행렬을 계산한다.[21]순차적으로 연속되는 잔류물을 포함하는 이차 구조 특성은 매트릭스의 주 대각선에 나타난다. 매트릭스의 다른 대각선은 시퀀스에서 서로 가까이 있지 않은 잔류물 사이의 공간 접촉을 반영한다.이러한 대각선이 주 대각선과 평행할 때, 대각선이 나타내는 형상은 평행하며, 수직일 때는 대각선이 된다.정사각형 행렬의 형상이 주 대각선에 대칭(따라서 중복)되기 때문에 이러한 표현은 기억력이 집약적이다.

두 단백질의 거리 행렬이 거의 동일한 위치에서 동일하거나 유사한 특징을 공유할 때, 그들은 2차 구조 요소를 연결하는 유사한 길이의 루프를 가진 유사한 접힘을 가지고 있다고 말할 수 있다.DALI의 실제 정렬 프로세스는 두 단백질의 거리 행렬이 구축된 후 유사성 검색을 필요로 한다. 이는 일반적으로 크기가 6x6인 일련의 겹치는 하위 행렬을 통해 수행된다.그런 다음 표준 점수 최대화 알고리즘을 통해 서브매트릭스 매치가 최종 정렬로 재조립된다. 즉, DALI의 원래 버전은 몬테카를로 시뮬레이션을 사용하여 해당 원자들 사이의 거리의 함수인 구조적 유사성 점수를 극대화했다.특히 해당 특징 내에서 더 먼 원자는 루프 이동성, 나선형 비틀림 및 기타 사소한 구조적 변동에 의해 유입되는 소음의 영향을 줄이기 위해 기하급수적으로 저중량화된다.[20]DALI는 전체 거리 행렬에 의존하기 때문에, 구조적으로 정렬된 형상이 비교되는 두 시퀀스 내에서 서로 다른 순서로 나타날 가능성을 설명할 수 있다.

DALI 방법은 알려진 모든 단백질 구조가 서로 정렬되어 구조적인 이웃을 결정하고 접히는 FSSP(Framework-Structure alignment of 단백질의 구조-구조적 정렬에 기초한 폴드 분류)라는 데이터베이스를 구축하는데도 사용되었다.DALI를 기반으로 한 검색 가능 데이터베이스와 DaliLite로 알려진 독립형 버전을 기반으로 한 다운로드 가능한 프로그램과 웹 검색이 있다.

결합연장

콤비네이터 확장(CE) 방법은 질의 세트의 각 구조를 일련의 조각으로 분해한 다음 완전한 정렬로 재조립을 시도한다는 점에서 DALI와 유사하다.정렬된 조각 쌍, 또는 AFP라고 불리는 조각들의 일련의 쌍방향 조합은 최종 정렬을 식별하기 위해 최적의 경로가 생성되는 유사성 매트릭스를 정의하는 데 사용된다.지역 유사성에 대한 주어진 기준을 충족하는 AFP만 필요한 검색 공간을 줄이고 그에 따라 효율성을 높이는 수단으로 매트릭스에 포함된다.[22]많은 유사성 지표가 가능하다. CE 방법의 원래 정의는 구조적인 초상과 복원간 거리만 포함했지만 이후 2차 구조, 용매 노출, 수소 결합 패턴, 이차 각도와 같은 국지적 환경 특성을 포함하도록 확장되었다.[22]

정렬 경로는 시퀀스를 통해 선형적으로 진행되며 다음 가능한 고점 AFP 쌍과의 정렬을 확장함으로써 유사성 매트릭스를 통한 최적 경로로 계산된다.정렬을 핵화하는 초기 AFP 쌍은 시퀀스 행렬의 어느 지점에서나 발생할 수 있다.그런 다음 연장은 낮은 간격 크기로 정렬을 제한하는 지정된 거리 기준을 충족하는 다음 AFP로 진행한다.각 AFP의 크기와 최대 갭 크기는 필수 입력 매개 변수지만 보통 각각 8과 30의 경험적으로 결정된 값으로 설정된다.[22]DALI와 SSAP와 마찬가지로, CE는 PDB의 알려진 단백질 구조로부터 웨이백 머신보관된 1998-12-03 전체 접이식 분류 데이터베이스를 구축하는데 사용되어 왔다.

RCSB PDB는 최근 RCSB PDB 단백질 비교 도구의 일부로 CE, 매머드, FATCAT의 업데이트된 버전을 발표했다.단백질 구조에서 원형 순열을 감지할 수 있는 새로운 CE 변형을 제공한다.[23]

매머드

매머드는 거의 모든 다른 방법과는 다른 목적에서 정렬 문제에 접근한다.가장 많은 수의 잔류물을 최대로 겹치는 정렬을 찾으려고 하기보다는 우연히 발생할 가능성이 가장 낮은 구조 정렬의 하위 집합을 추구한다.이를 위해 국소 모티브를 깃발로 정렬하여 어느 잔여물이 보다 엄격한 기준을 동시에 만족하는지 표시한다. 1) 국소 구조 중복 2) 정기적인 이차 구조 3) 3D 감독 4) 동일한 순서를 일차 순서로 표시한다.신뢰도가 높은 성냥개비와 단백질의 크기에 대한 통계를 변환하여 우연한 기회에 결과에 대한 기대값을 계산한다.그것은 통계적으로 신뢰할 수 있는 하위 정렬의 추출을 강조하고 최대 시퀀스 정렬 또는 최대 3D 중첩을 달성하지 못하기 때문에 SCOP와 같은 구조 패밀리에 대한 ab initio 구조 예측에 의해 생성된 구조물을 원격 호몰로그와 일치시키는 데 탁월하다.[2][3]

7개의 연속 잔류물이 겹치는 모든 윈도우에 대해 인접 C-알파 잔류물 사이의 변위 방향 단위 벡터 세트를 계산한다.URMS 점수를 기준으로 모든 지역 모티브를 비교한다.이러한 값은 시드 쌍의 잔여물 정렬을 생성하는 동적 프로그래밍을 위한 쌍 정렬 점수 항목이 된다.두 번째 단계는 수정된 MaxSub 알고리즘을 사용한다. 각 단백질에 상주하는 단일 7쌍은 이들 7개의 C-알파만을 최대 중첩시키기 위해 두 개의 전체 길이 단백질 구조의 방향을 정하는 데 사용된다. 그리고 이 방향에서 3D로 가까운 추가 정렬 쌍을 스캔한다.이 확장된 세트를 겹치게 하기 위해 구조물을 다시 익히고 더 이상의 쌍이 3D로 일치하지 않을 때까지 반복한다.이 프로세스는 시드 정렬의 7개 잔류 창마다 재시작된다.출력은 이러한 초기 씨앗에서 발견된 원자의 최대 수입니다.이 통계량은 단백질의 유사성을 위해 보정된 E-값으로 변환된다.

매머드는 초기 정렬을 다시 반복하거나 고품질 서브셋을 확장하려는 시도를 하지 않는다.따라서 단순히 검색 공간을 다듬기 위한 휴리스틱으로 형성된 것으로 DALI 또는 TM 정렬과 비교할 수 없다.(장거리 강체 원자 정렬에 구애받지 않는 국소 구조-운동 유사성만을 기반으로 한 정렬을 원할 경우 사용할 수 있다.)같은 어조 때문에 DALI, CE, TM-align보다 10배 이상 빠르다.[24]더 철저한 중첩 또는 값비싼 계산을 위해 단지 최상의 E-값 관련 구조를 추출하기 위해 대형 데이터 베이스를 사전 스크린하는 것은 종종 이러한 느린 도구와 함께 사용된다.[25] [26]

특히 ab initio 구조 예측에서 "decoy" 구조 분석에 성공했다.[1][2][3]이 미끼들은 현지 조각 모티브 구조를 수정하고, 3D 3차 구조는 알맹이를 형성하지만 전체 길이 3차 구조는 틀리게 만드는 것으로 악명 높다.이 황혼 원격 호몰로지 체제에서 CASP[1] 단백질 구조 예측 평가에 대한 매머드의 e-값은 SSAP나 DALI보다 인간 랭킹과 유의하게 상관관계가 있는 것으로 나타났다.[12]알려진 구조의 단백질과 부분적으로 겹치는 다중 기준선을 추출하는 매머드의 능력은 적절한 E-값으로 매머드의 속도와 결합되어 PDB 데이터 베이스에 대해 방대한 수의 디코이 모델을 스캔하여 알려진 단백질에 대한 원격 호몰로 가장 가능성이 높은 디코이를 식별할 수 있다.[2]

SSAP

SSAP(Sequential Structure Alignment Program) 방법은 이중 동적 프로그래밍을 사용하여 구조 공간의 원자 대 원자 벡터에 기초한 구조 정렬을 생성한다.구조 정렬에 일반적으로 사용되는 알파 탄소가 아니라 SSAP는 각 잔류물의 회전 미국 상태와 백본을 따라 위치를 고려하는 방법인 글리신을 제외한 모든 잔류물에 대해 베타 탄소의 벡터를 구성한다.SSAP는 먼저 각 잔류물과 각 단백질에 가장 가까운 비연속 이웃 사이의 일련의 복원간 거리 벡터를 구성한다.그런 다음 벡터가 생성된 각 잔류물 쌍에 대해 이웃 간의 벡터 차이를 포함하는 일련의 행렬이 구성된다.각 결과 매트릭스에 적용되는 동적 프로그래밍은 일련의 최적 국부적 정렬을 결정하며, 이 행렬은 전체 구조 정렬을 결정하기 위해 동적 프로그래밍을 다시 적용하는 "요약" 매트릭스로 요약된다.

SSAP는 원래 쌍방향 맞춤만 생성했지만 이후 여러 맞춤으로도 확장되었다.[27]CAT 단백질 구조 분류 데이터베이스 구축에 사용된 CAT(Class, Architecture, Topology, Homology)[28]로 알려진 계층적 접이식 분류 체계를 제작하기 위해 올투올 방식으로 적용되었다.

최근 개발

구조 정렬 방법의 개선은 연구의 능동적인 영역을 구성하며, 더 오래되고 더 널리 분포된 기법보다 장점을 제공한다고 주장되는 새로운 또는 수정된 방법이 제안되는 경우가 많다.최근의 사례인 TM-align은 거리 매트릭스에 가중치를 부여하기 위해 새로운 방법을 사용하며, 여기에 표준 동적 프로그래밍이 적용된다.[29][13]가중치는 동적 프로그래밍의 수렴을 가속화하고 정렬 길이에서 발생하는 효과를 수정하기 위해 제안된다.벤치마킹 연구에서 TM-align은 DALI와 CE에 비해 속도와 정확도가 모두 향상된 것으로 보고되었다.[29]

다른 유망한 구조 정렬 방법은 국부적 구조 정렬 방법이다.이것들은 단백질의 사전 선택된 부분(예: 결합 부위, 사용자 정의 구조 모티브)을 결합 부위 또는 전체 단백질 구조 데이터베이스와 비교한다.[32][33]사용자의 집합성 단백 결합 사이트들 작은 분자는(MultiBind)또는user-provided protein–protein 매장의 집합으로 상호 작용에 의해 정의된 제공하는 수소 결합수 기증자, 수용체, 지방족, 방향제나 hydrophobic 같은 물리 화학적 속성의 일반적인 공간 구성의 확인할 수 있는 MultiBind과 MAPPIS 서버입니다.얼굴(MAPPIS).다른 것들은 사용자가 제출한 다수의 구조 또는 합리적인 시간 내에 단백질 구조의 큰 데이터베이스와 전체 단백질 구조의 비교를 제공한다(ProBiS[35]).전역 정렬 접근방식과 달리, 국소 구조 정렬 접근방식은 결합 현장에 자주 나타나며 리간드 결합에 상당한 관여를 하는 기능 그룹의 국소 보존 패턴을 탐지하는 데 적합하다.[33]예를 들어, 로컬 구조물 정렬 도구인 [36]G-Losa를 글로벌 구조물 정렬 기반 방법인 TM-align과 비교한다.지로사는 단일체인 단백질 표적에서 티엠알라인보다 마약성 리간드의 위치를 더 정확하게 예측하고 있지만, 티엠알린의 전반적인 성공률은 더 좋다.[37]

그러나 알고리즘 개선과 컴퓨터 성능은 구식 접근법에서 순수하게 기술적 결함을 지웠기 때문에, '최적' 구조 정렬에 대한 보편적 기준은 하나도 없다는 것이 분명해졌다.예를 들어, TM-align은 특히 시퀀스 길이의 차이가 큰 단백질 세트 간의 비교를 정량화하는 데 강하지만, 진화와 관련된 단백질의 정렬을 위한 더 나은 측정 기준이 될 수 있는 수소 결합 또는 이차 구조 순서 보존만 간접적으로 포착한다.따라서 최근의 개발은 속도, 점수 정량화, 대안적인 금 표준과의 상관관계, 또는 구조 데이터 또는 초기화 구조 모델의 불완전성 허용과 같은 특정 속성을 최적화하는 데 초점을 맞추고 있다.인기를 얻고 있는 대안적 방법론은 단백질 구조 유사성을 확인하기 위해 다양한 방법의 일치점을 이용하는 것이다.[38]

RNA 구조 정렬

구조 정렬 기법은 특징적인 3차원 구조를 가정하는 1차 생물학적 고분자로서 전통적으로 단백질에만 적용되어 왔다.그러나, 큰 RNA 분자는 또한 특징적인 3차 구조를 형성하는데, 이것은 주로 염기쌍염기쌍 사이에 형성된 수소 결합에 의해 매개된다.기능적으로 유사한 비코딩 RNA 분자는 단백질뿐만 아니라 RNA의 배열보다 구조가 더 강하게 보존되고 [40]RNA의 알파벳이 더 제한적일수록 주어진 어떤 위치에서든 주어진 뉴클레오티드정보 함량이 감소하기 때문에 유전체학 데이터에서 추출하기가 특히 어려울 수 있다.

그러나 RNA 구조에 대한 관심이 높아지고 실험적으로 결정된 3D RNA 구조물의 수의 증가로 인해 최근 RNA 구조 유사성 방법은 거의 개발되지 않았다.그 방법 중 하나는, 예를 들어, SETTER로서[41], 각 RNA 구조를 일반 2차 구조 단위(GSSU)라고 불리는 작은 부분으로 분해한다. GSU는 이후 정렬되고 이러한 부분 맞춤은 최종 RNA 구조 정렬에 통합되어 점수를 매긴다.그 방법은 SETTER 웹서버에 구현되었다.[42]

낮은 시퀀스 아이덴티티를 가진 RNA 시퀀스의 쌍방향 구조 정렬을 위한 최근 방법이 FORDALING 프로그램에서 발표되고 구현되었다.[43]그러나 이 방법은 RNA 입력 시퀀스의 구조를 계산적으로 예측하기 때문에 단백질 구조 정렬 기법과 실제로 유사하지는 않다.단백질 접힘 공정에 대한 계산적 예측이 현재까지 특별히 성공적이지는 않았지만, 가성비가 없는 RNA 구조는 염기쌍과 쌓기를 설명하는 자유 에너지 기반 채점 방법을 사용하여 감각적으로 예측할 수 있는 경우가 많다.[44]

소프트웨어

구조 정렬을 위한 소프트웨어 도구를 선택하는 것은 방법론과 신뢰성이 현저히 다른 이용 가능한 패키지의 다양성 때문에 어려움이 될 수 있다.이 문제에 대한 부분적인 해결책이 에 제시되었고 ProCKSI 웹서버를 통해 공개적으로 접근할 수 있도록 하였다.현재 사용 가능하고 자유롭게 배포된 구조 정렬 소프트웨어의 보다 완전한 목록은 구조 정렬 소프트웨어에서 찾을 수 있다.

일부 구조 정렬 서버 및 소프트웨어 패키지의 속성은 Proteopedia의 Structural Alignment Tools의 예와 함께 요약되고 테스트된다.오르가즘.

참고 항목

참조

  1. ^ a b c d e Kryshtafovych A, Monastyrskyy B, Fidelis K. (2016). "CASP11 statistics and the prediction center evaluation system. \". Proteins. 84: (Suppl 1):15–19. doi:10.1002/prot.25005. PMC 5479680. PMID 26857434.{{cite journal}}: CS1 maint: 작성자 매개변수 사용(링크)
  2. ^ a b c d e f Lars Malmström Michael Riffle, Charlie EM Strauss, Dylan Chivian, Trisha N Davis, Richard Bonneau, David Baker (2007). "Superfamily Assignments for the Yeast Proteome through Integration of Structure Prediction with the Gene Ontology". PLOS Biol. 5 (4): e76corresponding author1, 2. doi:10.1371/journal.pbio.0050076. PMC 1828141. PMID 17373854.{{cite journal}}: CS1 maint: 작성자 매개변수 사용(링크)
  3. ^ a b c d e David E. Kim, Dylan Chivian, and David Baker (2004). "Protein structure prediction and analysis using the Robetta server". Nucleic Acids Research. 32(Web Server issue): W526–W531 (Web Server issue): W526–W531. doi:10.1093/nar/gkh468. PMC 441606. PMID 15215442.{{cite journal}}: CS1 maint: 작성자 매개변수 사용(링크)
  4. ^ a b Zhang Y, Skolnick J (2005). "The protein structure prediction problem could be solved using the current PDB library". Proc Natl Acad Sci USA. 102 (4): 1029–34. doi:10.1073/pnas.0407152101. PMC 545829. PMID 15653774.
  5. ^ a b c Zemla A. (2003). "LGA — A Method for Finding 3-D Similarities in Protein Structures". Nucleic Acids Research. 31 (13): 3370–3374. doi:10.1093/nar/gkg571. PMC 168977. PMID 12824330.
  6. ^ Godzik A (1996). "The structural alignment between two proteins: Is there a unique answer?". Protein Science. 5 (7): 1325–38. doi:10.1002/pro.5560050711. PMC 2143456. PMID 8819165.
  7. ^ Martin ACR (1982). "Rapid Comparison of Protein Structures". Acta Crystallogr A. 38 (6): 871–873. doi:10.1107/S0567739482001806.
  8. ^ Theobald DL, Wuttke DS (2006). "Empirical Bayes hierarchical models for regularizing maximum likelihood estimation in the matrix Gaussian Procrustes problem". Proceedings of the National Academy of Sciences. 103 (49): 18521–18527. doi:10.1073/pnas.0508445103. PMC 1664551. PMID 17130458.
  9. ^ Theobald DL, Wuttke DS (2006). "THESEUS: Maximum likelihood superpositioning and analysis of macromolecular structures". Bioinformatics. 22 (17): 2171–2172. doi:10.1093/bioinformatics/btl332. PMC 2584349. PMID 16777907.
  10. ^ Diederichs K. (1995). "Structural superposition of proteins with unknown alignment and detection of topological similarity using a six-dimensional search algorithm". Proteins. 23 (2): 187–95. doi:10.1002/prot.340230208. PMID 8592700. S2CID 3469775.
  11. ^ Maiti R, Van Domselaar GH, Zhang H, Wishart DS (2004). "SuperPose: a simple server for sophisticated structural superposition". Nucleic Acids Res. 32 (Web Server issue): W590–4. doi:10.1093/nar/gkh477. PMC 441615. PMID 15215457.
  12. ^ a b c d e Ortiz, AR; Strauss CE; Olmea O. (2002). "MAMMOTH (matching molecular models obtained from theory): an automated method for model comparison". Protein Science. 11 (11): 2606–2621. doi:10.1110/ps.0215902. PMC 2373724. PMID 12381844.
  13. ^ a b c d Zhang Y, Skolnick J (2004). "Scoring function for automated assessment of protein structure template quality". Proteins. 57 (4): 702–710. doi:10.1002/prot.20264. PMID 15476259. S2CID 7954787.
  14. ^ a b Siew N, Elofsson A, Rychlewsk L, Fischer D (2000). "MaxSub: an automated measure for the assessment of protein structure prediction quality". Bioinformatics. 16 (9): 776–85. doi:10.1093/bioinformatics/16.9.776. PMID 11108700.
  15. ^ a b c Poleksic A (2009). "Algorithms for optimal protein structure alignment". Bioinformatics. 25 (21): 2751–2756. doi:10.1093/bioinformatics/btp530. PMID 19734152.
  16. ^ Lathrop RH. (1994). "The protein threading problem with sequence amino acid interaction preferences is NP-complete". Protein Eng. 7 (9): 1059–68. CiteSeerX 10.1.1.367.9081. doi:10.1093/protein/7.9.1059. PMID 7831276.
  17. ^ Wang L, Jiang T (1994). "On the complexity of multiple sequence alignment". Journal of Computational Biology. 1 (4): 337–48. CiteSeerX 10.1.1.408.894. doi:10.1089/cmb.1994.1.337. PMID 8790475.
  18. ^ Kolodny R, Linial N (2004). "Approximate protein structural alignment in polynomial time". PNAS. 101 (33): 12201–12206. doi:10.1073/pnas.0404383101. PMC 514457. PMID 15304646.
  19. ^ Martinez L, Andreani, R, Martinez, JM. (2007). "Convergent algorithms for protein structural alignment". BMC Bioinformatics. 8: 306. doi:10.1186/1471-2105-8-306. PMC 1995224. PMID 17714583.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  20. ^ a b DM. (2004)을 장착하십시오.생물정보학: 시퀀스게놈 분석 2차 개정판콜드 스프링 하버 연구소 기자: 콜드 스프링 하버, 뉴욕 ISBN 0879697121
  21. ^ Holm L, Sander C (1996). "Mapping the protein universe". Science. 273 (5275): 595–603. doi:10.1126/science.273.5275.595. PMID 8662544. S2CID 7509134.
  22. ^ a b c Shindyalov, I.N.; Bourne P.E. (1998). "Protein structure alignment by incremental combinatorial extension (CE) of the optimal path". Protein Engineering. 11 (9): 739–747. doi:10.1093/protein/11.9.739. PMID 9796821.
  23. ^ Prlic A, Bliven S, Rose PW, Bluhm WF, Bizon C, Godzik A, Bourne PE (2010). "Pre-calculated protein structure alignments at the RCSB PDB website". Bioinformatics. 26 (23): 2983–2985. doi:10.1093/bioinformatics/btq572. PMC 3003546. PMID 20937596.
  24. ^ Pin-Hao Chi, Bin Pang, Dmitry Korkin, Chi-Ren Shyu (2009). "Efficient SCOP-fold classification and retrieval using index-based protein substructure alignments". Bioinformatics. 25 (19): 2559–2565. doi:10.1093/bioinformatics/btp474. PMID 19667079.{{cite journal}}: CS1 maint: 작성자 매개변수 사용(링크)
  25. ^ Sara Cheek, Yuan Qi, Sri Krishna, Lisa N Kinch, and Nick V Grishin (2004). "SCOPmap: Automated assignment of protein structures to evolutionary superfamilies". BMC Bioinformatics. 5 (197): 197. doi:10.1186/1471-2105-5-197. PMC 544345. PMID 15598351.{{cite journal}}: CS1 maint: 작성자 매개변수 사용(링크)
  26. ^ Kai Wang, Ram Samudrala (2005). "FSSA: a novel method for identifying functional signatures from structural alignments". Bioinformatics. 21 (13): 2969–2977. doi:10.1093/bioinformatics/bti471. PMID 15860561.{{cite journal}}: CS1 maint: 작성자 매개변수 사용(링크)
  27. ^ Taylor WR, Flores TP, Orengo CA (1994). "Multiple protein structure alignment". Protein Sci. 3 (10): 1858–70. doi:10.1002/pro.5560031025. PMC 2142613. PMID 7849601.
  28. ^ Orengo CA, Michie AD, Jones S, Jones DT, Swindells MB, Thornton JM (1997). "CATH: A hierarchical classification of protein domain structures". Structure. 5 (8): 1093–1108. doi:10.1016/S0969-2126(97)00260-8. PMID 9309224.
  29. ^ a b Zhang Y, Skolnick J (2005). "TM-align: A protein structure alignment algorithm based on the TM-score". Nucleic Acids Research. 33 (7): 2302–2309. doi:10.1093/nar/gki524. PMC 1084323. PMID 15849316.
  30. ^ Stefano Angaran; Mary Ellen Bock; Claudio Garutti; Concettina Guerra1 (2009). "MolLoc: a web tool for the local structural alignment of molecular surfaces". Nucleic Acids Research. 37 (Web Server issue): W565–70. doi:10.1093/nar/gkp405. PMC 2703929. PMID 19465382.
  31. ^ Gaëlle Debret; Arnaud Martel; Philippe Cuniasse (2009). "RASMOT-3D PRO: a 3D motif search webserver". Nucleic Acids Research. 37 (Web Server issue): W459–64. doi:10.1093/nar/gkp304. PMC 2703991. PMID 19417073.
  32. ^ a b Alexandra Shulman-Peleg; Maxim Shatsky; Ruth Nussinov; Haim J. Wolfson (2008). "MultiBind and MAPPIS: webservers for multiple alignment of protein 3D-binding sites and their interactions". Nucleic Acids Research. 36 (Web Server issue): W260–4. doi:10.1093/nar/gkn185. PMC 2447750. PMID 18467424.
  33. ^ a b Alexandra Shulman-Peleg; Maxim Shatsky; Ruth Nussinov; Haim J Wolfson (2007). "Spatial chemical conservation of hot spot interactions in protein-protein complexes". BMC Biology. 5 (43): 43. doi:10.1186/1741-7007-5-43. PMC 2231411. PMID 17925020.
  34. ^ Gabriele Ausiello; Pier Federico Gherardini; Paolo Marcatili; Anna Tramontano; Allegra Via; Manuela Helmer-Citterich (2008). "FunClust: a web server for the identification of structural motifs in a set of non-homologous protein structures". BMC Biology. 9: S2. doi:10.1186/1471-2105-9-S2-S2. PMC 2323665. PMID 18387204.
  35. ^ Janez Konc; Dušanka Janežič (2010). "ProBiS algorithm for detection of structurally similar protein binding sites by local structural alignment". Bioinformatics. 26 (9): 1160–1168. doi:10.1093/bioinformatics/btq100. PMC 2859123. PMID 20305268.
  36. ^ Hui Sun Lee; Wonpil Im (2012). "Identification of Ligand Templates using Local Structure Alignment for Structure-Based Drug Design". Journal of Chemical Information and Modeling. 52 (10): 2784–2795. doi:10.1021/ci300178e. PMC 3478504. PMID 22978550.
  37. ^ Hui Sun Lee; Wonpil Im (2013). "Ligand Binding Site Detection by Local Structure Alignment and Its Performance Complementarity". Journal of Chemical Information and Modeling. 53 (9): 2462–2470. doi:10.1021/ci4003602. PMC 3821077. PMID 23957286.
  38. ^ a b Barthel D., Hirst J.D., Blazewicz J., Burke E.K. and Krasnogor N. (2007). "ProCKSI: a decision support system for Protein (Structure) Comparison, Knowledge, Similarity and Information". BMC Bioinformatics. 8: 416. doi:10.1186/1471-2105-8-416. PMC 2222653. PMID 17963510.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  39. ^ Sippl, M.; Wiederstein, M. (2012). "Detection of spatial correlations in protein structures and molecular complexes". Structure. 20 (4): 718–728. doi:10.1016/j.str.2012.01.024. PMC 3320710. PMID 22483118.
  40. ^ Torarinsson E, Sawera M, Havgaard JH, Fredholm M, Gorodkin J (2006). "Thousands of corresponding human and mouse genomic regions unalignable in primary sequence contain common RNA structure". Genome Res. 16 (7): 885–9. doi:10.1101/gr.5226606. PMC 1484455. PMID 16751343.
  41. ^ Hoksza D, Svozil D (2012). "Efficient RNA pairwise structure comparison by SETTER method". Bioinformatics. 28 (14): 1858–1864. doi:10.1093/bioinformatics/bts301. PMID 22611129.
  42. ^ Cech P, Svozil D, Hoksza D (2012). "SETTER: web server for RNA structure comparison". Nucleic Acids Research. 40 (W1): W42–W48. doi:10.1093/nar/gks560. PMC 3394248. PMID 22693209.
  43. ^ Havgaard JH, Lyngso RB, Stormo GD, Gorodkin J (2005). "Pairwise local structural alignment of RNA sequences with sequence similarity less than 40%". Bioinformatics. 21 (9): 1815–24. doi:10.1093/bioinformatics/bti279. PMID 15657094.
  44. ^ Mathews DH, Turner DH (2006). "Prediction of RNA secondary structure by free energy minimization". Curr Opin Struct Biol. 16 (3): 270–8. doi:10.1016/j.sbi.2006.05.010. PMID 16713706.

추가 읽기