CS-BLAST

CS-BLAST
CS-BLAST
개발자앵거뮤얼러 C, 비거트 A 및 소딩 J
안정된 릴리스
2.2.3 / 2013년 12월 7일 (2013년 12월 7일)
프리뷰 릴리즈
1.1 / 2009년 4월 14일, 13년 전(2009-04-14)
저장소
기입처C++
이용가능기간:영어
유형바이오 인포매틱스 툴
면허증.GNU GPL v3
웹 사이트http://wwwuser.gwdg.de/~compbiol/data/csblast/csblast/http/, https://github.com/soedinglab/csblast

CS-BLAST([2][3]Context-Specific BLAST)는 BLAST(Basic Local Alignment Search Tool)[4] 확장하는 단백질 시퀀스를 컨텍스트 고유의 돌연변이 확률을 사용하여 검색하는 도구입니다.보다 구체적으로 CS-BLAST는 쿼리 시퀀스의 짧은 창에서 각 쿼리 시퀀스의 컨텍스트별 아미노산 유사성을 도출한다[4].사용 CS-BLAST과 속도의 폭풍이 몰아친 후보에 비해 손실 PSI-BLAST[5](Position-Specific Iterated 폭풍이 몰아친)의 대체 가능성 그리고 쿼리의와 섞여를 돌연변이 프로필을 계산합니다. CSI-BLAST(Context-Specific Iterated 폭풍이 몰아친)은 적합 아날로그입니다, 없이 정렬 품질을 획기적으로 개선하고 감수성 두배로 증가합니다.profile [2]를 클릭합니다.CSI-BLAST(Context-Specific Iterated BLAST)는 PSI-BLAST(Position-Specific Iterated BLAST)의 컨텍스트 고유의 아날로그입니다.두 프로그램 모두 웹 서버로 사용할 수 있으며 무료로 다운로드할 수 있습니다.

배경

호몰로지는 공통의 조상으로부터 파생된 생물학적 구조나 배열 사이의 관계이다.상동단백질(공통의 조상을 가진 단백질)은 배열 유사성으로부터 추론된다.동질 관계를 추론하려면 정렬된 쌍의 점수에서 간격에 대한 벌점을 뺀 값을 계산하는 것이 포함됩니다.정렬된 단백질 쌍은 두 개 또는 그 이상의 단백질 사이의 관계를 나타내는 유사성 영역을 식별한다.상동 관계를 가지려면 정렬된 아미노산 또는 뉴클레오티드의 모든 쌍에 대한 점수 합계가 충분히 높아야 한다[2].표준 시퀀스 비교 방법은 이를 달성하기 위해 대체 행렬을 사용한다[4].아미노산 또는 뉴클레오티드 간의 유사성은 이러한 치환 매트릭스에서 정량화된다. a a b b 치환 점수 S는 다음과 같이 쓸 수 있다.

서 P { P aa})가 bb}[2)로 변이할 확률을 나타낸다.배열 배열의 큰 집합에서 배열된 쌍의 b)와 아미노산 수를 세면, b {displaystyle { P 을 도출할 수 있습니다.

단백질 배열은 안정적인 구조를 유지할 필요가 있기 때문에, 잔류물의 치환 확률은 주로 그것이 발견되는 구조적 맥락에 의해 결정된다.그 결과, 치환 행렬은 구조 컨텍스트에 대해 훈련된다.콘텍스트 정보는 상태간의 전이 확률로 부호화되기 때문에, 대응하는 상태에 대해 가중치를 부여한 치환 행렬로부터의 돌연변이 확률을 혼합하는 것으로, 표준 치환 행렬에 비해 개선된 얼라인먼트 품질을 얻을 수 있다.CS-BLAST는 이 개념을 더욱 개선합니다.그림에서는 정렬 매트릭스를 사용한 시퀀스 투 시퀀스 및 프로파일 투 시퀀스 동등성을 보여 줍니다.질의 프로파일은 막대 높이가 해당 아미노산 확률에 비례하는 인공 돌연변이의 결과이다[4].

(그림은 여기에 표시해야 합니다.) "시퀀스 검색/정렬 알고리즘은 유사성 점수(파란색에서 빨간색으로 구분)의 합계를 최대화하는 경로를 찾습니다.치환행렬 스코어는 치환행렬 의사카운트 스킴에 의한 인위적인 돌연변이를 부가함으로써 쿼리 시퀀스로부터 시퀀스 프로파일(컬러 히스토그램)이 생성되면 프로파일 스코어와 동등하다.히스토그램 막대 높이는 프로필 열의 아미노산 비율을 나타냅니다." [4].

성능

CS-BLAST는 시퀀스 식별의 전체 범위, 특히 일반 BLAST 및 PSI-BLAST에 비해 정렬 품질이 크게 향상됩니다.PSI-BLAST(Position-Specific Iterated BLAST)는 일반 BLAST와 같은 반복 속도로 실행되지만 여전히 바이오인 약한 시퀀스 유사성을 검출할 수 있습니다.논리적으로 관련이 있다[3].정렬 품질은 정렬 감도 및 정렬 정밀도를 기반으로 합니다[4].

얼라인먼트

정렬 민감도는 가능한 정렬 가능한 총 쌍의 수와 잔차 쌍의 예측 정렬을 올바르게 비교하여 측정합니다.이는 (쌍이 올바르게 정렬됨)/(쌍이 구조적으로 정렬됨) 분수로 계산됩니다.

정렬 정밀도는 정렬된 잔류물 쌍의 정확성에 의해 측정됩니다.이는 (쌍이 올바르게 정렬됨)/(쌍이 정렬됨) 분수로 계산됩니다.

검색 퍼포먼스

그래프는 호몰로지 검출 평가에 사용되는 벤치마크 비게르트와 쇠딩이다.벤치마크에서는 같은 슈퍼 패밀리의 참 긍정과 다른 폴드의 쌍에 대한 거짓 긍정으로 CS-BLAST를 BLAST와 비교한다[4]. (그래프는 여기서 참조할 필요가 있다.)

다른 그래프에서는 PSI-BLAST 및 CSI-BLAST의 참 포지티브(이전 그래프와 다른 스케일)와 거짓 포지티브를 검출하여 1~5회 반복하여 비교하고 있습니다[4]. (다른 그래프는 여기에 표시해야 합니다.)

CS-BLAST는 시퀀스 비교 시 감도 및 얼라인먼트 품질을 향상시킵니다.CS-BLAST를 사용한 시퀀스 검색은 BLAST[4]보다 2배 이상 민감합니다.속도 저하 없이 보다 높은 품질의 정렬을 생성하고 신뢰할 수 있는 E-값을 생성합니다.CS-BLAST는 20%의 누적 오류율로 139% 더 많은 상동 단백질을 검출한다[2].오류율이 10%일 때, 138% 더 많은 호몰로그가 검출되고 오류율이 1%인 가장 쉬운 경우에서도 CS-BLAST는 여전히 BLAST [2]보다 96% 더 효과적이었다.또한 CS-BLAST는 PSI-BLAST를 5회 반복하는 것보다 민감합니다. 비교에서 약 15% 더 많은 호몰로그가 검출되었습니다 [4].

방법

CS-BLAST 방법은 각 잔기를 중심으로 하는 13개의 잔기 창에 대해 배열 컨텍스트 특이 아미노산 간의 유사성을 도출한다.CS-BLAST는 컨텍스트 고유의 돌연변이를 사용하여 쿼리 시퀀스의 시퀀스프로파일을 생성하여 프로파일 투 시퀀스 검색 방식을 시작합니다.

CS-BLAST는 우선 각 위치의 예상되는 돌연변이 확률을 예측합니다.특정 잔류물에 대해서는 영상과 같이 총 10개의 주변 잔류물의 시퀀스 윈도우가 선택된다.그런 다음, 비게르트와 쇠딩은 시퀀스 창을 수천 개의 컨텍스트 프로파일을 가진 라이브러리와 비교했다.라이브러리는 대표적인 시퀀스 프로파일 창 집합을 클러스터링하여 생성됩니다.돌연변이 확률의 실제 예측은 가장 유사한 컨텍스트 프로파일의 중심 열의 가중 혼합에 의해 달성된다[4].이것에 의해, 호몰로지가 아니고, 갭 되어 있지 않은 짧은 프로파일이 정렬됩니다.따라서 일치하는 프로파일에 가중치가 높아져 [4]를 검출하기 쉬워집니다.배열 프로파일은 상동 배열의 다중 배열을 나타내며, 관련된 배열의 각 위치에서 발생할 가능성이 있는 아미노산을 기술한다.이 방법으로는 치환 행렬이 필요하지 않습니다.또, 콘텍스트 정보가 콘텍스트프로파일내에 부호화되어 있기 때문에, 이행 확률이 불필요합니다.이것에 의해, 연산이 심플해지기 때문에, 4차원이 아닌 직선적으로 런타임의 스케일링이 가능하게 됩니다.

문맥 특이 돌연변이 확률, 즉 주어진 문맥에서 특정 아미노산을 관찰할 확률은 가장 유사한 문맥 프로파일의 중앙 열에 있는 아미노산의 가중 혼합에 의해 계산된다.이미지는 특정 위치에서 특정 잔류물에 대한 예상 돌연변이 확률의 계산을 보여줍니다.이미지에서 볼 수 있듯이 콘텍스트프로파일 라이브러리는 모두 쿼리 시퀀스에 대한 콘텍스트 고유의 시퀀스 프로파일과의 유사성에 기초하여 기여합니다[4].

모델

아미노산의 국소 배열 컨텍스트만 사용하여 치환 확률을 예측하면 표준 치환 매트릭스보다 더 많은 상동성 단백질을 검출하면서도 쿼리 단백질의 구조를 알 필요가 없다는 이점을 얻을 수 있습니다 [4].대체 확률을 예측하기 위한 비게르트와 쇠딩의 접근방식은 생성 모델에 기초했다.Angermüler와 협력하여 예측 정확도를 향상시키는 차별적인 기계 학습 방법을 개발하였다[2].

생성 모델

관측 x {\ x 목표 y {\ y 주어진 경우 생성 모델은 P y) { P 및 P y){ P(y)} 확률을 정의합니다.관측되지 않은 목표 변수를 하기 위해 y \ y Bayes의 P ( ) ( ( ) ( )[ \ P( x) \ { ( xy ) ( y

사용됩니다.생성 모델은 이름에서 알 수 있듯이 새로운 데이터포인트 ) () ( y ) ( y ) \ P (, y )P ( x , y ) = P ( x y ) ( ) =P ( x , y ) ( ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,n , n ) n t ( n , y \ left ( { \ { ( _ { , yn } } { ( _ , _ { n } } } }

차별적 모델

판별 모형은 로지스틱 회귀 최대 엔트로피 분류기입니다.차별적 모델에서는 쿼리 시퀀스가 주어진 상황별 대체 확률을 예측하는 것이 목표입니다.치환 확률을 모델링하기 위한 차별적 P( cl){ P c_ 여기서 l}}은 K K 컨텍스트 상태에 한다.콘텍스트 상태는 방출 무게(k (, 바이어스 무게( ( \ _ 및 콘텍스트 무게( ( ( j,a) \ _ {( ) [ 2 ]에 의해 특징지어집니다.콘텍스트 상태에서의 배출 확률은 1 {\} {{20: P ( ) ( x ( k ) x ( )、 \ P ( a k ) = \ ( a ) { exp ( a ) } { displaystyp ( a } { displaystyleft } { exp } { exp } { exp ( a} { exp ) {

서 P k { P k 방출 확률이며 컨텍스트 상태입니다.차별적 접근법에서는 k(\ k 대한 확률은 컨텍스트 계정 프로파일의 아핀 함수의 지수에 의해 직접 모델링됩니다.서 C( j,a ) \ j , ) is cons ization the profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile of of of of of of profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile profile of profile profile profile profile of of of of of of profile profile profile of of of of of of of of of of of profile profile profile Z l) { Z )는 확률을 1로 정규화합니다.이 방정식은 첫 번째 합계가 j -d \ j = - d 、 2번째 합계가 \ a ~ 20 \ ) : ( Z ( Cl) p ( ( + P C__{\sum \ \sum \sum )(right

생성 모델과 마찬가지로 유사성에 의해 가중된 각 컨텍스트 상태의 방출 확률을 혼합하여 목표 분포를 구한다.

CS-BLAST 사용

인터랙티브 웹 사이트 및 서비스의 MPI 바이오 인포매틱스 툴킷. CS-BLAST 및 PSI-BLAST를 포함한 다양한 도구를 사용하여 누구나 포괄적이고 협업적인 단백질 분석을 수행할 수 있습니다[ 1 ].이 도구를 사용하면 단백질을 입력하고 분석을 사용자 정의할 수 있는 옵션을 선택할 수 있습니다.또한 출력을 다른 도구에도 전송할 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Angermüller, C.; Biegert, A.; Söding, J. (Dec 2012). "Discriminative modelling of context-specific amino acid substitution probabilities". Bioinformatics. 28 (24): 3240–7. doi:10.1093/bioinformatics/bts622. PMID 23080114.
  2. ^ Biegert, A.; Söding, J. (Mar 2009). "Sequence context-specific profiles for homology searching" (PDF). Proc Natl Acad Sci U S A. 106 (10): 3770–5. Bibcode:2009PNAS..106.3770B. doi:10.1073/pnas.0810767106. PMC 2645910. PMID 19234132.
  3. ^ "Better Sequence Searches Of Genes And Proteins Devised". ScienceDaily. Mar 7, 2009. Retrieved 2009-08-14.
  4. ^ Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990). "Basic local alignment search tool". J Mol Biol. 215 (3): 403–410. doi:10.1016/S0022-2836(05)80360-2. PMID 2231712.
  5. ^ Altschul SF; Madden TL; Schäffer AA; Zhang J; Zhang Z; Miller W; Lipman DJ. (1997). "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs". Nucleic Acids Res. 25 (17): 3389–3402. doi:10.1093/nar/25.17.3389. PMC 146917. PMID 9254694.

[1] 알바, 비크람, 남승진, 요하네스 쇠딩, 안드레이 엔.루파스. "고급 단백질 배열 및 구조 분석을 위한 통합 플랫폼으로서의 MPI 바이오 인포매틱스 툴킷"핵산 연구 44.웹 서버 문제 (2016):W410-415.엔씨비 웹 2016년 11월 2일

[2] Angermüler, Christof, Andreas Biegert 및 Johannes Söding.BIOINFORMATICS 28.24(2012): 3240-247.옥스퍼드 저널스웹. 2016년 11월 2일.

[3] Astschul, Stephen F. 등"Gopped BLAST와 PSI-BLAST: 새로운 세대의 단백질 데이터베이스 검색 프로그램"핵산 연구 25.17(1997): 3389-402.옥스퍼드 대학 출판부인쇄

[4] Bigert, A. 및 J. Söding."호몰로지 검색을 위한 시퀀스 컨텍스트별 프로파일"미국 국립과학아카데미 106.10(2009년): 3770-3775.PNAS. Web. 2016년 10월 23일

외부 링크

  • CS-BLAST - 뮌헨 대학(LMU)의 프리 서버
  • CS-BLAST - Tuebingen Max-Planck Institute 무료 서버
  • CS-BLAST 소스 코드