프로발린

Probalign

Probalign은 분할 함수 후방 [1]확률을 사용하여 최대 예상 정확도 정렬을 계산하는 시퀀스 정렬 도구입니다.염기쌍 확률은 볼츠만 분포와 유사한 추정치를 사용하여 추정됩니다.파티션 함수는 동적 프로그래밍 방식을 사용하여 계산됩니다.

알고리즘.

다음은 기본 쌍 [2]확률을 결정하기 위해 probalign에 의해 사용되는 알고리즘에 대해 설명합니다.

얼라인먼트 점수

두 시퀀스의 정렬에 점수를 매기려면 다음 두 가지가 필요합니다.

  • 유사도 ( x,y ) { (, y ) a,,, ) ( PAM 、 BLOSUM
  • 아핀갭 패널티: () + k { g)=\ k

정렬 a의 S)(\))는 다음과 같이 정의됩니다.

정렬 a의 볼츠만 가중 점수는 다음과 같습니다.

서 T T 스케일링 팩터입니다.

볼츠만 분포를 가정한 정렬 확률은 다음과 같습니다.

서 Z Z 파티션 함수, 즉 모든 정렬의 볼츠만 무게의 합입니다.

동적 프로그래밍

0 , i {1}, 0 1, j{의 파티션 함수를 .다음의 3가지 경우를 생각할 수 있습니다.

  1. i , M: {\Z_ 일치로 끝나는 두 프리픽스의 모든 정렬 파티션 함수.
  2. 삽입( -, j 로 끝나는 두 프리픽스의 모든 정렬 파티션 함수.
  3. , D: \ 끝나는2개의 프리픽스(xi, 의 모든 정렬 파티션 함수.

으로 Z i , + i + i, D + Z i I { Z_}=Z_}+j}^{i,j}^{i}^{i,j}^{i,j}^{{i,j}^{i}^}^{i}가 있습니다.

초기화

매트릭스는 다음과 같이 초기화됩니다.

재귀

x x및 y(\ y 정렬에 대한 파티션 함수는 Z (\에 의해 지정되며, 이 함수는 재귀적으로 계산할 수 있습니다.

  • 유추

기준 쌍 확률

마지막으로 displaystyle })와 (x\displaystyle 위치가 베이스 쌍을 형성할 확률은 다음과 같습니다.

are the respective values for the recalculated with inversed base pair strings.

「 」를 참조해 주세요.

레퍼런스

  1. ^ U. Roshan과 D. R. Livesay, Probalign: 분할 함수 사후 확률을 이용한 다중 배열 정렬, 생물정보학, 22(22):2715-21, 2006(PDF)
  2. ^ 프라이부르크 대학의 '생물정보학II' 강의

외부 링크