Probalign은 분할 함수 후방 [1]확률을 사용하여 최대 예상 정확도 정렬을 계산하는 시퀀스 정렬 도구입니다.염기쌍 확률은 볼츠만 분포와 유사한 추정치를 사용하여 추정됩니다.파티션 함수는 동적 프로그래밍 방식을 사용하여 계산됩니다.
알고리즘.
다음은 기본 쌍 [2]확률을 결정하기 위해 probalign에 의해 사용되는 알고리즘에 대해 설명합니다.
얼라인먼트 점수
두 시퀀스의 정렬에 점수를 매기려면 다음 두 가지가 필요합니다.
- 유사도 ( x,y ) { (, y )
( a,,, ) ( PAM 、 BLOSUM ) - 아핀갭 패널티: () + k { g)=\ k
정렬 a의 S)(\))는
다음과 같이 정의됩니다.
정렬 a의 볼츠만 가중 점수는 다음과 같습니다.
서 T T는
스케일링 팩터입니다.
볼츠만 분포를 가정한 정렬 확률은 다음과 같습니다.
서 Z Z는
파티션 함수, 즉 모든 정렬의 볼츠만 무게의 합입니다.
동적 프로그래밍
는
0 , i {1}, 0 1, j{
의 파티션 함수를 .다음의 3가지 경우를 생각할 수 있습니다.
- i , M: {\Z_ 일치로
끝나는 두 프리픽스의 모든 정렬 파티션 함수. - 삽입
( -, j
로 끝나는 두 프리픽스의 모든 정렬 파티션 함수. - , D: \로
끝나는2개의 프리픽스(xi,
의 모든 정렬 파티션 함수.
으로 Z i , + i + i, D + Z i I { Z_}=Z_}+j}^{i,j}^{i}^{i,j}^{i,j}^{{i,j}^{i}^}^{i}가 있습니다.
초기화
매트릭스는 다음과 같이 초기화됩니다.




재귀
두 x
x및 y(\ y의
정렬에 대한 파티션 함수는 Z (\
에 의해 지정되며, 이 함수는 재귀적으로 계산할 수 있습니다.


- 유추

기준 쌍 확률
마지막으로 displaystyle })와
(x\displaystyle 위치가
베이스 쌍을 형성할 확률은 다음과 같습니다.
are the respective values for the recalculated
with inversed base pair strings.
「 」를 참조해 주세요.
레퍼런스
외부 링크