프로발린

Probalign은 분할 함수 후방 ^[1]확률을 사용하여 최대 예상 정확도 정렬을 계산하는 시퀀스 정렬 도구입니다.염기쌍 확률은 볼츠만 분포와 유사한 추정치를 사용하여 추정됩니다.파티션 함수는 동적 프로그래밍 방식을 사용하여 계산됩니다.

알고리즘.

다음은 기본 쌍 ^[2]확률을 결정하기 위해 probalign에 의해 사용되는 알고리즘에 대해 설명합니다.

얼라인먼트 점수

두 시퀀스의 정렬에 점수를 매기려면 다음 두 가지가 필요합니다.

유사도 $\sigma (x,y)$ ( x $\sigma (x,y)$ , $\sigma (x,y)$ y ) { $displaystyle \sigma$ ( $x$ , y ) $\sigma (x,y)$ （ a,,, ）（ PAM 、 BLOSUM ）
아핀갭 패널티: $g(k)=\alpha +\beta k$ ( $g(k)=\alpha +\beta k$ ) $=$ + $g(k)=\alpha +\beta k$ k { $displaystyle$ g $(k$ )=\ $alpha +\display$ k $}$

정렬 a의 $S(a)$ S $a$ )(\ $style S(a$ ))는 $S(a)$ 다음과 같이 정의됩니다.

$\displaystyle S(a)=\sum _{x_{i}-y_{j}\in a}\sum (x_{i},y_{j})+{\text{gap cost}}}$

정렬 a의 볼츠만 가중 점수는 다음과 같습니다.

$\displaystyle e^{\frac {S(a)}{T}}=e^{\frac {{x_{i}-y_{j}\in a}\flac (x_{i},y_{j})+{\text {gap cost}}}{T}}=\left(\prod _{x_{i}-y_{i}\in a}e^{\frac(x_{i},y_{j})}{T}}\right)\cdot e^{\frac {gapcost}{T}}}$

$여기$ 서 T $(\displaystyle$ T $)$ 는 $T$ 스케일링 팩터입니다.

볼츠만 분포를 가정한 정렬 확률은 다음과 같습니다.

$Pr[a,y]=param frac {e^{\frac {S(a)}{T}} {Z}$

$Z$ 서 Z $(\displaystyle$ Z $)$ 는 $Z$ 파티션 함수, 즉 모든 정렬의 볼츠만 무게의 합입니다.

동적 프로그래밍

$Z_{i,j}$ $(\$ 는 $Z_{{i,j}}$ $x_{0},x_{1},...,x_{i}$ $x_{0},x_{1},...,x_{i}$ 0 $x_{0},x_{1},...,x_{i}$ $x_{0},x_{1},...,x_{i}$ , $x_{0},x_{1},...,x_{i}$ $x_{0},x_{1},...,x_{i}$ i { $0}, x_{$ 1}, $y_{0},y_{1},...,y_{j}$ 0 $y_{0},y_{1},...,y_{j}$ $y_{0},y_{1},...,y_{j}$ 1, $y_{0},y_{1},...,y_{j}$ $y_{0},y_{1},...,y_{j}$ j $y_{0},y_{1},...,y_{j}$ { $displaystyle y_0, y_{1}, y_j$ 의 파티션 함수를 $Z_{i,j}$ .다음의 3가지 경우를 생각할 수 있습니다.

$Z$ i , $Z_{i,j}^{M}:$ M $Z_{i,j}^{M}:$ : {\ $style$ Z_ ${i,j}^{M:}$ 일치로 $Z_{i,j}^{M}:$ 끝나는 두 프리픽스의 모든 정렬 파티션 함수.
$:$ $I:}$ 삽입 $Z_{i,j}^{I}:$ $(-,y_{j})$ ( - $(-,y_{j})$ , $(-,y_{j})$ j $)\display(-, y_{j$ 로 끝나는 두 프리픽스의 모든 정렬 파티션 함수.
$Z_{i,j}^{D}:$ , $Z_{i,j}^{D}:$ D $Z_{i,j}^{D}:$ : \ $displaystyle Z_{i,j}^{D:}$ $(x_{i},-)$ 로 $Z_{i,j}^{D}:$ 끝나는2개의 프리픽스(xi $(x_{i},-)$ , $(x_{i},-)$ $displaystyle (x_{i}-})$ 의 모든 정렬 파티션 함수.

$Z_{i,j}=Z_{i,j}^{M}+Z_{i,j}^{D}+Z_{i,j}^{I}$ 으로 Z i $Z_{i,j}=Z_{i,j}^{M}+Z_{i,j}^{D}+Z_{i,j}^{I}$ $Z_{i,j}=Z_{i,j}^{M}+Z_{i,j}^{D}+Z_{i,j}^{I}$ $=$ $Z_{i,j}=Z_{i,j}^{M}+Z_{i,j}^{D}+Z_{i,j}^{I}$ , $Z_{i,j}=Z_{i,j}^{M}+Z_{i,j}^{D}+Z_{i,j}^{I}$ + $Z_{i,j}=Z_{i,j}^{M}+Z_{i,j}^{D}+Z_{i,j}^{I}$ i $Z_{i,j}=Z_{i,j}^{M}+Z_{i,j}^{D}+Z_{i,j}^{I}$ $Z_{i,j}=Z_{i,j}^{M}+Z_{i,j}^{D}+Z_{i,j}^{I}$ + $Z_{i,j}=Z_{i,j}^{M}+Z_{i,j}^{D}+Z_{i,j}^{I}$ i, $Z_{i,j}=Z_{i,j}^{M}+Z_{i,j}^{D}+Z_{i,j}^{I}$ D + Z i $Z_{i,j}=Z_{i,j}^{M}+Z_{i,j}^{D}+Z_{i,j}^{I}$ $Z_{i,j}=Z_{i,j}^{M}+Z_{i,j}^{D}+Z_{i,j}^{I}$ I { $style$ Z_ ${i,j$ }= $Z_{i,j}+Z_{i,j}+$ Z_ ${i,j}^{D$ }+ $Z_{i,$ j}^{i,j}^{i}^{i,j}^{i,j}^{{i,j}^{i}^}^{i}가 있습니다. $I}}$

초기화

매트릭스는 다음과 같이 초기화됩니다.

$Z_{0,j}^{M}=Z_{i,0}^{M}=0$
$Z_{0,0}^{M}=1$
$Z_{0,j}^{D}=0$
$Z_{i,0}^{I}=0$

재귀

두 $시퀀스$ x $(\$ $y$ x $)$ 및 y(\ $displaystyle$ y $)$ 의 $y$ 정렬에 대한 파티션 함수는 Z $Z_{|x|,|y|}$ (\ $displaystyle Z_{ x, y$ 에 의해 지정되며, 이 함수는 재귀적으로 계산할 수 있습니다.

$Z_{i,j}^{M}=Z_{i-1,j-1}\cdot e^{\frac(x_{i},y_{j}}}{T}}$
$Z_{i,j}^{D}=Z_{i-1,j}^{D}\cdot e^{\frac {i-1,j}^{M}\cdot e^{\frac {g(1){T}}+Z_{i-1,j}^{{t}^{t}^{displaystyle }I}\cdot e^{\frac {g(1)}{T}$
$($ $I}}$ 유추 $Z_{i,j}^{I}$

기준 쌍 확률

마지막으로 $($ $\$ displaystyle $x_{i$ })와 $x_{i}$ $y_{j}$ (x\displaystyle $y_{j})$ 위치가 $y_{j}$ 베이스 쌍을 형성할 확률은 다음과 같습니다.

$P(x_{i}-y_{j} x,y)=param frac {Z_{i-1,j-1}\cdot e^{\frac(x_{i},y_{j}}}{T}}\cdot Z'_{i',j'}}{Z_{ x , y }}}$

$Z',i',j'$ are the respective values for the recalculated $Z$ with inversed base pair strings.

「」를 참조해 주세요.

레퍼런스

^ U. Roshan과 D. R. Livesay, Probalign: 분할 함수 사후 확률을 이용한 다중 배열 정렬, 생물정보학, 22(22):2715-21, 2006(PDF)
^ 프라이부르크 대학의 '생물정보학II' 강의

외부 링크

웹 서비스 프로그래밍

[1] U. Roshan과 D. R. Livesay, Probalign: 분할 함수 사후 확률을 이용한 다중 배열 정렬, 생물정보학, 22(22):2715-21, 2006(PDF)

[2] 프라이부르크 대학의 '생물정보학II' 강의

[1]

[2]

Search

프로발린

네임스페이스

더

목차

알고리즘.

얼라인먼트 점수

동적 프로그래밍

초기화

재귀

기준 쌍 확률

「」를 참조해 주세요.

레퍼런스

외부 링크

Search

프로발린

알고리즘.

얼라인먼트 점수

동적 프로그래밍

초기화

재귀

기준 쌍 확률

「 」를 참조해 주세요.

레퍼런스

외부 링크

「」를 참조해 주세요.