치환행렬
Substitution matrix![]() |
생물정보학 및 진화생물학에서 치환행렬은 뉴클레오티드 배열 또는 단백질 배열의 캐릭터가 진화시간에 걸쳐 다른 캐릭터 상태로 변화하는 빈도를 기술한다.정보는 종종 정렬된 두 개의 특정 특성 상태를 찾는 로그 오즈의 형태로, 가정된 진화적 변화 수 또는 비교된 시퀀스 간의 순서 차이성에 따라 달라진다.그것은 확률행렬의 적용이다.치환 행렬은 보통 아미노산 또는 DNA 배열의 맥락에서 나타나며, 배열된 [1]배열 사이의 유사성 점수를 계산하는 데 사용됩니다.
배경
진화 과정에서 한 세대에서 다음 세대로 생물 단백질의 아미노산 배열은 DNA 돌연변이의 작용을 통해 서서히 변화한다.예를 들어 시퀀스는
에리루루드
수열로 변이될 수 있다
앨리닐
한 걸음으로, 그리고 어쩌면
AQEYQRD
더 긴 진화의 시간에 걸쳐서.각각의 아미노산은 다양한 다른 아미노산으로 변이될 가능성이 다소 있다.예를 들어 아르기닌 등의 친수성 잔기는 류신 등의 소수성 잔기로 변이되는 것보다 글루타민 등의 다른 친수성 잔기로 치환될 가능성이 높다.(여기서 잔류물은 수소 및/또는 수산기를 제거하여 단백질의 고분자 사슬에 삽입된 아미노산을 말한다.)이것은 주로 유사한 코돈을 유사한 아미노산으로 변환하는 유전자 코드의 중복성 때문이다.또한 아미노산을 현저하게 다른 특성을 가진 잔기로 변이시키는 것은 단백질의 접힘 및/또는 활성에 영향을 미칠 수 있다.이러한 유형의 파괴적 치환은 단백질을 [2]기능하지 않게 만들 가능성이 높기 때문에 선택을 정제하는 작용에 의해 집단에서 제거될 가능성이 높다.
만약 우리 앞에 두 개의 아미노산 배열이 있다면, 우리는 그것들이 공통의 조상으로부터 얼마나 유래했는지 혹은 동질적인지에 대해 말할 수 있을 것입니다.만약 우리가 두 개의 시퀀스를 배열 정렬 알고리즘을 사용하여 가상의 조상 시퀀스를 두 개의 현재 시퀀스로 변환하는데 필요한 돌연변이가 진화적으로 타당하도록 정렬할 수 있다면, 우리는 시퀀스의 비교에 높은 점수를 할당하고 싶습니다.
이를 위해 ( (i, j) (i, j) (displaystyle) (i (i, j) (displaystyle (i j) (, j) (i, j (i, j) (i, j) (i) ( i (i, j (i) (i) () (i) (i) (i (i) (i) (i) (i () (i) (i) (i) (이러한 행렬을 구성하는 방법에는 치환 행렬이라고 불리는 여러 가지가 있습니다.가장 일반적으로 사용되는 것은 다음과 같습니다.
아이덴티티 매트릭스
가장 간단한 치환 매트릭스는 각 아미노산이 자신과 최대 유사하지만 다른 어떤 아미노산으로도 변형될 수 없는 매트릭스이다.이 매트릭스는 다음과 같습니다.
이 동일성 매트릭스는 매우 유사한 아미노산 배열의 정렬에 성공하지만, 멀리 관련되는 두 개의 배열의 정렬에는 비참할 것이다.우리는 모든 가능성을 좀 더 엄밀하게 파악해야 한다.이전에 정렬된 시퀀스에 대한 경험적 검사가 가장 잘 작동하는 것으로 나타났습니다.
로그 행렬
변환의 확률을 로그 오드 스코어로 표현합니다.점수 행렬 S는 다음과 같이 정의됩니다.
서 Mi 는 ii가 j({j})로 변환될 확률이고 p j({ })는 아미노산 와 j의 주파수이다.로그의 밑변은 중요하지 않으며, 같은 치환 행렬은 종종 다른 밑변으로 표현된다.
PAM
최초의 아미노산 치환 매트릭스 중 하나인 PAM 매트릭스는 1970년대에 마가렛 데이호프에 의해 개발되었다.이 매트릭스는 밀접하게 관련된 단백질의 차이를 관찰함으로써 계산된다.매우 밀접하게 관련된 상동성체의 사용이 관찰된 돌연변이는 단백질의 일반적인 기능을 유의하게 변화시키지 않을 것으로 예상된다.따라서 관찰된 (점 돌연변이에 의한) 치환은 자연 선택에 의해 받아들여지는 것으로 간주된다.
하나의 PAM 단위는 변경된 아미노산 위치의 1%로 정의된다.PAM1 치환 매트릭스를 작성하기 위해 하나의 PAM 유닛에 대응하는 변환 빈도를 가진 매우 밀접하게 관련된 시퀀스의 그룹을 선택한다.이 시퀀스 그룹으로부터 수집된 돌연변이 데이터에 근거해, 치환 행렬을 도출할 수 있다.이 PAM1 매트릭스는 아미노산의 1%가 변화했을 경우 예상되는 치환율을 추정한다.PAM1 매트릭스는 반복적인 돌연변이가 PAM1 매트릭스와 동일한 패턴을 따르며 동일한 부위에서 여러 치환이 발생할 수 있다고 가정하여 다른 매트릭스를 계산하기 위한 기준으로 사용됩니다.이 논리를 사용하여 Dayhoff는 PAM250만큼 높은 행렬을 도출했습니다.보통 PAM 30과 PAM70이 사용됩니다.
제2행렬을 거듭제곱함으로써 밀접하게 관련된 배열의 행렬로부터 보다 원거리적으로 관련된 배열의 행렬을 계산할 수 있다.예를 들어 2 {{displaystyle }=라고 WIKI1 매트릭스에서 WIKI2 매트릭스를 대략적으로 추정할 수 있습니다.서 W1{ 은 는 WIKI1입니다.PAM250 매트릭스는 이렇게 계산됩니다.
흐릿하다
데이호프의 밀접한 관련 종을 비교하는 방법론은 진화적으로 서로 다른 염기서열을 맞추는 데 그다지 효과가 없는 것으로 밝혀졌다.긴 진화 시간 척도에 따른 시퀀스 변화는 짧은 시간 척도에 걸쳐 발생하는 작은 변화를 복합하여 잘 근사화되지 않는다.BLOSUM(BLOCK SUbstitution Matrix) 시리즈의 행렬에 의해 이 문제가 수정됩니다.Henikoff & Henikoff는 진화적으로 다른 단백질의 다중 정렬을 사용하여 이러한 매트릭스를 구성했다.매트릭스 계산에 사용되는 확률은 여러 단백질 정렬에서 발견되는 보존된 시퀀스의 "블록"을 보고 계산됩니다.이러한 보존된 배열은 관련 단백질 내에서 기능적으로 중요한 것으로 간주되며, 따라서 보존되지 않은 영역보다 치환율이 낮다.치환율에 대한 밀접하게 관련된 시퀀스의 편향을 줄이기 위해 특정 임계값 이상의 시퀀스 식별성을 가진 블록의 세그먼트가 군집화되었고, 그러한 각 클러스터(헤니코프 및 헤니코프)의 가중치를 감소시켰다.BLOSUM62 매트릭스의 경우 이 임계값은 62%로 설정되었습니다.쌍 주파수는 클러스터 간에 계산되었으며, 따라서 쌍은 62% 미만의 세그먼트 사이에서만 계산되었습니다.하나는 밀접하게 관련된 두 개의 시퀀스를 정렬하기 위해 더 높은 번호의 BLOSUM 매트릭스를 사용하고, 더 다양한 시퀀스의 경우 더 낮은 번호를 사용한다.
BLOSUM62 매트릭스는 원거리 시퀀스의 유사성을 매우 잘 검출하는 것으로 나타났습니다.이것은 BLAST와 같은 최신 얼라인먼트 어플리케이션에서 기본적으로 사용되는 매트릭스입니다.
PAM과 BLOSUM의 차이점
- PAM 행렬은 명시적 진화 모델을 기반으로 하는 반면(즉, 대체는 계통 발생 트리의 분기에서 계산된다) BLOSUM 행렬은 암묵적 진화 모델을 기반으로 한다.
- PAM 매트릭스는 전역 정렬에서 관찰된 돌연변이를 기반으로 하며, 보존률이 높은 영역과 가변성이 높은 영역을 모두 포함합니다.BLOSUM 행렬은 간격을 포함할 수 없는 일련의 정렬에서 보존률이 높은 영역에만 기초합니다.
- PAM 매트릭스와 달리 BLOSUM 절차는 모든 돌연변이가 동일하게 카운트되지 않는 시퀀스 그룹을 사용합니다.
- PAM 행렬 명명 체계에서 숫자가 클수록 진화 거리가 커지며, BLOSUM 행렬 명명 체계에서 숫자가 클수록 시퀀스 유사성이 높아지므로 진화 거리가 작아집니다.예: PAM150은 PAM100보다 먼 시퀀스에 사용되며 BLOSUM62는 BLOSUM50보다 가까운 시퀀스에 사용됩니다.
최대우도 행렬
WAG 행렬
2001년 Simon Wheelan과 Nick Goldman에 의해 개발된 WAG(Wheelan And Goldman) 행렬은 최대우도 추정 절차를 사용하여 계산됩니다.최대우도를 사용하면 PAM과 같이 밀접하게 관련된 호몰로그를 비교하는 데 기초하는 행렬보다 체계적인 오류가 발생하기 쉽습니다.대체 점수는 인접 결합을 사용하여 도출된 여러 트리 토폴로지를 고려한 변경 가능성에 따라 계산됩니다.점수는 아미노산 고정 주파수와 유사성 점수에서 스케일링 계수를 포함하는 대체 모델에 해당한다.매트릭스에는 두 가지 버전이 있습니다: 모든 비교 단백질에 걸쳐 동일한 아미노산 고정 주파수를 가정한 WAG 매트릭스와 포함된 각 단백질 [3]패밀리에 대해 다른 주파수를 가진 WAG* 매트릭스입니다.
특수 치환 매트릭스 및 그 확장
2차 구조 상태 및 용매 [5][6][7]접근성 상태의 조합 또는 국소 배열 구조 [8]컨텍스트에 대한 아미노산 [4]치환율을 설명하는 많은 특수 치환 매트릭스가 개발되어 왔다.이러한 상황별 대체 매트릭스는 어느 정도의 속도 비용으로 일반적으로 정렬 품질을 향상시키지만 아직 널리 사용되지 않습니다.최근, 치환 매트릭스가 필요하지 않고 대신 배열 컨텍스트의 라이브러리에 의존하는 배열 특이적 아미노산 유사성이 도출되었다.이 아이디어를 사용하여 유사한 속도(CS-BLAST)에서 BLAST보다 원격 관련 시퀀스에 대해 2배 감도 개선을 달성하기 위해 인기 있는 BLAST 프로그램의 상황별 확장이 입증되었다.
용어.
"전환 매트릭스"는 종종 생물정보학 이외의 분야에서 "치환 매트릭스"와 상호 교환적으로 사용되지만, 전자의 용어는 생물정보학에서 문제가 있다.뉴클레오티드 치환과 관련하여, "전이"는 2-고리 푸린(A → G 및 G → A) 사이에 있거나 1-고리 피리미딘(C → T 및 T → C) 사이에 있는 치환을 나타내기 위해 사용된다.이러한 치환에는 링 수의 변경이 필요하지 않기 때문에 다른 치환보다 빈도가 높아집니다."트랜스버전(Transversion)"은 퓨린을 피리미딘으로 바꾸거나 그 반대로 바꾸는 느린 속도의 치환을 나타내기 위해 사용되는 용어이다(A ↔ C, A ↔ T, G ↔ C, G ↔ T).
「 」를 참조해 주세요.
레퍼런스
- ^ Zvelebil, Marketa J. (2008). Understanding bioinformatics. New York: Garland Science. pp. 117–127, 747. ISBN 978-0-8153-4024-9.
- ^ Xiong, Jin (2006). Essential Bioinformatics. Cambridge: Cambridge University Press. doi:10.1017/cbo9780511806087.004. ISBN 978-0-511-80608-7.
- ^ Whelan, Simon; Goldman, Nick (1 May 2001). "A General Empirical Model of Protein Evolution Derived from Multiple Protein Families Using a Maximum-Likelihood Approach". Molecular Biology and Evolution. 18 (5): 691–699. doi:10.1093/oxfordjournals.molbev.a003851. ISSN 0737-4038. PMID 11319253.
- ^ Müller, T; Rahmann, S; Rehmsmeier, M (2001). "Non-symmetric score matrices and the detection of homologous transmembrane proteins". Bioinformatics. 17 Suppl 1: S182–9. doi:10.1093/bioinformatics/17.suppl_1.s182. PMID 11473008.
- ^ Rice, DW; Eisenberg, D (1997). "A 3D-1D substitution matrix for protein fold recognition that includes predicted secondary structure of the sequence". Journal of Molecular Biology. 267 (4): 1026–38. CiteSeerX 10.1.1.44.1143. doi:10.1006/jmbi.1997.0924. PMID 9135128.
- ^ Gong, Sungsam; Blundell, Tom L. (2008). Levitt, Michael (ed.). "Discarding functional residues from the substitution table improves predictions of active sites within three-dimensional structures". PLOS Computational Biology. 4 (10): e1000179. Bibcode:2008PLSCB...4E0179G. doi:10.1371/journal.pcbi.1000179. PMC 2527532. PMID 18833291.
- ^ Goonesekere, NC; Lee, B (2008). "Context-specific amino acid substitution matrices and their use in the detection of protein homologs". Proteins. 71 (2): 910–9. doi:10.1002/prot.21775. PMID 18004781. S2CID 27443393.
- ^ Huang, YM; Bystroff, C (2006). "Improved pairwise alignments of proteins in the Twilight Zone using local structure predictions". Bioinformatics. 22 (4): 413–22. doi:10.1093/bioinformatics/bti828. PMID 16352653.
추가 정보
- Altschul, SF (1991). "Amino acid substitution matrices from an information theoretic perspective". Journal of Molecular Biology. 219 (3): 555–65. doi:10.1016/0022-2836(91)90193-A. PMC 7130686. PMID 2051488.
- Dayhoff, M. O.; Schwartz, R. M.; Orcutt, B. C. (1978). "A model of evolutionary change in proteins". Atlas of Protein Sequence and Structure. 5 (3): 345–352.
- Eddy, SR (2004). "Where did the BLOSUM62 alignment score matrix come from?". Nature Biotechnology. 22 (8): 1035–6. doi:10.1038/nbt0804-1035. PMID 15286655. S2CID 205269887.
- Henikoff, S; Henikoff, JG (1992). "Amino acid substitution matrices from protein blocks". Proceedings of the National Academy of Sciences of the United States of America. 89 (22): 10915–9. Bibcode:1992PNAS...8910915H. doi:10.1073/pnas.89.22.10915. PMC 50453. PMID 1438297.