블로섬
BLOSUM생물정보학에서 BLOCKS SUBITY Matrix는 단백질의 시퀀스 정렬에 사용되는 대체 매트릭스다.BLOSUM 행렬은 진화적으로 다른 단백질 배열 사이의 정렬을 점수화하는 데 사용된다.그것들은 지역 맞춤에 기초한다.BLOSUM 매트릭스는 스티븐 헤니코프와 조르자 헤니코프의 논문에서 처음 소개되었다.[1]그들은 (순서 정렬에 공백이 없는) 단백질 계열의 매우 보존된 영역을 블럭스 데이터베이스를 스캔한 다음 아미노산의 상대 빈도와 치환 확률을 카운트했다.그리고 나서, 그들은 20개의 표준 아미노산의 190개의 가능한 대체 쌍 각각에 대한 로그-odds 점수를 계산했다.모든 BLOSUM 매트릭스는 관측된 선형에 기초한다; 그것들은 PAM 매트릭스와 같이 밀접하게 관련된 단백질의 비교로부터 추론되지 않는다.
생물학적 배경
살아있는 유기체의 모든 복제 세포의 유전적 지시사항은 DNA 안에 포함되어 있다.[2]세포의 수명 동안, 이 정보는 세포 메커니즘에 의해 기록되고 복제되어 단백질을 생산하거나 세포 분열 동안 딸 세포에 대한 지침을 제공하며, 이러한 과정 동안 DNA가 변형될 가능성이 존재한다.[2][3]이것은 돌연변이라고 알려져 있다.분자 수준에서, DNA가 복제되기 전에 이러한 변화들 중 대부분(전부는 아니지만)을 수정하는 규제 시스템이 있다.[3][4]
단백질의 기능성은 그 구조에 따라 크게 좌우된다.[5]단백질에서 단일 아미노산을 바꾸는 것은 이 기능을 수행하는 능력을 감소시키거나, 돌연변이가 단백질이 수행하는 기능을 변화시킬 수도 있다.[3]이와 같은 변화는 세포의 중요한 기능에 심각한 영향을 미쳐 잠재적으로 세포와 극단적인 경우 유기체가 죽게 할 수 있다.[6]반대로, 그 변화는 세포가 비록 다르지만 계속 기능하도록 할 수 있고, 돌연변이는 유기체의 자손에게 전달될 수 있다.이러한 변화가 자손에게 유의미한 신체적 불이익을 주지 않는다면, 이 돌연변이가 모집단 내에서 지속될 가능성이 존재한다.기능의 변화가 유리해질 가능성도 존재한다.
유전자 코드에 의해 번역된 20개의 아미노산은 그들의 사이드 체인의 물리적, 화학적 특성에 의해 크게 달라진다.[5]그러나 이러한 아미노산은 유사한 물리화학 특성을 가진 그룹으로 분류할 수 있다.[5]아미노산을 같은 범주의 다른 범주로 대체하는 것은 다른 범주의 아미노산으로 대체하는 것보다 단백질의 구조와 기능에 더 작은 영향을 미칠 가능성이 있다.
시퀀스 정렬은 현대 생물학의 기초적인 연구 방법이다.단백질에 대한 가장 일반적인 염기서열 정렬은 기능을 추론하거나 진화적 관계를 확립하기 위해 서로 다른 염기서열 사이의 유사성을 찾는 것이다.이는 연구자들이 동질학과 보존의 성격을 통해 유전자의 기원과 기능을 더 잘 이해할 수 있도록 돕는다.대체 매트릭스는 서로 다른 단백질 시퀀스의 유사성을 계산하기 위해 알고리즘에 활용되지만, 유사도가 85% 이상인 시퀀스의 요구로 인해 데이호프 PAM 매트릭스의 효용성은 시간이 지남에 따라 감소하였다.이 공백을 메우기 위해 헤니코프와 헤니코프는 BLOSUM(Blocks Submission Matrix) 매트릭스를 도입했고, 이를 통해 관련 단백질 그룹별 쿼리를 이용한 정렬과 검색이 눈에 띄게 개선됐다.[1]
용어.
BLOSUM: 단백질의 시퀀스 정렬에 사용되는 대체 매트릭스인 대체 매트릭스를 차단한다.
채점 지표(통계 대 생물학):시퀀스 정렬을 평가할 때 얼마나 의미 있는 것인지 알고 싶다.여기에는 채점 매트릭스 또는 생물학적으로 의미 있는 아미노산 또는 뉴클레오티드 잔류-페어가 선형에서 발생할 확률을 설명하는 값 표가 필요하다.각 위치에 대한 점수는 단백질 시퀀스의 국소 정렬 블록에서 대체 빈도를 구한다.[7]
여러 개의 BLOSUM 행렬이 숫자로 명명된 서로 다른 정렬 데이터베이스를 사용하여 존재한다.높은 숫자의 BLOSUM 행렬은 밀접하게 관련된 시퀀스를 비교하도록 설계되었고, 낮은 숫자의 행렬은 먼 관련 시퀀스를 비교하도록 설계되었다.예를 들어, 밀접하게 연관된 선형에는 BLOSUM80이 사용되며, 더 멀리 관련된 선형에는 BLOSUM45가 사용된다.행렬은 주어진 백분율보다 더 유사한 모든 시퀀스를 하나의 시퀀스로 병합(클러스터링)한 다음, 해당 시퀀스(모두 주어진 백분율 값보다 더 다른)만을 비교함으로써, 밀접하게 연관된 시퀀스의 기여도를 감소시킴으로써 생성되었다.사용된 백분율은 이름에 추가되었고, 예를 들어 80% 이상 동일한 시퀀스가 군집화된 BLOSUM80을 제공했다.
BLOSUM r: 유사도 r% 미만의 블록에서 작성된 매트릭스 – 예: BLOSUM62는 유사도 62% 미만의 시퀀스를 사용하여 작성된 매트릭스(예: BLOSUM 62% ID의 순서가 군집화됨) – 참고: BLOSUM 62는 단백질 블라스트의 기본 매트릭스. 실험 결과 BLOSUM-62 매트릭스가 대부분의 검출에 가장 적합했다.에크 단백질 [1]유사점
BLOSUM 매트릭스 구축
BLOSUM 행렬은 유사한 아미노산 시퀀스 블록을 데이터로 사용한 다음 데이터에 통계적 방법을 적용하여 유사성 점수를 얻음으로써 얻는다.통계적 방법 단계 :
시퀀스 제거
r% 이상 동일한 시퀀스를 제거하십시오.시퀀스를 제거하는 방법에는 두 가지가 있다.이는 블록에서 시퀀스를 제거하거나 유사한 시퀀스를 찾아 클러스터를 나타낼 수 있는 새로운 시퀀스로 교체하는 방식으로 수행될 수 있다.제거는 지정된 임계값보다 유사한 단백질 시퀀스를 제거하기 위해 수행된다.
빈도 및 확률 계산
단백질 계열의 가장 보존된 영역의 시퀀스 정렬을 저장하는 데이터베이스.이러한 선형은 BLOSUM 행렬을 도출하는 데 사용된다.임계값보다 낮은 ID 백분율을 가진 시퀀스만 사용된다.블록을 사용하여 다중 정렬의 각 열에 있는 아미노산 쌍을 계산한다.
로그 홀수 비율
관측된 데이터에서 각 아미노산 조합의 발생 비율을 쌍의 발생 예상 값에 대해 제공한다.그것은 반올림되어 대체 행렬에 사용된다.
여기서 ( ) 이(가) 관측 가능성이고 ) 이(가) 예상 가능성이다.
BLOSUM 매트릭스
관련성에 대한 오즈는 로그 홀수 비율에서 계산되며, 로그 홀수 비율은 대체 행렬 BLOSUM 행렬을 얻기 위해 반올림된다.
BLOSUM 행렬의 점수
선형에서 생물학적으로 의미 있는 아미노산 또는 뉴클레오티드 잔류-페어의 발생 확률을 설명하는 등 시퀀스 정렬의 중요성을 평가하기 위해 점수 매트릭스 또는 값 표가 필요하다.일반적으로 두 개의 뉴클레오티드 시퀀스를 비교하고 있을 때, 한 위치에서 두 개의 베이스가 동일한지 여부만 점수 매겨지고 있다.모든 경기와 불일치는 각각 동일한 점수(일반적으로 일치의 경우 +1 또는 +5, 불일치의 경우 -1 또는 -4)를 부여한다.[9]그러나 단백질에는 다르다.아미노산의 대체 매트릭스는 더 복잡하고 어떤 아미노산이 다른 아미노산으로 대체되는 주파수에 영향을 미칠 수 있는 모든 것을 암묵적으로 고려한다.목표는 두 잔류물이 균질할 확률이 낮을 경우(진화 강하로 올바르게 정렬됨) 두 잔류물을 함께 정렬할 경우 비교적 무거운 벌칙을 제공하는 것이다.아미노산 치환율을 균일성에서 멀어지게 하는 두 가지 주요 힘은 다른 주파수에서 대체되며 다른 주파수보다 기능적으로 용인되는 양을 줄인다는 것이다.따라서, 대체물은 다음에 대해 선택된다.[7]
일반적으로 사용되는 대체 행렬에는 블럭 대체 행렬(BLOSUM)과 포인트 허용 돌연변이 행렬(PAM)이 포함된다.둘 다 많은 동음이의 단백질의 고신뢰 정렬 세트를 취하고 모든 대체물의 빈도를 평가하는 것에 기초하지만, 그것들은 다른 방법을 사용하여 계산된다.[7]
BLOSUM 내의 점수는 두 아미노산이 생물학적 감각으로 나타날 확률과 같은 아미노산이 우연히 나타날 확률의 비율에 대한 로그선을 정렬하여 측정하는 로그오드 점수다.행렬은 행렬을 계산하는 데 사용되는 정렬된 단백질 배열의 최소 백분율 정체성에 기초한다.[12]가능한 모든 신원이나 대체에는 관련 단백질의 정렬에서 관찰된 주파수에 근거한 점수가 할당된다.[13]대체 가능성이 높은 점수는 긍정적인 점수를 주고, 대체 가능성이 낮은 점수는 부정적인 점수를 준다.
BLOSUM 행렬을 계산하려면 다음 방정식을 사용한다.
여기서 는 두 i{\와 j{\ j이(가) 호몰로 순서로 서로 교체될 확률이며, i 와 은 찾기의 배경 확률이다. 및 을(를) 모든 단백질 순서로 배열하십시오.계수 은(는) 스케일링 계수로, 행렬이 쉽게 계산할 수 있는 정수 값을 포함하도록 설정된다.
예 - BLOSUM62
BLOSUM80: 관련 단백질
BLOSUM62: 미드레인지
BLOSUM45: 원거리 관련 단백질
네이처 바이오테크놀로지[14](Nature Biological)의 한 기사는 허니코프와 헤니코프가 기술한 알고리즘에 따르면 수년간 표준으로 사용했던 BLOSUM62가 정확히 정확하지 않다고 밝혔다.[1]놀랍게도 잘못 계산된 BLOSUM62는 검색 성능을 향상시킨다.[14]
표에 아미노산이 있는 BLOSUM62 매트릭스는 (a)와 같이 사이드 체인의 화학에 따라 그룹화되었다.매트릭스의 각 값은 62% 수준에서 군집화된 블록스 데이터베이스에서 아미노산 쌍의 발생 빈도를 같은 두 아미노산이 우연히 정렬될 확률로 나누어 계산한다.그런 다음 비율은 로그로 변환되고 PAM에 대해 로그 오즈 점수로 표현된다.BLOSUM 행렬은 보통 반비트 단위로 스케일링된다.점수가 0이면 데이터베이스에서 주어진 두 개의 아미노산이 정렬된 빈도가 우연히 발견된 빈도수가 예상한 대로였음을 나타내며, 양점수는 정렬이 우연보다 더 자주 발견되었음을 나타내며, 음점수는 정렬이 우연한 것보다 덜 발견되었음을 나타낸다.
생물정보학에서 어떤 용도는
연구 응용 프로그램
B형 간염 바이러스 보균자와[15] T세포 에피토프 중 표면 유전자 변이를 예측하고 이해하기 위해 BLOSUM 점수가 사용되었다.[16]
B형 간염 바이러스 보균자 간의 표면 유전자 변형
HBsAg의 DNA 시퀀스는 만성 HBV 캐리어 51명과 신규 진단 환자 129명으로 180명의 환자로부터 얻었으며, GenBank에서 수입한 168명의 HBV 시퀀스로 구축된 컨센서스 시퀀스와 비교했다.문헌 검토와 BLOSUM 점수는 잠재적으로 변화된 항원성을 정의하기 위해 사용되었다.[15]
신뢰할 수 있는 T세포 별자리 예측
희소 인코딩, 블로섬 인코딩, 숨겨진 마르코프 모델에서 파생된 입력의 조합으로 구성된 참신한 입력 표현법이 개발되었다.이 방법은 C형 간염 바이러스의 게놈에 대한 T세포 에피포프를 예측하고, 합리적인 백신 설계 과정을 안내하는 예측 방법의 응용 가능성을 논의한다.[16]
블라스트에 사용
BLOSUM 행렬은 DNA 시퀀스 또는 단백질 시퀀스를 비교하여 정렬의 품질을 판단할 때 채점 매트릭스로도 사용된다.이 형태의 채점 시스템은 블라스트를 포함한 광범위한 정렬 소프트웨어에 의해 활용된다.[17]
PAM과 BLOSUM 비교
BLOSUM 매트릭스 외에도 이전에 개발된 채점 매트릭스를 사용할 수 있다.이것은 PAM으로 알려져 있다.그 둘은 같은 점수 결과를 얻지만 다른 방법론을 사용한다.BLOSUM은 관련 시퀀스를 모티브로 한 돌연변이를 직접 관찰하는 한편 PAM은 밀접하게 연관된 시퀀스를 바탕으로 진화 정보를 추론한다.[1]
PAM과 BLOSUM은 동일한 점수 정보를 표시하는 다른 방법이기 때문에 두 가지 방법을 비교할 수 있지만, 이 점수를 얻는 방법이 매우 다르기 때문에 PAM100은 BLOSUM100과 같지 않다.[18]
| PAM | 블로섬 |
|---|---|
| PAM100 | 블루섬90 |
| PAM120 | 블루섬80 |
| PAM160 | 블로섬62길 |
| PAM200 | 블로섬50 |
| PAM250 | 블로섬45 |
PAM과 BLOSUM의 관계
| PAM | 블로섬 |
|---|---|
| 밀접하게 연관된 시퀀스를 비교하기 위해 낮은 숫자의 PAM 매트릭스를 생성한다. | 밀접하게 연관된 시퀀스를 비교하기 위해 더 높은 숫자의 BLOSUM 행렬이 생성된다. |
| 멀리 관련 단백질을 비교하기 위해 수치가 높은 PAM 매트릭스를 만든다. | 멀리 관련된 단백질을 비교하기 위해 낮은 숫자의 BLOSUM 행렬이 만들어진다. |
PAM과 BLOSUM의 차이점
| PAM | 블로섬 |
|---|---|
| 밀접하게 연관된 단백질의 전지구적 정렬에 기초한다. | 로컬 정렬을 기반으로 함. |
| PAM1은 1% 이하의 차이가 없는 시퀀스의 비교에서 계산된 행렬이지만 99%의 시퀀스 아이덴티티에 해당한다. | BLOSUM 62는 쌍방향 정체성이 62% 이하인 시퀀스 비교를 통해 계산된 행렬이다. |
| 다른 PAM 매트릭스는 PAM1에서 추론된다. | 관찰된 선형에 기초하여, 그것들은 밀접하게 연관된 단백질들의 비교로부터 추론되지 않는다. |
| 행렬 이름 지정 체계에서 숫자가 높을수록 진화 거리가 크다는 것을 의미한다. | 행렬 이름 지정 체계에서 숫자가 클수록 시퀀스 유사성이 높아져 진화 거리가 작아진다.[19] |
소프트웨어 패키지
Blosum 매트릭스를 쉽게 사용할 수 있는 여러 프로그래밍 언어로 된 소프트웨어 패키지가 있다.
Python용 Blosum module이나 Java용 BioJava 라이브러리가 그 예다.
참고 항목
참조
- ^ a b c d e f Henikoff, S.; Henikoff, J.G. (1992). "Amino Acid Substitution Matrices from Protein Blocks". PNAS. 89 (22): 10915–10919. Bibcode:1992PNAS...8910915H. doi:10.1073/pnas.89.22.10915. PMC 50453. PMID 1438297.
- ^ a b Campbell NA; Reece JB; Meyers N; Urry LA; Cain ML; Wasserman SA; Minorsky PV; Jackson RB (2009). "The Molecular Basis of Inheritance". Biology: Australian Version (8th ed.). Pearson Education Australia. pp. 307–325. ISBN 9781442502215.
- ^ a b c Campbell NA; Reece JB; Meyers N; Urry LA; Cain ML; Wasserman SA; Minorsky PV; Jackson RB (2009). "From Gene to Protein". Biology: Australian Version (8th ed.). Pearson Education Australia. pp. 327–350. ISBN 9781442502215.
- ^ Pal JK, Ghaskadbi SS (2009). "DNA Damage, Repair and Recombination". Fundamentals of Molecular Biology (1st ed.). Oxford University Press. pp. 187–203. ISBN 9780195697810.
- ^ a b c Campbell NA; Reece JB; Meyers N; Urry LA; Cain ML; Wasserman SA; Minorsky PV; Jackson RB (2009). "The Structure and Function of Large Biological Molecules". Biology: Australian Version (8th ed.). Pearson Education Australia. pp. 68–89. ISBN 9781442502215.
- ^ Lobo, Ingrid (2008). "Mendelian Ratios and Lethal Genes". Nature. Retrieved 19 October 2013.
- ^ a b c pertsemlidis A.; Fondon JW.3rd (September 2001). "Having a BLAST with bioinformatics (and avoiding BLASTphemy)". Genome Biology. 2 (10): reviews2002.1–2002.10. doi:10.1186/gb-2001-2-10-reviews2002. PMC 138974. PMID 11597340.
- ^ "BLOSSUM MATRICES: Introduction to BIOINFORMATICS" (PDF). UNIVERSITI TEKNOLOGI MALAYSIA. 2009. Retrieved 9 September 2014.[영구적 데드링크]
- ^ Murali Sivaramakrishnan; Ognjen Perisic; Shashi Ranjan. "CS#594 - Group 13 (Tools and softwares)" (PDF). University of Illinois at Chicago - UIC. Retrieved 9 September 2014.
- ^ Margaret O., Dayhoff (1978). "22". Atlas of Protein Sequence and Structure. Vol. 5. Washington DC: National Biomedical Research Foundation. pp. 345–352.
- ^ States DJ.; Gish W.; Altschul SF. (1991). "Improved sensitivity of nucleic acid database searches using application-specific scoring matrices". Methods: A Companion to Methods in Enzymology. 3: 66–70. CiteSeerX 10.1.1.114.8183. doi:10.1016/s1046-2023(05)80165-3. ISSN 1046-2023.
- ^ Albert Y. Zomaya (2006). Handbook of Nature-Inspired And Innovative Computing. New York, NY: Springer. ISBN 978-0-387-40532-2.673페이지
- ^ NIH "점수 시스템"
- ^ a b Mark P Styczynski; Kyle L Jensen; Isidore Rigoutsos; Gregory Stephanopoulos (2008). "BLOSUM62 miscalculations improve search performance". Nat. Biotechnol. 26 (3): 274–275. doi:10.1038/nbt0308-274. PMID 18327232. S2CID 205266180.
- ^ a b Roque-Afonso AM, Ferey MP, Ly TD (2007). "Viral and clinical factors associated with surface gene variants among hepatitis B virus carriers". Antivir Ther. 12 (8): 1255–1263. PMID 18240865.
- ^ a b Nielsen M, Lundegaard C, Worning P, et al. (2003). "Reliable prediction of T‐cell epitopes using neural networks with novel sequence representations" (PDF). Protein Science. 12 (5): 1007–1017. doi:10.1110/ps.0239403. PMC 2323871. PMID 12717023.
- ^ "The Statistics of Sequence Similarity Scores". National Centre for Biotechnology Information. Retrieved 20 October 2013.
- ^ Saud, Omama (2009). "PAM and BLOSUM Substitution Matrices". Birec. Archived from the original on 9 March 2013. Retrieved 20 October 2013.
- ^ "The art of aligning protein sequences Part 1 Matrices". Dai hoc Can Tho - Can Tho University. Archived from the original on 11 September 2014. Retrieved 7 September 2014.
외부 링크
- Sean R. Eddy (2004). "Where did the BLOSUM62 alignment score matrix come from?". Nature Biotechnology. 22 (8): 1035–6. doi:10.1038/nbt0804-1035. PMID 15286655. S2CID 205269887.
- WWW 서버 차단
- NCBI에서 블라스트(BLOAST)를 위한 채점 시스템
- NCBI FTP 서버에 있는 BLOSUM의 데이터 파일.
- Wayback Machine에 2017년 1월 30일 보관된 대화형 BLOSUM 네트워크 시각화