시퀀스 분석

Sequence analysis

생물정보학에서, 시퀀스 분석은 특징, 기능, 구조 또는 진화를 이해하기 위해 광범위한 분석 방법 중 하나에 DNA, RNA 또는 펩타이드 시퀀스를 부여하는 과정이다. 사용되는 방법론에는 시퀀스 정렬, 생물학적 데이터베이스에 대한 검색 등이 포함된다.[1]

유전자와 단백질 염기서열의 고투과 생성 방법의 개발 이후, 데이터베이스에 새로운 염기서열의 추가 속도는 매우 빠르게 증가했다. 그러한 염기서열의 집합은 그 자체로 유기체의 생물학에 대한 과학자의 이해를 높이는 것은 아니다. 그러나 이러한 새로운 시퀀스를 알려진 기능을 가진 시퀀스와 비교하는 것은 새로운 시퀀스가 오는 유기체의 생물학을 이해하는 핵심 방법이다. 따라서, 시퀀스 분석은 비교된 시퀀스 사이의 유사성에 대한 연구에 의해 유전자와 단백질에 기능을 할당하는 데 사용될 수 있다. 요즘은 순서 비교(시퀀스 정렬)를 제공하고 정렬 제품을 분석하여 그 생물학을 이해하는 도구와 기법이 많다.

분자생물학의 시퀀스 분석은 매우 광범위한 관련 주제를 포함한다.

  1. 유사성을 찾기 위한 시퀀스의 비교, 종종 관련이 있는지 유추한다(동음이의)
  2. 활성 사이트, 변환 수정 사이트, 유전자 구조, 판독 프레임, 인트론엑손 분포 및 규제 요소와 같은 시퀀스의 고유 특성 확인
  3. 유전자 표지를 얻기 위해 점 돌연변이단일 뉴클레오티드 다형성(SNP)과 같은 시퀀스 차이와 변이를 식별한다.
  4. 시퀀스 및 유기체의 진화 및 유전적 다양성 공개
  5. 시퀀스만으로 분자 구조 식별

화학에서 시퀀스 분석은 여러 모노머로 구성된 폴리머의 순서를 결정하는 데 사용되는 기법으로 구성된다(합성 중합체의 시퀀스 분석 참조). 분자생물학과 유전학에서 같은 과정을 단순히 "시퀀싱"이라고 부른다.

마케팅에서 시퀀스 분석은 NPTB 모델(Next Product to Buy)과 같은 분석 고객 관계 관리 애플리케이션에서 자주 사용된다.

사회과학과 특히 사회학에서는 생활 과정과 진로 궤적, 시간 사용, 조직과 국가 발전의 패턴, 대화와 상호작용 구조, 일과 가정의 동시성 문제를 연구하기 위해 시퀀스 방식이 점점 더 많이 사용되고 있다. 연구의 기구는 사회과학의 순서 분석에서 설명된다.

역사

1951년 인슐린 단백질의 첫 번째 염기서열은 프레드 생거에 의해 특징지어졌기 때문에, 생물학자들은 분자의 기능을 이해하기 위해 이 지식을 이용하려고 노력해 왔다.[2][3] 그와 그의 동료들의 발견은 최초의 DNA 기반 게놈의 성공적인 염기서열에 기여했다.[4] 이 연구에서 사용된 방법은 '상어법' 또는 '상어법'으로 불리며 DNA와 같은 긴 가닥 분자의 염기서열화에 획기적인 사건이었다. 이 방법은 결국 인간 게놈 프로젝트에 사용되었다.[5] 마이클 레빗에 따르면, 시퀀스 분석은 1969-1977년 사이에 탄생했다.[6] 1969년, 전달 RNA의 시퀀스 분석은 뉴클레오티드 시퀀스의 상관된 변화로부터 잔여물 상호작용을 추론하기 위해 사용되었고, tRNA 2차 구조의 모델이 되었다.[7] 1970년, 사울 B. 니들맨과 크리스티안 D. 운슈는 두 개의 시퀀스를 정렬하기 위한 첫 번째 컴퓨터 알고리즘을 발표했다.[8] 이 시기에 걸쳐 뉴클레오티드 염기서열 획득의 발전이 크게 향상되어 1977년 최초로 완전한 박테리오파지 게놈을 발간하게 되었다.[9] 로버트 할리와 코넬 대학의 그의 팀은 RNA 분자의 염기서열을 최초로 추출한 것으로 믿어졌다.[10]

시퀀스 정렬

다중 시퀀스 정렬 예제

수백만 개의 단백질뉴클레오티드 염기서열이 알려져 있다. 이러한 시퀀스는 단백질 계열 또는 유전자 계열로 알려진 관련 시퀀스의 많은 그룹으로 나뉜다. 이러한 시퀀스 간의 관계는 대개 이들을 정렬하고 이 정렬에 점수를 할당함으로써 발견된다. 시퀀스 정렬에는 크게 두 가지 유형이 있다. 쌍방향 시퀀스 정렬은 한 번에 두 시퀀스만 비교하고 다중 시퀀스 정렬은 많은 시퀀스를 비교한다. 시퀀스 쌍을 정렬하기 위한 두 가지 중요한 알고리즘은 니들맨-운슈 알고리즘스미스-워터맨 알고리즘이다. 시퀀스 정렬에 널리 사용되는 도구:

쌍방향 시퀀스 정렬에 대한 일반적인 용도는 관심 시퀀스를 취하여 데이터베이스에서 알려진 모든 시퀀스와 비교하여 동질 시퀀스를 식별하는 것이다. 일반적으로 데이터베이스의 일치사항은 가장 밀접하게 관련된 시퀀스를 먼저 보여주고 그 뒤에 유사성이 감소하는 시퀀스를 표시하도록 주문된다. 이러한 일치는 일반적으로 기대값과 같은 통계적 유의성의 척도로 보고된다.

종단비교

1987년 마이클 그리브스코프, 앤드류 맥라클란, 데이비드 아이젠버그 등이 단백질 간의 원거리 유사성을 확인하기 위해 프로필 비교 방법을 도입했다.[11] 단일 시퀀스를 사용하는 대신, 프로파일 방법은 다중 시퀀스 정렬을 사용하여 각 잔여물의 보존 수준에 대한 정보를 포함하는 프로파일을 인코딩한다. 그런 다음 이러한 프로파일은 관련 시퀀스를 찾기 위해 시퀀스 컬렉션을 검색하는 데 사용될 수 있다. 프로파일은 포지션별 점수 매트릭스(PSSM)라고도 한다. 1993년 안데르스 크로와 동료들이 숨겨진 마르코프 모델을 사용하여 프로파일에 대한 확률론적 해석을 도입하였다.[12][13] 이 모델들은 프로파일-HM으로 알려지게 되었다.

최근에는 프로필을 서로 직접 비교할 수 있는 방법이 개발되었다.[when?] 이를 프로파일 비교 방법이라고 한다.[14]

시퀀스 어셈블리

시퀀스 어셈블리는 작은 DNA 조각을 정렬하고 병합하여 DNA 시퀀스를 재구성하는 것을 말한다. 그것은 현대 DNA 염기서열의 필수적인 부분이다. 현재 이용할 수 있는 DNA 염기서열 기술은 긴 염기서열을 판독하는 데 적합하지 않기 때문에 (1) DNA를 잘게 자르는 것, (2) 작은 파편을 읽는 것, (3) 다양한 파편에 관한 정보를 융합하여 원래의 DNA를 재구성하는 것 등에 의해 큰 DNA(게놈 등)의 염기서열화가 이루어지는 경우가 많다.

최근 한 번에 여러 종을 배열하는 것이 주요 연구 목표 중 하나이다. 메타게노믹스는 환경으로부터 직접 얻은 미생물 집단을 연구하는 학문이다. 연구소의 배양된 미생물과는 달리, 야생 샘플은 원래 서식지에서 추출한 수십, 때로는 수천 종류의 미생물을 포함하고 있다.[15] 원래의 게놈을 회복하는 것은 매우 어려운 일임이 증명될 수 있다.

유전자 예측

유전자 예측 또는 유전자 발견은 유전자를 암호화하는 유전체 DNA의 영역을 식별하는 과정을 말한다. 여기에는 RNA 유전자뿐만 아니라 단백질 코딩 유전자도 포함되지만 규제 영역과 같은 다른 기능적 요소의 예측도 포함될 수 있다. 게리는 일단 한 종의 게놈 서열을 정립한 후, 한 종의 게놈을 이해하는 데 있어서 가장 처음이자 가장 중요한 단계 중 하나이다. 일반적으로 박테리아 유전자의 예측은 복잡한 인트론/엑손 패턴을 갖는 진핵종에서 유전자를 예측하는 것보다 훨씬 간단하고 정확하다. 특히 유전자의 수를 알 수 없을 때 긴 염기서열에서 유전자를 식별하는 것은 문제로 남는다. 숨겨진 마르코프 모델은 해결책의 일부가 될 수 있다.[16] 기계학습은 전사 인자의 순서를 예측하는 데 중요한 역할을 했다.[17] 기존의 염기서열 분석은 뉴클레오티드 염기서열 자체의 통계적 매개변수에 초점을 맞춘 것이다(가장 일반적인 프로그램은 표 4.1에 수록되어 있다). 또 다른 방법은 알려진 다른 유전자 서열을 기반으로 동음이의어 서열을 식별하는 것이다(Tools는 표 4.3 참조).[18] 여기에 설명된 두 가지 방법은 시퀀스에 초점을 맞춘다. 그러나, DNA와 단백질과 같은 분자의 형태적 특징도 연구되어, 더 높지는 않더라도, 동등한 수준의, 분자의 행동에 영향을 미치는 것으로 제안되었다.[19]

단백질 구조 예측

대상 단백질 구조(3dsm, 리본으로 표시)는 CASP8 구조 수정 실험에 제출된 예측 모델 354개 중 칼파 등뼈(회색)로 구성된다.

분자의 3D 구조는 자연에서 그들의 기능에 매우 중요하다. 원자 수준에서 큰 분자의 구조 예측은 대체로 난해한 문제이기 때문에, 일부 생물학자들은 1차 순서 수준에서 3D 구조를 예측하는 방법을 소개했다. 여기에는 국부 아미노산 잔류물의 생화학적 또는 통계적 분석과 알려진 3D 구조를 가진 호몰로고(또는 기타 관련 단백질)로부터의 구조적 추론이 포함된다.

구조 예측 문제를 해결하기 위한 다양한 접근법이 많이 있어 왔다. 어떤 방법이 가장 효과적이었는지를 판단하기 위해, CASP(Critical Assessment of Structure Prediction)라고 하는 구조 예측 대회가 설립되었다.[20]

방법론

시퀀스 분석의 공간에 놓여 있는 업무는 종종 해결하기에 비경쟁적이며 상대적으로 복잡한 접근법을 사용해야 한다. 실무에서 사용되는 여러 가지 방법 유형 중에서 가장 인기 있는 것은 다음과 같다.

참고 항목

참조

  1. ^ Durbin, Richard M.; Eddy, Sean R.; Krogh, Anders; Mitchison, Graeme (1998), Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids (1st ed.), Cambridge, New York: Cambridge University Press, doi:10.2277/0521629713, ISBN 0-521-62971-3, OCLC 593254083
  2. ^ Sanger F; Tuppy H (September 1951). "The amino-acid sequence in the phenylalanyl chain of insulin. I. The identification of lower peptides from partial hydrolysates". Biochem. J. 49 (4): 463–81. doi:10.1042/bj0490463. PMC 1197535. PMID 14886310.
  3. ^ SANGER F; TUPPY H (September 1951). "The amino-acid sequence in the phenylalanyl chain of insulin. 2. The investigation of peptides from enzymic hydrolysates". Biochem. J. 49 (4): 481–90. doi:10.1042/bj0490481. PMC 1197536. PMID 14886311.
  4. ^ Sanger, F; Nicklen, S; Coulson, AR (December 1977). "DNA sequencing with chain-terminating inhibitors". Proc Natl Acad Sci U S A. 74 (12): 441–448. Bibcode:1977PNAS...74.5463S. doi:10.1073/pnas.74.12.5463. PMC 431765. PMID 271968.
  5. ^ Sanger, F; Air, GM; Barrell, BG; Brown, NL; Coulson, AR; Fiddes, CA; Hutchison, CA; Slocombe, PM; Smith, M (February 1977). "Nucleotide sequence of bacteriophage phi X174 DNA". Nature. 265 (5596): 687–695. Bibcode:1977Natur.265..687S. doi:10.1038/265687a0. PMID 870828. S2CID 4206886.
  6. ^ Levitt M (May 2001). "The birth of computational structural biology". Nature Structural & Molecular Biology. 8 (5): 392–3. doi:10.1038/87545. PMID 11323711. S2CID 6519868.
  7. ^ Levitt M (November 1969). "Detailed molecular model for transfer ribonucleic acid". Nature. 224 (5221): 759–63. Bibcode:1969Natur.224..759L. doi:10.1038/224759a0. PMID 5361649. S2CID 983981.
  8. ^ Needleman SB; Wunsch CD (March 1970). "A general method applicable to the search for similarities in the amino acid sequence of two proteins". J. Mol. Biol. 48 (3): 443–53. doi:10.1016/0022-2836(70)90057-4. PMID 5420325.
  9. ^ Sanger F, Air GM, Barrell BG, et al. (February 1977). "Nucleotide sequence of bacteriophage phi X174 DNA". Nature. 265 (5596): 687–95. Bibcode:1977Natur.265..687S. doi:10.1038/265687a0. PMID 870828. S2CID 4206886.
  10. ^ Holley, RW; Apgar, J; Everett, GA; Madison, JT; Marquisee, M; Merrill, SH; Penswick, JR; Zamir, A (May 1965). "Structure of a Ribonucleic Acid". Science. 147 (3664): 1462–1465. Bibcode:1965Sci...147.1462H. doi:10.1126/science.147.3664.1462. PMID 14263761. S2CID 40989800.
  11. ^ Gribskov M; McLachlan AD; Eisenberg D (July 1987). "Profile analysis: detection of distantly related proteins". Proc. Natl. Acad. Sci. U.S.A. 84 (13): 4355–8. Bibcode:1987PNAS...84.4355G. doi:10.1073/pnas.84.13.4355. PMC 305087. PMID 3474607.
  12. ^ Brown M; Hughey R; Krogh A; Mian IS; Sjölander K; Haussler D (1993). "Using Dirichlet mixture priors to derive hidden Markov models for protein families". Proc Int Conf Intell Syst Mol Biol. 1: 47–55. PMID 7584370.
  13. ^ Krogh A; Brown M; Mian IS; Sjölander K; Haussler D (February 1994). "Hidden Markov models in computational biology. Applications to protein modeling". J. Mol. Biol. 235 (5): 1501–31. doi:10.1006/jmbi.1994.1104. PMID 8107089. S2CID 2160404.
  14. ^ Ye X; Wang G; Altschul SF (December 2011). "An assessment of substitution scores for protein profile-profile comparison". Bioinformatics. 27 (24): 3356–63. doi:10.1093/bioinformatics/btr565. PMC 3232366. PMID 21998158.
  15. ^ Wooley, JC; Godzik, A; Friedberg, I (Feb 26, 2010). "A primer on metagenomics". PLOS Comput Biol. 6 (2): e1000667. Bibcode:2010PLSCB...6E0667W. doi:10.1371/journal.pcbi.1000667. PMC 2829047. PMID 20195499.
  16. ^ Stanke, M; Waack, S (Oct 19, 2003). "Gene prediction with a hidden Markov model and a new intron submodel". Bioinformatics. 19 Suppl 2 (2): 215–25. doi:10.1093/bioinformatics/btg1080. PMID 14534192.
  17. ^ Alipanahi, B; Delong, A; Weirauch, MT; Frey, BJ (Aug 2015). "Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning". Nat Biotechnol. 33 (8): 831–8. doi:10.1038/nbt.3300. PMID 26213851.
  18. ^ Wooley, JC; Godzik, A; Friedberg, I (Feb 26, 2010). "A primer on metagenomics". PLOS Comput Biol. 6 (2): e1000667. Bibcode:2010PLSCB...6E0667W. doi:10.1371/journal.pcbi.1000667. PMC 2829047. PMID 20195499.
  19. ^ Abe, N; Dror, I; Yang, L; Slattery, M; Zhou, T; Bussemaker, HJ; Rohs R, R; Mann, RS (Apr 9, 2015). "Deconvolving the recognition of DNA shape from sequence". Cell. 161 (2): 307–18. doi:10.1016/j.cell.2015.02.008. PMC 4422406. PMID 25843630.
  20. ^ Moult J; Hubbard T; Bryant SH; Fidelis K; Pedersen JT (1997). "Critical assessment of methods of protein structure prediction (CASP): round II". Proteins. Suppl 1: 2–6. doi:10.1002/(SICI)1097-0134(1997)1+<2::AID-PROT2>3.0.CO;2-T. PMID 9485489.