시퀀스 공간(진화)

Sequence space (evolution)
단백질 시퀀스 공간은 n차원이 있는 공간으로 나타낼 수 있는데, 여기서 n은 단백질 내 아미노산의 수입니다. 각 축에는 20개의 아미노산을 나타내는 20개의 위치가 있다. 2D 그리드에 배열할 수 있는 가능한 2개의 아미노산 단백질(디펩타이드)이 400개 있다. 8,000개의 곱창은 3D 큐브에 배열될 수 있다. 대부분의 단백질은 100개의 아미노산보다 길어서 천문학적인 숫자의 단백질 서열을 포함하는 다차원 공간을 차지한다.
어떻게 진화가 피트니스 환경을 상승시키는지. 각각의 라운드에서 새로운 돌연변이 라이브러리가 만들어지기 때문에 여러 번의 방향 진화를 수행하는 것은 유용할 뿐만 아니라, 각각의 새로운 라이브러리가 이전보다 더 나은 돌연변이를 템플릿으로 사용하기 때문이다. 이 실험은 고도가 원하는 특성을 나타내는 '피트니스 풍경'을 타고 언덕을 오르는 것과 유사하다. 가장 성취할 수 있는 돌연변이를 대표하는 정상에 도달하는 것이 목표다. 각 선택 라운드는 시작 템플릿의 모든 면에 돌연변이를 샘플링하고(1) 가장 높은 고도를 가진 돌연변이를 선택하여 언덕을 오른다. 이는 지역 정상회담(2)에 도달할 때까지 반복된다.

진화 생물학에서 시퀀스 공간은 가능한 모든 시퀀스(단백질, 유전자 또는 게놈의 경우)를 표현하는 방법이다.[1][2] 염기서열 공간은 고차원 공간으로 이어지는 염기서열에서 아미노산 또는 뉴클레오티드당 1차원이 있다.[3][4]

시퀀스 공간의 대부분의 시퀀스는 기능이 없어 자연적으로 발생하는 유전자에 의해 채워지는 비교적 작은 영역을 남긴다.[5] 각 단백질 순서는 단일 돌연변이를 통해 도달할 수 있는 다른 모든 순서에 인접한다. 기능적인 단백질 서열 공간 전체가 지구 생명체에 의해 탐사된 것으로 추정되었다.[6] 진화는 시퀀스 공간에서 근처의 시퀀스를 샘플링하고 현재 시퀀스보다 더 나은 적합성을 가진 것으로 이동하는 과정으로 시각화할 수 있다.

표현

시퀀스 공간은 보통 격자로 배치된다. 단백질 시퀀스 공간의 경우 단백질 내의 각 잔류물은 가능한 아미노산에 해당하는 축을 따라 20개의 가능한 위치를 가진 치수로 표현된다.[3][4] 따라서 20x20의 공간에 400개의 가능한 디펩타이드들이 배치되어 있지만, 100개의 아미노산이라는 작은 단백질이 100차원 공간에 배열되어 100개의 아미노산에도 10개로130 확장된다. 이처럼 압도적인 다차원성을 도식적으로 시각화하거나 나타낼 수는 없지만, 단백질과 진화의 범위를 한 시퀀스에서 다른 시퀀스로 생각할 수 있는 유용한 추상적 모델을 제공한다.

이러한 고도의 다차원 공간은 주성분 분석을 사용하여 2차원 또는 3차원으로 압축할 수 있다. 피트니스 환경은 단순히 각 시퀀스에 추가적인 수직적 피트니스 축이 추가된 시퀀스 공간이다.[7]

시퀀스 공간의 기능 시퀀스

단백질 슈퍼패밀리의 다양성에도 불구하고, 시퀀스 공간은 기능적인 단백질에 의해 극도로 희박하게 채워진다. 대부분의 무작위 단백질 배열은 접힘이나 기능이 없다.[8] 그러므로 효소 초가족은 비기능적 수열의 광대한 빈 공간에서 활동적인 단백질의 작은 군집으로서 존재한다.[9][10]

시퀀스 공간에서 기능 단백질의 밀도와 서로 다른 기능의 근접성은 진화 가능성을 이해하는 데 있어 중요한 결정 요인이다.[11] 시퀀스 공간에서 서로 다른 활동을 하는 두 의 중립적 네트워크의 상호 접속 정도에 따라 한 활동에서 다른 활동으로 진화하는 것이 얼마나 쉬운지 결정될 것이다. 시퀀스 공간에서 서로 다른 활동 사이에 겹칠수록 난잡한 활동에 대한 암호화된 변형이 더 많아질 것이다.[12]

단백질 시퀀스 공간은 410페이지에 달하는 가능한 모든 책을 담고 있는 이론 도서관인 바벨도서관과 비교되어 왔다.[13][14] 바벨 도서관에서는 순전히 숫자와 질서가 부족하여 어떤 책이라도 이치에 맞는 책을 찾는 것은 불가능했다. 말이 되는 단백질 시퀀스만 골라낸 자연 선택이 아니었다면 단백질 시퀀스도 마찬가지일 것이다. 또한 각 단백질 시퀀스는 최소한 어떤 기능을 가지고 있을 가능성이 있는 일련의 이웃(점 돌연변이)에 둘러싸여 있다.

반면에 시퀀스 공간의 효과적인 "알파벳"은 실제로 상당히 작을 수 있어 유용한 아미노산 수가 20개에서 훨씬 낮은 숫자로 줄어들 수 있다. 예를 들어, 극도로 단순화된 관점에서 모든 아미노산은 소수성(hydrophobicity)에 의해 두 등급(수소성/극성)으로 분류될 수 있으며, 여전히 많은 공통적인 구조가 나타날 수 있다. 지구의 초기 생물들은 네다섯 종류의 아미노산만 가지고 있을 수 있고,[15] 연구들은 유사한 알파벳 감소 과정에 의해 야생형 아미노산으로부터 기능적인 단백질이 생성될 수 있다는 것을 보여주었다.[16][17] 감소된 알파벳은 단백질 유사성을 분석하는 쉬운 방법을 제공하기 때문에 생물정보학에도 유용하다.[18][19]

지향적 진화 및 합리적 설계를 통한 탐구

무작위 돌연변이 유발에 의해 생성된 DNA 라이브러리가 샘플 시퀀스 공간인 방법. 주어진 위치로 대체된 아미노산이 보인다. 각각의 점이나 연결된 점 세트는 도서관의 한 구성원이다. 오류가 발생하기 쉬운 PCR은 다른 아미노산의 잔류물을 임의로 변이시킨다. 알라닌 스캐닝은 단백질의 각각을 1대1로 알라닌으로 대체한다. 사이트 포화도는 하나의 위치, 1:1에서 20개의 가능한 아미노산(또는 그 중 일부 부분집합)을 각각 대체한다.

단백질 공학 분야의 주요 초점은 종종 야생형에 비해 기능이 강화된 단백질의 돌연변이를 찾는 것을 목표로 시퀀스 공간의 영역을 샘플링하는 DNA 라이브러리를 만드는 것이다. 이러한 도서관은 야생형 서열을 템플릿으로 사용하고 하나 이상의 돌연변이 유발 기법을 적용하여 다른 변형을 만들거나 인공 유전자 합성을 사용하여 처음부터 단백질을 생성함으로써 만들어진다. 그런 다음 이러한 도서관을 선별하거나 선별하고, 개선된 표현형을 가진 도서관은 다음 단계의 돌연변이 유발에 사용된다.

참고 항목

참조

  1. ^ DePristo, Mark A.; Weinreich, Daniel M.; Hartl, Daniel L. (2 August 2005). "Missense meanderings in sequence space: a biophysical view of protein evolution". Nature Reviews Genetics. 6 (9): 678–687. doi:10.1038/nrg1672. PMID 16074985. S2CID 13236893.
  2. ^ Maynard Smith, John (7 February 1970). "Natural Selection and the Concept of a Protein Space". Nature. 225 (5232): 563–564. Bibcode:1970Natur.225..563M. doi:10.1038/225563a0. PMID 5411867. S2CID 204994726.
  3. ^ a b Bornberg-Bauer, E.; Chan, H. S. (14 September 1999). "Modeling evolutionary landscapes: Mutational stability, topology, and superfunnels in sequence space". Proceedings of the National Academy of Sciences. 96 (19): 10689–10694. Bibcode:1999PNAS...9610689B. doi:10.1073/pnas.96.19.10689. PMC 17944. PMID 10485887.
  4. ^ a b Cordes, MH; Davidson, AR; Sauer, RT (Feb 1996). "Sequence space, folding and protein design". Current Opinion in Structural Biology. 6 (1): 3–10. doi:10.1016/S0959-440X(96)80088-1. PMID 8696970.
  5. ^ Hermes, JD; Blacklow, SC; Knowles, JR (Jan 1990). "Searching sequence space by definably random mutagenesis: improving the catalytic potency of an enzyme". Proceedings of the National Academy of Sciences of the United States of America. 87 (2): 696–700. Bibcode:1990PNAS...87..696H. doi:10.1073/pnas.87.2.696. PMC 53332. PMID 1967829.
  6. ^ Dryden, David T.F; Thomson, Andrew R.; White, John H. (2008). "How much of protein sequence space has been explored by life on Earth?". Journal of the Royal Society Interface. 5 (25): 953–956. doi:10.1098/rsif.2008.0085. PMC 2459213. PMID 18426772.
  7. ^ Romero, PA; Arnold, FH (Dec 2009). "Exploring protein fitness landscapes by directed evolution". Nature Reviews Molecular Cell Biology. 10 (12): 866–76. doi:10.1038/nrm2805. PMC 2997618. PMID 19935669.
  8. ^ Keefe, AD; Szostak, JW (Apr 5, 2001). "Functional proteins from a random-sequence library". Nature. 410 (6829): 715–8. Bibcode:2001Natur.410..715K. doi:10.1038/35070613. PMC 4476321. PMID 11287961.
  9. ^ Stemmer, Willem P. C. (June 1995). "Searching Sequence Space". Bio/Technology. 13 (6): 549–553. doi:10.1038/nbt0695-549. S2CID 20117819.
  10. ^ Bornberg-Bauer, E (Nov 1997). "How are model protein structures distributed in sequence space?". Biophysical Journal. 73 (5): 2393–403. Bibcode:1997BpJ....73.2393B. doi:10.1016/S0006-3495(97)78268-7. PMC 1181141. PMID 9370433.
  11. ^ Bornberg-Bauer, E; Huylmans, AK; Sikosek, T (Jun 2010). "How do new proteins arise?". Current Opinion in Structural Biology. 20 (3): 390–6. doi:10.1016/j.sbi.2010.02.005. PMID 20347587.
  12. ^ Wagner, Andreas (2011-07-14). The origins of evolutionary innovations : a theory of transformative change in living systems. Oxford [etc.]: Oxford University Press. ISBN 978-0199692590.
  13. ^ Arnold, FH (2000). "The Library of Maynard-Smith: My Search for Meaning in the protein universe". Advances in Protein Chemistry. 55: ix–xi. doi:10.1016/s0065-3233(01)55000-7. PMID 11050930.
  14. ^ Ostermeier, M (March 2007). "Beyond cataloging the Library of Babel". Chemistry & Biology. 14 (3): 237–8. doi:10.1016/j.chembiol.2007.03.002. PMID 17379136.
  15. ^ Dryden, DT; Thomson, AR; White, JH (6 August 2008). "How much of protein sequence space has been explored by life on Earth?". Journal of the Royal Society, Interface. 5 (25): 953–6. doi:10.1098/rsif.2008.0085. PMC 2459213. PMID 18426772.
  16. ^ Akanuma, S.; Kigawa, T.; Yokoyama, S. (2 October 2002). "Combinatorial mutagenesis to restrict amino acid usage in an enzyme to a reduced set". Proceedings of the National Academy of Sciences. 99 (21): 13549–13553. Bibcode:2002PNAS...9913549A. doi:10.1073/pnas.222243999. PMC 129711. PMID 12361984.
  17. ^ Fujishima, Kosuke; Wang, Kendrick M.; Palmer, Jesse A.; Abe, Nozomi; Nakahigashi, Kenji; Endy, Drew; Rothschild, Lynn J. (29 January 2018). "Reconstruction of cysteine biosynthesis using engineered cysteine-free enzymes". Scientific Reports. 8 (1): 1776. Bibcode:2018NatSR...8.1776F. doi:10.1038/s41598-018-19920-y. PMC 5788988. PMID 29379050.
  18. ^ Bacardit, Jaume; Stout, Michael; Hirst, Jonathan D; Valencia, Alfonso; Smith, Robert E; Krasnogor, Natalio (6 January 2009). "Automated Alphabet Reduction for Protein Datasets". BMC Bioinformatics. 10 (1): 6. doi:10.1186/1471-2105-10-6. PMC 2646702. PMID 19126227.
  19. ^ Solis, Armando D. (30 July 2019). "Reduced alphabet of prebiotic amino acids optimally encodes the conformational space of diverse extant protein folds". BMC Evolutionary Biology. 19 (1): 158. doi:10.1186/s12862-019-1464-6. PMC 6668081. PMID 31362700.