시퀀스 공간(진화)
Sequence space (evolution)

진화 생물학에서 시퀀스 공간은 가능한 모든 시퀀스(단백질, 유전자 또는 게놈의 경우)를 표현하는 방법이다.[1][2] 염기서열 공간은 고차원 공간으로 이어지는 염기서열에서 아미노산 또는 뉴클레오티드당 1차원이 있다.[3][4]
시퀀스 공간의 대부분의 시퀀스는 기능이 없어 자연적으로 발생하는 유전자에 의해 채워지는 비교적 작은 영역을 남긴다.[5] 각 단백질 순서는 단일 돌연변이를 통해 도달할 수 있는 다른 모든 순서에 인접한다. 기능적인 단백질 서열 공간 전체가 지구 생명체에 의해 탐사된 것으로 추정되었다.[6] 진화는 시퀀스 공간에서 근처의 시퀀스를 샘플링하고 현재 시퀀스보다 더 나은 적합성을 가진 것으로 이동하는 과정으로 시각화할 수 있다.
표현
시퀀스 공간은 보통 격자로 배치된다. 단백질 시퀀스 공간의 경우 단백질 내의 각 잔류물은 가능한 아미노산에 해당하는 축을 따라 20개의 가능한 위치를 가진 치수로 표현된다.[3][4] 따라서 20x20의 공간에 400개의 가능한 디펩타이드들이 배치되어 있지만, 100개의 아미노산이라는 작은 단백질이 100차원 공간에 배열되어 100개의 아미노산에도 10개로130 확장된다. 이처럼 압도적인 다차원성을 도식적으로 시각화하거나 나타낼 수는 없지만, 단백질과 진화의 범위를 한 시퀀스에서 다른 시퀀스로 생각할 수 있는 유용한 추상적 모델을 제공한다.
이러한 고도의 다차원 공간은 주성분 분석을 사용하여 2차원 또는 3차원으로 압축할 수 있다. 피트니스 환경은 단순히 각 시퀀스에 추가적인 수직적 피트니스 축이 추가된 시퀀스 공간이다.[7]
시퀀스 공간의 기능 시퀀스
단백질 슈퍼패밀리의 다양성에도 불구하고, 시퀀스 공간은 기능적인 단백질에 의해 극도로 희박하게 채워진다. 대부분의 무작위 단백질 배열은 접힘이나 기능이 없다.[8] 그러므로 효소 초가족은 비기능적 수열의 광대한 빈 공간에서 활동적인 단백질의 작은 군집으로서 존재한다.[9][10]
시퀀스 공간에서 기능 단백질의 밀도와 서로 다른 기능의 근접성은 진화 가능성을 이해하는 데 있어 중요한 결정 요인이다.[11] 시퀀스 공간에서 서로 다른 활동을 하는 두 개의 중립적 네트워크의 상호 접속 정도에 따라 한 활동에서 다른 활동으로 진화하는 것이 얼마나 쉬운지 결정될 것이다. 시퀀스 공간에서 서로 다른 활동 사이에 겹칠수록 난잡한 활동에 대한 암호화된 변형이 더 많아질 것이다.[12]
단백질 시퀀스 공간은 410페이지에 달하는 가능한 모든 책을 담고 있는 이론 도서관인 바벨도서관과 비교되어 왔다.[13][14] 바벨 도서관에서는 순전히 숫자와 질서가 부족하여 어떤 책이라도 이치에 맞는 책을 찾는 것은 불가능했다. 말이 되는 단백질 시퀀스만 골라낸 자연 선택이 아니었다면 단백질 시퀀스도 마찬가지일 것이다. 또한 각 단백질 시퀀스는 최소한 어떤 기능을 가지고 있을 가능성이 있는 일련의 이웃(점 돌연변이)에 둘러싸여 있다.
반면에 시퀀스 공간의 효과적인 "알파벳"은 실제로 상당히 작을 수 있어 유용한 아미노산 수가 20개에서 훨씬 낮은 숫자로 줄어들 수 있다. 예를 들어, 극도로 단순화된 관점에서 모든 아미노산은 소수성(hydrophobicity)에 의해 두 등급(수소성/극성)으로 분류될 수 있으며, 여전히 많은 공통적인 구조가 나타날 수 있다. 지구의 초기 생물들은 네다섯 종류의 아미노산만 가지고 있을 수 있고,[15] 연구들은 유사한 알파벳 감소 과정에 의해 야생형 아미노산으로부터 기능적인 단백질이 생성될 수 있다는 것을 보여주었다.[16][17] 감소된 알파벳은 단백질 유사성을 분석하는 쉬운 방법을 제공하기 때문에 생물정보학에도 유용하다.[18][19]
지향적 진화 및 합리적 설계를 통한 탐구
단백질 공학 분야의 주요 초점은 종종 야생형에 비해 기능이 강화된 단백질의 돌연변이를 찾는 것을 목표로 시퀀스 공간의 영역을 샘플링하는 DNA 라이브러리를 만드는 것이다. 이러한 도서관은 야생형 서열을 템플릿으로 사용하고 하나 이상의 돌연변이 유발 기법을 적용하여 다른 변형을 만들거나 인공 유전자 합성을 사용하여 처음부터 단백질을 생성함으로써 만들어진다. 그런 다음 이러한 도서관을 선별하거나 선별하고, 개선된 표현형을 가진 도서관은 다음 단계의 돌연변이 유발에 사용된다.
참고 항목
참조
- ^ DePristo, Mark A.; Weinreich, Daniel M.; Hartl, Daniel L. (2 August 2005). "Missense meanderings in sequence space: a biophysical view of protein evolution". Nature Reviews Genetics. 6 (9): 678–687. doi:10.1038/nrg1672. PMID 16074985. S2CID 13236893.
- ^ Maynard Smith, John (7 February 1970). "Natural Selection and the Concept of a Protein Space". Nature. 225 (5232): 563–564. Bibcode:1970Natur.225..563M. doi:10.1038/225563a0. PMID 5411867. S2CID 204994726.
- ^ a b Bornberg-Bauer, E.; Chan, H. S. (14 September 1999). "Modeling evolutionary landscapes: Mutational stability, topology, and superfunnels in sequence space". Proceedings of the National Academy of Sciences. 96 (19): 10689–10694. Bibcode:1999PNAS...9610689B. doi:10.1073/pnas.96.19.10689. PMC 17944. PMID 10485887.
- ^ a b Cordes, MH; Davidson, AR; Sauer, RT (Feb 1996). "Sequence space, folding and protein design". Current Opinion in Structural Biology. 6 (1): 3–10. doi:10.1016/S0959-440X(96)80088-1. PMID 8696970.
- ^ Hermes, JD; Blacklow, SC; Knowles, JR (Jan 1990). "Searching sequence space by definably random mutagenesis: improving the catalytic potency of an enzyme". Proceedings of the National Academy of Sciences of the United States of America. 87 (2): 696–700. Bibcode:1990PNAS...87..696H. doi:10.1073/pnas.87.2.696. PMC 53332. PMID 1967829.
- ^ Dryden, David T.F; Thomson, Andrew R.; White, John H. (2008). "How much of protein sequence space has been explored by life on Earth?". Journal of the Royal Society Interface. 5 (25): 953–956. doi:10.1098/rsif.2008.0085. PMC 2459213. PMID 18426772.
- ^ Romero, PA; Arnold, FH (Dec 2009). "Exploring protein fitness landscapes by directed evolution". Nature Reviews Molecular Cell Biology. 10 (12): 866–76. doi:10.1038/nrm2805. PMC 2997618. PMID 19935669.
- ^ Keefe, AD; Szostak, JW (Apr 5, 2001). "Functional proteins from a random-sequence library". Nature. 410 (6829): 715–8. Bibcode:2001Natur.410..715K. doi:10.1038/35070613. PMC 4476321. PMID 11287961.
- ^ Stemmer, Willem P. C. (June 1995). "Searching Sequence Space". Bio/Technology. 13 (6): 549–553. doi:10.1038/nbt0695-549. S2CID 20117819.
- ^ Bornberg-Bauer, E (Nov 1997). "How are model protein structures distributed in sequence space?". Biophysical Journal. 73 (5): 2393–403. Bibcode:1997BpJ....73.2393B. doi:10.1016/S0006-3495(97)78268-7. PMC 1181141. PMID 9370433.
- ^ Bornberg-Bauer, E; Huylmans, AK; Sikosek, T (Jun 2010). "How do new proteins arise?". Current Opinion in Structural Biology. 20 (3): 390–6. doi:10.1016/j.sbi.2010.02.005. PMID 20347587.
- ^ Wagner, Andreas (2011-07-14). The origins of evolutionary innovations : a theory of transformative change in living systems. Oxford [etc.]: Oxford University Press. ISBN 978-0199692590.
- ^ Arnold, FH (2000). "The Library of Maynard-Smith: My Search for Meaning in the protein universe". Advances in Protein Chemistry. 55: ix–xi. doi:10.1016/s0065-3233(01)55000-7. PMID 11050930.
- ^ Ostermeier, M (March 2007). "Beyond cataloging the Library of Babel". Chemistry & Biology. 14 (3): 237–8. doi:10.1016/j.chembiol.2007.03.002. PMID 17379136.
- ^ Dryden, DT; Thomson, AR; White, JH (6 August 2008). "How much of protein sequence space has been explored by life on Earth?". Journal of the Royal Society, Interface. 5 (25): 953–6. doi:10.1098/rsif.2008.0085. PMC 2459213. PMID 18426772.
- ^ Akanuma, S.; Kigawa, T.; Yokoyama, S. (2 October 2002). "Combinatorial mutagenesis to restrict amino acid usage in an enzyme to a reduced set". Proceedings of the National Academy of Sciences. 99 (21): 13549–13553. Bibcode:2002PNAS...9913549A. doi:10.1073/pnas.222243999. PMC 129711. PMID 12361984.
- ^ Fujishima, Kosuke; Wang, Kendrick M.; Palmer, Jesse A.; Abe, Nozomi; Nakahigashi, Kenji; Endy, Drew; Rothschild, Lynn J. (29 January 2018). "Reconstruction of cysteine biosynthesis using engineered cysteine-free enzymes". Scientific Reports. 8 (1): 1776. Bibcode:2018NatSR...8.1776F. doi:10.1038/s41598-018-19920-y. PMC 5788988. PMID 29379050.
- ^ Bacardit, Jaume; Stout, Michael; Hirst, Jonathan D; Valencia, Alfonso; Smith, Robert E; Krasnogor, Natalio (6 January 2009). "Automated Alphabet Reduction for Protein Datasets". BMC Bioinformatics. 10 (1): 6. doi:10.1186/1471-2105-10-6. PMC 2646702. PMID 19126227.
- ^ Solis, Armando D. (30 July 2019). "Reduced alphabet of prebiotic amino acids optimally encodes the conformational space of diverse extant protein folds". BMC Evolutionary Biology. 19 (1): 158. doi:10.1186/s12862-019-1464-6. PMC 6668081. PMID 31362700.