코돈 사용 바이어스

Codon usage bias
Physcomitrella 패턴의 코돈 사용 편향

코돈 사용 편향DNA를 코딩할 때 동의어 코돈의 발생 빈도의 차이를 말한다. 코돈(codon)은 폴리펩타이드 체인에 있는 특정 아미노산 잔류물을 인코딩하거나 번역(stop codon)을 종료하기 위해 인코딩하는 세 개의 뉴클레오티드(triplet)의 시리즈다.

64개의 다른 코돈(아미노산 61개의 코돈, 3개의 정지 코돈)이 있지만 20개의 다른 번역된 아미노산만 있다. 코돈 수의 과잉은 많은 아미노산을 둘 이상의 코돈으로 부호화할 수 있게 한다. 그러한 중복성 때문에 유전자 코드가 퇴보한다고 한다. 다른 유기체의 유전 코드는 종종 다른 것들보다 동일한 아미노산을 암호화하는 몇 개의 코돈 중 하나를 사용하는 것에 치우쳐 있다. 즉, 한 코돈의 주파수가 우연히 발견되는 것보다 더 많을 것이다. 그러한 편견이 어떻게 발생하는가는 분자 진화의 많은 논쟁 영역이다. GenBankRefSeq의 유기체에 대한 유전 코돈 사용 편향을 상세히 기술한 코돈 사용 표는 CoCoPUTs와 TissueCoCoPUTs라는 두 개의 고유한 데이터베이스를 포함하는 [1]HIVE-Codon 사용 표(HIVE-Codon Usage Tables) 프로젝트에서 찾을 수 있다. 이 두 개의 데이터베이스는 함께 사용 가능한 시퀀스 정보와 52개의 인체 조직을 가진 모든 유기체에 대해 각각 포괄적인 최신 코돈, 코돈 쌍, 디뉴클레오티드 사용 통계를 제공한다.[2][3]

일반적으로 코돈 편향은 변환 최적화를 위한 돌연변이 편향과 자연선택(교정-선택 균형) 사이의 균형을 반영한다고 인정된다. 대장균이나 사카로마이오스 세레비시아(베이커의 효모)와 같이 빠르게 성장하는 미생물의 최적 코돈은 각각의 유전체 전달 RNA(tRNA) 풀의 구성을 반영한다.[4] 최적의 코돈은 더 빠른 번역 속도와 높은 정확도를 달성하는 데 도움이 된다고 생각된다. 이러한 요인의 결과 위에서 언급한 유기체의 경우처럼 고도로 표현된 유전자에서 번역적 선택이 더 강해질 것으로 예상된다.[5][6] 높은 증가율을 보이지 않거나 작은 게놈을 나타내는 다른 유기체에서 코돈 사용 최적화는 일반적으로 존재하지 않으며, 코돈 선호도는 특정 게놈에서 보이는 특징적인 돌연변이 편견에 의해 결정된다. 그 예로는 호모 사피엔스(인간)와 헬리코박터 파일로리가 있다.[7][8] 코돈 사용 최적화의 중간 수준을 보이는 유기체로는 드로소필라 멜라노가스터(과일파리), 새노하브디티 선충(네마모드 웜), 스트롱요르코센트로투스(바다거미), 아라비도시스 탈리아리아나(날개) 등이 있다.[9] 여러 바이러스 계열(헤르페스바이러스, 렌티바이러스, 파필로마바이러스, 폴리오마바이러스, 아데노바이러스, 파보바이러스)은 숙주세포에 비해 심하게 치우친 코돈 사용량을 나타내는 구조 단백질을 암호화하는 것으로 알려져 있다. 이러한 코돈 편견이 후기 단백질의 시간적 조절에 역할을 한다는 제안이 나왔다.[10]

코돈 사용-tRNA 최적화의 본질은 치열하게 논의되어 왔다. 코돈 사용이 tRNA 진화를 촉진하는지 또는 그 반대인지는 명확하지 않다. 코돈 사용과 tRNA 표현이 모두 피드백 패션에서 공존하는 수학적 모델이 적어도 하나 개발되었다(즉, 이미 높은 빈도로 존재하는 코돈은 해당 tRNA의 표현을 증가시키고, 일반적으로 높은 수준에서 표현되는 tRNA는 해당 코돈의 빈도를 증가시킨다). 그러나 이 모델은 아직 실험적인 확증이 있는 것 같지 않다. 또 다른 문제는 tRNA 유전자의 진화가 매우 비활동적인 연구 영역이었다는 점이다.[citation needed]

기여요인자

유전자 발현 수준(tRNA 풍부함에 의한 번역 과정 최적화를 위한 반사 선택), 구아닌-시토신 함량(GC 내용물, 수평 유전자 전달 또는 돌연변이 편향 반영), 구아닌-시토신 스큐(GC 스큐, Strand 특이 돌연변이를 반영) 등 코돈 사용편향과 관련된 다양한 요인들이 제안되어 왔다. 바이어스), 아미노산 보존, 단백질 하이드로파시, 전사 선택, RNA 안정성, 최적의 성장 온도, 하이퍼스케일 적응 및 식이 질소.[11][12][13][14][15][16]

진화론

돌연변이 치우침 대 선택

코돈 편향 선택 메커니즘은 여전히 논란의 여지가 있지만, 이러한 편향에 대한 가능한 설명은 두 가지 일반적인 범주로 분류된다. 하나의 설명은 선택론자 이론을 중심으로 전개되는데, 코돈 편향이 단백질 표현의 효율성 및/또는 정확성에 기여하여 긍정적인 선택을 받는다. 선택론자 모델은 또한 선호 코돈, tRNA 수준, 유전자 복사 번호 사이의 상관관계뿐만 아니라 더 빈번한 코돈이 더 풍부한 tRNA 분자에 의해 인식되는 이유를 설명한다. 비록 더 빈번한 코돈의 아미노산 통합 비율이 희귀한 코돈의 그것보다 훨씬 더 높은 비율로 발생한다는 것이 밝혀졌지만, 번역 속도는 직접적으로 영향을 받는 것으로 보여지지 않았고 따라서 더 빈번한 코돈에 대한 편향은 직접적으로 유리하지 않을 수 있다. 그러나, 자유 리보솜의 세포 농도와 잠재적으로 메신저 RNA(mRNA)의 개시 속도를 증가시킴으로써 번역 신장속도의 증가는 여전히 간접적으로 유리할 수 있다.[17]

코돈 사용에 대한 두 번째 설명은 돌연변이 편견으로 설명될 수 있는데, 돌연변이 패턴의 비랜덤성 때문에 코돈 편견이 존재한다고 주장하는 이론이다. 즉, 일부 코돈은 더 많은 변화를 겪을 수 있고, 따라서 평형 빈도가 낮아지는 결과를 초래하며, "잔인한" 코돈이라고도 한다. 다른 유기체들도 다른 돌연변이 편견을 보이며, 게놈 전체 GC 함량의 수준이 유기체들 간의 코돈 편향 차이를 설명하는 데 가장 중요한 변수라는 증거가 증가하고 있다. 추가 연구는 코돈 편향이 유전자간 순서만을 사용하여 원핵생물에서 통계적으로 예측될 수 있다는 것을 입증했으며, 코돈 편향은 코딩 영역에 대한 선택적 힘의 개념에 반대하며, 돌연변이 편향 모델을 더욱 뒷받침한다. 그러나 이 모델만으로는 선호되는 코돈이 더 풍부한 tRNA에 의해 인식되는 이유를 충분히 설명할 수 없다.[17]

돌연변이-선택-드리프트 균형 모형

돌연변이 압력과 선택에서 오는 증거를 조정하기 위해, 코돈 편향에 대한 일반적인 가설은 돌연변이-선택-드리프트 균형 모델로 설명될 수 있다. 이 가설은 선정이 미성년자 코돈보다 주요 코돈에 유리하지만, 미성년자 코돈은 돌연변이 압력과 유전적 이동으로 인해 지속할 수 있다는 것이다. 그것은 또한 선택이 일반적으로 약하지만 선택 강도는 코딩 시퀀스의 더 높은 표현과 더 많은 기능 제약조건으로 확장된다는 것을 시사한다.[17]

코돈 구성의 결과

RNA 2차 구조에 미치는 영향

mRNA의 5' 끝2차 구조가 변환 효율성에 영향을 미치기 때문에 mRNA에 대한 이 영역의 동의어적 변화는 유전자 발현에 심대한 영향을 미칠 수 있다. 따라서 비코딩 DNA 영역에서 코돈 사용은 RNA 이차 구조와 다운스트림 단백질 표현에 주요한 역할을 할 수 있으며, 이는 추가적인 선택적 압력을 겪을 수 있다. 특히 리보솜 결합 부위개시 코돈의 강한 2차 구조는 번역을 억제할 수 있으며, 5' 끝에서 mRNA 접힘은 단백질 수준의 큰 변화를 일으킨다.[18]

전사 또는 유전자 발현에 미치는 영향

이질 유전자 발현법은 단백질 생산과 신진대사 공학을 포함한 많은 생명공학 용도에 사용된다. tRNA 풀은 유기체마다 다르기 때문에 특정 부호화 순서의 전사 및 번역 속도는 비원태적 맥락에 놓였을 때 효율성이 떨어질 수 있다. 과다압축 트랜스젠의 경우 해당 mRNA는 전체 세포 RNA의 큰 비율을 차지하고, 대본을 따라 희귀 코돈의 존재는 리보솜의 비효율적인 사용과 고갈을 초래하고 궁극적으로 이단백질 생성의 수준을 감소시킬 수 있다. 또한 유전자의 구성(예: 희귀 코돈의 총수와 연속 희귀 코돈의 존재)도 번역 정확도에 영향을 미칠 수 있다.[19][20] 그러나, 특정 호스트에서 tRNA 풀에 최적화된 코돈을 사용하여 이질 유전자를 과다하게 압착하면 아미노산 기아를 유발하고 tRNA 풀의 평형을 바꿀 수 있다. 코돈 최적화라고 불리는 호스트 tRNA 연산에 맞춰 코돈을 조정하는 이 방법은 전통적으로 이질 유전자의 발현에 사용되어 왔다. 그러나 이질적 표현의 최적화를 위한 새로운 전략은 국부 mRNA 접기, 코돈 쌍 바이어스, 코돈 램프, 코돈 조화 또는 코돈 상관관계와 같은 글로벌 뉴클레오티드 콘텐츠를 고려한다.[21][22] 뉴클레오티드 변화 횟수가 도입되면서 와 같이 최적화된 유전자를 만들기 위해 인공 유전자 합성이 필요한 경우가 많다.

전문화된 코돈 편향은 아미노산 기아와 관련된 것과 같은 일부 내생 유전자에서 더 잘 나타난다. 예를 들어 아미노산 생합성 효소는 정상적인 tRNA 함수에 잘 적응하지 못하지만 기아 조건에서는 tRNA 풀에 적응하는 코돈을 우선적으로 사용한다. 따라서 코돈 사용은 특정 세포 조건에서 적절한 유전자 발현에 대한 추가적인 전사적 규제를 도입할 수 있다.[22]

번역연장속도에 미치는 영향

일반적으로 고도로 표현된 유전자의 경우 tRNA 풀에 대한 코돈 적응도가 높은 대본을 따라 번역 신장률이 더 빠르고 희귀 대본을 사용하는 대본을 따라 더 느리다. 코돈 변환률과 인지 tRNA 농도 사이의 이러한 상관관계는 유기체에 몇 가지 이점을 제공할 수 있는 번역 신장률의 추가적인 변조를 제공한다. 구체적으로 코돈 사용은 이러한 요율을 전세계적으로 규제할 수 있으며, 희귀 코돈은 속도를 희생하여 번역의 정확성에 기여할 수 있다.[23]

단백질 접힘에 미치는 영향

체내 단백질 접힘은 벡터성이기 때문에 단백질의 N단자가 변환 리보솜에서 빠져나와 더 많은 C단자 부위보다 먼저 용제가 노출된다. 그 결과, 동시 변환 단백질 접힘은 초기 폴리펩타이드 체인의 접힘 궤적에 몇 가지 공간적, 시간적 제약조건을 도입한다. mRNA 번역률은 단백질 접힘과 결합하고, 코돈 적응은 번역 연장과 연계되기 때문에 시퀀스 수준의 조작이 단백질 접힘을 규제하거나 개선하는 효과적인 전략이 될 수 있다는 가설이 제기돼 왔다. 국소 mRNA 구조로 인한 번역 중단은 특정 단백질에 대해 발생하며, 이는 적절한 접기를 위해 필요할 수 있다는 여러 연구가 있다. 게다가, 동의어 돌연변이는 초기 단백질의 접힘 과정에 중요한 결과를 가져오고 심지어 효소의 기질 특이성까지 변화시킬 수 있다는 것이 밝혀졌다. 이러한 연구들은 코돈 사용이 리보솜에서 폴리펩티드가 벡터적으로 나타나는 속도에 영향을 미치고, 이는 가용 구조 공간 전체에 걸쳐 단백질 접힘 경로에 더욱 영향을 미칠 수 있음을 시사한다.[23]

분석방법

생물정보학계산생물학 분야에서 많은 통계적 방법이 제안되어 코돈 사용편향을 분석하는 데 이용되고 있다.[24] 유전자 발현 수준을 예측하기 위해 '최적 [25]코돈의 빈도'(Fop), [26]상대 코돈 적응(RCA) 또는 코돈 적응 지수(CAI)[27]와 같은 방법을 사용하고, 정보 이론의 '유효한 코돈 수'(Cnc), 섀넌 엔트로피 등의 방법을 사용하여 코돈 사용의 균등성을 측정한다.[28] 대응 분석, 주성분 분석과 같은 다변량 통계적 방법은 유전자 간 코돈 사용의 변화를 분석하는 데 널리 사용된다.[29] 위에 열거한 통계분석을 구현하기 위한 컴퓨터 프로그램으로는 CodonW, CCUA, INCA 등이 많다. 코돈 최적화는 합성 유전자와 DNA 백신 설계에 응용된다. 이를 위해 온라인에서 여러 소프트웨어 패키지를 이용할 수 있다(외부 링크 참조).

참조

  1. ^ Athey, John; Alexaki, Aikaterini; Osipova, Ekaterina; Rostovtsev, Alexandre; Santana-Quintero, Luis V.; Katneni, Upendra; Simonyan, Vahan; Kimchi-Sarfaty, Chava (2017-09-02). "A new and updated resource for codon usage tables". BMC Bioinformatics. 18 (391): 391. doi:10.1186/s12859-017-1793-7. PMC 5581930. PMID 28865429.
  2. ^ Alexaki, Aikaterini; Kames, Jacob; Holcomb, David D.; Athey, John; Santana-Quintero, Luis V.; Lam, Phuc Vihn Nguyen; Hamasaki-Katagiri, Nobuko; Osipova, Ekaterina; Simonyan, Vahan; Bar, Haim; Komar, Anton A.; Kimchi-Sarfaty, Chava (June 2019). "Codon and Codon-Pair Usage Tables (CoCoPUTs): Facilitating Genetic Variation Analyses and Recombinant Gene Design". Journal of Molecular Biology. 431 (13): 2434–2441. doi:10.1016/j.jmb.2019.04.021. PMID 31029701.
  3. ^ Kames, Jacob; Alexaki, Aikaterini; Holcomb, David D.; Santana-Quintero, Luis V.; Athey, John C.; Hamasaki-Katagiri, Nobuko; Katneni, Upendra; Golikov, Anton; Ibla, Juan C.; Bar, Haim; Kimchi-Sarfaty, Chava (January 2020). "TissueCoCoPUTs: Novel Human Tissue-Specific Codon and Codon-Pair Usage Tables Based on Differential Tissue Gene Expression". Journal of Molecular Biology. 432 (11): 3369–3378. doi:10.1016/j.jmb.2020.01.011. PMID 31982380.
  4. ^ Dong, Hengjiang; Nilsson, Lars; Kurland, Charles G. (1996). "Co-variation of tRNA abundance and codon usage in Escherichia coli at different growth rates". Journal of Molecular Biology. 260 (5): 649–663. doi:10.1006/jmbi.1996.0428. ISSN 0022-2836. PMID 8709146.
  5. ^ Sharp, Paul M.; Stenico, Michele; Peden, John F.; Lloyd, Andrew T. (1993). "Codon usage: mutational bias, translational selection, or both?". Biochem. Soc. Trans. 21 (4): 835–841. doi:10.1042/bst0210835. PMID 8132077. S2CID 8582630.
  6. ^ Kanaya, Shigehiko; Yamada, Yuko; Kudo, Yoshihiro; Ikemura, Toshimichi (1999). "Studies of codon usage and tRNA genes of 18 unicellular organisms and quantification of Bacillus subtilis tRNAs: gene expression level and species-specific diversity of codon usage based on multivariate analysis". Gene. 238 (1): 143–155. doi:10.1016/s0378-1119(99)00225-5. ISSN 0378-1119. PMID 10570992.
  7. ^ Atherton, John C.; Sharp, Paul M.; Lafay, Bénédicte (2000-04-01). "Absence of translationally selected synonymous codon usage bias in Helicobacter pylori". Microbiology. 146 (4): 851–860. doi:10.1099/00221287-146-4-851. ISSN 1350-0872. PMID 10784043.
  8. ^ Bornelöv, Susanne; Selmi, Tommaso; Flad, Sophia; Dietmann, Sabine; Frye, Michaela (2019-06-07). "Codon usage optimization in pluripotent embryonic stem cells". Genome Biology. 20 (1): 119. doi:10.1186/s13059-019-1726-z. ISSN 1474-760X. PMC 6555954. PMID 31174582.
  9. ^ Duret, Laurent (2000). "tRNA gene number and codon usage in the C. elegans genome are co-adapted for optimal translation of highly expressed genes". Trends in Genetics. 16 (7): 287–289. doi:10.1016/s0168-9525(00)02041-2. ISSN 0168-9525. PMID 10858656.
  10. ^ Shin, Young C.; Bischof, Georg F.; Lauer, William A.; Desrosiers, Ronald C. (2015-09-10). "Importance of codon usage for the temporal regulation of viral gene expression". Proceedings of the National Academy of Sciences. 112 (45): 14030–14035. Bibcode:2015PNAS..11214030S. doi:10.1073/pnas.1515387112. PMC 4653223. PMID 26504241.
  11. ^ Ermolaeva MD (October 2001). "Synonymous codon usage in bacteria". Curr Issues Mol Biol. 3 (4): 91–7. PMID 11719972.
  12. ^ Lynn DJ, Singer GA, Hickey DA (October 2002). "Synonymous codon usage is subject to selection in thermophilic bacteria". Nucleic Acids Res. 30 (19): 4272–7. doi:10.1093/nar/gkf546. PMC 140546. PMID 12364606.
  13. ^ Paul S, Bag SK, Das S, Harvill ET, Dutta C (2008). "Molecular signature of hypersaline adaptation: insights from genome and proteome composition of halophilic prokaryotes". Genome Biol. 9 (4): R70. doi:10.1186/gb-2008-9-4-r70. PMC 2643941. PMID 18397532.
  14. ^ Kober, K. M.; Pogson, G. H. (2013). "Genome-Wide Patterns of Codon Bias Are Shaped by Natural Selection in the Purple Sea Urchin, Strongylocentrotus purpuratus". G3. 3 (7): 1069–1083. doi:10.1534/g3.113.005769. PMC 3704236. PMID 23637123.
  15. ^ McInerney, James O. (1998-09-01). "Replicational and transcriptional selection on codon usage in Borrelia burgdorferi". Proceedings of the National Academy of Sciences. 95 (18): 10698–10703. Bibcode:1998PNAS...9510698M. doi:10.1073/pnas.95.18.10698. ISSN 0027-8424. PMC 27958. PMID 9724767.
  16. ^ Seward, Emily; Kelly, Steve (2016). "Dietary nitrogen alters codon bias and genome composition in parasitic microorganisms". Genome Biology. 17 (226): 3–15. doi:10.1186/s13059-016-1087-9. PMC 5109750. PMID 27842572.
  17. ^ a b c Hershberg, R; Petrov, D. A. (2008). "Selection on codon bias". Annual Review of Genetics. 42: 287–99. doi:10.1146/annurev.genet.42.110807.091442. PMID 18983258. S2CID 7085012.
  18. ^ Novoa, E. M.; Ribas De Pouplana, L (2012). "Speeding with control: Codon usage, tRNAs, and ribosomes". Trends in Genetics. 28 (11): 574–81. doi:10.1016/j.tig.2012.07.006. PMID 22921354.
  19. ^ Shu, P.; Dai, H.; Gao, W.; Goldman, E. (2006). "Inhibition of translation by consecutive rare leucine codons in E. coli: absence of effect of varying mRNA stability". Gene Expr. 13 (2): 97–106. doi:10.3727/000000006783991881. PMC 6032470. PMID 17017124.{{cite journal}}: CS1 maint: 작성자 매개변수 사용(링크)
  20. ^ Correddu, D.; Montaño López, J. d. J.; Angermayr, S. A.; Middleditch, M. J.; Payne, L. S.; Leung, I. K. H. (2019). "Effect of Consecutive Rare Codons on the Recombinant Production of Human Proteins in Escherichia coli". IUBMB Life. 72 (2): 266–274. doi:10.1002/iub.2162. PMID 31509345. S2CID 202555575.{{cite journal}}: CS1 maint: 작성자 매개변수 사용(링크)
  21. ^ Mignon, C.; Mariano, N.; Stadthagen, G.; Lugari, A.; Lagoutte, P.; Donnat, S.; Chenavas, S.; Perot, C.; Sodoyer, R.; Werle, B. (2018). "Codon harmonization - going beyond the speed limit for protein expression". FEBS Letters. 592 (9): 1554–1564. doi:10.1002/1873-3468.13046. PMID 29624661.{{cite journal}}: CS1 maint: 작성자 매개변수 사용(링크)
  22. ^ a b Plotkin, J. B.; Kudla, G (2011). "Synonymous but not the same: The causes and consequences of codon bias". Nature Reviews Genetics. 12 (1): 32–42. doi:10.1038/nrg2899. PMC 3074964. PMID 21102527.
  23. ^ a b Spencer, P. S.; Barral, J. M. (2012). "Genetic Code Redundancy and Its Influence on the Encoded Polypeptides". Computational and Structural Biotechnology Journal. 1: 1–8. doi:10.5936/csbj.201204006. PMC 3962081. PMID 24688635.
  24. ^ Comeron JM, Aguadé M (September 1998). "An evaluation of measures of synonymous codon usage bias". J. Mol. Evol. 47 (3): 268–74. Bibcode:1998JMolE..47..268C. doi:10.1007/PL00006384. PMID 9732453. S2CID 21862217.
  25. ^ Ikemura T (September 1981). "Correlation between the abundance of Escherichia coli transfer RNAs and the occurrence of the respective codons in its protein genes: a proposal for a synonymous codon choice that is optimal for the E. coli translational system". J. Mol. Biol. 151 (3): 389–409. doi:10.1016/0022-2836(81)90003-6. PMID 6175758.
  26. ^ Fox JM, Erill I (June 2010). "Relative codon adaptation: a generic codon bias index for prediction of gene expression". DNA Res. 17 (3): 185–96. doi:10.1093/dnares/dsq012. PMC 2885275. PMID 20453079.
  27. ^ Sharp, Paul M.; Li, Wen-Hsiung (1987). "The codon adaptation index-a measure of directional synonymous codon usage bias, and its potential applications". Nucleic Acids Research. 15 (3): 1281–1295. doi:10.1093/nar/15.3.1281. PMC 340524. PMID 3547335.
  28. ^ Peden J (2005-04-15). "Codon usage indices". Correspondence Analysis of Codon Usage. SourceForge. Retrieved 2010-10-20.
  29. ^ Suzuki H, Brown CJ, Forney LJ, Top EM (December 2008). "Comparison of correspondence analysis methods for synonymous codon usage in bacteria". DNA Res. 15 (6): 357–65. doi:10.1093/dnares/dsn028. PMC 2608848. PMID 18940873.

외부 링크