부호화 영역

Coding region

CDS로도 알려진 유전자코드 영역은 단백질[1]코드하는 유전자의 DNA 또는 RNA의 부분이다.다른 종과 기간에 걸친 비코드 영역과 비교하여 코드 영역의 길이, 구성, 조절, 스플라이싱, 구조 및 기능을 연구하는 것은 원핵생물진핵생물[2]유전자 구성과 진화에 관한 상당한 양의 중요한 정보를 제공할 수 있다.이것은 인간 게놈 지도 작성과 유전자 [3]치료 개발에 도움을 줄 수 있다.

정의.

이 용어는 때때로 엑손과 교환가능하게 사용되기는 하지만, 엑손은 RNA의 3'와 5' 미번역 영역뿐만 아니라 코딩 영역으로 구성되어 있기 때문에 엑손은 부분적으로 코딩 영역으로 구성됩니다.단백질을 코드하지 않는 RNA의 3' 및 5' 미번역 영역을 비코드 영역이라고 하며, 이 페이지에서는 [4]설명하지 않습니다.

코딩 영역과 엑섬 사이에는 종종 혼동이 있으며 이들 용어 사이에는 분명한 차이가 있다.엑솜은 게놈 내의 모든 엑손들을 지칭하는 반면, 코딩 영역은 특정 종류의 단백질을 특별히 코드하는 DNA나 RNA의 단일한 부분을 가리킨다.

역사

1978년 월터 길버트는 유전자가 모자이크라는 개념을 탐구하기 시작한 "왜 유전자 조각들인가"를 발표했는데, 이것은 각각의 완전한 핵산 가닥이 지속적으로 코드화되지 않고 "침묵한" 비코드 영역에 의해 방해된다는 개념이다.이것은 게놈에서 단백질을 코드하는 부분, 즉 현재 코드화 영역이라고 불리는 부분과 그렇지 [5]않은 부분 사이에 구분이 필요하다는 첫 번째 징후였다.

구성.

포인트 돌연변이 유형: GC가 풍부한 코딩 영역의 [6]변환(빨간색)에 비해 전환(파란색)이 높아집니다.

근거는 기본 구성 패턴과 코딩 영역 [7]가용성 사이에 일반적인 상호의존성이 있음을 시사한다.코딩 영역에는 비코딩 영역보다 높은 GC 콘텐츠가 포함되어 있는 것으로 생각됩니다.코드 스트랜드가 길수록 GC 함량이 높아진다는 추가 연구가 있습니다.짧은 코드 스트랜드는 TAG, TAA 및 [8]TGA와 같은 염기성분 변환 정지 코돈의 낮은 GC 함량과 유사하지만 GC 함량은 상대적으로 낮다.

GC가 풍부한 지역은 또한 비율점 돌연변이 유형이 약간 변경되는 영역이다: 퓨린에서 퓨린으로, 또는 피리미딘에서 피리미딘으로, 또는 피리미딘에서 퓨린으로, 또는 피리미딘에서 피리미딘으로 변화되는 에 비해 더 많은 전환이 있다.이러한 변화는 암호화된 아미노산을 바꿀 가능성이 적고 조용한 돌연변이로 남습니다(특히 그것들이 코돈의 세 번째 뉴클레오티드에서 발생하는 경우). 이것은 보통 번역과 단백질 [9]형성 동안 유기체에 유익합니다.

이는 필수 코딩 영역(유전자 풍부)이 부속 영역 및 비필수 영역(유전자 부족)[10]에 비해 GC 함량이 높고 보다 안정적이며 돌연변이에 내성이 있음을 나타낸다.그러나 이것이 중성 및 무작위 돌연변이를 통해 발생했는지 아니면 [11]선택 패턴을 통해 발생했는지는 여전히 불분명하다.또한 유전자 창과 같이 GC 함량과 코딩 영역 간의 관계를 확인하기 위해 사용되는 방법이 정확하고 [12]편견이 없는지에 대한 논란이 있다.

구조 및 기능

전사: RNA 중합효소(RNAP)는 템플릿 DNA 가닥을 사용하여 프로모터 배열(녹색)에서 코드화를 시작하여 코드화 영역 전체를 mRNA 전(teal)으로 포함하기 위해 종단 배열(빨간색)에서 코드화한다.사전 mRNA는 5'에서 3'로 중합되고 템플릿 DNA는 3'에서 5'로 판독된다.
DNA 가닥의 전자 마이크로그래프는 분해하기에는 너무 작은 수백 개의 RNAP 분자로 장식되어 있습니다.각 RNANAP은 DNA에서 분기하는 것을 볼 수 있는 RNA 가닥을 전사하고 있습니다. "Begin"은 RNA가 전사를 시작하는 DNA의 3' 끝을 나타냅니다. "End"는 긴 RNA 분자가 완전히 전사되는 5' 끝을 나타냅니다.

발명의 DNA에서 부호화 영역은 템플릿 가닥의 5' 말단에는 프로모터 배열, 3' 말단에는 종단 배열에 의해 측면으로 배치된다.전사 중에 RNA 중합효소(RNAP)는 프로모터 배열에 결합하고 템플릿 가닥을 따라 코드 영역으로 이동합니다.그런 다음 RNA는 티민 대신 유라실을 대체하여 mRNA를 형성하기 위해 코드 영역상보적인 RNA [13]뉴클레오티드를 첨가한다.이것은 RNAP이 종단 [13]시퀀스에 도달할 때까지 계속됩니다.

전사 및 성숙 후 형성된 성숙한 mRNA는 단백질로의 최종 번역에 중요한 여러 부분을 포함한다.mRNA의 코딩 영역은 5' 미번역 영역(5'-UTR)과 3' 미번역 영역(3'-UTR),[1] 5' Poly-A 꼬리에 의해 측면으로 배치된다.번역 중에 리보솜은 한 번에 3개의 뉴클레오티드(코돈)[14]인 코드 영역에 tRNA의 부착을 촉진한다.tRNA는 그들의 관련 아미노산을 성장하는 폴리펩타이드 사슬에 전달하고, 결국 초기 DNA 코딩 영역에서 정의된 단백질을 형성한다.

코딩 영역(teal)은 미번역 영역, 5' 캡 및 폴리(A) 꼬리에 의해 측면으로 형성되며, 이들은 함께 성숙한 mRNA를 [15]형성한다.

규정

코드 영역은 유전자 발현을 조절하기 위해 수정될 수 있다.

알킬화는 부호화 [16]영역의 조절의 한 형태이다.전사되었을 유전자는 특정 배열을 목표로 하여 침묵시킬 수 있다.이 시퀀스의 염기는 알킬기를 사용하여 차단되며, [17]이는 소음 효과를 생성합니다.

유전자 발현 조절은 세포 내에서 만들어지는 RNA 또는 단백질의 풍부함을 관리하는 반면, 이들 메커니즘의 조절은 DNA 가닥에서 열린 판독 프레임이 시작되기 전에 발견된 조절 배열에 의해 제어될 수 있다.그런 다음 조절 시퀀스에 따라 단백질 코딩 [18]영역에 대해 발현되는 위치와 시간이 결정됩니다.

RNA 스플라이싱은 궁극적으로 배열의 어떤 부분이 번역되고 발현되는지를 결정하며, 이 과정은 인트론을 잘라내고 엑손들을 합치는 것을 포함한다.그러나 RNA 스플라이싱의 절단부는 스플라이스 부위, 특히 스플라이싱의 [19]첫 번째 단계를 위한 기질 중 하나인 5' 스플라이싱 부위의 인식에 의해 유도된다.코딩 영역은 엑손 안에 있으며, 엑손은 공유 결합되어 성숙한 메신저 RNA를 형성합니다.

돌연변이

코딩 영역의 돌연변이는 유기체의 표현형에 매우 다양한 영향을 미칠 수 있다.DNA/RNA의 이 영역의 일부 돌연변이는 유익한 변화를 가져올 수 있지만, 다른 돌연변이는 해로울 수 있고 때로는 유기체의 생존에 치명적일 수도 있다.이와는 대조적으로 부호화 영역의 변화가 항상 표현형에 감지 가능한 변화를 초래하지는 않을 수 있다.

돌연변이 타입

코딩 영역 내에 존재할 수 있는 다양한 형태의 점 돌연변이 예.이러한 변화는 번역 [20]중에 다른 아미노산을 코드화하는지 여부에 따라 표현형 변화를 가질 수도 있고 그렇지 않을 수도 있다.

코딩 영역에는 다양한 형태의 돌연변이가 발생할 수 있습니다. 가지 형태는 사일런트 돌연변이로, 뉴클레오티드의 변화는 [21]전사와 번역 후에 아미노산의 변화를 초래하지 않는다.또한 의미 없는 돌연변이가 존재하는데, 이 돌연변이는 조기 정지 코돈에 대한 코딩 영역 코드의 염기 변화를 통해 더 짧은 최종 단백질을 생성한다. 돌연변이, 즉 코드화 영역의 단일 염기쌍 변화는 번역 중에 다른 아미노산을 코드화하는 것을 미스센스 돌연변이라고 합니다.다른 유형의 돌연변이에는 삽입 또는 [21]결실과 같은 프레임 시프트 돌연변이가 포함됩니다.

형성

어떤 돌연변이는 유전되거나 부모에서 [22]자식에게 유전된다.이러한 돌연변이 코드 영역은 유기체 내의 모든 세포에 존재한다.다른 형태의 돌연변이는 유기체의 수명 동안 획득되며(체질 돌연변이), 세포 [22]간 일정한 돌연변이는 아닐 수 있다.이러한 변화는 돌연변이, 발암물질 또는 기타 환경제(예: UV)에 의해 발생할 수 있습니다. 후천적 돌연변이는 DNA 복제복사 오류의 결과일 수도 있으며 자손에게 유전되지 않습니다.코딩 영역의 변화는 또한 새로운 것일 수 있다; 그러한 변화는 수정 직후에 일어나는 것으로 생각되며,[22] 정자와 난자 세포에 모두 없는 동안 자손의 DNA에 존재하는 돌연변이를 야기한다.

예방

코딩 영역의 유해한 돌연변이로 인한 치사성을 방지하기 위한 여러 전사 및 변환 메커니즘이 존재합니다.이러한 측정에는 복제 중 일부 DNA 중합효소에 의한 교정, 복제 [23]불일치 복구, mRNA 코돈 [24]내 3염기의 퇴화를 설명하는 '흔들림 가설' 등이 포함된다.

제약부호화영역(CCR)

한 개체의 게놈이 다른 개체의 게놈과 비교했을 때 큰 차이를 가질 수 있다는 것은 잘 알려진 사실이지만, 최근의 연구는 일부 코딩 영역이 같은 종의 개체 간에 매우 제한적이거나 돌연변이에 내성이 있다는 것을 발견했다.이는 보존된 시퀀스의 종간 제약 개념과 유사합니다.연구자들은 이 고도로 제약된 염기서열을 CCR이라고 불렀고, 또한 그러한 영역이 높은 정제 선택과 관련이 있을 수 있다는 것을 발견했다.평균적으로, 7개의 코드 염기마다 약 1개의 단백질 변화 돌연변이가 존재하지만, 일부 CCR은 관찰된 단백질 변화 돌연변이가 없는 100개 이상의 염기서열을 가질 수 있으며, 일부는 동의어 [25]돌연변이도 없다.게놈 사이의 이러한 제약 패턴은 희귀한 발달 질환의 근원이나 잠재적으로 태아 사망률에 대한 단서를 제공할 수 있다.CCR에서 임상적으로 검증된 변종과 de novo 돌연변이는 이전에 유아 간질성 뇌증, 발달 지연 및 심각한 심장 [25]질환과 관련이 있었다.

부호화 시퀀스 검출

DNA 배열 내에서 열린 판독 프레임의 식별은 간단하지만, 코딩 시퀀스를 식별하는 것은 그렇지 않다. 왜냐하면 세포는 모든 열린 판독 프레임의 서브셋만 [26]단백질로 변환하기 때문이다.현재 CDS 예측은 주어진 mRNA의 어떤 부분이 실제로 단백질로 변환되는지를 결정하는 데 여전히 문제가 있지만 세포에서 mRNA의 샘플링과 시퀀싱을 사용한다.CDS 예측은 유전자 예측의 서브셋이며, 후자는 단백질뿐만 아니라 RNA 유전자와 조절 배열과 같은 다른 기능적 요소들에 대해서도 코드하는 DNA 배열 예측을 포함한다.

원핵생물진핵생물 모두에서,[27][28] 유전자 중복은 이용 가능한 코딩 영역에서 다양한 단백질을 생산하는 능력을 유지하면서 게놈 크기를 줄이기 위한 진화적 이점으로서 DNA와 RNA 바이러스 모두에서 상대적으로 자주 발생한다.DNA와 RNA 모두에 대해 쌍별 정렬은 바이러스의 짧은 열린 읽기 프레임을 포함하여 겹치는 코딩 영역을 탐지할 수 있지만, 잠재적인 겹치는 코딩 스트랜드를 [29]비교하려면 알려진 코딩 스트랜드가 필요합니다.단일 게놈 서열을 사용하는 대체 방법은 비교를 수행하기 위해 여러 개의 게놈 서열을 필요로 하지 않지만 [30]민감하게 반응하기 위해 적어도 50개의 뉴클레오티드가 중복되어야 한다.

「 」를 참조해 주세요.

  • 코드 스트랜드 단백질을 코드하는 DNA 스트랜드
  • Exon 전사된 가닥의 전체 부분
  • 성숙한 mRNA 번역된 mRNA 전사 제품의 부분
  • 유전자 구조 유전자를 구성하는 다른 요소들
  • 중첩 유전자 전체 코드 배열은 더 큰 외부 유전자의 범위 내에 있습니다.
  • 비코드 DNA 단백질 코드 유전자를 코드하지 않는 게놈 부분
  • 비코드 RNA 단백질을 코드하지 않으므로 CDS가 없는 분자

레퍼런스

  1. ^ a b Twyman, Richard (1 August 2003). "Gene Structure". The Wellcome Trust. Archived from the original on 28 March 2007. Retrieved 6 April 2003.
  2. ^ Höglund M, Säll T, Röhme D (February 1990). "On the origin of coding sequences from random open reading frames". Journal of Molecular Evolution. 30 (2): 104–108. Bibcode:1990JMolE..30..104H. doi:10.1007/bf02099936. ISSN 0022-2844. S2CID 5978109.
  3. ^ Sakharkar MK, Chow VT, Kangueane P (2004). "Distributions of exons and introns in the human genome". In Silico Biology. 4 (4): 387–93. PMID 15217358.
  4. ^ Parnell, Laurence D. (2012-01-01). "Advances in Technologies and Study Design". In Bouchard, C.; Ordovas, J. M. (eds.). Recent Advances in Nutrigenetics and Nutrigenomics. Progress in Molecular Biology and Translational Science. Recent Advances in Nutrigenetics and Nutrigenomics. Vol. 108. Academic Press. pp. 17–50. doi:10.1016/B978-0-12-398397-8.00002-2. ISBN 9780123983978. PMID 22656372. Retrieved 2019-11-07.
  5. ^ Gilbert W (February 1978). "Why genes in pieces?". Nature. 271 (5645): 501. Bibcode:1978Natur.271..501G. doi:10.1038/271501a0. PMID 622185. S2CID 4216649.
  6. ^ (n.d.) https://www.differencebetween.com/wp-content/uploads/2017/03/Difference-Between-Transition-and-Transversion-3.png 에서 취득.
  7. ^ Lercher MJ, Urrutia AO, Pavlícek A, Hurst LD (October 2003). "A unification of mosaic structures in the human genome". Human Molecular Genetics. 12 (19): 2411–5. doi:10.1093/hmg/ddg251. PMID 12915446.
  8. ^ Oliver JL, Marín A (September 1996). "A relationship between GC content and coding-sequence length". Journal of Molecular Evolution. 43 (3): 216–23. Bibcode:1996JMolE..43..216O. doi:10.1007/pl00006080. PMID 8703087.
  9. ^ "ROSALIND Glossary Gene coding region". rosalind.info. Retrieved 2019-10-31.
  10. ^ Vinogradov AE (April 2003). "DNA helix: the importance of being GC-rich". Nucleic Acids Research. 31 (7): 1838–44. doi:10.1093/nar/gkg296. PMC 152811. PMID 12654999.
  11. ^ Bohlin J, Eldholm V, Pettersson JH, Brynildsrud O, Snipen L (February 2017). "The nucleotide composition of microbial genomes indicates differential patterns of selection on core and accessory genomes". BMC Genomics. 18 (1): 151. doi:10.1186/s12864-017-3543-7. PMC 5303225. PMID 28187704.
  12. ^ Sémon M, Mouchiroud D, Duret L (February 2005). "Relationship between gene expression and GC-content in mammals: statistical significance and biological relevance". Human Molecular Genetics. 14 (3): 421–7. doi:10.1093/hmg/ddi038. PMID 15590696.
  13. ^ a b 전사 개요(n.d.)https://www.khanacademy.org/science/biology/gene-expression-central-dogma/transcription-of-dna-into-rna/a/overview-of-transcription 에서 취득했습니다.
  14. ^ Clancy, Suzanne (2008). "Translation: DNA to mRNA to Protein". Scitable: By Nature Education.
  15. ^ Plociam (2005-08-08), English: The structure of a mature eukaryotic mRNA. A fully processed mRNA includes the 5' cap, 5' UTR, coding region, 3' UTR, and poly(A) tail., retrieved 2019-11-19
  16. ^ Shinohara K, Sasaki S, Minoshima M, Bando T, Sugiyama H (2006-02-13). "Alkylation of template strand of coding region causes effective gene silencing". Nucleic Acids Research. 34 (4): 1189–95. doi:10.1093/nar/gkl005. PMC 1383623. PMID 16500890.
  17. ^ "DNA alkylation Gene Ontology Term (GO:0006305)". www.informatics.jax.org. Retrieved 2019-10-30.
  18. ^ Shafee T, Lowe R (2017). "Eukaryotic and prokaryotic gene structure". WikiJournal of Medicine. 4 (1). doi:10.15347/wjm/2017.002.
  19. ^ Konarska MM (1998). "Recognition of the 5' splice site by the spliceosome". Acta Biochimica Polonica. 45 (4): 869–81. doi:10.18388/abp.1998_4346. PMID 10397335.
  20. ^ Jonsta247 (2013-05-10), English: Example of silent mutation, retrieved 2019-11-19
  21. ^ a b 양, J. (2016년 3월 23일)유전자 돌연변이란 무엇인가?https://www.singerinstruments.com/resource/what-are-genetic-mutation/ 에서 취득했습니다.
  22. ^ a b c 유전자 돌연변이는 무엇이며 어떻게 돌연변이가 발생하는가? - 유전학 홈 레퍼런스 - NIH. (n.d.)https://ghr.nlm.nih.gov/primer/mutationsanddisorders/genemutation 에서 취득했습니다.
  23. ^ DNA 교정 및 복구. (n.d.)https://www.khanacademy.org/science/high-school-biology/hs-molecular-genetics/hs-discovery-and-structure-of-dna/a/dna-proofreading-and-repair 에서 취득했습니다.
  24. ^ Pereto J. (2011) 흔들림 가설(유전학).인: Gargaud M. et al. (eds) 우주생물학 백과사전.스프링거, 베를린, 하이델베르크
  25. ^ a b Havrilla, J.M., Pedersen, B.S., Layer, R.M. 및 Quinlan, A.R. (2018년)인간 게놈의 제한된 코드 영역 지도입니다.Nature Genetics, 88-95. doi: 10.1101/220814
  26. ^ Furuno M, Kasukawa T, Saito R, Adachi J, Suzuki H, Baldarelli R, et al. (June 2003). "CDS annotation in full-length cDNA sequence". Genome Research. Cold Spring Harbor Laboratory Press. 13 (6B): 1478–87. doi:10.1101/gr.1060303. PMC 403693. PMID 12819146.
  27. ^ Rogozin IB, Spiridonov AN, Sorokin AV, Wolf YI, Jordan IK, Tatusov RL, Koonin EV (May 2002). "Purifying and directional selection in overlapping prokaryotic genes". Trends in Genetics. 18 (5): 228–32. doi:10.1016/S0168-9525(02)02649-5. PMID 12047938.
  28. ^ Chirico N, Vianelli A, Belshaw R (December 2010). "Why genes overlap in viruses". Proceedings. Biological Sciences. 277 (1701): 3809–17. doi:10.1098/rspb.2010.1052. PMC 2992710. PMID 20610432.
  29. ^ Firth AE, Brown CM (February 2005). "Detecting overlapping coding sequences with pairwise alignments". Bioinformatics. 21 (3): 282–92. doi:10.1093/bioinformatics/bti007. PMID 15347574.
  30. ^ Schlub TE, Buchmann JP, Holmes EC (October 2018). Malik H (ed.). "A Simple Method to Detect Candidate Overlapping Genes in Viruses Using Single Genome Sequences". Molecular Biology and Evolution. 35 (10): 2572–2581. doi:10.1093/molbev/msy155. PMC 6188560. PMID 30099499.