핵산 표기법

Nucleic acid notation

현재 사용되고 있는 핵산 표기법은 1970년 [1]국제순수응용화학연합(IUPAC)에 의해 처음 공식화됐다.일반적으로 받아들여지는 이 표기법은 디옥시리보핵산(DNA)에서 흔히 발견되는 네 개의 뉴클레오티드를 나타내기 위해 로마 문자 G, C, A, T를 사용합니다.

생물학에서 유전자 염기서열 분석, 합성 및 분석을 위한 역할이 급속히 확대되고 있는 것을 감안할 때, 일부 연구자들은 유전자 데이터의 분석과 조작을 더욱 지원하기 위해 대체 표기법을 개발했다.이러한 표기법은 일반적으로 크기, 모양 및 대칭을 이용하여 이러한 목적을 달성합니다.

IUPAC 표기법

IUPAC 축퇴 기본[2] 기호
묘사 기호. 표시된 베이스 보완적
베이스
No. A C G T
아데닌 A 1 A T
시토신 C C G
구아닌 G G C
티민 T T A
우라실 U U A
약한 W 2 A T W
강한. S C G S
아미노 M A C K
케톤 K G T M
푸린 R A G Y
피리미딘 Y C T R
A가 아니다 B 3 C G T V
C가 아니다 D A G T H
G가 아니다 H A C T D
T가[a] 아니다 V A C G B
임의의 1개의 베이스 N 4 A C G T N
- 0 -
  1. ^ RNA의 경우 U가 아님

생화학에서 퇴화 염기 기호는 여러 가지 가능한 대안을 가질 수 있는 DNA 배열 상의 위치에 대한 IUPAC[2] 표현이다.각 특정 시퀀스는 사실 정규 염기 중 하나를 가지기 때문에 이러한 염기들을 비표준 염기들과 혼동해서는 안 된다.IUPAC 퇴화 기호가 (부호화되지 않음) 마스킹되어 있더라도 정렬된 배열 모집단의 합의 시퀀스를 부호화하는 데 사용되며, 예를 들어 하나의 다중 배열로 요약하거나 BLAST 검색에 사용된다.

일반적으로 사용되는 IUPAC 체계에서, 핵산염기들은 화학명의 첫 글자로 표현된다: 구아닌, 사이토신, 아데닌, 그리고 티민.[1]또한 이 줄임말에는 네 개의 DNA [3]베이스의 가능한 모든 조합과 관련된 11개의 "모호한" 문자가 포함되어 있습니다.모호성 문자는 DNA 염기서열 오류, 합의서열 또는 단핵 다형성보고하기 위해 위치 변화를 인코딩하도록 설계되었다.모호성 문자와 제안된 니모닉을 포함한 IUPAC 표기는 표 1에 나와 있습니다.

광범위하고 거의 보편적인 수용에도 불구하고, IUPAC 시스템은 로마자에 대한 의존에서 비롯되는 많은 한계를 가지고 있다.유전자 데이터를 표시할 때 일반적으로 사용되는 대문자 로마자의 가독성이 떨어지는 것이 이러한 제한 사항의 주요 원인일 수 있습니다.글자를 구별하는 데 있어 외부 투영의 가치는 잘 [4]입증되어 있다.그러나, 이러한 투영에는 대문자 문자가 없으며, 일부 경우에는 미묘한 내부 단서로만 구분할 수 있습니다.시토신과 구아닌을 나타내기 위해 사용된 대문자 C와 G를 예로 들어보자.이러한 문자는 일반적으로 유전자 배열의 절반으로 구성되지만 작은 내부 눈금(서체에 따라)으로 구분됩니다.그럼에도 불구하고, 이러한 로마자는 텍스트 통신에서 가장 일반적으로 사용되는 ASCII 문자 집합에서 사용할 수 있으며, 이는 이 시스템의 보편성을 강화합니다.

IUPAC 표기법의 또 다른 단점은 11개의 애매한 문자가 로마자의 나머지 문자 중에서 선택되었다는 사실이다.표기법의 저자들은 논리적인 니모닉을 가진 애매한 문자를 선택하려고 노력했다.예를 들어, S는 강한 교차 사슬 결합 상호작용을 형성하는 유전자 위치에서 시토신 또는 구아닌을 찾을 가능성을 나타내기 위해 사용된다.반대로 티민과 아데닌의 약한 상호작용은 W로 나타난다.그러나 표 1에 표시된 다른 애매한 문자에 대해서는 편리한 연상법을 쉽게 사용할 수 없다.이로 인해 애매모호한 문자는 사용하기 어려워졌으며, 그 응용이 제한적일 수 있습니다.

시각적으로 강화된 대체 표기법

IUPAC 인코딩 유전자 데이터와 관련된 판독성 문제로 인해 생물학자들은 유전자 데이터를 표시하기 위한 대체 전략을 고려하게 되었다.DNA 염기서열을 시각화하는 이러한 창조적 접근법은 일반적으로 긴 핵산 염기서열을 부호화하기 위해 공간적으로 분포된 기호 및/또는 시각적으로 구별되는 형태를 사용하는 데 의존해왔다.뉴클레오티드 배열에 대한 대체 표기법이 시도되었지만, 일반적인 흡수는 낮았다.이러한 접근법 중 몇 가지는 아래에 요약되어 있습니다.

스테이브 투영

Stave Projection은 공간적으로 분산된 점을 사용하여 DNA 시퀀스의 판독성을 향상시킵니다.

1986년, 코윈 외 연구진은 스테이브 [5]프로젝션으로 알려진 DNA 서열을 시각화하는 새로운 방법을 설명했습니다.그들의 전략은 뉴클레오티드를 일련의 수평 막대 위에 있는 원으로 인코딩하는 것이었다.그림 1에서 볼 수 있듯이, 5라인의 스탭의 각 갭은 4개의 DNA 베이스 중 하나에 해당합니다.원의 공간 분포는 IUPAC 인코딩 데이터보다 개별 염기를 구별하고 유전자 염기서열을 비교하는 것을 훨씬 쉽게 만들었다.

베이스의 순서(위에서 아래로, G, A, T, C)는, 투영을 거꾸로 해 상보 스트랜드를 읽어낼 수 있도록 선택됩니다.

기하학적 기호

짐머만 외 연구진은 유전자 [6]데이터를 시각화하는 데 다른 접근법을 취했다.그들은 유전적 특징을 강조하기 위해 공간적으로 분포된 원에 의존하는 대신, 네 개의 기저를 구별하기 위해 표준 컴퓨터 글꼴에서 발견되는 기하학적으로 다양한 네 개의 기호를 이용했다.저자들은 IUPAC 문자를 시각적으로 더 뚜렷한 기호로 변환하기 위해 간단한 WordPerfect 매크로를 개발했습니다.

DNA 스카이라인

폰트 편집기의 이용이 증가함에 따라, Jarvius와 Landegren은 DNA Skyline 폰트로 알려진 새로운 유전자 기호 세트를 고안했는데, 이것은 다른 DNA [7]베이스를 나타내기 위해 점점 더 큰 블록을 사용한다.공간적으로 분산된 Cowin 의 Stave Projection을 연상시키는 한편, DNA Skyline 글꼴은 다운로드가 용이하며 대부분의 표준 워드프로세서 애플리케이션에서 글꼴을 변경하는 것만으로 IUPAC 표기법과 번역할 수 있습니다.

앰비그래픽 표기법

AmbiScript는 앰비그램을 사용하여 DNA 대칭을 반영하고 유전자 데이터의 조작과 분석을 지원합니다.

앰비그램(다른 방향으로 볼 때 다른 의미를 전달하는 기호)은 DNA [8]이중나선에서 발견되는 구조적 대칭을 반영하도록 설계되었다.상보 베이스(즉, 구아닌: b, 시토신: q, 아데닌: n 및 티민: u)에 암비그래픽 문자를 할당함으로써 텍스트를 180도 [9]회전시키는 것만으로 DNA 배열을 상보할 수 있다.또한 앰비그래픽 핵산 표기법은 엔도핵산가수분해효소 제한 부위 등 유전자 회문암을 순서를 바꾸지 않고 180도 회전할 수 있는 텍스트 섹션으로 쉽게 식별할 수 있도록 한다.

앰비그래픽 핵산 표기법의 한 예는 AmbiScript입니다.[10] AmbiScript는 전작의 많은 시각 및 기능적 특징을 결합한 합리적으로 설계된 핵산 표기법입니다.이 표기법은 또한 유전자 데이터의 시각적 검토와 분석을 용이하게 하기 위해 공간적으로 오프셋된 문자를 사용한다.AmbiScript는 또한 복합 기호를 통해 애매한 뉴클레오티드 위치를 나타내도록 설계되었습니다.이 전략은 [3]IUPAC가 최초로 제안한 애매한 문자의 사용에 대해 보다 직관적인 해결책을 제공하는 것을 목표로 했다.Jarvius 및 Landegren의 DNA Skyline 글꼴과 마찬가지로 AmbiScript 글꼴을 다운로드하여 IUPAC 인코딩 시퀀스 데이터에 적용할 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b IUPAC-IUB Commission on Biochemical Nomenclature (1970). "Abbreviations and symbols for nucleic acids, polynucleotides, and their constituents". Biochemistry. 9 (20): 4022–4027. doi:10.1021/bi00822a023.
  2. ^ a b Nomenclature Committee of the International Union of Biochemistry (NC-IUB) (1984). "Nomenclature for Incompletely Specified Bases in Nucleic Acid Sequences". Nucleic Acids Research. 13 (9): 3021–3030. doi:10.1093/nar/13.9.3021. PMC 341218. PMID 2582368.
  3. ^ a b Nomenclature Committee of the International Union of Biochemistry (NC-IUB) (1986). "Nomenclature for incompletely specified bases in nucleic acid sequences. Recommendations 1984". Proc. Natl. Acad. Sci. USA. 83 (1): 4–8. Bibcode:1986PNAS...83....4O. doi:10.1073/pnas.83.1.4. PMC 322779. PMID 2417239.
  4. ^ 1963년 M.A. 팅커인쇄의 가독성.아이오와 주립 대학 출판부, 에임스 IA.
  5. ^ Cowin, J. E.; Jellis, C. H.; Rickwood, D. (1986). "A new method of representing DNA sequences which combines ease of visual analysis with machine readability". Nucleic Acids Research. 14 (1): 509–15. doi:10.1093/nar/14.1.509. PMC 339435. PMID 3003680.
  6. ^ Zimmerman, P. A.; Spell, M. L.; Rawls, J.; Unnasch, T. R. (1991). "Transformation of DNA sequence data into geometric symbols". BioTechniques. 11 (1): 50–52. PMID 1954017.
  7. ^ Jarvius, J.; Landegren, U. (2006). "DNA Skyline: fonts to facilitate visual inspection of nucleic acid sequences". BioTechniques. 40 (6): 740. doi:10.2144/000112180. PMID 16774117.
  8. ^ Hofstadter, Douglas R. (1985). Metamagical Themas: Questioning the Essence of Mind and Pattern. New York: Basic Books. ISBN 978-0465045662.
  9. ^ Rozak, D. A. (2006). "The practical and pedagogical advantages of an ambigraphic nucleic acid notation". Nucleosides, Nucleotides & Nucleic Acids. 25 (7): 807–813. doi:10.1080/15257770600726109. PMID 16898419. S2CID 23600737.
  10. ^ Rozak, David A.; Rozak, Anthony J. (2008). "Simplicity, function, and legibility in an enhanced ambigraphic nucleic acid notation". BioTechniques. 44 (6): 811–813. doi:10.2144/000112727. PMID 18476835.