점 그림(생물정보학)

Dot plot (bioinformatics)
지역적 자기 유사성을 보여주는 휴먼진크 손가락 끝 설명 인자(GenBank ID NM_002383)의 DNA 점 그림.주 대각선은 시퀀스 자체와의 정렬을 나타내며, 주 대각선에서 벗어난 선은 시퀀스 내에서 유사하거나 반복적인 패턴을 나타낸다.

생물정보학에서 점 그림은 두 생물학적 시퀀스를 비교하고 시퀀스 정렬 후 근접 유사 영역을 식별하기 위한 그래픽 방법이다.그것은 반복적인 줄거리의 일종이다.

역사

두 단백질 또는 핵산 시퀀스 사이의 유사성을 시각화하는 한 가지 방법은 점 그림이라고 알려진 유사성 행렬을 사용하는 것이다.이것들은 1970년[1] 깁스와 맥킨타이어에 의해 소개되었으며 수직축과 수평축을 따라 비교되고 있는 단백질의 염기서열을 가진 2차원 행렬이다.두 시퀀스 사이의 유사성에 대한 단순한 시각적 표현의 경우, 매트릭스의 개별 셀은 잔여물이 동일할 경우 검은색으로 음영 처리될 수 있으므로 매트릭스 전체에 걸쳐 일치하는 시퀀스 세그먼트가 대각선 런으로 나타나도록 한다.

해석

두 시퀀스의 유사성에 대한 아이디어는 행렬에 표시된 일치 세그먼트의 수와 길이에서 얻을 수 있다.동일한 단백질은 분명히 행렬의 중앙에 대각선을 가질 것이다.시퀀스 사이의 삽입과 삭제는 이 대각선에서 중단을 야기한다.국소 유사성 또는 반복 시퀀스의 영역은 중앙 대각선 외에 추가적인 대각선 일치를 발생시킨다.이 소음을 줄이는 한 가지 방법은 음영 처리 또는 잔류물의 '투플'만 음영 처리하는 것이다. 예를 들어, 3의 튜플은 연속 3개의 잔류물에 해당한다.이는 3개의 잔류물을 우연한 기회에 연속적으로 일치시킬 확률은 단일 residue 일치에 비해 훨씬 낮기 때문에 효과적이다.

점 그림은 그래프의 x축에 한 시퀀스와 y축에 다른 시퀀스를 구성하여 두 시퀀스를 비교한다.두 시퀀스의 잔여물이 플롯의 동일한 위치에서 일치하면 해당 위치에 점이 그려진다.참고로 시퀀스는 앞뒤로 쓸 수 있지만, 두 축의 시퀀스는 같은 방향으로 작성해야 한다.또한 축의 시퀀스 방향이 도트 그림의 선의 방향을 결정한다는 점에 유의하십시오.일단 점들이 플롯이 되면, 그것들은 결합하여 선을 형성할 것이다.유사성에서의 시퀀스의 폐쇄성은 대각선이 직접적인 관계를 보여주는 곡선을 보여주는 그래프와 얼마나 가까운지 결정할 것이다.이 관계는 프레임 이동, 직접 반복, 반전 반복과 같은 특정 시퀀스 특성의 영향을 받는다.프레임 이동에는 삽입, 삭제, 돌연변이가 포함된다.이러한 형상들 중 하나의 존재 또는 복수의 형상의 존재는 시퀀스에 존재하는 형상에 따라 여러 선들이 다양한 구성 가능성으로 플로팅되도록 할 것이다.도트 그림에서 매우 다른 결과를 초래하는 특징은 저복잡성 지역/지역이 존재한다는 것이다.저복소 영역은 아미노산이 적은 순서에 있는 영역이며, 이는 다시 그 작거나 제한된 영역 내에서 중복성을 유발한다.이러한 영역은 일반적으로 대각선 주위에 있으며 점 그림의 중간에 정사각형이 있을 수도 있고 없을 수도 있다.

점 그림을 만드는 소프트웨어

  • AANCON – 점 그림의 접촉 분석.
  • D-Genies[2] – 대형 게놈의 인터랙티브 전체 게놈 도트롯 전문
  • Dotlet – 자신만의 시퀀스로 도트 그림을 구성할 수 있는 프로그램 제공.
  • 도트매처[3] – 도트 플롯(및 EMBOSS 제품군의 일부)을 생성하는 웹 도구.
  • 점도표 – RNA 시퀀스에서 도트 그림을 생성할 수 있는 쉬운(교육적인) HTML5 도구.
  • 점도표 – 전통적인 그래픽 또는 ggplot 그래픽으로 도트 그림을 신속하게 생성하는 R 패키지.
  • 도터[4] – 점 그림을 생성하려면 독립 실행형 프로그램.
  • JDotter[5] – Java 버전의 Dotter.
  • Flexidot[6] – 미학, 배치 분석 및 인쇄(Python에서 구현)를 위한 사용자 정의 및 모호성 인식 점도표 제품군
  • Gepard[7] – 짝수 게놈 척도에 적합한 도트 플롯 도구.
  • Genomdiff – 바이러스를 위한 오픈 소스 Java 도트 플롯 프로그램.
  • "분할 정렬"[8]을 위한 마지막.
  • lastz[9]laj – 게놈 정렬을 준비하고 시각화하는 프로그램.
  • yass[10] - 게놈 정렬에서 점 그림을 생성(전방 및 역방향 보완 모두)하는 웹 기반 도구.
  • 점 그림을 생성하기 위한 Seqinr – R 패키지.
  • SynMap – 광범위한 게놈 데이터베이스에 액세스할 수 있는 많은 종의 닷플롯을 생성하는 사용하기 쉬운 웹 기반 도구.비교 유전체학 플랫폼 CoGe에서 제공.
  • UGENE 도트 플롯 뷰어 – 오픈소스 도트 플롯 시각화기.
  • 알고리즘 예제소형 중형 도트 그림을 만드는 소프트웨어 도구포함한 도트 그림에 대한 일반적인 소개.

위에 나열된 도구 외에도, https://blast.ncbi.nlm.nih.gov/Blast.cgi의 NCBI Blast Server는 출력에 도트 플롯을 포함한다.

참고 항목

참조

  1. ^ Gibbs, Adrian J.; McIntyre, George A. (1970). "The Diagram, a Method for Comparing Sequences. Its Use with Amino Acid and Nucleotide Sequences". Eur. J. Biochem. 16 (1): 1–11. doi:10.1111/j.1432-1033.1970.tb01046.x. PMID 5456129.
  2. ^ Klopp, Christophe; Cabanettes, Floréal (2018-02-23). "D-GENIES : Dot plot large GENomes in an interactive, efficient and simple way". PeerJ. 6: e4958. doi:10.7287/peerj.preprints.26567v1. PMC 5991294. PMID 29888139.
  3. ^ Rice, P.; Longden, I.; Bleasby, A. (June 2000). "EMBOSS: the European Molecular Biology Open Software Suite". Trends in Genetics. 16 (6): 276–277. doi:10.1016/s0168-9525(00)02024-2. ISSN 0168-9525. PMID 10827456.
  4. ^ Sonnhammer, E. L.; Durbin, R. (1995-12-29). "A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis". Gene. 167 (1–2): GC1–10. doi:10.1016/0378-1119(95)00714-8. ISSN 0378-1119. PMID 8566757.
  5. ^ Brodie, Ryan; Roper, Rachel L.; Upton, Chris (2004-01-22). "JDotter: a Java interface to multiple dotplots generated by dotter". Bioinformatics. 20 (2): 279–281. doi:10.1093/bioinformatics/btg406. ISSN 1367-4803. PMID 14734323.
  6. ^ Seibt, Kathrin M.; Schmidt, Thomas; Heitkam, Tony (2018-10-15). "FlexiDot: Highly customizable, ambiguity-aware dotplots for visual sequence analyses". Bioinformatics. 34 (20): 3575–3577. doi:10.1093/bioinformatics/bty395. PMID 29762645.
  7. ^ Krumsiek, Jan; Arnold, Roland; Rattei, Thomas (2007-04-15). "Gepard: a rapid and sensitive tool for creating dotplots on genome scale". Bioinformatics. 23 (8): 1026–1028. doi:10.1093/bioinformatics/btm039. ISSN 1367-4803. PMID 17309896.
  8. ^ Frith MC. and Kawaguchi R. (2015). "Split-alignment of genomes finds orthologies more accurately". Genome Biol. 16: 106. doi:10.1186/s13059-015-0670-9. PMC 4464727. PMID 25994148.
  9. ^ Harris, R. S. (2007). Improved pairwise alignment of genomic DNA. Ph.D. thesis. Pennsylvania: The Pennsylvania State University.
  10. ^ Noe L., Kucherov. G. (2005). "YASS: enhancing the sensitivity of DNA similarity search". Nucleic Acids Research. 33 (2): W540–W543. doi:10.1093/nar/gki478. PMC 1160238. PMID 15980530.