k-mer
k-mer생물정보학에서 k-mer는 생물학적 순서 내에 포함된 길이 의 하위 문자열이다.주로 k-mer가 뉴클레오티드(A, T, G, C)로 구성된 연산 유전체학과 시퀀스 분석의 맥락에서 사용되며, k-mer는 DNA 시퀀스를 조립하고,[1] 이질 유전자 발현을 개선하며,[2][3] 메타게놈 표본의 종을 식별하고,[4] 감쇠한 백신을 만들기 위해 자본화된다.[5]일반적으로 k-mer라는 용어는 시퀀스 AGAT가 4개의 모노머(A, G, A, T), 3개의 2-mer(AG, GA, AT), 2개의 3-mer(AGA와 GAT) 및 1개의 4-mer(AGAT)를 가질 수 있는 길이 의 모든 시퀀스를 말한다.보다 일반적으로 길이 의 순서는 - + } 와 k total k-mer를 가지며, 서 n 은 가능한 모노머의 수(예: DNA의 경우 4개)이다.
소개
k-mer는 단순히 k 의 반복일 뿐이다.예를 들어, DNA 시퀀스의 가능한 모든 k-mer는 다음과 같다.

k | k-메르스 |
---|---|
1 | G, T, A, G, A, G, C, T, G, T |
2 | GT, TA, AG, GA, GC, CT, TG, GT |
3 | GTA, TAG, AGA, GAG, GCT, CTG, TGT |
4 | GTAG, TAGA, AGAG, GAGC, AGCT, GCTG, CTGT |
5 | GTAGA, TAGAG, AGAC, GAGCT, AGCTG, GCTGT |
6 | GTAGAG, TagAGC, AGAGCT, GAGCTG, AGCTGT |
7 | GTAGAGC, TAGAGCT, AgAGCTG, GAGCTGT |
8 | GTAGAGT, TAGAGCTG, AgAGT |
9 | GTAGAGCTG, TAGAGT |
10 | GTAGAGCTGT |
k-mer 스펙트럼인 k-mer spectrum을 시각화하는 방법은 각 k-mer의 다중성을 순차적으로 보여주는 것과 그 다중성을 가진 k-mer의 수를 비교한 것이다.[6]한 종의 게놈에 대한 k-mer 스펙트럼의 모드 수는 다양하며, 대부분의 종은 단일 분포를 가진다.[7]그러나 모든 포유류는 다종류의 분포를 가지고 있다.k-mer 스펙트럼 내의 모드 수는 게놈 영역마다 다를 수 있다. 즉, 인간은 5' UTR과 exon에는 단일 k-mer 스펙트럼이 있지만 3' UTR과 인트론에는 다중모드 스펙트럼이 있다.
DNA k-mer 주파수에 영향을 미치는 힘
k-mer 사용 빈도는 다단계에서 작용하는 수많은 힘에 의해 영향을 받는데, 이 힘은 종종 충돌한다.k 값이 높은 k-mer는 k 값이 낮은 경우에도 영향을 받는다는 점에 유의해야 한다.예를 들어 1-메르 A가 순차적으로 발생하지 않으면 A(AA, AT, AG, AC)를 포함하는 2-메르 중 어느 것도 발생하지 않으므로 다른 힘의 영향을 연결한다.
k = 1
k = 1일 때, 4개의 DNA k-mer, 즉 A, T, G, C가 있다.분자 수준에서 G와 C 사이에는 세 개의 수소 결합이 있는 반면, A와 T. GC 결합 사이에는 두 개의 수소 결합만이 있는 반면, 여분의 수소 결합(그리고 더 강한 적층 상호작용)의 결과 AT 결합보다 열적으로 안정적이다.[8]포유류와 조류는 Gs와 C 대 As와 Ts(GC-내용)의 비율이 높아 열 안정성이 GC-내용 변동의 원동력이라는 가설을 낳았다.[9]그러나, 유망한 반면, 이 가설은 정밀하게 유지되지 않았다: 다양한 원핵생물들 사이의 분석은 열적응 가설이 예측하는 것처럼 GC-함량이 온도와 상관관계에 있다는 증거를 보여주지 않았다.[10]실제로 자연 선택이 GC-함량 변동의 원동력이 된다면, 그것은 종종 침묵하는 단일 뉴클레오티드 변화가 유기체의 적합성을 변화시킬 필요가 있을 것이다.[11]
오히려 현재의 증거는 GC 편향 유전자 변환(gBGC)이 GC 함량 변동의 원동력임을 시사한다.[11] gBGC는 재결합 과정에서 Gs와 C를 As와 Ts로 대체하는 과정이다.[12]이 과정은 자연 선택과는 구별되지만 그럼에도 불구하고 게놈에 고정되어 있는 GC 대체물에 치우친 DNA에 선택적 압력을 가할 수 있다. 따라서 gBGC는 자연 선택의 "인포스터"로 볼 수 있다.예상대로, GC 콘텐츠는 재조합이 더 큰 현장에서 더 크다.[13]더욱이 재조합 비율이 높은 유기체는 gBGC 가설의 예측 효과에 따라 더 높은 GC 함량을 보인다.[14]흥미롭게도, gBGC는 eukaryotes에만 국한된 것으로 보이지 않는다.[15]박테리아와 고대와 같은 무성 생물은 유전자 변환을 통해 재조합을 경험하는데, 이는 게놈 전체에 걸쳐 동일한 여러 개의 염기서열을 생성하게 하는 동질적 염기서열 대체 과정이다.[16]그러한 재결합은 삶의 모든 영역에서 GC 콘텐츠를 증가시킬 수 있다는 것은 gBGC가 보편적으로 보존되어 있다는 것을 시사한다.gBGC가 (대부분) 생명의 분자 기계의 (중립적인) 부산물인지 아니면 그 자체가 선택되어 있는 것인지는 아직 결정되지 않았다.gBGC의 정확한 메커니즘과 진화상의 장단점은 현재 알려져 있지 않다.[17]
k = 2
GC-콘텐츠 편견을 논하는 문학의 비교적 큰 몸집에도 불구하고, 디뉴클레오티드 편향에 대해서는 비교적 거의 쓰여지지 않았다.알려진 것은 이러한 디뉴클레오티드 편견이 게놈 전체에서 비교적 일정하며, 위에서 보듯이 상당히 다양할 수 있는 GC-내용과는 달리, 이 편차는 게놈 전체에서 비교적 일정하다는 것이다.[18]이것은 간과해서는 안 될 중요한 통찰이다.만약 디뉴클레오티드 편견이 번역에 기인하는 압력의 대상이 된다면, 코딩 영역과 비코딩 영역에서 디뉴클레오티드 편향의 패턴은 일부 디뉴클레로티드의 번역 효율 감소에 의해 좌우될 것이다.[19]존재하지 않기 때문에, 따라서 이뉴클레오티드 편견을 변조하는 힘이 번역과는 무관하다고 유추할 수 있다.디뉴클레오티드 편향에 영향을 미치는 번역적 압력에 대한 추가적인 증거는, 번역 효율에 크게 의존하는 바이러스의 디뉴클레오티드 편견이 바이러스의 히잡인 숙주보다는 바이러스 계열에 의해 형성된다는 사실이다.[20]
gBGC의 GC-함량 증가에 대한 반격은 CG 억제로 메틸화 CG 디뉴클레오티드(dinucleotide)의 탈염화에 따른 CG 2-mer의 주파수를 줄여 TG로 CG를 대체함으로써 GC-함량을 감소시킨다.[21]이 상호작용은 k의 다양한 값에 대해 k-mer에 영향을 미치는 힘 사이의 상호관계를 강조한다.
디뉴클레오티드 편향에 관한 한 가지 흥미로운 사실은 그것이 유전학적으로 유사한 게놈들 사이의 "거리" 측정의 역할을 할 수 있다는 것이다.밀접한 관계가 있는 유기체 쌍의 게놈은 더 먼 관계가 있는 유기체 쌍들 사이의 쌍보다 더 유사한 디뉴클레오티드 편견을 공유한다.[18]
k = 3
DNA가 암호화하는 단백질을 만드는 데 사용되는 20개의 천연 아미노산이 있다.그러나 뉴클레오티드는 4개뿐이다.따라서 뉴클레오티드와 아미노산 사이에는 일대일 대응성이 있을 수 없다.마찬가지로, 16개의 2-mer가 있는데, 이것은 또한 모든 아미노산을 모호하게 나타내기에는 충분하지 않다.그러나 DNA에는 각각 아미노산을 고유하게 나타내기에 충분한 64개의 구별되는 3메르가 있다.이러한 겹치지 않는 3-메르를 코돈이라고 한다.각각의 코돈은 하나의 아미노산에만 매핑되는 반면, 각각의 아미노산은 여러 코돈에 의해 표현될 수 있다.따라서 동일한 아미노산 염기서열은 여러 개의 DNA 표현을 가질 수 있다.흥미롭게도, 아미노산을 위한 각각의 코돈은 같은 비율로 사용되지 않는다.[22]이것을 코돈-사용편향(CUB)이라고 한다.k = 3일 때, 진정한 3-mer 주파수와 CUB를 구별해야 한다.예를 들어, ATGCA 시퀀스에는 2개의 코돈(ATG, TGG, GGC, GCA)만 포함하면서 그 안에 4개의 3-mer 단어(ATG, TGG, GGC, GCA)가 들어 있다.단, CUB는 3 mer 사용편향(코딩 영역의 k-mer 중 ⅓이 코돈이기 때문에 ⅓까지를 설명)의 주요 추진요소로 본 섹션의 주안점이 될 것이다.
다양한 코돈의 주파수 간 정확한 변동 원인은 완전히 파악되지 않는다.코돈 선호도는 tRNA 함수와 상관관계가 있는 것으로 알려져 있으며, 보다 풍부한 tRNA와 일치하는 코돈은 그에[22] 상응하여 더 빈번하고 고도로 표현된 단백질은 더 큰 CUB를 나타낸다.[23]이는 변환 효율이나 정확도를 선택하는 것이 CUB 변동의 원동력임을 시사한다.
k = 4
디뉴클레오티드 편향에서 볼 수 있는 효과와 유사하게, 친밀하지 않은 유기체들 사이보다 친밀도 유사 유기체의 테트라뉴클레오티드 편견이 더 유사하다.[4]테트라뉴클레오티드 편향의 정확한 변동 원인은 잘 파악되지 않고 있으나, 분자 수준에서 유전적 안정성이 유지된 결과라는 가설을 세워왔다.[24]
적용들
종의 게놈, 게놈 영역 또는 시퀀스 클래스에서 k-mer 집합의 빈도는 기본 시퀀스의 "서명"으로 사용될 수 있다.이러한 주파수를 비교하는 것은 시퀀스 정렬보다 계산적으로 쉬우며, 정렬되지 않은 시퀀스 분석에서 중요한 방법이다.정렬 전 1단계 분석으로도 사용할 수 있다.
시퀀스 어셈블리

시퀀스 어셈블리에서, K-mer는 De Bruijn 그래프를 구성하는 동안 사용된다.[25][26]De Bruijn 그래프를 생성하려면 길이 L L와) 함께 각 에지에 저장된 k-mer가 다른 에지의 문자열과 L- 을 겹쳐서 정점을 생성해야 한다.차세대 시퀀싱에서 생성된 읽기는 일반적으로 생성되는 읽기 길이가 다르다.예를 들어, Illumina의 시퀀싱 기술 캡쳐 읽기 100-mer.그러나, 염기서열의 문제는 게놈에 존재하는 가능한 모든 100-메르 중 단지 작은 분수만이 실제로 생성된다는 것이다.이는 읽기 오류 때문이지만, 더 중요한 것은 시퀀싱 중에 발생하는 단순한 커버리지 구멍일 뿐이다.문제는 가능한 k-mer의 이러한 작은 분수가 De Bruijn 그래프의 주요 가정을 위반한다는 것이다. 모든 k-mer 판독값은 게놈의 인접한 k-mer를 - 1 만큼 겹쳐야 한다(가능한 k-mer가 모두 존재하지 않을 경우 발생할 수 없음).
이 문제에 대한 해결책은 이러한 k-mer 크기의 판독치를 더 작은 k-mer로 쪼개서 결과적으로 더 작은 k-mer가 게놈에 존재하는 그 작은 크기의 가능한 모든 k-mer를 나타내도록 하는 것이다.[27]게다가, k-mer를 더 작은 크기로 분할하는 것도 다른 초기 읽기 길이의 문제를 완화하는데 도움이 된다.이 예에서 5개의 판독치는 게놈의 가능한 7-메르를 모두 설명하지 못하므로 드 브루옌 그래프를 만들 수 없다.그러나, 그것들이 4-메르로 분할되었을 때, 결과적인 반복은 De Bruijn 그래프를 사용하여 게놈을 재구성하기에 충분하다.
sequence assembly에 직접 사용되는 것을 넘어, k-mer는 조합된 반복된 DNA 서열의 존재를 암시하는 과표현 k-mer를 식별하여 게놈 오조립을 검출하는 데도 사용될 수 있다.[28]또한 k-mer는 메타게노믹스 분야에서 차용한 접근법인 진핵 게놈 조립 중 박테리아 오염을 검출하는 데도 사용된다.[29][30]
k-mer 크기 선택
k-mer 크기의 선택은 시퀀스 어셈블리에 많은 다른 영향을 미친다.이러한 효과는 저크기와 대형 k-mer 사이에 큰 차이가 있다.따라서 효과의 균형을 맞추는 적절한 크기를 선택하기 위해서는 다양한 k-mer 크기에 대한 이해가 달성되어야 한다.크기에 따른 효과는 아래에 요약되어 있다.
낮은 k-mer 크기
- k-mer 크기가 작을수록 그래프에 저장된 가장자리의 양이 감소하고, 따라서 DNA 시퀀스를 저장하는 데 필요한 공간의 양을 줄이는 데 도움이 된다.
- 크기가 작으면 모든 k-mer가 중첩될 가능성이 증가하며, 따라서 De Bruijn 그래프를 구성하기 위해 필요한 재분류를 갖는다.[31]
- 그러나 더 작은 크기의 k-mer를 사용함으로써 그래프에 하나의 k-mer로 이어지는 많은 정점을 가질 위험도 있다.따라서 통과해야 할 정점의 양이 많아 경로의 모호성이 높아져 게놈의 재구성이 더욱 어려워질 것이다.
- k-mer가 작아질수록 정보가 손실된다.
- 예: AGTCGTAGGCTG의 가능성은 ACGT보다 낮으며, 따라서 더 많은 양의 정보를 보유한다(자세한 정보는 엔트로피(정보이론) 참조).
- 소형 k-mer도 작은 미세 위성이나 반복이 발생하는 DNA 내 영역을 해결할 수 없는 문제를 안고 있다.이는 소규모의 k-mer들이 완전히 반복 영역 내에 위치하는 경향이 있기 때문에 실제로 일어난 반복의 양을 판단하기가 어렵기 때문이다.
- 예) ATGTGTGTGTGTGTGTGTACG의 하위절차의 경우 16보다 작은 k-mer 크기를 선택하면 TG의 반복량이 손실된다.대부분의 k-mer들이 반복된 영역에 앉아 반복의 양을 언급하지 않고 같은 k-mer의 반복으로 그냥 버려질 수도 있기 때문이다.
더 높은 k-mer 크기
- 더 큰 크기의 k-mer를 갖게 되면 그래프에서 가장자리 수가 늘어나게 되고, 이는 결국 DNA 염기서열을 저장하는 데 필요한 메모리 양이 늘어나게 된다.
- k-mer의 크기를 늘림으로써 정점의 수 또한 감소할 것이다.이것은 그래프에서 가로지르는 경로가 줄어들기 때문에 게놈의 구성에 도움이 될 것이다.[31]
- 또한 대형 k-mer는 모든 k-mer에서 바깥쪽 정점을 가지지 않을 위험이 더 높다.이는 더 큰 k-mer가 - 만큼 다른 k-mer와 겹치지 않을 위험을 증가시키기 때문이다 따라서 읽기에서 이음매가 분리될 수 있으며, 따라서 더 많은 수의 작은 콘티그로 이어질 수 있다.
- k-mer 크기가 클수록 작은 반복 영역 문제를 완화하는 데 도움이 된다.이는 k-mer가 반복 영역과 인접한 DNA 시퀀스의 균형을 포함한다는 사실 때문에(충분히 큰 크기인 경우) 그 특정 영역의 반복 양을 해결하는 데 도움이 될 수 있다.
유전학과 게노믹스
질병과 관련하여, 디뉴클레오티드 편견이 병원성과 관련된 유전적 섬들의 검출에 적용되었다.[11]이전 연구에서도 테트라뉴클레오티드 편견이 원핵생물과[32] 진핵생물의 수평적 유전자 전이를 효과적으로 검출할 수 있다는 사실이 밝혀졌다.[33]
k-mer의 또 다른 적용 분야는 유전체학 기반 분류학이다.예를 들어, GC-콘텐츠는 중간 정도의 성공을 거둔 에르위니아 종을 구별하기 위해 사용되어 왔다.[34]분류 목적을 위해 GC-콘텐츠를 직접 사용하는 것과 유사하게 DNA의 용해 온도인 Tm을 사용하는 것이다.GC 본드는 열적으로 안정적이기 때문에 GC 함량이 높은 시퀀스는 Tm이 더 높게 나타난다.1987년에 박테리아 시스템 접근법의 조정 특별 위원회는 계통생성 종 개념의 일부로서 종 경계를 결정하는 요소로서 ΔTm을 사용할 것을 제안했지만, 이 제안이 과학계 내에서 영향력을 획득한 것으로 보이지는 않는다.[35]
유전학과 유전체학 내의 다른 응용 프로그램에는 다음이 포함된다.
- RNA-seq 데이터에서[36] RNA ISOform 정량화
- 인간 미토콘드리아 하플로그룹[37] 분류
- 게놈의[38] 재조합 사이트 검출
- k-mer 주파수 대 k-mer 깊이를[39][40] 이용한 게놈 크기 추정
- 인접지역별[41][42] CpG섬 특성분석
- 전이성 소자와[43] 같은 반복 시퀀스의 노보 검출
- 종들의 DNA [7][44]바코드
- 단백질 결합 시퀀스 모티브의[45] 특성화
- 차세대 염기서열 데이터를[46] 이용한 돌연변이 또는 다형성 확인
메타게노믹스
k-mer 주파수와 스펙트럼 변동은 분석과[47][48] 빈닝 모두를 위해 메타게노믹스에 많이 사용된다.바이닝에서 과제는 각 유기체(또는 운영 분류학 단위)에 대한 읽기 "빈"으로 시퀀싱 읽기를 분리하는 것이다.테트라(TETRA)는 메타게놈 표본을 채취해 테트라뉴클레오티드(k=4) 주파수를 기반으로 유기체에 주입하는 주목할 만한 도구다.[49]유사하게 메타게놈 바이닝에 k-mer 주파수에 의존하는 다른 도구로는 컴포스빈(k = 6),[50] PCAHIER,[51] 필로피티아(5≤k 6 6),[52][53] 클라크(k 20 20), TACOA(2≤ k ≤ 6) 등이 있다.[54]최근의 개발은 또한 k-mer를 이용한 메타게놈 바이닝에도 딥러닝을 적용했다.[55]
메타게노믹스 내의 다른 애플리케이션은 다음과 같다.
생명공학
DNA 시퀀스에서 k-mer 주파수를 수정하는 것은 변환 효율을 제어하기 위해 생명공학 용도에 광범위하게 사용되어 왔다.구체적으로는 단백질 생산률을 상향 조절하거나 하향 조절하는 데 모두 사용되어 왔다.
단백질 생산 증가와 관련하여, 불리한 디뉴클레오티드 주파수를 줄이는 것이 더 높은 단백질 합성의 비율을 산출한다.[61]또한, 코돈 사용 편견은 단백질 표현률이 더 높은 동의어 시퀀스를 만들기 위해 수정되었다.[2][3]마찬가지로 디누슬롯타이드와 코돈 최적화의 조합인 코돈 쌍 최적화는 표현력을 높이는 데도 성공적으로 사용되어 왔다.[62]
변환 효율 저감을 위해 k-mer를 가장 많이 응용한 것은 백신을 만들기 위해 바이러스를 감쇠시키는 codon-pair 조작이다.연구자들은 뎅기열을 일으키는 바이러스인 뎅기 바이러스를 재코딩할 수 있었는데, 이는 코돈-페어 편향이 야생형보다 포유류 코돈-사용 선호도와 더 다를 수 있다.[63]동일한 아미노산 염기서열을 포함하고 있음에도 불구하고, 재코딩된 바이러스는 강한 면역 반응을 이끌어내면서 현저하게 약화된 병원체를 보여주었다.이 접근법은 또한 인플루엔자 백신뿐만[64] 아니라 마렉의 질병 헤르페스바이러스(MDV) 백신을 만드는데 효과적으로 사용되어 왔다.[65]특히 MDV를 감쇠시키기 위해 사용된 코돈-페어 편향 조작은 바이러스의 유전성을 효과적으로 감소시키지 못하여 이 접근방식의 생명공학 적용의 잠재적 약점을 부각시켰다.현재까지 사용이 승인된 코돈페어 최적화 백신은 없다.
나중에 나온 두 기사는 코돈-페어 탈최적화의 기초가 되는 실제 메커니즘을 설명하는데 도움이 된다: 코돈-페어 편향은 디뉴클레오티드 편향의 결과물이다.[66][67]바이러스와 바이러스의 숙주를 연구함으로써, 두 저자는 바이러스의 감쇄를 초래하는 분자 메커니즘이 번역에 적합하지 않은 디뉴클레오티드의 증가라는 결론을 내릴 수 있었다.
GC 함량은 DNA 용해 지점에 대한 영향 때문에 또 다른 중요한 생명공학 도구인 PCR의 어닐링 온도를 예측하는 데 사용된다.
실행
가성음
읽기 가능한 k-mer를 결정하는 것은 단순히 문자열 길이를 하나씩 순환하고 길이 의 각 하위 문자열을 꺼내면 된다이를 달성하기 위한 유사코드는 다음과 같다.
procedure k-mers(string seq, integer k) is L ← length(seq) arr ← new array of L − k + 1 empty strings // iterate over the number of k-mers in seq, // storing the nth k-mer in the output array for n ← 0 to L − k + 1 exclusive do arr[n] ← subsequence of seq from letter n inclusive to letter n + k exclusive return arr
생물정보학 파이프라인에서
k의 값에 대해서는 k-mer의 수가 기하급수적으로 증가하기 때문에, k의 큰 값(보통 >10)에 k-mer를 세는 것은 계산적으로 어려운 작업이다.위의 가성 코드와 같은 간단한 구현은 k의 작은 값에는 효과가 있지만, 높은 처리량 애플리케이션이나 k가 클 때는 적응할 필요가 있다.이 문제를 해결하기 위해 다음과 같은 다양한 도구가 개발되었다.
- 해파리는 k-mer 계산에 다중 스레드, 잠금 없는 해시 테이블을 사용하며 파이썬, 루비, 펄 바인딩이[68] 있다.
- KMC는 최적의 속도를[69] 위해 멀티디스크 아키텍처를 사용하는 k-mer 계산 툴이다.
- Gerbil은 해시 테이블 접근 방식을 사용하지만 GPU 가속화에[70] 대한 지원이 추가됨
- K-mer Analysis Toolkit(KAT)은 수정된 버전의 젤리피쉬를 사용하여 k-mer 카운트를[6] 분석한다.
참고 항목
참조
이 글의 일부 내용은 Creative Commons Attribution 2.5 Generic(CC BY 2.5) 라이센스로 제공되는 PLOS wiki의 K-mer에서 복사한 것이다.
- ^ Compeau, Phillip E C; Pevzner, Pavel A; Tesler, Glenn (November 2011). "How to apply de Bruijn graphs to genome assembly". Nature Biotechnology. 29 (11): 987–991. doi:10.1038/nbt.2023. ISSN 1087-0156. PMC 5531759. PMID 22068540.
- ^ a b Welch, Mark; Govindarajan, Sridhar; Ness, Jon E.; Villalobos, Alan; Gurney, Austin; Minshull, Jeremy; Gustafsson, Claes (2009-09-14). Kudla, Grzegorz (ed.). "Design Parameters to Control Synthetic Gene Expression in Escherichia coli". PLOS ONE. 4 (9): e7002. Bibcode:2009PLoSO...4.7002W. doi:10.1371/journal.pone.0007002. ISSN 1932-6203. PMC 2736378. PMID 19759823.
- ^ a b Gustafsson, Claes; Govindarajan, Sridhar; Minshull, Jeremy (July 2004). "Codon bias and heterologous protein expression". Trends in Biotechnology. 22 (7): 346–353. doi:10.1016/j.tibtech.2004.04.006. PMID 15245907.
- ^ a b Perry, Scott C.; Beiko, Robert G. (2010-01-01). "Distinguishing Microbial Genome Fragments Based on Their Composition: Evolutionary and Comparative Genomic Perspectives". Genome Biology and Evolution. 2: 117–131. doi:10.1093/gbe/evq004. ISSN 1759-6653. PMC 2839357. PMID 20333228.
- ^ Eschke, Kathrin; Trimpert, Jakob; Osterrieder, Nikolaus; Kunec, Dusan (2018-01-29). Mocarski, Edward (ed.). "Attenuation of a very virulent Marek's disease herpesvirus (MDV) by codon pair bias deoptimization". PLOS Pathogens. 14 (1): e1006857. doi:10.1371/journal.ppat.1006857. ISSN 1553-7374. PMC 5805365. PMID 29377958.
- ^ a b Mapleson, Daniel; Garcia Accinelli, Gonzalo; Kettleborough, George; Wright, Jonathan; Clavijo, Bernardo J. (2016-10-22). "KAT: a K-mer analysis toolkit to quality control NGS datasets and genome assemblies". Bioinformatics. 33 (4): 574–576. doi:10.1093/bioinformatics/btw663. ISSN 1367-4803. PMC 5408915. PMID 27797770.
- ^ a b Chor, Benny; Horn, David; Goldman, Nick; Levy, Yaron; Massingham, Tim (2009). "Genomic DNA k-mer spectra: models and modalities". Genome Biology. 10 (10): R108. doi:10.1186/gb-2009-10-10-r108. ISSN 1465-6906. PMC 2784323. PMID 19814784.
- ^ Yakovchuk, P. (2006-01-30). "Base-stacking and base-pairing contributions into thermal stability of the DNA double helix". Nucleic Acids Research. 34 (2): 564–574. doi:10.1093/nar/gkj454. ISSN 0305-1048. PMC 1360284. PMID 16449200.
- ^ Bernardi, Giorgio (January 2000). "Isochores and the evolutionary genomics of vertebrates". Gene. 241 (1): 3–17. doi:10.1016/S0378-1119(99)00485-0. PMID 10607893.
- ^ Hurst, Laurence D.; Merchant, Alexa R. (2001-03-07). "High guanine–cytosine content is not an adaptation to high temperature: a comparative analysis amongst prokaryotes". Proceedings of the Royal Society B: Biological Sciences. 268 (1466): 493–497. doi:10.1098/rspb.2000.1397. ISSN 1471-2954. PMC 1088632. PMID 11296861.
- ^ a b c Mugal, Carina F.; Weber, Claudia C.; Ellegren, Hans (December 2015). "GC-biased gene conversion links the recombination landscape and demography to genomic base composition: GC-biased gene conversion drives genomic base composition across a wide range of species". BioEssays. 37 (12): 1317–1326. doi:10.1002/bies.201500058. PMID 26445215. S2CID 21843897.
- ^ Romiguier, Jonathan; Roux, Camille (2017-02-15). "Analytical Biases Associated with GC-Content in Molecular Evolution". Frontiers in Genetics. 8: 16. doi:10.3389/fgene.2017.00016. ISSN 1664-8021. PMC 5309256. PMID 28261263.
- ^ Spencer, C.C.A. (2006-08-01). "Human polymorphism around recombination hotspots: Figure 1". Biochemical Society Transactions. 34 (4): 535–536. doi:10.1042/BST0340535. ISSN 0300-5127. PMID 16856853.
- ^ Weber, Claudia C; Boussau, Bastien; Romiguier, Jonathan; Jarvis, Erich D; Ellegren, Hans (December 2014). "Evidence for GC-biased gene conversion as a driver of between-lineage differences in avian base composition". Genome Biology. 15 (12): 549. doi:10.1186/s13059-014-0549-1. ISSN 1474-760X. PMC 4290106. PMID 25496599.
- ^ Lassalle, Florent; Périan, Séverine; Bataillon, Thomas; Nesme, Xavier; Duret, Laurent; Daubin, Vincent (2015-02-06). Petrov, Dmitri A. (ed.). "GC-Content Evolution in Bacterial Genomes: The Biased Gene Conversion Hypothesis Expands". PLOS Genetics. 11 (2): e1004941. doi:10.1371/journal.pgen.1004941. ISSN 1553-7404. PMC 4450053. PMID 25659072.
- ^ Santoyo, G; Romero, D (April 2005). "Gene conversion and concerted evolution in bacterial genomes". FEMS Microbiology Reviews. 29 (2): 169–183. doi:10.1016/j.femsre.2004.10.004. PMID 15808740.
- ^ Bhérer, Claude; Auton, Adam (2014-06-16), John Wiley & Sons Ltd (ed.), "Biased Gene Conversion and Its Impact on Genome Evolution", eLS, John Wiley & Sons, Ltd, doi:10.1002/9780470015902.a0020834.pub2, ISBN 9780470015902
- ^ a b Karlin, Samuel (October 1998). "Global dinucleotide signatures and analysis of genomic heterogeneity". Current Opinion in Microbiology. 1 (5): 598–610. doi:10.1016/S1369-5274(98)80095-7. PMID 10066522.
- ^ Beutler, E.; Gelbart, T.; Han, J. H.; Koziol, J. A.; Beutler, B. (1989-01-01). "Evolution of the genome and the genetic code: selection at the dinucleotide level by methylation and polyribonucleotide cleavage". Proceedings of the National Academy of Sciences. 86 (1): 192–196. Bibcode:1989PNAS...86..192B. doi:10.1073/pnas.86.1.192. ISSN 0027-8424. PMC 286430. PMID 2463621.
- ^ Di Giallonardo, Francesca; Schlub, Timothy E.; Shi, Mang; Holmes, Edward C. (2017-04-15). Dermody, Terence S. (ed.). "Dinucleotide Composition in Animal RNA Viruses Is Shaped More by Virus Family than by Host Species". Journal of Virology. 91 (8). doi:10.1128/JVI.02381-16. ISSN 0022-538X. PMC 5375695. PMID 28148785.
- ^ Żemojtel, Tomasz; kiełbasa, Szymon M.; Arndt, Peter F.; Behrens, Sarah; Bourque, Guillaume; Vingron, Martin (2011-01-01). "CpG Deamination Creates Transcription Factor–Binding Sites with High Efficiency". Genome Biology and Evolution. 3: 1304–1311. doi:10.1093/gbe/evr107. ISSN 1759-6653. PMC 3228489. PMID 22016335.
- ^ a b Hershberg, R; Petrov, DA (2008). "Selection on Codon Bias". Annual Review of Genetics. 42: 287–299. doi:10.1146/annurev.genet.42.110807.091442. PMID 18983258.
- ^ Sharp, Paul M.; Li, Wen-Hsiung (1987). "The codon adaptation index-a measure of directional synonymous codon usage bias, and its potential applications". Nucleic Acids Research. 15 (3): 1281–1295. doi:10.1093/nar/15.3.1281. ISSN 0305-1048. PMC 340524. PMID 3547335.
- ^ Noble, Peter A.; Citek, Robert W.; Ogunseitan, Oladele A. (April 1998). "Tetranucleotide frequencies in microbial genomes". Electrophoresis. 19 (4): 528–535. doi:10.1002/elps.1150190412. ISSN 0173-0835. PMID 9588798. S2CID 9539686.
- ^ Nagarajan, Niranjan; Pop, Mihai (2013). "Sequence assembly demystified". Nature Reviews Genetics. 14 (3): 157–167. doi:10.1038/nrg3367. ISSN 1471-0056. PMID 23358380. S2CID 3519991.
- ^ Li; et al. (2010). "De novo assembly of human genomes with massively parallel short read sequencing". Genome Research. 20 (2): 265–272. doi:10.1101/gr.097261.109. PMC 2813482. PMID 20019144.
- ^ Compeau, P.; Pevzner, P.; Teslar, G. (2011). "How to apply de Bruijn graphs to genome assembly". Nature Biotechnology. 29 (11): 987–991. doi:10.1038/nbt.2023. PMC 5531759. PMID 22068540.
- ^ Phillippy, Schatz, Pop (2008). "Genome assembly forensics: finding the elusive mis-assembly". Bioinformatics. 9 (3): R55. doi:10.1186/gb-2008-9-3-r55. PMC 2397507. PMID 18341692.
{{cite journal}}
: CS1 maint : 복수이름 : 작성자 목록(링크) - ^ Delmont, Eren (2016). "Identifying contamination with advanced visualization and analysis practices: metagenomic approaches for eukaryotic genome assemblies". PeerJ. 4: e1839. doi:10.7717/peerj.1839. PMC 4824900. PMID 27069789.
- ^ Bemm; et al. (2016). "Genome of a tardigrade: Horizontal gene transfer or bacterial contamination?". Proceedings of the National Academy of Sciences. 113 (22): E3054–E3056. doi:10.1073/pnas.1525116113. PMC 4896698. PMID 27173902.
- ^ a b Zerbino, Daniel R.; Birney, Ewan (2008). "Velvet: algorithms for de novo short read assembly using de Bruijn graphs". Genome Research. 18 (5): 821–829. doi:10.1101/gr.074492.107. PMC 2336801. PMID 18349386.
- ^ Goodur, Haswanee D.; Ramtohul, Vyasanand; Baichoo, Shakuntala (2012-11-11). "GIDT — A tool for the identification and visualization of genomic islands in prokaryotic organisms". 2012 IEEE 12th International Conference on Bioinformatics & Bioengineering (BIBE): 58–63. doi:10.1109/bibe.2012.6399707. ISBN 978-1-4673-4358-9. S2CID 6368495.
- ^ Jaron, K. S.; Moravec, J. C.; Martinkova, N. (2014-04-15). "SigHunt: horizontal gene transfer finder optimized for eukaryotic genomes". Bioinformatics. 30 (8): 1081–1086. doi:10.1093/bioinformatics/btt727. ISSN 1367-4803. PMID 24371153.
- ^ Starr, M. P.; Mandel, M. (1969-04-01). "DNA Base Composition and Taxonomy of Phytopathogenic and Other Enterobacteria". Journal of General Microbiology. 56 (1): 113–123. doi:10.1099/00221287-56-1-113. ISSN 0022-1287. PMID 5787000.
- ^ Moore, W. E. C.; Stackebrandt, E.; Kandler, O.; Colwell, R. R.; Krichevsky, M. I.; Truper, H. G.; Murray, R. G. E.; Wayne, L. G.; Grimont, P. A. D. (1987-10-01). "Report of the Ad Hoc Committee on Reconciliation of Approaches to Bacterial Systematics". International Journal of Systematic and Evolutionary Microbiology. 37 (4): 463–464. doi:10.1099/00207713-37-4-463. ISSN 1466-5026.
- ^ Patro, Mount, Kingsford (2014). "Sailfish enables alignment-free isoform quantification from RNA-seq reads using lightweight algorithms". Nature Biotechnology. 32 (5): 462–464. arXiv:1308.3700. doi:10.1038/nbt.2862. PMC 4077321. PMID 24752080.
{{cite journal}}
: CS1 maint : 복수이름 : 작성자 목록(링크) - ^ Navarro-Gomez; et al. (2015). "Phy-Mer: a novel alignment-free and reference-independent mitochondrial haplogroup classifier". Bioinformatics. 31 (8): 1310–1312. doi:10.1093/bioinformatics/btu825. PMC 4393525. PMID 25505086.
- ^ Wang, Rong; Xu, Yong; Liu, Bin (2016). "Recombination spot identification Based on gapped k-mers". Scientific Reports. 6 (1): 23934. Bibcode:2016NatSR...623934W. doi:10.1038/srep23934. ISSN 2045-2322. PMC 4814916. PMID 27030570.
- ^ Hozza, Michal; Vinař, Tomáš; Brejová, Broňa (2015), Iliopoulos, Costas; Puglisi, Simon; Yilmaz, Emine (eds.), "How Big is that Genome? Estimating Genome Size and Coverage from k-mer Abundance Spectra", String Processing and Information Retrieval, Springer International Publishing, vol. 9309, pp. 199–209, doi:10.1007/978-3-319-23826-5_20, ISBN 9783319238258
- ^ Lamichhaney, Sangeet; Fan, Guangyi; Widemo, Fredrik; Gunnarsson, Ulrika; Thalmann, Doreen Schwochow; Hoeppner, Marc P; Kerje, Susanne; Gustafson, Ulla; Shi, Chengcheng (2016). "Structural genomic changes underlie alternative reproductive strategies in the ruff (Philomachus pugnax)". Nature Genetics. 48 (1): 84–88. doi:10.1038/ng.3430. ISSN 1061-4036. PMID 26569123.
- ^ Chae; et al. (2013). "Comparative analysis using K-mer and K-flank patterns provides evidence for CpG island sequence evolution in mammalian genomes". Nucleic Acids Research. 41 (9): 4783–4791. doi:10.1093/nar/gkt144. PMC 3643570. PMID 23519616.
- ^ Mohamed Hashim, Abdullah (2015). "Rare k-mer DNA: Identification of sequence motifs and prediction of CpG island and promoter". Journal of Theoretical Biology. 387: 88–100. Bibcode:2015JThBi.387...88M. doi:10.1016/j.jtbi.2015.09.014. PMID 26427337.
- ^ Price, Jones, Pevzner (2005). "De novo identification of repeat families in large genomes". Bioinformatics. 21(supp 1): i351–8. doi:10.1093/bioinformatics/bti1018. PMID 15961478.
{{cite journal}}
: CS1 maint : 복수이름 : 작성자 목록(링크) - ^ Meher, Prabina Kumar; Sahu, Tanmaya Kumar; Rao, A.R. (2016). "Identification of species based on DNA barcode using k-mer feature vector and Random forest classifier". Gene. 592 (2): 316–324. doi:10.1016/j.gene.2016.07.010. PMID 27393648.
- ^ Newburger, Bulyk (2009). "UniPROBE: an online database of protein binding microarray data on protein–DNA interactions". Nucleic Acids Research. 37(supp 1) (Database issue): D77–82. doi:10.1093/nar/gkn660. PMC 2686578. PMID 18842628.
- ^ Nordstrom; et al. (2013). "Mutation identification by direct comparison of whole-genome sequencing data from mutant and wild-type individuals using k-mers". Nature Biotechnology. 31 (4): 325–330. doi:10.1038/nbt.2515. PMID 23475072.
- ^ Zhu, Jianfeng; Zheng, Wei-Mou (2014). "Self-organizing approach for meta-genomes". Computational Biology and Chemistry. 53: 118–124. doi:10.1016/j.compbiolchem.2014.08.016. PMID 25213854.
- ^ Dubinkina; Ischenko; Ulyantsev; Tyakht; Alexeev (2016). "Assessment of k-mer spectrum applicability for metagenomic dissimilarity analysis". BMC Bioinformatics. 17: 38. doi:10.1186/s12859-015-0875-7. PMC 4715287. PMID 26774270.
- ^ Teeling, H; Waldmann, J; Lombardot, T; Bauer, M; Glöckner, F (2004). "TETRA: a web-service and a stand-alone program for the analysis and comparison of tetranucleotide usage patterns in DNA sequences". BMC Bioinformatics. 5: 163. doi:10.1186/1471-2105-5-163. PMC 529438. PMID 15507136.
- ^ Chatterji, Sourav; Yamazaki, Ichitaro; Bai, Zhaojun; Eisen, Jonathan A. (2008), Vingron, Martin; Wong, Limsoon (eds.), "CompostBin: A DNA Composition-Based Algorithm for Binning Environmental Shotgun Reads", Research in Computational Molecular Biology, Springer Berlin Heidelberg, vol. 4955, pp. 17–28, arXiv:0708.3098, doi:10.1007/978-3-540-78839-3_3, ISBN 9783540788386, S2CID 7832512
- ^ Zheng, Hao; Wu, Hongwei (2010). "Short Prokaryotic DNA Fragment Binning Using a Hierarchical Classifier Based on Linear Discriminant Analysis and Principal Component Analysis". Journal of Bioinformatics and Computational Biology. 08 (6): 995–1011. doi:10.1142/S0219720010005051. ISSN 0219-7200. PMID 21121023.
- ^ McHardy, Alice Carolyn; Martín, Héctor García; Tsirigos, Aristotelis; Hugenholtz, Philip; Rigoutsos, Isidore (2007). "Accurate phylogenetic classification of variable-length DNA fragments". Nature Methods. 4 (1): 63–72. doi:10.1038/nmeth976. ISSN 1548-7091. PMID 17179938. S2CID 28797816.
- ^ Ounit, Rachid; Wanamaker, Steve; Close, Timothy J; Lonardi, Stefano (2015). "CLARK: fast and accurate classification of metagenomic and genomic sequences using discriminative k-mers". BMC Genomics. 16 (1): 236. doi:10.1186/s12864-015-1419-2. ISSN 1471-2164. PMC 4428112. PMID 25879410.
- ^ Diaz, Naryttza N; Krause, Lutz; Goesmann, Alexander; Niehaus, Karsten; Nattkemper, Tim W (2009). "TACOA – Taxonomic classification of environmental genomic fragments using a kernelized nearest neighbor approach". BMC Bioinformatics. 10 (1): 56. doi:10.1186/1471-2105-10-56. ISSN 1471-2105. PMC 2653487. PMID 19210774.
- ^ Fiannaca, Antonino; La Paglia, Laura; La Rosa, Massimo; Lo Bosco, Giosue’; Renda, Giovanni; Rizzo, Riccardo; Gaglio, Salvatore; Urso, Alfonso (2018). "Deep learning models for bacteria taxonomic classification of metagenomic data". BMC Bioinformatics. 19 (S7): 198. doi:10.1186/s12859-018-2182-6. ISSN 1471-2105. PMC 6069770. PMID 30066629.
- ^ Zhu, Zheng (2014). "Self-organizing approach for meta-genomes". Computational Biology and Chemistry. 53: 118–124. doi:10.1016/j.compbiolchem.2014.08.016. PMID 25213854.
- ^ Lu, Jennifer; Breitwieser, Florian P.; Thielen, Peter; Salzberg, Steven L. (2017-01-02). "Bracken: estimating species abundance in metagenomics data". PeerJ Computer Science. 3: e104. doi:10.7717/peerj-cs.104. ISSN 2376-5992.
- ^ Wood, Derrick E; Salzberg, Steven L (2014). "Kraken: ultrafast metagenomic sequence classification using exact alignments". Genome Biology. 15 (3): R46. doi:10.1186/gb-2014-15-3-r46. ISSN 1465-6906. PMC 4053813. PMID 24580807.
- ^ Rosen, Gail; Garbarine, Elaine; Caseiro, Diamantino; Polikar, Robi; Sokhansanj, Bahrad (2008). "Metagenome Fragment Classification Using -Mer Frequency Profiles". Advances in Bioinformatics. 2008: 205969. doi:10.1155/2008/205969. ISSN 1687-8027. PMC 2777009. PMID 19956701.
- ^ Wang, Ying; Fu, Lei; Ren, Jie; Yu, Zhaoxia; Chen, Ting; Sun, Fengzhu (2018-05-03). "Identifying Group-Specific Sequences for Microbial Communities Using Long k-mer Sequence Signatures". Frontiers in Microbiology. 9: 872. doi:10.3389/fmicb.2018.00872. ISSN 1664-302X. PMC 5943621. PMID 29774017.
- ^ Al-Saif, Maher; Khabar, Khalid SA (2012). "UU/UA Dinucleotide Frequency Reduction in Coding Regions Results in Increased mRNA Stability and Protein Expression". Molecular Therapy. 20 (5): 954–959. doi:10.1038/mt.2012.29. PMC 3345983. PMID 22434136.
- ^ Trinh, R; Gurbaxani, B; Morrison, SL; Seyfzadeh, M (2004). "Optimization of codon pair use within the (GGGGS)3 linker sequence results in enhanced protein expression". Molecular Immunology. 40 (10): 717–722. doi:10.1016/j.molimm.2003.08.006. PMID 14644097.
- ^ Shen, Sam H.; Stauft, Charles B.; Gorbatsevych, Oleksandr; Song, Yutong; Ward, Charles B.; Yurovsky, Alisa; Mueller, Steffen; Futcher, Bruce; Wimmer, Eckard (2015-04-14). "Large-scale recoding of an arbovirus genome to rebalance its insect versus mammalian preference". Proceedings of the National Academy of Sciences. 112 (15): 4749–4754. Bibcode:2015PNAS..112.4749S. doi:10.1073/pnas.1502864112. ISSN 0027-8424. PMC 4403163. PMID 25825721.
- ^ Kaplan, Bryan S.; Souza, Carine K.; Gauger, Phillip C.; Stauft, Charles B.; Robert Coleman, J.; Mueller, Steffen; Vincent, Amy L. (2018). "Vaccination of pigs with a codon-pair bias de-optimized live attenuated influenza vaccine protects from homologous challenge". Vaccine. 36 (8): 1101–1107. doi:10.1016/j.vaccine.2018.01.027. PMID 29366707.
- ^ Eschke, Kathrin; Trimpert, Jakob; Osterrieder, Nikolaus; Kunec, Dusan (2018-01-29). Mocarski, Edward (ed.). "Attenuation of a very virulent Marek's disease herpesvirus (MDV) by codon pair bias deoptimization". PLOS Pathogens. 14 (1): e1006857. doi:10.1371/journal.ppat.1006857. ISSN 1553-7374. PMC 5805365. PMID 29377958.
- ^ Kunec, Dusan; Osterrieder, Nikolaus (2016). "Codon Pair Bias Is a Direct Consequence of Dinucleotide Bias". Cell Reports. 14 (1): 55–67. doi:10.1016/j.celrep.2015.12.011. PMID 26725119.
- ^ Tulloch, Fiona; Atkinson, Nicky J; Evans, David J; Ryan, Martin D; Simmonds, Peter (2014-12-09). "RNA virus attenuation by codon pair deoptimisation is an artefact of increases in CpG/UpA dinucleotide frequencies". eLife. 3: e04531. doi:10.7554/eLife.04531. ISSN 2050-084X. PMC 4383024. PMID 25490153.
- ^ Marçais, Guillaume; Kingsford, Carl (2011-03-15). "A fast, lock-free approach for efficient parallel counting of occurrences of k-mers". Bioinformatics. 27 (6): 764–770. doi:10.1093/bioinformatics/btr011. ISSN 1460-2059. PMC 3051319. PMID 21217122.
- ^ Deorowicz, Sebastian; Kokot, Marek; Grabowski, Szymon; Debudaj-Grabysz, Agnieszka (2015-05-15). "KMC 2: fast and resource-frugal k-mer counting". Bioinformatics. 31 (10): 1569–1576. doi:10.1093/bioinformatics/btv022. ISSN 1460-2059. PMID 25609798.
- ^ Erbert, Marius; Rechner, Steffen; Müller-Hannemann, Matthias (2017). "Gerbil: a fast and memory-efficient k-mer counter with GPU-support". Algorithms for Molecular Biology. 12 (1): 9. doi:10.1186/s13015-017-0097-9. ISSN 1748-7188. PMC 5374613. PMID 28373894.