태그 SNP

Tag SNP

태그 SNPHapplotype이라 불리는 SNP의 그룹을 나타내는 높은 연계성을 가진 게놈의 영역에서 대표적인 단일 뉴클레오티드 다형성(SNP)이다. 염색체 부위의 모든 SNP에 유전자형성 없이 유전적 변화 및 표현형과의 연관성을 확인할 수 있다. 이것은 모든 개별적인 SNP를 연구할 필요가 없기 때문에 질병과 관련된 게놈 영역을 지도화하는 비용과 시간을 줄여준다. 태그 SNP는 전체 게놈에 걸쳐 수십만 개의 SNP가 유전자형인 전체 게놈 SNP 연관 연구에 유용하다.

소개

연결부 불안정

한 가족 내에서, 연계는 빨간 선으로 보이는 감수분열 중 재조합 현상에 의해 분해되는 것이 아니라 두 개의 유전자 표지자(염색체의 점)가 염색체에 연결되어 있을 때 발생한다. 개체군에서 초기 세대부터 연속적으로 늘어나는 창업 염색체들은 재조합 사건에 의해 순차적으로 크기가 감소한다. 시간이 지남에 따라 모집단의 염색체에 있는 한 쌍의 표지나 점이 불균형에서 연결 평형까지 이동하는데, 이는 결국 염색체의 가능한 모든 지점 사이에 재조합 현상이 일어나기 때문이다.[1]

2개의 로키는 그들의 유산이 독립적인 사건이라면 연결 평형(LE)에 있다고 한다. 만약 그 위치의 알레르기가 무작위로 유전되지 않는다면, 우리는 그것들이 불균형(LD)과 연관되어 있다고 말한다. LD는 유전자의 물리적 연결에 의해 가장 흔하게 발생한다. 두 유전자가 동일한 염색체에 유전될 때, 그들의 거리와 로키 사이의 재결합 가능성에 따라 그들은 높은 LD에 있을 수 있다. 그러나 LD는 서로 다른 염색체의 유전자라도 공동으로 진화한 표현형을 부여하거나 잠재적 자손의 생존 가능성에 영향을 줄 수 있는 기능적 상호작용 때문에 관찰될 수도 있다.

패밀리에서 LD는 재조합 사건의 수가 가장 적기 때문에 가장 높다. 이것은 특히 상투적인 선들 사이에서 사실이다. 개체군에서 LD는 선택, 낮은 재결합률을 유발하는 유전자의 물리적 폐쇄성 또는 최근의 교차나 이동 때문에 존재한다. 인구 수준에서 연결 불균형에 영향을 미치는 과정에는 유전적 연계, 인식적 자연 선택, 재조합 비율, 돌연변이, 유전적 표류, 무작위 짝짓기, 유전적 히치하이킹, 유전자 흐름 등이 포함된다.[2]

높은 LD로 인해 SNP 그룹이 함께 상속되면 중복 정보가 있는 경향이 있다. 이러한 그룹의 대표로 태그 SNP를 선택하면 특성/질병과 관련된 게놈의 일부를 분석할 때 중복되는 양이 감소한다.[3] 함께 유전되는 특정 SNP 집합을 포함하는 높은 LD의 게놈의 영역은 또한 happlotype으로 알려져 있다. 따라서 태그 SNP는 happlotype 내의 모든 SNP를 대표한다.

하플로타입스

태그 SNP의 선택은 게놈에 존재하는 happlotype에 의존한다. 대부분의 염기서열 분석 기술은 유전형 정보를 제공하지 않고 유전형 정보를 제공한다. 즉, 존재하는 특정 염기(각 염기들이 나타나는 특정 염기)에 대한 정보를 제공한다.[4] happlotype의 결정은 분자법(Alle Specific PCR, 체세포 하이브리드)을 통해 이루어질 수 있다. 이 방법들은 유전자형을 만들기 전에 염색체를 분리함으로써 어떤 알레르기가 어떤 염색체에 존재하는지를 구별한다. 그것들은 시간이 많이 걸리고 비용이 많이 들 수 있기 때문에 통계적 추론 방법은 덜 비싸고 자동화된 옵션으로 개발되었다. 이러한 통계적 추론 소프트웨어 패키지는 파렴치, 최대우도 및 베이시안 알고리즘을 활용하여 하플로타입을 결정한다. 통계적 추론의 단점은 추론된 하플라타입의 비율이 틀릴 수 있다는 것이다.[5]

인구차이

유전체 와이드 연관성 연구에 happlotype이 사용될 때, 연구되고 있는 모집단에 주목하는 것이 중요하다. 종종 다른 모집단의 LD 패턴이 다를 것이다. 차별화 패턴의 한 예는 아프리카에서 묘사된 인구 대 이다. 유럽 및 아시아계 인구. 인간이 아프리카에서 생겨나 유럽과 그 다음에 아시아와 아메리카 대륙으로 퍼졌기 때문에 아프리카 인구는 유전적으로 가장 다양하고 LD의 면적이 작은 반면 유럽과 아시아에 속하는 인구는 창업자 효과로 LD의 면적이 더 크다. LD 패턴이 모집단에 따라 다를 경우 Happlotype 블록의 변화로 인해 SNP가 서로 분리될 수 있다. 즉, Happlotype 블록의 대표자로서 태그 SNP는 모집단이 고유하므로 연관성 연구를 수행할 때 모집단 차이를 고려해야 한다.[6]

적용

게놈 단계 1 1000의 CHB에서 최상위 베이지 인자를 갖는 SNP의 LD 그림. 색상은 r2 지표에 따른 쌍방향 LD의 강도를 나타낸다. 별표로 표시된 SNP는 독립적인 강한 연관성을 나타낸다. 태그 SNP는 분홍색으로 그늘이 드리워져 있다.[7]

GWAS

거의 모든 성질은 유전적 영향과 환경적 영향을 모두 가지고 있다. 유전성은 우리 조상으로부터 물려받은 표현 분산의 비율이다. 연관성 연구는 표현력 발현에 대한 유전적 영향을 결정하기 위해 사용된다. 주로 유전체 영역에 질환을 매핑하는 데 사용되지만, 키, 눈 색깔 등과 같은 표현형의 유전성을 매핑하는 데도 사용할 수 있다.

게놈 전체 연관 연구(GWAS)는 단일 뉴클레오티드 다형성(SNP)을 사용하여 임상 조건과 표현형질을 가진 유전적 연관성을 식별한다.[8] 그들은 가설은 자유롭고 표현형을 표현하는 많은 개인들과 그렇지 않은 많은 사람들을 비교함으로써 특성을 조사하기 위해 전유전자적 접근법을 사용한다. GWAS의 궁극적인 목표는 누가 질병에 걸릴 위험이 있는지, 질병 감수성의 생물학적 기반이 무엇인지, 새로운 예방과 치료 전략을 만드는 데 사용할 수 있는 유전적 위험 요인을 결정하는 것이다.[1] 국립 인간 게놈 연구소유럽 생물정보학 연구소는 광범위한 표현형을 가진 수백 개의 SNP 사이의 통계적으로 유의미한 연관성을 강조하는 게놈 전체 연관 연구 카탈로그인 GWAS 카탈로그를 발간한다.[9]

애피메트릭스 칩 2개

가능한 SNP 변종 수가 많기 때문에(2015년 6월 현재 1억4900만 개 이상 ) 모든 SNP의 순서를 정하는 것은 여전히 매우 비싸다. 그렇기 때문에 GWAS는 사용자 정의 가능한 어레이(SNP)를 사용하여 태그 스냅으로 식별된 변종 중 일부만 유전자형으로 만드는 것이다. 대부분의 GWAS는 두 개의 기본 유전자형 플랫폼의 제품을 사용한다. Apfymetrix 플랫폼은 유리나 실리콘 칩에 DNA 탐침을 인쇄하여 샘플 DNA의 특정 알레르기로 혼합한다. Illumina 플랫폼은 보다 긴 DNA 시퀀스를 가진 비드 기반 기술을 사용하며 더 나은 특수성을 생산한다.[1] 두 플랫폼 모두 사전 제조된 또는 맞춤형 DNA 올리고 중 하나를 사용하여 100만 개 이상의 태그 SNP를 유전자형화할 수 있다.

게놈의 광범위한 연구는 공통의 질병이 공통의 유전적 변동에 의해 영향을 받는다는 공통 질병-공통 변종(CD/CV) 가설에 근거하고 있다. 일반적인 변형의 효과 크기(입구)는 희귀 장애에 비해 작아야 한다. 즉, 일반 SNP는 유전적 요인에 의한 분산의 극히 일부만 설명할 수 있고, 일반 질병은 작은 효과 크기의 여러 일반적 알레르기에 의해 영향을 받는다는 것을 의미한다. 또 다른 가설은 일반적인 질병은 일반적인 변종과 종합적으로 연관된 희귀한 변종에 의해 발생한다는 것이다. 이 경우 GWAS에서 생성되는 신호는 연결 불균형에서 하나 이상의 희귀한 인과 변종 사이의 간접적(합성적) 연관성이다. 태그 SNP 그룹을 선택할 때 이러한 현상이 가능하다는 것을 인식하는 것이 중요하다. 질병이 하플로타입과 관련이 있는 것으로 밝혀지면, 그 하플로타입의 일부 SNP는 그 질병과 합성 연관성을 갖게 될 것이다. 원인 SNP를 정확히 파악하려면 happlotype 블록의 선택에서 더 큰 분해능이 필요하다. 전체 게놈 염기서열 분석 기술은 빠르게 변화하고 비용이 적게 들기 때문에 인과 변형을 정확히 파악하는 데 필요한 분해능을 제공하는 현재의 유전자형 분석 기술을 대체할 가능성이 높다.

합맵

개인의 게놈 염기서열 분석은 여전히 비용이 만만치 않기 때문에, 국제 합맵 프로젝트는 인간의 게놈을 인간의 유전적 변동의 일반적인 패턴을 설명할 수 있는 하플로타입 그룹화(happlotype blocks)에 매핑하는 것을 목표로 건설되었다. 전체 게놈을 happlotype에 매핑함으로써 태그 SNPs는 유전자 연구에 의해 조사된 happlotype 블록을 나타내기 위해 식별될 수 있다. 유전자 연구를 계획할 때 고려해야 할 중요한 요소는 특정 알레르기에 의해 발생하는 빈도와 위험이다. 이러한 요인은 모집단에 따라 다를 수 있으므로 HapMap 프로젝트는 다양한 시퀀싱 기술을 사용하여 다양한 모집단의 SNP를 검색하고 분류했다. 처음에 이 프로젝트는 아프리카 출신 요루바 인구(YRI), 서유럽 출신 유타주 거주자(CEU), 일본 도쿄(JPT), 중국 베이징(CHB) 출신과 관련이 없는 한족 개인(CHB)의 서열을 따졌다. 최근에 데이터 세트가 다른 모집단을 포함하도록 확장되었다(11개 그룹)

선정 및 평가

태그 SNP 선택 단계

최대 정보 태그 SNP의 선택은 NP 완전 문제다. 그러나 알고리즘은 오차범위 내에서 대략적인 해결책을 제공하기 위해 고안될 수 있다.[12] 각 태그 SNP 선택 알고리즘을 정의하는 데 필요한 기준은 다음과 같다.

  1. 검색할 영역 정의 - 알고리즘이 대상 SNP t의 인접 N(t)에서 태그 SNP를 찾으려고 시도함
  2. 태그의 품질을 평가하기 위한 메트릭 정의 - 메트릭은 인접 N(t) 집합을 사용하여 목표 SNP t를 얼마나 잘 예측할 수 있는지, 즉 인접 N(t)의 SNP 대표로서 태그 SNP가 목표 SNP t를 얼마나 잘 예측할 수 있는지를 측정해야 한다. SNP s의 값이 동일한 happlotype에 대해서도 다른 경우, 대상 SNP t가 happlotype i와 j 쌍에 대해 서로 다른 값을 가질 확률로 정의할 수 있다. 메트릭의 정보성은 그래프 이론의 관점에서 나타낼 수 있으며, 여기서 모든 SNP s는 노드가 happlotype인 그래프 Gs로 표현된다. gs는 happlotype Hi, Hj에 대해 s의 값이 다른 경우에만 노드(i,j) 사이에 엣지를 가진다.[12]
  3. 대표적인 SNP를 찾기 위한 알고리즘 도출 - 알고리즘의 목표는 다른 모든 대상 SNP와의 각 태그 SNP 간에 최대 정보성을 가지고 선택된 태그 SNP의 최소 서브셋을 찾는 것이다.
  4. 알고리즘 검증

피쳐 선택

형상을 선택하는 방법은 필터 방법과 래퍼 방법의 두 가지 범주로 나뉜다. 필터 알고리즘은 특정 분류 방법의 사용을 가정하지 않는 일반적인 사전 처리 알고리즘이다. 반면 래퍼 알고리즘은 특정 분류기를 중심으로 형상 선택을 "wrap"하고 교차 검증을 사용하여 분류기의 정확도에 따라 형상의 하위 집합을 선택한다.[13]

태그 SNP 선택에 적합한 형상 선택 방법에는 다음 특성이 있어야 한다.

  • 많은 수의 SNP에 대해 잘 확장.
  • 분류가 SNP 선택 태그의 목표가 아니기 때문에 명시적인 클래스 라벨링을 요구하지 않으며 특정 분류자의 사용을 가정해서는 안 된다.
  • 사용자가 허용 가능한 정보 손실의 양에 따라 다른 수의 태그 SNP를 선택할 수 있도록 허용.
  • 세 가지 첫 번째 조건을 만족하는 다른 방법과 비교할 수 있는 성능을 가지고 있다.

선택 알고리즘

태그 SNP 선택을 위한 몇 가지 알고리즘이 제안되었다. 첫 번째 접근방식은 SNP 세트의 선량 측정에 기초하여 작지만 정의된 측정값의 높은 값을 얻는 SNP 하위 집합을 검색하였다. 좋은 것을 찾기 위해 모든 SNP 서브셋을 검사하는 것은 작은 데이터 집합에 대해서만 계산적으로 가능하다.

또 다른 접근방식은 주성분 분석(PCA)을 사용하여 데이터 분산의 대부분을 캡처하는 SNP의 하위 집합을 찾는다. 짧은 염색체 부위에 PCA를 반복적으로 적용하는 슬라이딩 윈도우 방식을 채용했다. 이것은 생성된 데이터를 감소시키고 또한 지수적인 검색 시간을 요구하지 않는다. 그러나 PCA 방법은 계산적으로 복잡하기 때문에 큰 염색체 데이터 집합에 적용하는 것은 불가능하다.[13]

가장 일반적으로 사용되는 접근 방식인 블록 기반 방법은 happlotype 블록 내에서 관찰되는 연결 불균형 원리를 이용한다.[12] 염색체 영역을 happlotype block으로 분할하기 위한 여러 알고리즘이 고안되었는데, 이 블록에 속하는 모든 SNP에서 염색체 부위를 happlotype blocks, LD, 4개 게메트 테스트정보 복잡성 및 태그 SNP가 선택된다. 이 알고리즘의 주요 가정은 SNP가 양알릭이라는 것이다.[14] 주된 단점은 블록의 정의가 항상 간단하지 않다는 것이다. happlotype 블록을 형성하는 기준 리스트가 있음에도 불구하고, 같은 것에 대한 합의는 없다. 또한 태그 SNP의 로컬 상관관계는 블록 간 상관관계를 무시한다.[12]

블록 기반 접근방식과 달리 블록 없는 접근방식은 블록 구조에 의존하지 않는다. SNP 주파수와 재조합 속도는 게놈마다 다른 것으로 알려져 있으며, 일부 연구에서는 보고된 최대 블록 크기보다 LD 거리가 훨씬 더 길다고 보고하였다. 인접 지역에 대해 엄격한 경계선을 설정하는 것은 바람직하지 않으며 블록 없는 접근 방식은 태그 SNP를 전체적으로 찾는다. 이것을 수행하기 위한 몇 가지 알고리즘이 있다. 하나의 알고리즘에서 비태깅 SNP는 태그 SNP의 부울 함수로 표현되며, 검색 공간을 줄이기 위해 집합 이론 기법을 사용한다. 다른 알고리즘은 비연속 블록에서 나올 수 있는 마커의 하위 집합을 검색한다. 표지판 주변으로 인해 검색공간이 줄어든다.[13]

최적화

유전자형 개인 수와 데이터베이스의 SNP 수가 증가함에 따라, 태그 SNP 선택은 계산하는 데 너무 많은 시간이 걸린다. 태그 SNP 선택 방법의 효율성을 높이기 위해 알고리즘은 먼저 양알릭인 SNP를 무시한 다음, 동일한 정보로 SNP 사이트를 그룹화하여 happlotype 매트릭스의 길이(SNP 번호)를 압축한다. happlotype을 동일한 그룹으로 분할하는 SNP 사이트를 중복 사이트라고 한다. 블록 내에서 고유한 정보를 포함하는 SNP 사이트를 NRS(비중복 사이트)라고 한다. happlotype 행렬을 더욱 압축하기 위해 알고리즘은 행렬의 모든 happlotype 유형을 구별할 수 있도록 태그 SNP를 찾아야 한다. 조인트 파티션의 개념을 이용하여 효율적인 태그 SNPs 선택 알고리즘을 제공한다.[14]

알고리즘의 정확성 검증

태그 SNP 선택 방법에 따라 교차 검증 과정에서 서로 다른 예측 방법이 사용되어 왔다. 기계학습법을 채용하여 좌회전을 예측하였다. 또 다른 접근방식은 n으로 가장 높은 상관 계수를 가진 태그 SNP에서 태그가 없는 SNP n의 가능성을 예측했다. 높은 상관 관계 태그 SNP t가 한 개 발견되면, 알레르기는 주파수가 t의 알레르 주파수와 일치하도록 할당된다. 여러 태그 지정 SNP가 n과 같은 (높은) 상관 계수를 갖는 경우, n의 공통 알레르기가 유리하다. 이 경우 예측 방법이 SNP 간 상관 계수 행렬에 PCA를 사용하는 선택 방법과 잘 일치한다는 것을 쉽게 알 수 있다.[13]

태그 SNP 선택 방법의 정확성을 평가하는 다른 방법이 있다. 정확도는 품질 측정 R2로 평가할 수 있는데, 이는 전체 SNP 집합에 걸쳐 정의된 happlotype 복사본의 실제 수와 예측이 SNP 태그 지정의 하위 집합에 기반한 happlotype 복사본의 예측 개수 사이의 연관성을 측정하는 것이다. 이 측정에서는 유전자형에서 하플라형(happloid) 데이터와 하플라형(happlotype)의 명시적 추론을 가정한다.[13]

클레이튼에 의한 또 다른 평가방법은 하플라타입의 다양성 측정에 근거한다. 다양성은 happlotype 간의 모든 쌍 비교에서 차이의 총 수로 정의된다. 한 쌍의 happlotype 간의 차이는 모든 SNP에 대한 차이의 합이다. 클레이튼의 다양성 측정은 태그 SNPs 세트가 얼마나 잘 다른 하플라 타입을 구별하는지 정의하는 데 사용될 수 있다. 이 조치는 happlotype 다양성이 제한된 happlotype 블록에만 적합하며, 복수 happlotype 블록으로 구성된 대용량 데이터 세트에 사용하는 방법은 명확하지 않다.[13]

일부 최근 작품들은 태그가 없는 SNP를 예측하기 위해 태그가 부착된 SNP를 얼마나 잘 사용할 수 있는지에 기초하여 태그 SNP 선택 알고리즘을 평가한다. 예측 정확도는 leave-one-out 또는 hold-out과 같은 교차 검증을 사용하여 결정한다. leave-one-out 교차 검증에서, 데이터 세트의 각 시퀀스에 대해 알고리즘이 데이터 세트의 나머지 부분에서 실행되어 최소 태그 지정 SNP 집합을 선택한다.[13]

도구들

태거

Tagger는 International HapMap Project와 같은 유전자형 데이터에서 태그 SNP를 평가하고 선택할 수 있는 웹 툴이다. 페어웨이즈 방식과 멀티마커 하플로타입 접근법을 활용한다. 사용자는 HapMap 유전자형 데이터나 혈통형식을 업로드할 수 있으며, 연동불균형 패턴이 계산된다. 태거 옵션을 사용하면 사용자가 염색체 랜드마크를 지정할 수 있으며, 이는 태그 SNP를 선택하기 위한 게놈의 관심 영역을 나타낸다. 그런 다음 프로그램은 탐지 범위 보고서뿐만 아니라 태그 SNP와 그들의 통계적 시험값의 목록을 만든다. 드 바커(Paul de Bakker)가 데이비드 알츠훌러(David Altshuler) 연구소와 마크 댈리(Mark Daly) 매사추세츠 종합병원 인간유전연구센터, 하버드 의과대학 연구실에서 개발했다.[15]

CLUSTAG 및 WCLUSTAG

프리웨어 CLUSTAG와 WCLUSTAG에는 염색체 영역에서 알려진 모든 SNP를 나타낼 수 있는 태그 SNP 집합을 얻기 위한 클러스터 및 세트커버 알고리즘이 있다. 프로그램은 자바와 함께 구현되며 유닉스 환경뿐 아니라 윈도 플랫폼에서도 실행할 수 있다. 그것들은 홍콩 대학의 SIO-IONG AO 외 연구진에 의해 개발되었다.[16][17]

참고 항목

참조

  1. ^ a b c d Bush, William S.; Moore, Jason H.; Lewitter, Fran; Kann, Maricel (27 December 2012). "Chapter 11: Genome-Wide Association Studies". PLOS Computational Biology. 8 (12): e1002822. doi:10.1371/journal.pcbi.1002822. PMC 3531285. PMID 23300413.
  2. ^ van der Werf, Julius. "Basics of Linkage and Gene Mapping" (PDF). Retrieved 30 April 2014.
  3. ^ Lewontin, R.C. (1988). "On measures of gametic disequilibrium". Genetics. 120 (3): 849–852. doi:10.1093/genetics/120.3.849. PMC 1203562. PMID 3224810.
  4. ^ Halperin, E.; Kimmel, G.; Shamir, R. (16 June 2005). "Tag SNP selection in genotype data for maximizing SNP prediction accuracy". Bioinformatics. 21 (Suppl 1): i195–i203. doi:10.1093/bioinformatics/bti1021. PMID 15961458.
  5. ^ Crawford, Dana C.; Nickerson, Deborah A. (2005). "Definition and Clinical Importance of Haplotypes". Annual Review of Medicine. 56 (1): 303–320. doi:10.1146/annurev.med.56.082103.104540. PMID 15660514.
  6. ^ Teo, YY; Sim, X (Apr 2010). "Patterns of linkage disequilibrium in different populations: implications and opportunities for lipid-associated loci identified from genome-wide association studies". Current Opinion in Lipidology. 21 (2): 104–15. doi:10.1097/MOL.0b013e3283369e5b. PMID 20125009. S2CID 21217250.
  7. ^ Shou, Weihua; Wang, Dazhi; Zhang, Kaiyue; Wang, Beilan; Wang, Zhimin; Shi, Jinxiu; Huang, Wei; Huang, Qingyang (26 September 2012). "Gene-Wide Characterization of Common Quantitative Trait Loci for ABCB1 mRNA Expression in Normal Liver Tissues in the Chinese Population". PLOS ONE. 7 (9): e46295. doi:10.1371/journal.pone.0046295. PMC 3458811. PMID 23050008.
  8. ^ Welter, D.; MacArthur, J.; Morales, J.; Burdett, T.; Hall, P.; Junkins, H.; Klemm, A.; Flicek, P.; Manolio, T.; Hindorff, L.; Parkinson, H. (6 December 2013). "The NHGRI GWAS Catalog, a curated resource of SNP-trait associations". Nucleic Acids Research. 42 (D1): D1001–D1006. doi:10.1093/nar/gkt1229. PMC 3965119. PMID 24316577.
  9. ^ Witte, John S.; Hoffmann, Thomas J. (2011). "Polygenic Modeling of Genome-Wide Association Studies: An Application to Prostate and Breast Cancer". OMICS: A Journal of Integrative Biology. 15 (6): 393–398. doi:10.1089/omi.2010.0090. PMC 3125548. PMID 21348634.
  10. ^ dbSNP Data Statistics. National Center for Biotechnology Information (US). 2005.
  11. ^ "dbSNP Summary".
  12. ^ a b c d Tarvo, Alex. "Tutorial on haplotype tagging" (PDF). Retrieved 1 May 2014.
  13. ^ a b c d e f g Phuong, TM; Lin, Z; Altman, RB (Apr 2006). "Choosing SNPs using feature selection". Journal of Bioinformatics and Computational Biology. 4 (2): 241–57. CiteSeerX 10.1.1.128.1909. doi:10.1109/csb.2005.22. PMID 16819782. S2CID 821959.
  14. ^ a b Chen, WP; Hung, CL; Tsai, SJ; Lin, YL (2014). "Novel and efficient tag SNPs selection algorithms". Bio-Medical Materials and Engineering. 24 (1): 1383–9. doi:10.3233/BME-130942. PMID 24212035.
  15. ^ "Tagger". Retrieved 1 May 2014.
  16. ^ "CLUSTAG". Retrieved 16 May 2014.
  17. ^ "WCLUSTAG". Retrieved 16 May 2014.