클러스터

Clustal
클러스터
개발자
안정된 릴리스
1.2.2 / 2016년 7월 1일, 6년 전(2016-07-01)
기입처C++
운영 체제UNIX, Linux, MacOS, MS-Windows, FreeBSD, Debian
유형바이오 인포매틱스 툴
라이선스GNU General Public License 버전[1] 2
웹 사이트www.clustal.org/omega/

클러스터링(clusteral)은 다중 배열 [2]정렬을 위해 생체 정보학에서 널리 사용되는 일련의 컴퓨터 프로그램입니다.아래에 열거된 알고리즘의 개발에는 많은 버전의 클러스터가 있습니다.각 툴의 분석과 알고리즘도 각각의 카테고리에 상세하게 기술되어 있다.사이드바에 기재되어 있는 사용 가능한 운영체제는 소프트웨어의 가용성을 조합한 것으로 현재 버전의 Clusteral 툴에 따라서는 지원되지 않을 수 있습니다.Clusteral Omega는 모든 Clusteral 도구 중에서 가장 다양한 운영 체제를 보유하고 있습니다.

ClusteralW로 생성된 CDK4 단백질의 다중 배열.화살표는 점 돌연변이를 나타냅니다.

역사

Clusteral 소프트웨어에는 다음과 같은 다양한 종류가 있습니다.

  • 클러스터:1988년 De Higgins에 의해 만들어진 다중 배열 정렬의 원래 소프트웨어는 아미노산 또는 뉴클레오티드의 [3]쌍별 배열에서 계통수를 도출하는 것에 기초했다.
  • 클러스터 V:Clusteral 소프트웨어의 2세대는 1992년에 출시되었으며 원래의 Clusteral 패키지를 다시 쓴 것입니다.또한 최종 선형에 대한 계통수 재구성, 기존 선형에서 선형을 작성하는 기능 및 인접 [4]결합이라는 방법을 사용하여 선형에서 트리를 작성하는 옵션이 도입되었습니다.
  • 클러스터화:1994년에 출시된 3세대는 이전 버전에 비해 크게 개선되었다.이는 부분 정렬에서 각각 유사성 또는 확산에 따라 개별 시퀀스를 하향 또는 상향으로 가중할 수 있도록 하는 등 다양한 방법으로 점진적 정렬 알고리즘을 개선했다.또한 명령줄에서 [3]배치 모드로 프로그램을 실행하는 기능도 포함되었습니다.
  • ClusteralX:1997년에 출시된 이 버전은 그래픽 사용자 인터페이스를 [5]갖춘 최초의 버전입니다.
  • ClusterALΩ(Omega):현재 표준 [6][7]버전입니다.
  • 클러스터 2:ClusteralW 및 ClusteralX의 업데이트 버전으로 정확성과 [8]효율성이 향상되었습니다.

클러스터링 소프트웨어를 설명하는 논문은 매우 높게 인용되고 있으며,[9] 그 중 2개는 역대 가장 많이 인용된 논문 중 하나입니다.

Windows, Mac OS 및 Unix/Linux에서 사용할 수 있는 소프트웨어의 최신 버전입니다.또한 자체 홈페이지의 웹 인터페이스를 통해 사용하거나 유럽생물정보학연구소가 주최합니다.

이름 유래

초기 프로그램의 가이드 트리는 쌍별 정렬의 UPGMA 클러스터 분석을 통해 구성되었으며, 따라서 CLUSTAL이라는 [10]cf.[11]이름이 붙여졌습니다.1988년의 첫 4가지 버전은 아라비아 숫자(1부터 4까지)를 가지고 있었고,[10]cf.[12][4] 5번째 버전은 1992년에 로마 숫자 V로 바꿨다.1994년과 1997년에는 다음 두 버전에서 V 뒤의 문자가 사용되었고 Weighted는 W, X는 X [10]cf.[13][5]Window에 대응했습니다.오메가라는 이름은 이전 [10]이름과의 변화를 나타내기 위해 선택되었다.

기능.

클러스터링 소프트웨어의 모든 변형은 일련의 쌍별 정렬에서 다중 시퀀스 정렬을 점진적으로 구축하는 경험적 접근법을 사용하여 시퀀스를 정렬합니다.이 방법은 시퀀스 전체를 분석한 후 UPGMA/Neighbor-join 방법을 사용하여 거리 행렬을 생성하는 방식으로 작동합니다.다음으로 매트릭스 내의 시퀀스의 스코어에서 가이드 트리를 계산한 후 유사도 [14]순서로 시퀀스를 순차적으로 정렬함으로써 다중 시퀀스 얼라인먼트를 구축하기 위해 사용된다.기본적으로 클러스터링은 다음 세 가지 주요 단계를 통해 여러 시퀀스 정렬을 만듭니다.

  1. 프로그레시브 정렬 방법을 사용하여 쌍방향 정렬을 수행합니다.
  2. 가이드 트리 만들기(또는 사용자 정의 트리 사용)
  3. 가이드 트리를 사용하여 다중 정렬을 수행합니다.

이 단계는 "Do Complete Alignment(정렬 완료)"를 선택하면 자동으로 수행됩니다.기타 옵션으로는 "가이드 트리 및 계통 발생에서 정렬 수행" 및 "가이드 트리만 생성"이 있습니다.

입력/출력

이 프로그램에서는 NBRF/PIR, FASTA, EMBL/Swiss-Prot, Clusteral, GCC/MSF, GCG9 RSF 및 GDE 등 다양한 입력 형식을 사용할 수 있습니다.

출력 형식은 다음 중 하나 또는 여러 가지입니다.클러스터, NBRF/PIR, GCG/MSF, PHYLIP, GDE 또는 NEXUS.

다중 시퀀스 정렬 출력 읽기
기호. 정의. 의미.
* 아스타리스크 완전히 보존된 단일 잔여물이 있는 위치
: 결장 매우 유사한 성질을 가진 그룹 간의 보존

PAM 250 매트릭스에서 0.5보다 높은 점수를 받았습니다.

. 기간 약하게 유사한 성질을 가진 그룹 간의 보존

PAM 250 매트릭스의 점수가 0.5 이하인 경우

DNA/RNA 정렬과 단백질 정렬 모두에 동일한 기호가 표시되므로 *(별표) 기호는 두 가지 모두에 유용하지만 DNA/RNA 정렬에는 다른 합의 기호를 무시해야 합니다.

설정

정렬 알고리즘을 다른 상황에 맞게 조정하기 위해 많은 설정을 수정할 수 있습니다.주요 매개변수는 갭 개방 패널티와 갭 연장 패널티이다.

클러스터 및 클러스터 V

간단한 개요

Clusteral 시리즈의 소프트웨어 원본 프로그램은 1988년에 개인용 컴퓨터에서 다중 시퀀스 정렬을 생성하는 방법으로 개발되었습니다.ClusteralV는 4년 후에 출시되었으며, 이전 버전처럼 Fortran이 아닌 C로 작성되는 스위치 등 몇 가지 주요 기능을 추가 및 변경했습니다.

알고리즘.

두 버전 모두 동일한 빠른 근사 알고리즘을 사용하여 시퀀스 간의 유사성 점수를 계산하고, 그 결과 쌍별 정렬이 생성됩니다.이 알고리즘은 k-tuple의 수가 2개의 시퀀스 간에 일치할 때 유사도 점수를 계산하여 갭에 대해 설정된 패널티를 계산합니다.시퀀스가 비슷할수록 점수가 높고 분산이 심할수록 점수가 낮아집니다.시퀀스에 점수가 매겨지면 다중 시퀀스 정렬 순서를 나타내는 덴드로그램이 UPGMA를 통해 생성됩니다.순서가 높은 시퀀스 세트가 먼저 정렬되고 나머지 세트가 내림차순으로 정렬됩니다.이 알고리즘은 매우 큰 데이터 세트를 허용하며 빠르게 작동합니다.단, 속도는 특정 시퀀스 유형에 [15]대해 선택된 k-튜플 일치 범위에 따라 달라집니다.

현저한 ClusteralV 개선

ClusteralV에서 가장 주목할 만한 추가 기능으로는 프로파일 정렬 및 전체 명령줄 인터페이스 옵션이 있습니다.종단 정렬을 사용하면 두 개 이상의 이전 정렬 또는 시퀀스를 새 정렬로 정렬하고 잘못 정렬된 시퀀스(낮은 점수)를 정렬 순서로 이동할 수 있습니다.이를 통해 사용자는 [14]기본 옵션보다 더 많은 제어를 통해 여러 시퀀스 정렬을 점진적으로 체계적으로 작성할 수 있습니다.명령줄에서 실행하는 옵션을 사용하면 다중 시퀀스 정렬 프로세스가 크게 단축됩니다.시퀀스는 간단한 명령으로 실행할 수 있습니다.

 클러스터 네임오파일.인식하다 

또는

 클러스터 /인파일=네임오파일.인식하다 

프로그램은 어떤 종류의 시퀀스를 분석하는지 판단합니다.프로그램이 완료되면 다중 시퀀스 정렬의 출력과 덴드로그램이 각각 .aln 및 .dnd 확장자를 가진 파일로 이동합니다.명령줄 인터페이스에서는 기본 파라미터가 사용되며 다른 [15]옵션은 사용할 수 없습니다.

클러스터

간단한 개요

ClusteralW 소프트웨어 알고리즘이 글로벌 얼라인먼트에 사용하는 순서를 나타냅니다.

다른 Clusteral 도구와 같은 ClusteralW는 여러 개의 뉴클레오티드 또는 단백질 서열을 효율적으로 정렬하는 데 사용됩니다.가장 유사한 시퀀스를 먼저 정렬하고 전역 정렬이 작성될 때까지 가장 덜 유사한 시퀀스로 내려가는 프로그레시브 정렬 방법을 사용합니다.ClusteralW는 매트릭스 기반 알고리즘이지만 T-CoffeeDialign 등의 도구는 일관성 기반입니다.ClusteralW는 다른 소프트웨어와 경쟁할 수 있는 매우 효율적인 알고리즘을 갖추고 있습니다.이 프로그램에서는 글로벌 정렬을 계산하기 위해 3개 이상의 시퀀스가 필요합니다. 쌍별 시퀀스 정렬(2개 시퀀스)은 EMBOSS, LANLING유사한 도구를 사용합니다.

생물정보학을 위한 배열 정렬에서의 인접접속 방법을 보여주는 다이어그램

알고리즘.

ClusteralW는 위와 같이 프로그레시브 얼라인먼트 방식을 사용합니다.이 경우 정렬 점수가 가장 좋은 시퀀스가 먼저 정렬된 후 점점 더 먼 시퀀스 그룹이 정렬됩니다.이 휴리스틱 어프로치는 글로벌 최적 솔루션을 찾는 데 시간과 메모리가 필요하기 때문에 필요합니다.알고리즘의 첫 번째 단계는 각 시퀀스 쌍 간의 거친 거리 행렬을 계산하는 것입니다. 이 행렬은 쌍별 시퀀스 정렬이라고도 합니다.다음 단계는 미드포인트 루팅을 사용하여 전체적인 가이드트리를 [16]작성하는 네이버 결합 방식입니다.이를 위해 사용하는 프로세스는 오른쪽에 있는 메서드의 상세 다이어그램에 나와 있습니다.그런 다음 가이드 트리를 대략적인 템플릿으로 사용하여 전역 정렬을 생성합니다.

시간의 복잡성

ClusteralW는 네이버 결합 방식을 사용하기 때문에 시간 복잡도는 O2 O입니다.업데이트 버전(Cluster W2)에는 소프트웨어에 내장된 옵션이 있으며, 큰 입력 크기로 더 빠른 UPGMA를 사용할 수 있습니다.네이버 가입 대신 이를 사용하기 위한 명령줄 플래그는 다음과 같습니다.

-클러스터링=업그마 

예를 들어 표준 데스크톱에서는 10,000개의 시퀀스에서 UPGMA를 실행하면 1분 이내에 결과가 생성되지만 네이버 가입에는 1시간 [17]이상 걸립니다.이 조정으로 ClusteralW 알고리즘을 실행함으로써 시간을 대폭 절약할 수 있습니다.ClusteralW2에는 반복 정렬을 사용하여 정렬 정확도를 높이는 옵션도 있습니다.복잡성 측면에서 반드시 더 빠르거나 더 효율적인 것은 아니지만, 정확성의 향상은 가치 있고 데이터 크기가 더 작은 경우에 유용할 수 있습니다.이를 실현하기 위한 다양한 명령줄 플래그를 다음에 나타냅니다.

-반복=얼라인먼트 -반복=트리 -숫자 

첫 번째 명령줄 옵션은 최종 정렬을 조정합니다.두 번째 옵션은 알고리즘의 프로그레시브 얼라인먼트스텝에 스킴을 통합합니다.세 번째는 기본값이 [17]3으로 설정된 반복 사이클 수를 지정합니다.

정확성과 결과

ClusteralW가 사용하는 알고리즘은 거의 매번 최적의 결과를 제공합니다.단, 데이터 세트에 다양한 발산도를 가진 시퀀스가 포함되어 있는 경우에는 매우 효과적입니다.이러한 데이터 집합에서는 가이드 트리가 노이즈에 덜 민감해지기 때문입니다.ClusteralW는 속도 효율을 높이기 위해 쌍방향 얼라인먼트와 글로벌 얼라인먼트를 조합한 최초의 알고리즘 중 하나로 동작했지만 이로 인해 다른 소프트웨어에는 없는 정확도가 저하되고 있습니다.

ClusteralW는 다른 MSA 알고리즘과 비교하여 [18]정확도 수준을 유지하면서 가장 빠른 알고리즘 중 하나로 동작합니다.T-Coffee와 같은 일관성 기반 경쟁사들에 비해 아직 개선해야 할 점이 많습니다.MAFFT, T-Coffee, Clusteral Omega 및 기타 MSA 구현에 대해 테스트했을 때 ClusteralW의 정확도는 풀렝스 시퀀스에서 가장 낮았습니다.[18]연구에서 테스트된 모든 알고리즘 중 RAM 메모리 요구량이 가장 낮았습니다.ClusteralW는 경쟁사 중 가장 낮은 수준의 정확도를 기록했지만 일부에서 용인할 수 있는 수준을 유지했습니다.ClusteralW2에는 매우 중요한 [17]속도를 유지하면서 정확성을 높이는 알고리즘이 업데이트 및 개선되었습니다.

클러스터 오메가

간단한 개요

Clusteral Omega에서 사용되는 단계별 알고리즘을 나타내는 흐름도.

ClusterALII(Clusteral O 및 Clusteral Omega로 쓰임)는 C 및 C++로 작성된 고속 스케일러블 프로그램이며 다중 시퀀스 얼라인먼트에 사용됩니다.시드 가이드 트리와 2개의 프로파일에 초점을 맞춘 새로운 HMM 엔진을 사용하여 이러한 [19][20]정렬을 생성합니다.프로그램에서 다중 시퀀스 정렬을 계산하려면 세 개 이상의 시퀀스가 필요합니다. 두 시퀀스는 쌍별 시퀀스 정렬 도구(EMBOSS, LANLING)를 사용합니다.클러스터링 오메가(Clusteral Omega)는 일관성 기반이며 모든 다중 시퀀스 정렬 도구의 가장 빠른 온라인 구현 중 하나로 널리 인식되고 있으며, 일관성 기반 알고리즘과 매트릭스 기반 알고리즘 모두에서 정확도가 여전히 높습니다.

알고리즘.

Clusteral Omega 구현에 사용된 프로파일 HMM의 구조를 여기에 나타냅니다.

군집 오메가에는 다중 시퀀스 정렬을 생성하기 위한 다섯 가지 주요 단계가 있습니다.첫 번째 방법은 단어 방법이라고도 하는 k-튜플 방법을 사용하여 쌍방향 정렬을 생성하는 것입니다.요약하면, 이것은 최적의 정렬 솔루션을 찾을 수 없다고 보장되는 휴리스틱 방식이지만 정렬의 동적 프로그래밍 방식보다 훨씬 효율적입니다.그 후 수정된 mBed [21]방법을 사용하여 시퀀스를 클러스터링합니다.mBed 방법은 시퀀스 임베딩을 사용하여 쌍별 거리를 계산합니다.이 단계에는 k-평균 군집화 방법이 뒤따릅니다.다음으로 가이드 트리를 UPGMA 방식으로 구축한다.이는 UPGMA 알고리즘의 작동 방식에 따라 하나의 최종 가이드 트리 구축으로 이어지는 여러 가이드 트리 단계로 나타납니다.각 단계에서 (흐름도의 각 다이아몬드) 가장 가까운 두 개의 클러스터가 결합되어 최종 트리가 평가될 때까지 반복됩니다.마지막 단계에서 HH-Suite의 HHAlign 패키지를 사용하여 다중 시퀀스 얼라인먼트를 생성한다.HHMM은 일련의 노드로 이루어진 선형 상태 머신으로 프로파일 HMM은 각각이 [22]작성된 얼라인먼트의 위치(컬럼)에 대략 대응한다.

시간의 복잡성

N개의 시퀀스 에 최적의 정렬을 계산하는 정확한 방법은 길이 L의 N개의 시퀀스에 대해 계산 복잡도가O N { O(L^{이므로 소수의 시퀀스에도 사용할 수 없습니다.clusteral Omega는 복잡도가 O logN O N[21][23]인 mBed의 수정 버전을 사용하여 기존 방법과 동일한 정확도의 가이드 트리를 생성합니다.Clusteral Omega에서 가이드 트리의 속도와 정확성은 수정된 mBed 알고리즘의 구현에 기인합니다.또한 대규모 데이터셋에서 조정을 완료하는 데 필요한 계산 시간과 메모리 요구 사항도 줄어듭니다.

정확성과 결과

소수의 시퀀스에서 클러스터 오메가 정확도는 평균적으로 고품질 시퀀스 얼라이너로 간주되는 것과 매우 유사합니다.수십만 개의 시퀀스로 구성된 대규모 데이터 세트를 사용할 경우 차이가 발생합니다.이러한 경우 Clusteral Omega는 전반적으로 다른 알고리즘을 능가합니다.완료 [24]시간과 전반적인 품질은 다른 프로그램보다 일관되게 우수합니다.1개의 프로세서에서 몇 시간 안에 100,000개 이상의 시퀀스를 실행할 수 있습니다.

클러스터 오메가에서는 HH-Suite의 HHAlign 패키지를 사용합니다.이 패키지는 프로파일프로파일의 비교가 아닌2개의 프로파일의 숨겨진 마르코프 모델을 정렬합니다.이렇게 하면 감도 및 정렬 품질이 [24]크게 향상됩니다.이 방법을 mBed 메서드와 조합하면 Clusteral Omega가 다른 시퀀스 얼라이너보다 유리합니다.결과는 매우 정확하고 매우 빠른 것이 최적의 상황입니다.

비감시 터미널 베이스를 사용하는 데이터 세트에서는 클러스터 오메가와는 대조적으로 프로콘 및 T-Coffee보다 클러스터 오메가 정확도가 더 높을 수 있다.높은 정확도 점수를 생성하는 프로그램을 사용한 효율성 테스트에서 MAFFT가 가장 빨랐고, Clusteral Omega가 그 뒤를 바짝 따랐습니다.둘 다 T-Coffee보다 빨랐지만 [18]MAFFT와 Clusteral Omega는 더 많은 메모리가 필요했습니다.

Clusteral2(클러스터W/클러스터X)

Clusteral2는 명령줄 ClusteralW와 그래피컬 Clusteral X의 패키지 릴리스입니다.새로운 툴은 아니지만 위에서 설명한 이전 구현의 업데이트 및 개선된 버전입니다.두 다운로드 모두 Linux, Mac OS X 및 Windows(XP 및 Vista 모두)와 같은 많은 운영 체제용으로 사전 컴파일되어 제공됩니다.이 릴리스는 웹사이트를 보다 체계적이고 사용하기 쉽게 만들고 소스 코드를 최신 버전으로 업데이트하기 위해 설계되었습니다.Clusteral2는 ClusteralW와 ClusteralX의 버전2로, 여기서 그 이름이 취득됩니다.이전 버전은 웹 사이트에서 확인할 수 있지만, 모든 사전 컴파일은 현재 최신입니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ 소스 아카이브 [1]의 파일 카피를 참조해 주세요.2014-01-15에 접속.
  2. ^ Chenna R, Sugawara H, Koike T, Lopez R, Gibson TJ, Higgins DG, Thompson JD (July 2003). "Multiple sequence alignment with the Clustal series of programs". Nucleic Acids Research. 31 (13): 3497–500. doi:10.1093/nar/gkg500. PMC 168907. PMID 12824352.
  3. ^ a b Higgins DG, Sharp PM (December 1988). "CLUSTAL: a package for performing multiple sequence alignment on a microcomputer". Gene. 73 (1): 237–44. doi:10.1016/0378-1119(88)90330-7. PMID 3243435.
  4. ^ a b Higgins DG, Bleasby AJ, Fuchs R (April 1992). "CLUSTAL V: improved software for multiple sequence alignment". Computer Applications in the Biosciences. 8 (2): 189–91. doi:10.1093/bioinformatics/8.2.189. PMID 1591615.
  5. ^ a b Thompson JD, Gibson TJ, Plewniak F, Jeanmougin F, Higgins DG (December 1997). "The CLUSTAL_X windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools". Nucleic Acids Research. 25 (24): 4876–82. doi:10.1093/nar/25.24.4876. PMC 147148. PMID 9396791.
  6. ^ Sievers F, Higgins DG (2014-01-01). Russell DJ (ed.). Multiple Sequence Alignment Methods. Methods in Molecular Biology. Vol. 1079. Humana Press. pp. 105–116. doi:10.1007/978-1-62703-646-7_6. ISBN 9781627036450. PMID 24170397.
  7. ^ Sievers F, Higgins DG (2002-01-01). Clustal Omega. Current Protocols in Bioinformatics. Vol. 48. John Wiley & Sons, Inc. pp. 3.13.1–16. doi:10.1002/0471250953.bi0313s48. ISBN 9780471250951. PMID 25501942. S2CID 1762688.
  8. ^ Dineen, David. "Clustal W and Clustal X Multiple Sequence Alignment". www.clustal.org. Retrieved 2018-04-24.
  9. ^ Van Noorden R, Maher B, Nuzzo R (October 2014). "The top 100 papers". Nature. 514 (7524): 550–3. Bibcode:2014Natur.514..550V. doi:10.1038/514550a. PMID 25355343.
  10. ^ a b c d Des Higgins, 더블린에서 열린 SMBE 2012 컨퍼런스에서 발표합니다.
  11. ^ Higgins DG, Sharp PM (December 1988). "CLUSTAL: a package for performing multiple sequence alignment on a microcomputer". Gene. 73 (1): 237–44. doi:10.1016/0378-1119(88)90330-7. PMID 3243435.
  12. ^ Higgins DG, Sharp PM (April 1989). "Fast and sensitive multiple sequence alignments on a microcomputer". Computer Applications in the Biosciences. 5 (2): 151–3. doi:10.1093/bioinformatics/5.2.151. PMID 2720464.
  13. ^ Thompson JD, Higgins DG, Gibson TJ (November 1994). "CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice". Nucleic Acids Research. 22 (22): 4673–80. doi:10.1093/nar/22.22.4673. PMC 308517. PMID 7984417.
  14. ^ a b "CLUSTAL W Algorithm". Archived from the original on 2016-12-01. Retrieved 2018-04-24.
  15. ^ a b https://www.aua.gr/~eliop/mathimata/molevol/Askhsh1/clusterv.htm
  16. ^ "About CLUSTALW". www.megasoftware.net. Retrieved 2018-04-24.
  17. ^ a b c Larkin, M.A.; Blackshields, G.; Brown, N.P.; Chenna, R.; McGettigan, P.A.; McWilliam, H.; Valentin, F.; Wallace, I.M.; Wilm, A. (2007-09-10). "Clustal W and Clustal X version 2.0". Bioinformatics. 23 (21): 2947–2948. doi:10.1093/bioinformatics/btm404. ISSN 1367-4803. PMID 17846036.
  18. ^ a b c Pais FS, Ruy PC, Oliveira G, Coimbra RS (March 2014). "Assessing the efficiency of multiple sequence alignment programs". Algorithms for Molecular Biology. 9 (1): 4. doi:10.1186/1748-7188-9-4. PMC 4015676. PMID 24602402.
  19. ^ EMBL-EBI. "Clustal Omega < Multiple Sequence Alignment < EMBL-EBI". www.ebi.ac.uk. Retrieved 2018-04-18.
  20. ^ Dineen, David. "Clustal Omega, ClustalW and ClustalX Multiple Sequence Alignment". www.clustal.org. Retrieved 2018-04-18.
  21. ^ a b Blackshields G, Sievers F, Shi W, Wilm A, Higgins DG (May 2010). "Sequence embedding for fast construction of guide trees for multiple sequence alignment". Algorithms for Molecular Biology. 5: 21. doi:10.1186/1748-7188-5-21. PMC 2893182. PMID 20470396.
  22. ^ "Profile HMM Analysis". www.biology.wustl.edu. Archived from the original on 2019-07-24. Retrieved 2018-05-01.
  23. ^ Sievers F, Wilm A, Dineen D, Gibson TJ, Karplus K, Li W, Lopez R, McWilliam H, Remmert M, Söding J, Thompson JD, Higgins DG (October 2011). "Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega". Molecular Systems Biology. 7 (1): 539. doi:10.1038/msb.2011.75. PMC 3261699. PMID 21988835.
  24. ^ a b Daugelaite J, O' Driscoll A, Sleator RD (2013). "An Overview of Multiple Sequence Alignments and Cloud Computing in Bioinformatics". ISRN Biomathematics. 2013: 1–14. doi:10.1155/2013/615630. ISSN 2090-7702.

외부 링크