블라스트(바이오테크놀로지)

BLAST (biotechnology)
블라스트
원본 작성자스티븐 알츠철, 워렌 기쉬, 웹 밀러, 유진 마이어스, 데이비드 립맨
개발자엔씨비
안정적 해제
2.12.0+ / 2021년 6월 28일; 9개월(2021-06-28)
기록 위치C와 C++[1]
운영 체제UNIX, 리눅스, Mac, MS-윈도우즈
유형생물정보학 도구
면허증공용 도메인
웹사이트blast.ncbi.nlm.nih.gov/Blast.cgi

생물정보학에서 블라스트([2]BAST)단백질아미노산 서열이나 DNA 및/또는 RNA 서열의 뉴클레오티드와 같은 1차 생물학적 시퀀스 정보를 비교하기 위한 알고리즘 및 프로그램이다.블라스트 검색을 통해 연구자는 대상 단백질 또는 뉴클레오티드 시퀀스(쿼리라고 함)를 시퀀스의 라이브러리 또는 데이터베이스와 비교하고 특정 임계값 이상의 쿼리 시퀀스와 유사한 데이터베이스 시퀀스를 식별할 수 있다.예를 들어, 에서 이전에 알려지지 않았던 유전자가 발견된 후, 과학자들은 인간이 유사한 유전자를 가지고 있는지 확인하기 위해 일반적으로 인간 게놈의 블라스트 검색을 수행할 것이다; 블라스트는 염기서열의 유사성에 기초하여 인간 게놈에서 쥐 유전자와 유사한 염기서열을 식별한다.

배경

뉴욕타임스생물학 연구의 구글이라고 부른 블라스트는 시퀀스 검색에 가장 널리 사용되는 생물정보학 프로그램 중 하나이다.[2][3]그것은 생물정보학 연구의 근본적인 문제를 다룬다.최적 정렬 계산과 같은 다른 접근법보다 훨씬 빠른 경험적 경험적 알고리즘이 사용된다.이러한 속도에 대한 강조는 후속 알고리즘이 훨씬 더 빨라질 수 있지만, 현재 이용 가능한 거대한 게놈 데이터베이스에서 알고리즘을 실용화하는데 필수적이다.

블라스트 이전에, FASTA는 데이비드 J. 립먼과 윌리엄 R에 의해 개발되었다.1985년 피어슨.[4]

블라스트, FASTA와 같은 고속 알고리즘이 개발되기 전에는 전체 정렬 절차(예: Smith-Waterman 알고리즘)가 사용되었기 때문에 단백질이나 핵 시퀀스를 찾기 위해 데이터베이스를 검색하는 데 시간이 많이 소요되었다.

과거의 폭풍이 몰아친 독자 사무엘 Karlin의 1990년 추계적 모형에서 스티븐 Altschul[5]They 있으며, 이들의 작품"폭풍이 몰아친에 대한 통계적 기초이다."[6]었고, 이로 인해 Altschul로, 워렌 기시, 웨브 밀러, E와 함께 묘사되어 왔다"그것은 다른 것과 생물체의 이미 알려진 DNA시퀀스 사이에 유사점을 추정할 수 있는 메서드"[2]을 제안했다 왔다Myeugeners, 그리고 국립보건원David J. Lipman1990년에 분자생물학 저널에 발표되었고 7만 5천번 이상 인용된 블라스트 알고리즘을 설계했다.[7]

대부분의 경우 VLAST는 Smith-Waterman 구현보다 빠르지만, Smith-Waterman 알고리즘처럼 "쿼리와 데이터베이스 시퀀스의 최적 정렬을 보장할 수 없다".Smith-Waterman의 최적성은 시간과 컴퓨터 파워를 희생하면서 "정확성과 가장 정확한 결과에서 최고의 성능을 보장했다".

블라스트는 FASTA보다 시간 효율적이며, 시퀀스에서 더 중요한 패턴만을 검색하지만 비교 민감도가 높다.이는 아래에 소개된 블라스트 알고리즘을 이해함으로써 더욱 실현될 수 있었다.

연구자들이 블라스트를 사용하여 대답하는 다른 질문의 예는 다음과 같다.

블라스트는 근사적인 시퀀스 매칭이 필요한 다른 알고리즘의 일부로 자주 사용된다.

블라스트(BLOAST)는 NCBI 웹사이트에서 웹에서 이용할 수 있다.쿼리 시퀀스와 대상 데이터베이스에 따라 다양한 유형의 블라스트를 사용할 수 있다.대체 구현으로는 AB-BLAST(이전의 WU-BLAST), FSA-BLAST(2006년 마지막 업데이트) 및 ScalaBLAST가 있다.[8][9]

알츠철 등이 쓴 [7]원고는 1990년대에 발표된 논문 중 가장 많이 인용된 논문이었다.[10]

입력

FASTA 또는 Genbank 형식의 입력 시퀀스, 검색할 데이터베이스 및 점수 매트릭스와 같은 기타 선택적 매개 변수.

출력

블라스트 출력은 다양한 형식으로 전달될 수 있다.이러한 형식은 HTML, 일반 텍스트XML 형식을 포함한다.NCBI의 웹 페이지의 경우 출력의 기본 형식은 HTML이다. NCBI에서 블라스트를 수행할 때, 결과는 발견된 히트들을 보여주는 그래픽 형식과, 관련 데이터를 채점한 히트에 대한 시퀀스 식별자를 보여주는 표와, 관심 순서와 그에 대한 해당 블라스트 점수로 받은 히트들의 정렬이 제공된다.ese. 이것들 중 가장 읽기 쉽고 가장 유용한 것은 아마도 테이블일 것이다.

NCBI와 같은 소스를 통해 일반 대중이 사용할 수 있는 데이터베이스에서 사용할 수 없는 고유 시퀀스 또는 단순히 사용할 수 없는 시퀀스를 검색하려는 경우, 어떤 컴퓨터에든 무료로 다운로드할 수 있는 VOLAS 프로그램이 있다.이는 블라스트+ 실행 파일에서 확인할 수 있다.구입할 수 있는 상업 프로그램도 있다.데이터베이스는 NCBI 사이트와 FTP(Index of VOAST Database)에서 찾을 수 있다.

과정

VLAST는 경험적 접근법을 사용하여 두 시퀀스 사이의 짧은 일치를 찾아 유사한 시퀀스를 찾는다.이와 유사한 염기서열을 찾는 과정을 시딩이라고 한다.블라스트가 로컬 얼라인먼트를 시작하는 것은 이 첫 경기 이후다.시퀀스에서 유사성을 찾으려고 시도하는 동안, 단어라고 알려진 일반적인 문자 집합은 매우 중요하다.예를 들어, 순서에 GLKFA라는 글자가 있다고 가정해 보십시오. 만약 정상적인 조건에서 블라스트가 수행된다면 단어 크기는 3글자가 될 것이다.이 경우 주어진 글자의 길이를 이용하여 검색어는 GLK, LKF, KFA가 된다.블라스트의 휴리스틱 알고리즘은 관심 순서와 히트 시퀀스 또는 데이터베이스의 시퀀스 사이의 모든 일반적인 3글자를 찾는다.이 결과는 정렬을 구축하는 데 사용될 것이다.관심의 순서를 위한 단어를 만든 후 나머지 단어들도 함께 모인다.이 단어들은 점수 매트릭스를 사용하여 비교할 때 최소한 임계값 T의 점수를 갖는 요건을 충족해야 한다.

최적의 점수 매트릭스는 시퀀스 유사성에 따라 다르지만 [11]블라스트 검색에 일반적으로 사용되는 점수 매트릭스는 BLOSUM62이다.단어와 주변 단어를 모두 조합하고 컴파일하면 일치하는 단어를 찾기 위해 데이터베이스의 순서와 비교된다.임계값 점수 T는 맞춤에 특정 단어를 포함할지 여부를 결정한다.시딩이 수행되면, 3개의 잔여물만 남은 정렬은 블라스트에서 사용하는 알고리즘에 의해 양방향으로 확장된다.각 확장은 선형을 증가시키거나 감소시킴으로써 선형의 점수에 영향을 미친다.이 점수가 사전 결정된 T보다 높은 경우, 정렬은 블라스트에서 제공한 결과에 포함된다.그러나 이 점수가 사전 결정된 T보다 낮으면 정렬이 중단되어 불량 정렬 영역이 블라스트 결과에 포함되지 않게 된다.T 점수를 올리면 검색 가능한 공간이 제한되어 근린 단어 수가 줄어드는 동시에 블라스트(BLOAST) 프로세스도 빨라진다는 점에 유의하십시오.

알고리즘.

소프트웨어를 실행하기 위해, 블라스트에는 검색할 쿼리 시퀀스와 (대상 시퀀스라고도 함) 또는 그러한 시퀀스가 여러 개 포함된 시퀀스 데이터베이스가 필요하다.VLAST는 데이터베이스에서 쿼리의 하위 시퀀스와 유사한 하위 시퀀스를 찾을 것이다.일반적인 사용에서 질의 순서는 데이터베이스보다 훨씬 작다. 예를 들어, 데이터베이스가 수십억 뉴클레오티드인 동안 질의는 1,000 뉴클레오티드일 수 있다.

블라스트의 주요 개념은 종종 통계적으로 유의한 정렬에 포함된 높은 점수의 세그먼트 쌍(HSP)이 있다는 것이다.VOLAS는 Smith-Waterman 알고리즘에 근접한 경험적 접근방식을 사용하여 데이터베이스의 기존 시퀀스와 쿼리 시퀀스 사이의 높은 점수 시퀀스 정렬을 검색한다.그러나, 철저한 스미스-워터맨 접근법은 GenBank와 같은 대형 게놈 데이터베이스를 검색하기에는 너무 느리다.따라서 블라스트 알고리즘은 스미스-워터맨 알고리즘보다 정확도는 낮지만 50배 이상 빠른 휴리스틱 접근법을 사용한다.[8] 블라스트의 속도와 비교적 양호한 정확도는 블라스트 프로그램의 핵심 기술 혁신 중 하나이다.

블라스트 알고리즘(단백질 대 단백질 검색)의 개요는 다음과 같다.[12]

  1. 쿼리 시퀀스에서 복잡성이 낮은 영역 또는 시퀀스 반복을 제거하십시오.
    "저복잡 지역"은 몇 가지 종류의 원소로 구성된 시퀀스의 지역을 의미한다.이러한 영역은 프로그램이 데이터베이스에서 실제 유의한 시퀀스를 찾도록 혼동하는 높은 점수를 줄 수 있으므로 필터링해야 한다.이 영역은 X(단백질 시퀀스) 또는 N(핵산 시퀀스)으로 표시되고 나서 블라스트 프로그램에서 무시된다.복합성이 낮은 지역을 걸러내기 위해 단백질 시퀀스에 SEG 프로그램을, DNA 시퀀스에 DOAS 프로그램을 사용한다.반면 XNU 프로그램은 단백질 서열에서 탠덤 반복을 가리기 위해 사용된다.
  2. 쿼리 시퀀스의 k-글자 단어 목록만드십시오.
    k=3을 예로 들면, 우리는 길이 3의 단어를 쿼리 단백질 서열(일반적으로 DNA 서열의 경우 k는 11이다)에 "순차적으로" 나열한다.그 방법은 그림 1에 설명되어 있다.
    그림 1 k-글자 쿼리 단어 목록을 설정하는 방법.[13]
  3. 가능한 일치하는 단어를 나열하십시오.
    이 단계는 블라스트와 FASTA의 주요 차이점 중 하나이다.FASTA는 데이터베이스의 모든 공통 단어와 2단계에 나열된 쿼리 시퀀스에 대해 신경을 쓰지만, 블라스트는 점수가 높은 단어에만 신경을 쓴다.점수는 2단계의 리스트에 있는 단어와 모든 3글자 단어를 비교하여 만들어진다.점수 매트릭스(위헌 매트릭스)를 사용하여 각 잔여 쌍의 비교 점수를 매기면 3글자 단어에 대해 20^3의 매치 점수가 가능하다.예를 들어, PQG와 PQG를 비교함으로써 얻은 점수는 각각 15점, 12점이며 BLOSUM62 가중치는 12점이다.DNA 단어의 경우 일치는 +5로, 불일치는 -4로, 또는 +2와 -3으로 점수가 매겨진다.그 후, 가능한 일치 단어의 수를 줄이기 위해 근린 단어 점수 임계값 T를 사용한다.점수가 임계값 T보다 큰 단어는 가능한 일치 단어 목록에 남아 있는 반면 점수가 낮은 단어는 폐기된다.예를 들어 PEG는 유지되지만, PQA는 T가 13세일 때 폐기된다.
  4. 나머지 고득점 단어를 효율적인 검색 트리로 정리한다.
    이것은 프로그램이 높은 점수를 매기는 단어들을 데이터베이스 순서와 빠르게 비교할 수 있게 해준다.
  5. 쿼리 시퀀스의 각 k-글자대해 3-4단계를 반복하십시오.
  6. 데이터베이스 시퀀스에서 나머지 높은 점수를 매기는 단어와 정확히 일치하는지 검사하십시오.
    블라스트 프로그램은 데이터베이스 시퀀스를 스캔하여 각 위치의 PEG와 같은 나머지 높은 점수를 매기는 단어를 찾는다.정확한 일치가 발견되면, 이 일치는 쿼리와 데이터베이스 시퀀스 사이의 매핑되지 않은 정렬 가능성을 시드하는 데 사용된다.
  7. 정확한 일치를 높은 점수 세그먼트 쌍(HSP)으로 확장하십시오.
    • 블라스트의 원래 버전은 정확한 일치가 발생한 위치에서 왼쪽과 오른쪽 방향으로 쿼리와 데이터베이스 시퀀스 사이의 긴 정렬을 연장한다.HSP의 누적 총점이 감소하기 시작할 때까지 연장은 멈추지 않는다.간단한 예는 그림 2에 제시되어 있다.
      그림 2 정확한 일치를 연장하는 과정.생물학적 시퀀스 분석 I, 게놈 분석의 최신 주제[2]에서 채택.
      그림 3 정확한 일치의 위치.
    • 더 많은 시간을 절약하기 위해, 블라스트2 또는 래핑된 블라스트라고 불리는 새로운 버전의 블라스트가 개발되었다.블라스트2는 시퀀스 유사성을 검출하기 위해 동일한 수준의 감도를 유지하기 위해 더 낮은 근린 단어 점수 임계값을 채택한다.따라서 3단계에서 가능한 일치 단어 목록이 길어진다.다음으로 그림 3의 같은 대각선 상에 서로 A 거리 내에 있는 정확히 일치하는 영역은 더 긴 새 영역으로 결합될 것이다.마지막으로, 새로운 영역은 블라스트의 원래 버전과 동일한 방법으로 확장되며, 확장 영역의 HSP(고점 세그먼트 쌍) 점수는 이전과 같은 대체 매트릭스를 사용하여 생성된다.
  8. 고려할 수 있을 만큼 점수가 높은 모든 HSP를 데이터베이스에 나열하십시오.
    우리는 경험적으로 결정된 컷오프 점수 S보다 점수가 더 큰 HSP를 열거한다.랜덤 시퀀스를 비교하여 모델링한 정렬 점수의 분포를 검토함으로써 컷오프 점수 S의 값이 나머지 HSP의 중요성을 보장할 수 있을 만큼 충분히 클 수 있도록 할 수 있다.
  9. HSP 점수의 유의성을 평가한다.
    다음으로 블라스트는 줌벨 극값 분포(EVD)를 이용하여 각 HSP 점수의 통계적 유의성을 평가한다(두 무작위 시퀀스 사이의 스미스-워터맨 국소 정렬 점수의 분포는 줌벨 EVD를 따른다).간격이 포함된 국부적 정렬의 경우 검증되지 않는다.)Gumbel EVD에 따라, x보다 크거나 같은 점수 S를 관측할 확률 p는 방정식에 의해 주어진다.
    어디에
    통계 매개변수 은(는) 데이터베이스 시퀀스의 미가핑 로컬 정렬 점수 분포와 많은 변형 버전(글로벌 또는 로컬 셰플링)을 Gumbel 극단값 분포에 적합시켜 추정한다. 은(는) 대체 행렬, 갭 페널티 및 시퀀스 구성(글자 주파수)에 따라 다르다는 점에 유의하십시오. 은(는) 각각 쿼리와 데이터베이스 시퀀스의 유효 길이입니다.원래 시퀀스 길이는 에지 효과를 보상하기 위해 유효 길이로 단축된다(쿼리 또는 데이터베이스 시퀀스 중 하나의 끝에서 시작하는 정렬은 최적의 정렬을 구축하기에 충분한 시퀀스를 갖지 못할 가능성이 있다).다음과 같이 계산할 수 있다.
    여기서 은(는) 두 랜덤 시퀀스의 정렬에서 정렬된 잔류물 쌍당 평균 예상 점수다.Altschul and Gish gave the typical values, , , and , for un-gapped local alignment using BLOSUM62 as the substitution matrix.유의성을 평가하기 위해 일반적인 값을 사용하는 것을 룩업 테이블 방법이라고 하며, 정확하지 않다.데이터베이스 일치의 예상 점수 E는 관련 없는 데이터베이스 시퀀스가 우연히 x보다 높은 S 점수를 얻는 횟수다.D 시퀀스의 데이터베이스 검색에서 얻은 기대 E는 다음과 같다.
    , <.1 E는 포아송 분포에 의해 다음과 같이 근사하게 추정될 수 있다.
    가압되지 않은 국부적 정렬에 대한 HSP 점수의 중요성을 평가하는 이 기대치 또는 기대치 "E" (종종 E 점수 또는 E-값으로 불림)는 블라스트 결과에 보고된다.여기에 표시된 계산은 통계 매개변수의 변동으로 인해 가선형(아래 설명)을 생성할 때와 같이 개별 HSP를 결합할 경우 수정된다.
  10. 둘 이상의 HSP 영역을 더 긴 정렬로 만드십시오.
    때때로, 우리는 하나의 데이터베이스 순서에서 더 긴 정렬로 만들어질 수 있는 둘 이상의 HSP 영역을 발견한다.이것은 질의와 데이터베이스 순서 사이의 관계에 대한 추가적인 증거를 제공한다.새로 조합된 HSP 영역의 유의성을 비교하기 위한 두 가지 방법인 포아송법과 점수의 합법이 있다.점수 쌍(65, 40)과 점수 쌍(52, 45)을 가진 두 개의 결합된 HSP 영역이 있다고 가정합시다.포아송 방법은 최대 하위 점수(45>40)로 세트에서 더 큰 의미를 부여한다.그러나 65+40(105)이 52+45(97)보다 크기 때문에 점수 합계는 첫 세트를 선호한다.원래의 블라스트는 포아송 방법을 사용하며, 가핑된 블라스트와 WU-BLAST는 점수 합계 방법을 사용한다.
  11. 쿼리의 가선형 Smith-Waterman 로컬 정렬과 일치하는 각 데이터베이스 시퀀스를 표시하십시오.
    • 원래 VOLAS는 하나의 데이터베이스 순서에서 두 개 이상의 HSP가 발견되는 경우에도 초기에 발견된 HSP를 포함하여 개별적으로만 비가핑 정렬을 생성한다.
    • 블라스트2는 처음에 발견된 HSP 영역을 모두 포함할 수 있는 간격과의 단일 정렬을 생성한다.점수 및 해당 E-값의 계산에는 적절한 갭 페널티 사용이 수반된다는 점에 유의하십시오.
  12. 예상 점수가 임계값 매개 변수 E보다 낮은 매치를 보고하십시오.

병렬 블라스트

분할 데이터베이스의 병렬형 블라스트 버전은 MPIPthreads를 사용하여 구현되며, 윈도, 리눅스, 솔라리스, 맥 OS X, AIX 등 다양한 플랫폼에 포팅되어 있다.BlAST 병렬화를 위한 일반적인 접근방식으로는 쿼리 배포, 해시 테이블 분할, 계산 병렬화, 데이터베이스 분할(파티션) 등이 있다.데이터베이스는 동일한 크기로 분할되어 각 노드에 로컬로 저장된다.각 쿼리는 모든 노드에서 병렬로 실행되며, 그 결과 모든 노드의 블라스트 출력 파일이 병합되어 최종 출력을 산출한다.구체적인 구현에는 MPIBLast, ScalaBLAST, DCBLAST 등이 포함된다.[14]

프로그램

블라스트 프로그램은 명령행 유틸리티인 "블라스톨"로 다운로드하여 실행하거나 웹을 통해 무료로 접속할 수 있다.NCBI가 호스팅하는 블라스트 웹서버는 웹 브라우저를 가진 사람이라면 누구나 새로 서열화된 유기체의 대부분을 포함하는 단백질과 DNA의 지속적인 업데이트 데이터베이스에 대해 유사성 검색을 수행할 수 있다.

블라스트 프로그램은 오픈 소스 포맷에 기초하여 모든 사람들에게 그것에 대한 접근을 제공하고 그들이 프로그램 코드를 변경할 수 있는 능력을 가질 수 있게 한다.이로 인해 여러 개의 블라스트 "스핀오프"가 생성되었다.

현재 이용할 수 있는 몇 가지 다른 블라스트 프로그램이 있는데, 이 프로그램은 한 사람이 무엇을 시도하고 있는지, 그들이 무엇을 하고 있는지에 따라 사용될 수 있다.이러한 서로 다른 프로그램은 쿼리 순서 입력, 검색 중인 데이터베이스, 비교 중인 항목에 따라 다양하다.이러한 프로그램 및 세부 정보는 아래에 나열되어 있다.

블라스트는 실제로 프로그램 제품군이다(모두 블라스트롤 실행 파일에 포함됨).여기에는 다음이 포함된다.[15]

뉴클레오티드-뉴클레오티드 블라스트(블라스틴)
이 프로그램은 DNA 조회를 통해 사용자가 지정한 DNA 데이터베이스에서 가장 유사한 DNA 시퀀스를 반환한다.
단백질-단백질 블라스트(blastp)
단백질 질의가 주어진 이 프로그램은 사용자가 지정한 단백질 데이터베이스에서 가장 유사한 단백질 시퀀스를 반환한다.
위치별 반복 블라스트(PSI-BLAST) (블라스트pgp)
이 프로그램은 단백질의 먼 친척을 찾기 위해 사용된다.첫째, 밀접하게 연관된 모든 단백질들의 목록이 만들어진다.이러한 단백질들은 일반적인 "프로파일" 시퀀스로 결합되는데, 이것은 이러한 시퀀스에 존재하는 중요한 특징들을 요약한다.그런 다음 이 프로필을 사용하여 단백질 데이터베이스에 대한 질의를 실행하면 더 큰 단백질 그룹이 발견된다.이 더 큰 그룹은 다른 프로필을 구성하는 데 사용되며, 그 과정은 반복된다.
PSI-BLAST는 관련 단백질을 검색에 포함시킴으로써 표준 단백질인 블라스트보다 멀리 떨어진 진화 관계를 파악하는 데 훨씬 민감하다.
뉴클레오티드 6-프레임 번역-단백질(블라스텍스)
이 프로그램은 뉴클레오티드 쿼리 시퀀스(두 가닥 모두)의 6프레임 개념 번역 제품을 단백질 시퀀스 데이터베이스와 비교하여 유전체 시퀀스에서 단백질 코딩 유전자를 찾거나 cDNA가 알려진 단백질에 해당하는지 확인한다.
뉴클레오티드 6-프레임 변환-뉴클레오티드 6-프레임 변환(tblastx)
이 프로그램은 블라스트 계열 중 가장 느리다.그것은 6개의 가능한 모든 프레임에서 질의 뉴클레오티드 시퀀스를 번역하고 그것을 뉴클레오티드 시퀀스 데이터베이스의 6프레임 변환과 비교한다.tblastx의 목적은 뉴클레오티드 시퀀스 간에 매우 먼 관계를 찾는 것이다.
단백질-뉴클레오티드 6프레임 번역(tblastn)
이 프로그램은 단백질 질의를 뉴클레오티드 시퀀스 데이터베이스의 모든 6개 판독 프레임과 비교한다.그것은 단백질을 유전체 DNA에 매핑하는 데 사용될 수 있다.
많은 수의 쿼리 시퀀스(메가베이스)
명령행 블라스트를 통해 많은 수의 입력 시퀀스를 비교할 때, "메가블라스"는 여러 번 블라스트를 실행하는 것보다 훨씬 빠르다.그것은 많은 입력 시퀀스를 결합하여 블라스트 데이터베이스를 검색하기 전에 큰 시퀀스를 형성한 다음, 검색 결과를 사후 분석하여 개별 맞춤과 통계 값을 취합한다.

이들 프로그램 중 블라스트와 블라스트프가 가장 많이 사용된다.[16]그러나 단백질 염기서열은 뉴클레오티드 염기서열, tBLASTn, tBLASTx보다 진화적으로 보존이 잘되기 때문에 DNA를 코딩할 때 보다 신뢰성과 정확성을 높이는 결과를 낳는다.그것들은 또한 단백질 서열의 기능을 직접 볼 수 있게 해주는데, 왜냐하면 검색하기 전에 관심 서열을 번역함으로써 종종 주석 처리된 단백질 히트를 주기 때문이다.

대체 버전

큰 게놈이나 DNA를 비교하기 위해 고안된 버전은 블라스트즈다.

CS-BLAST(Context Specific VOLAST)는 단백질 시퀀스를 검색하기 위해 확장된 버전으로, 동일한 속도와 오류율에서 ROAST보다 두 배나 많은 원격 관련 시퀀스를 찾는다.CS-BLAST에서 아미노산 사이의 돌연변이 확률은 블라스트에서와 같이 단일 아미노산뿐만 아니라 그 국부적 시퀀스 컨텍스트에도 의존한다.워싱턴 대학교는 WU-BLAST라고 불리는 NCBI BLAST의 대체 버전을 제작했다.그 권리는 이후 Advanced Biocomputing, LLC에 취득되었다.

NCBI는 2009년 새로운 블라스트 실행 파일 세트인 C++ 기반 블라스트+를 출시해 2.2.26까지 C 버전을 출시했으며,[17] 버전 2.2.27(2013년 4월)부터 블라스트+ 실행 파일만 이용할 수 있다.그 변화들 중 하나는 의 대체품이다.blastall다른 블라스트 프로그램에 대해 별도의 실행 파일이 있는 실행 파일 및 옵션 처리 변경 사항.formatdb 유틸리티(C based)는 makeblastdb(C++ based)로 대체되었으며, 둘 중 하나에 의해 포맷된 데이터베이스는 동일한 블라스트 릴리스에 호환되어야 한다.그러나 이 알고리즘은 발견된 적중 횟수와 그 순서는 이전 버전과 최신 버전 간에 상당히 다를 수 있다.

가속 버전

로컬 인프라가 부족한 경우 클라우드 서버에서 블라스트를 실행하면 표준 블라스트를 그대로 유지하면서 더 많은 전력에 액세스할 수 있으므로 향후에 좋은 방법이 될 수 있다. NCBI는 이를 위한 지침을 제공하며, SequenceServer는 클라우드에서 블라스트를 실행하기 위한 대체 메커니즘을 제공한다.

TimeLogic은 FPGA 가속화된 VOLAST 알고리즘 Tera-BLAST 구현을 수백 배 더 빠른 속도로 제공한다.

이전에 지원되는 다른 버전은 다음과 같다.

  • FPGA 가속
    • CLC bioQiagen에 의해 인수되기 전에 FPGA 가속기에서 SciEngines GmbH와 협력했다. 그들은 188배의 블라스트 가속을 제공할 것이라고 주장했다.
    • Mitrion-C Open Bio 프로젝트는 Mitrion FPGA에서 실행되도록 VOLAST를 포팅하기 위한 노력이었다.
  • GPU 가속
    • GPU-Blast는[18] CUDA용 NCBI BLOASP의 가속 버전으로 NCBI BLAST보다 3~4배 빠르다.
    • CUDA-BLASTP는 GPU 가속형인 블라스트P의 버전이며 NCBI 블라스트보다 최대 10배 더 빨리 실행된다고 한다.
    • G-BLASTN은 NCBI Blastn과 메가라스트의 가속 버전으로, 속도 업이 4배에서 14배까지 다양하다(CPU 스레드가 4개인 동일 실행과 비교).그것의 현재 한계는 데이터베이스가 GPU 메모리에 맞아야 한다는 것이다.
  • CPU 가속
    • MPIBlast는 메시지 전달 인터페이스를 이용하여 NCBI BLAST를 병렬로 구현한 것이다.mpiBLAST는 데이터베이스 조각화, 쿼리 분할, 지능형 스케줄링, 병렬 I/O를 통해 분산된 컴퓨팅 리소스를 효율적으로 활용함으로써 NCBI BlAST 성능을 수백 개의 프로세서로 확장하는 동시에 여러 차례 개선한다.
    • CaBLAST는 데이터의 중복성을 이용하여 대규모 데이터베이스의 검색 속도를 향상시킨다.
    • 파라셀 블라스트는 NCBI 블라스트를 상업적으로 병렬 구현한 것으로 수백 개의 프로세서를 지원했다.
    • NCBI의 QuickBLAST(kblastp)는 해시 펜트아메리카 파편(hashed penticles)으로 자카드 지수 추정치를 바탕으로 사전 필터링해 구현 속도를 높인 것이다.필터링을 하면 감도는 약간 떨어지지만 성능은 크게 향상된다.[22]NCBI는 중복되지 않은(nr) 단백질 수집에서만 검색이 가능하도록 하고 다운로드를 제공하지 않는다.

블라스트의 대안

블라스트의 전신인 FASTA는 단백질과 DNA 유사성 검색에도 사용될 수 있다.FASTA는 단백질을 단백질과 DNA 데이터베이스, DNA와 단백질 데이터베이스와 비교하기 위한 유사한 프로그램을 제공하며, 순서가 없는 짧은 펩타이드와 DNA 시퀀스 작업을 위한 추가 프로그램을 포함한다.또한 FASTA 패키지는 엄격한 Smith-Waterman 알고리즘의 벡터화된 구현인 SSEARK를 제공한다.FASTA는 블라스트보다 느리지만 점수 매트릭스의 범위가 훨씬 넓어 특정 진화 거리에 따라 검색을 쉽게 맞춤화할 수 있다.

블라스트(Blast Like Alignment Tool)는 블라스트(Blast Like Alignment Tool)의 극도로 빠르지만 상당히 덜 민감한 대안이다.BlAST는 선형 검색을 하는 반면, BLAR은 k-mer 인덱싱에 의존하여 종종 더 빨리 씨앗을 찾을 수 있다.[23]BLAR과 유사한 또 다른 소프트웨어 대안은 패턴이다.헌터.

2000년대 후반의 염기서열화 기술의 발전은 매우 유사한 뉴클레오티드를 찾는 것을 중요한 문제로 만들었다.이러한 용도에 맞게 조정된 새로운 정렬 프로그램은 일반적으로 대상 데이터베이스의 BWT 색인화(일반적으로 게놈)를 사용한다.그러면 입력 시퀀스는 매우 빠르게 매핑될 수 있으며, 출력은 일반적으로 BAM 파일 형식이다.정렬 프로그램의 예로는 BWA, SOAP, Bowtie 등이 있다.

단백질 식별의 경우 HIDMARKOV 모델과 매칭하여 알려진 도메인(예: Pfam에서)을 검색하는 것이 HMER와 같은 인기 있는 대안이다.

두 개의 시퀀스 뱅크의 비교를 위한 블라스트의 대안은 PLAST이다. PLAST는 PLAST와[24] ORIS[25] 알고리즘에 의존하는 고성능 범용 뱅크 대 뱅크 시퀀스 유사성 검색 도구를 제공한다.PLAST의 결과는 블라스트와 매우 유사하지만 PLAST는 훨씬 더 빠르고 작은 메모리(즉, RAM) 풋프린트와 큰 시퀀스 세트를 비교할 수 있다.

수십억 개의 짧은 DNA 판독값을 수천만 개의 단백질 참조와 비교하는 것이 과제인 메타게노믹스의 응용의 경우, DIAMD는[26] 높은 민감도를 유지하면서 VOLASX의 최대 2만 배 속도로 작동한다.

오픈소스 소프트웨어 MMseqs는 속도 민감성 트레이드오프 전 범위에 걸쳐 기존 검색 툴을 개선해 PSI-BLAST보다 400배 이상 빠른 감성을 달성하는 블라스트/PSI-BLAST의 대안이다.[27]

광학 컴퓨팅 접근방식은 현재의 전기 구현에 대한 유망한 대안으로 제시되어 왔다.OptCAM은 그러한 접근법의 한 예로서, 블라스트보다 더 빠른 것으로 보인다.[28]

블라스트와 스미스-워터맨 프로세스 비교

스미스-워터맨과 블라스트 모두 데이터베이스의 질의 시퀀스를 검색하고 비교함으로써 동음이의어 시퀀스를 찾는데 사용되지만, 그들은 차이가 있다.

블라스트가 휴리스틱 알고리즘을 기반으로 하기 때문에, 발견된 적중량 측면에서 블라스트를 통해 받은 결과는 데이터베이스 내의 모든 적중량을 제공하지 못하기 때문에 가능한 최선의 결과가 아닐 수 있다.블라스트는 성냥을 찾기가 어렵다.

최선의 결과를 찾기 위한 더 좋은 대안은 스미스-워터맨 알고리즘을 사용하는 것이다.이 방법은 정확도와 속도라는 두 가지 영역에서 블라스트 방식과 다르다.Smith-Waterman 옵션은 어떠한 정보도 놓치지 않기 때문에 블라스트에서 찾을 수 없는 일치점을 찾는다는 점에서 더 나은 정확성을 제공한다.그러므로 원격 호몰로지에는 필요하다.그러나 블라스트에 비해 많은 양의 컴퓨터 사용과 공간이 필요한 것은 말할 것도 없고 시간이 더 많이 소요된다.그러나 스미스-워터맨 공정을 가속화하기 위한 기술은 검색을 수행하는 데 필요한 시간을 획기적으로 향상시키는 것으로 밝혀졌다.기술에는 FPGA 칩과 SIMD 기술이 포함된다.

블라스트에서 더 나은 결과를 얻기 위해 기본 설정에서 설정을 변경할 수 있다.그러나 주어진 시퀀스에 대해 최상의 결과를 얻기 위해 이러한 설정을 변경할 수 있는 주어진 방법이나 정해진 방법은 없다.변경할 수 있는 설정은 E-Value, 갭 비용, 필터, 단어 크기 및 대체 매트릭스다.참고로, 블라스트에 사용된 알고리즘은 스미스-워터맨에 사용된 알고리즘에서 개발되었다.블라스트에는 "짧은 일치 항목을 찾아 시퀀스 간 로컬 정렬을 찾고 이러한 초기 일치(로컬) 정렬에서 로컬 정렬을 만든다"[29]는 선형이 사용된다.

블라스트 출력 시각화

사용자가 블라스트 결과를 해석할 수 있도록 다른 소프트웨어를 사용할 수 있다.설치 및 사용, 분석 기능 및 기술에 따라 사용 가능한 몇 가지 툴:[30]

  • NCBI 블라스트 서비스
  • 일반 블라스트 출력 인터프리터, GUI 기반: JAMBLAST, 블라스트 뷰어, 블라스트그래버
  • 통합 블라스트 환경: Plan, BlowerStation Free, SequenceServer
  • VOLAS 출력 파서: MuSeqBox, 저그, BioParser, VOLAS-Explorer, SequenceServer
  • 특수 블라스트 관련 도구: MEGAN, 블라스트2GEN, BOV, Circoletto

블라스트 결과의 시각화 예는 그림 4와 5에 나와 있다.

그림 4 SequenceServer 소프트웨어를 사용하여 생성된 블라스트 결과의 순환식 시각화.
그림 5 SequenceServer 소프트웨어를 사용하여 생성된 블라스트 히트 길이 분포는 쿼리(예측 유전자 제품)가 유사한 데이터베이스 시퀀스와 비교되는 시간이 길다는 것을 보여준다.

블라스트의 사용

블라스트는 여러 가지 목적으로 사용될 수 있다.여기에는 종 식별, 도메인 위치 파악, 유전체 형성, DNA 매핑 및 비교가 포함된다.

종 식별
블라스트를 사용하면 종을 정확하게 식별하거나 동음이의 종을 찾을 수 있다.예를 들어, 여러분이 알려지지 않은 종의 DNA 서열을 가지고 작업할 때 이것은 유용할 수 있다.
도메인 찾기
단백질 서열로 작업할 때, 관심 서열 내에서 알려진 도메인을 찾기 위해 그것을 블라스트에 입력할 수 있다.
계통생성 확립
블라스트를 통해 수신된 결과를 사용하여 블라스트 웹 페이지를 사용하여 계통 생성 트리를 만들 수 있다.블라스트에 기반한 계통발생술은 다른 목적에 따라 제작된 계산 계통발생법에 비해 신뢰성이 낮으므로 "최초 패스" 계통발생학 분석에만 의존해야 한다.
DNA 지도
알려진 종과 함께 작업할 때, 그리고 알려지지 않은 위치에서 유전자의 염기서열을 볼 때, VLAST는 관심 순서의 염색체 위치를 데이터베이스의 관련 시퀀스와 비교할 수 있다.NCBI는 이를 위해 블라스트 주위에 "매직-BLAST" 도구를 구축했다.[31]
비교
ROAST는 유전자로 작업할 때 두 개의 관련 종에서 공통 유전자를 찾을 수 있으며, 한 유기체에서 다른 유기체로 주석을 매핑하는 데 사용될 수 있다.

참고 항목

참조

  1. ^ "BLAST Developer Information". blast.ncbi.nlm.nih.gov.
  2. ^ a b c Douglas Martin (21 February 2008). "Samuel Karlin, Versatile Mathematician, Dies at 83". The New York Times.
  3. ^ R. M. Casey (2005). "BLAST Sequences Aid in Genomics and Proteomics". Business Intelligence Network.
  4. ^ Lipman, DJ; Pearson, WR (1985). "Rapid and sensitive protein similarity searches". Science. 227 (4693): 1435–41. Bibcode:1985Sci...227.1435L. doi:10.1126/science.2983426. PMID 2983426.
  5. ^ "BLAST topics".
  6. ^ Dan Stober (January 16, 2008). "Sam Karlin, mathematician who improved DNA analysis, dead at 83". Stanford.edu.
  7. ^ a b Stephen Altschul; Warren Gish; Webb Miller; Eugene Myers; David J. Lipman (1990). "Basic local alignment search tool". Journal of Molecular Biology. 215 (3): 403–410. doi:10.1016/S0022-2836(05)80360-2. PMID 2231712.
  8. ^ Oehmen, C.; Nieplocha, J. (2006). "ScalaBLAST: A Scalable Implementation of BLAST for High-Performance Data-Intensive Bioinformatics Analysis". IEEE Transactions on Parallel and Distributed Systems. 17 (8): 740. doi:10.1109/TPDS.2006.112. S2CID 11122366.
  9. ^ Oehmen, C. S.; Baxter, D. J. (2013). "ScalaBLAST 2.0: Rapid and robust BLAST calculations on multiprocessor systems". Bioinformatics. 29 (6): 797–798. doi:10.1093/bioinformatics/btt013. PMC 3597145. PMID 23361326.
  10. ^ "Sense from Sequences: Stephen F. Altschul on Bettering BLAST". ScienceWatch. July–August 2000. Archived from the original on 7 October 2007.
  11. ^ Steven Henikoff; Jorja Henikoff (1992). "Amino Acid Substitution Matrices from Protein Blocks". PNAS. 89 (22): 10915–10919. Bibcode:1992PNAS...8910915H. doi:10.1073/pnas.89.22.10915. PMC 50453. PMID 1438297.
  12. ^ Mount, D. W. (2004). Bioinformatics: Sequence and Genome Analysis (2nd ed.). Cold Spring Harbor Press. ISBN 978-0-87969-712-9.
  13. ^ 생물학적 시퀀스 분석 I, 게놈 분석의 최신 주제[1]에서 채택.
  14. ^ Yim, WC; Cushman, JC (2017). "Divide and Conquer (DC) BLAST: fast and easy BLAST execution within HPC environments". PeerJ. 5: e3486. doi:10.7717/peerj.3486. PMC 5483034. PMID 28652936.
  15. ^ "Program Selection Tables of the Blast NCBI web site".
  16. ^ "Which BLAST program should I use?". resources.qiagenbioinformatics.com. Retrieved 18 January 2022.
  17. ^ Camacho, C.; Coulouris, G.; Avagyan, V.; Ma, N.; Papadopoulos, J.; Bealer, K.; Madden, T. L. (2009). "BLAST+: Architecture and applications". BMC Bioinformatics. 10: 421. doi:10.1186/1471-2105-10-421. PMC 2803857. PMID 20003500.
  18. ^ Vouzis, P. D.; Sahinidis, N. V. (2010). "GPU-BLAST: using graphics processors to accelerate protein sequence alignment". Bioinformatics. 27 (2): 182–8. doi:10.1093/bioinformatics/btq644. PMC 3018811. PMID 21088027.
  19. ^ Liu W, Schmidt B, Müller-Wittig W (2011). "CUDA-BLASTP: accelerating BLASTP on CUDA-enabled graphics hardware". IEEE/ACM Trans Comput Biol Bioinform. 8 (6): 1678–84. doi:10.1109/TCBB.2011.33. PMID 21339531. S2CID 18221547.
  20. ^ Zhao K, Chu X (May 2014). "G-BLASTN: accelerating nucleotide alignment by graphics processors". Bioinformatics. 30 (10): 1384–91. doi:10.1093/bioinformatics/btu047. PMID 24463183.
  21. ^ Loh PR, Baym M, Berger B (July 2012). "Compressive genomics". Nat. Biotechnol. 30 (7): 627–30. doi:10.1038/nbt.2241. PMID 22781691.
  22. ^ Madden, Tom; Boratyn, Greg (2017). "QuickBLASTP: Faster Protein Alignments" (PDF). Proceedings of NIH Research Festival. Retrieved 16 May 2019. 추상 페이지
  23. ^ Kent, W. James (2002-04-01). "BLAT—The BLAST-Like Alignment Tool". Genome Research. 12 (4): 656–664. doi:10.1101/gr.229202. ISSN 1088-9051. PMC 187518. PMID 11932250.
  24. ^ Lavenier, D.; Lavenier, Dominique (2009). "PLAST: parallel local alignment search tool for database comparison". BMC Bioinformatics. 10: 329. doi:10.1186/1471-2105-10-329. PMC 2770072. PMID 19821978.
  25. ^ Lavenier, D. (2009). "Ordered index seed algorithm for intensive DNA sequence comparison" (PDF). 2008 IEEE International Symposium on Parallel and Distributed Processing (PDF). pp. 1–8. CiteSeerX 10.1.1.155.3633. doi:10.1109/IPDPS.2008.4536172. ISBN 978-1-4244-1693-6. S2CID 10804289.
  26. ^ Buchfink, Xie and Huson (2015). "Fast and sensitive protein alignment using DIAMOND". Nature Methods. 12 (1): 59–60. doi:10.1038/nmeth.3176. PMID 25402007. S2CID 5346781.
  27. ^ Steinegger, Martin; Soeding, Johannes (2017-10-16). "MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets". Nature Biotechnology. 35 (11): 1026–1028. doi:10.1038/nbt.3988. hdl:11858/00-001M-0000-002E-1967-3. PMID 29035372. S2CID 402352.
  28. ^ Maleki, Ehsan; Koohi, Somayyeh; Kavehvash, Zahra; Mashaghi, Alireza (2020). "OptCAM: An ultra‐fast all‐optical architecture for DNA variant discovery". Journal of Biophotonics. 13 (1): e201900227. doi:10.1002/jbio.201900227. PMID 31397961.
  29. ^ "Bioinformatics Explained: BLAST versus Smith-Waterman" (PDF). 4 July 2007.
  30. ^ Neumann, Kumar and Shalchian-Tabrizi (2014). "BLAST output visualization in the new sequencing era". Briefings in Bioinformatics. 15 (4): 484–503. doi:10.1093/bib/bbt009. PMID 23603091.
  31. ^ "NCBI Magic-BLAST". ncbi.github.io. Retrieved 16 May 2019.

외부 링크