대표 시퀀스

대표적인 염기서열은 단백질 염기서열 내의 짧은 영역이며, 단백질의 진화적 관계나 단백질의 유래를 추정하는데 사용될 수 있다.대표적인 배열은 유비쿼터스 보존 단백질의 연속된 후속(일반적으로 300개의 잔류물)이며, 따라서 각 직교 계열의 대표 배열이 합의 ^[1]행렬과 밀접하게 일치하여 거리 행렬을 제공한다.

사용하다

단백질 배열은 단백질과 단백질 도메인의 생물학적 기능과 진화에 대한 데이터를 제공할 수 있다.따라서 단백질 염기서열을 그룹화 및 상호 연관시키면 인간의 생물학적 과정과 지구상의 생물학적 과정의 진화적 발달에 대한 정보를 제공할 수 있다. 이러한 염기서열 클러스터는 염기서열 공간의 효과적인 커버리지를 가능하게 한다.시퀀스 클러스터는 대량의 시퀀스 데이터베이스를 더 작은 시퀀스 표현 세트로 축소할 수 있습니다.각 데이터베이스는 시퀀스 수준에서 클러스터를 나타내야 합니다.시퀀스 표현을 사용하면 시퀀스 수가 적은 원래 데이터베이스를 효과적으로 커버할 수 있습니다.유사한(또는 용장) 시퀀스가 특정 유사성 임계값에서 삭제되었기 때문에 시퀀스 표현의 데이터베이스는 비장이라고 불립니다.