유사성 측정

Similarity measure

통계 및 관련 필드에서 유사성 측정 또는 유사성 함수 또는 유사성 메트릭은 두 개체 간의 유사성을 수량화하는 실제 값 함수입니다.유사성에 대한 단일 정의는 존재하지 않지만, 일반적으로 그러한 척도는 어떤 의미에서는 거리 메트릭의 역이다. 유사한 물체에 대해서는 큰 값을, 매우 다른 물체에 대해서는 0 또는 음의 값을 취한다.그러나 좀 더 넓은 관점에서, 유사성 함수는 메트릭 공리를 만족시킬 수도 있다.

코사인 유사도는 실제 값 벡터에 일반적으로 사용되는 유사도 측도로, 벡터 공간 모델에서 문서의 유사도를 채점하기 위해 정보 검색에 사용됩니다.기계학습에서는 RBF 커널과 같은 공통 커널 함수를 유사함수로 [1]볼 수 있다.

클러스터링에 사용

스펙트럼 클러스터링에서는 데이터 [2]분포 형상의 볼록성 결여와 관련된 어려움을 극복하기 위해 데이터를 변환하기 위해 유사도 또는 친화도를 사용한다.그 조치,:(n, n){\displaystyle(n,n)}-sized .mw-parser-output .vanchor&gt는 n점의 나는{\displaystyle 사이에 어디서 행렬의 입구(나는, j){\displaystyle(i,j)}이 될 수 있는(의 역수입니다.)유클리드 거리 세트에 target~.vanchor-text{background-color:#b1d2ff}similarity 행렬.나는}과 j{j\displaystyle}, 또는이 될 수는 더 복잡한 조치 o.f 거리(예: e -1 - 2 / 2 2 \ e^ { - s _ { } - s _ { 2 \2} / 2 \ ^ {2}[2]) 。네트워크 분석 기법을 사용하여 이 결과를 추가로 수정하는 것도 [3]일반적입니다.

시퀀스 정렬에서 사용

유사성 행렬은 시퀀스 정렬에 사용됩니다.유사성이 높은 문자는 높은 점수를 받고 유사성이 낮은 문자는 낮은 점수를 받는다.

뉴클레오티드 유사성 매트릭스는 핵산 배열을 정렬하기 위해 사용된다.DNA에서 공통적으로 발견되는 뉴클레오티드는 4개(아데닌(A), 시토신(C), 구아닌(G) 및 티민(T))뿐이기 때문에 뉴클레오티드 유사성 매트릭스는 단백질 유사성 매트릭스보다 훨씬 단순하다.예를 들어, 단순 매트릭스는 동일한 베이스에 +1의 점수를 할당하고 동일하지 않은 베이스에 -1의 점수를 할당합니다.더 복잡한 매트릭스는 변환(피리미딘에서 푸린으로 또는 그 반대)보다 전환(C 또는 T와 같은 피리미딘에서 다른 피리미딘으로 또는 A 또는 G와 같은 푸린에서 다른 푸린으로의 변화)에 더 높은 점수를 줄 것이다.행렬의 일치/불일치 비율은 목표 진화 [4][5]거리를 설정합니다.BLASTN에서 사용하는 +1/3 DNA 매트릭스는 99% 동일한 시퀀스 간의 일치 찾기에 가장 적합합니다. +1/-1(또는 +4/-4) 매트릭스는 약 70% 유사성이 있는 시퀀스에 훨씬 적합합니다.유사도가 낮은 시퀀스에 대한 행렬에는 더 긴 시퀀스 정렬이 필요합니다.

아미노산 유사성 매트릭스는 더 복잡하다. 왜냐하면 유전자 코드에 의해 코드화된 20개의 아미노산이 있고, 따라서 더 많은 가능한 치환들이 있기 때문이다.따라서 아미노산에 대한 유사도 매트릭스는 400개의 엔트리를 포함합니다(일반적으로 대칭이지만).첫 번째 접근법은 모든 아미노산 변화를 동일하게 평가했다.이후 개량된 것은 아미노산을 코드화하기 위해 코돈을 변화시키기 위해 얼마나 많은 염기 변화가 필요한지에 따라 아미노산 유사성을 결정하는 것이었다.이 모델은 더 좋지만 아미노산의 선택적 압력 변화를 고려하지 않습니다.더 나은 모델은 아미노산의 화학적 특성을 고려했다.

한 가지 접근방식은 유사성 행렬을 경험적으로 생성하는 것이다.데이호프법은 계통수와 나무의 종에서 추출한 염기서열을 사용했다.이 접근법에 의해 PAM 시리즈 매트릭스가 생성되었습니다.PAM 매트릭스는 아미노산 100개당 얼마나 많은 뉴클레오티드 변화가 발생했는지에 따라 라벨로 표시된다.PAM 매트릭스는 잘 이해된 진화 모델을 갖는 것이 유리하지만, 짧은 진화 거리(PAM10–PAM120)에서 가장 유용하다.예를 들어 PAM250 또는 20% 동일성과 같은 긴 진화 거리에서는 BLOSUM 행렬이 훨씬 더 효과적인 것으로 나타났다.

BLOSUM 시리즈는 다수의 발산 시퀀스를 비교하여 생성되었습니다.BLOSUM 시리즈는 모든 시퀀스 간에 음영 처리되지 않은 엔트로피의 양에 따라 라벨이 지정되므로 BLOSUM 수치가 낮을수록 PAM 수치가 높아집니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Vert, Jean-Philippe; Tsuda, Koji; Schölkopf, Bernhard (2004). "A primer on kernel methods" (PDF). Kernel Methods in Computational Biology.
  2. ^ a b Ng, A.Y.; Jordan, M.I.; Weiss, Y. (2001), "On Spectral Clustering: Analysis and an Algorithm" (PDF), Advances in Neural Information Processing Systems, MIT Press, 14: 849–856
  3. ^ Li, Xin-Ye; Guo, Li-Jie (2012), "Constructing affinity matrix in spectral clustering based on neighbor propagation", Neurocomputing, 97: 125–130, doi:10.1016/j.neucom.2012.06.023
  4. ^ States, D; Gish, W; Altschul, S (1991). "Improved sensitivity of nucleic acid database searches using application-specific scoring matrices". Methods: A Companion to Methods in Enzymology. 3 (1): 66. CiteSeerX 10.1.1.114.8183. doi:10.1016/S1046-2023(05)80165-3.
  5. ^ Sean R. Eddy (2004). "Where did the BLOSUM62 alignment score matrix come from?" (PDF). Nature Biotechnology. 22 (8): 1035–6. doi:10.1038/nbt0804-1035. PMID 15286655. S2CID 205269887. Archived from the original (PDF) on 2006-09-03.