전체 링크 클러스터링

Complete-linkage clustering

완전 연계 클러스터링은 집적 계층적 클러스터링의 몇 가지 방법 중 하나이다.공정의 시작에서 각 원소는 그 자체의 군집 안에 있다.그런 다음 모든 요소가 동일한 클러스터에 포함될 때까지 클러스터는 순차적으로 더 큰 클러스터로 결합된다.이 방법은 가장이웃 군집화라고도 알려져 있다.군집화 결과는 덴드로그램으로 시각화할 수 있는데, 군집 융합의 순서와 각 융화가 일어난 거리를 보여준다.[1][2][3]

군집화 절차

각 단계에서 가장 짧은 거리로 분리된 두 군집이 결합된다.'가장 짧은 거리'의 정의는 서로 다른 응집성 군집화 방법을 구별하는 것이다.완전한 링크 군집화에서, 두 군집 사이의 연결은 모든 요소 쌍을 포함하며, 군집 사이의 거리는 서로 가장 멀리 떨어져 있는 두 요소 사이의 거리(각 군집마다 한 개씩)와 같다.어떤 단계에 머물러 있는 이들 링크 중 가장 짧은 연결은 요소들이 관여하는 두 군집의 융합을 야기한다.

Mathematically, the complete linkage function — the distance between clusters and — is described by the following expression :

어디에

  • ( , y) 은(는) X(는 y Y {\ Y}; 사이의 거리이다.
  • 두 가지 요소(클러스터) 집합이다.

알고리즘

순진한 계획

다음 알고리즘은 기존 클러스터가 새로운 클러스터로 병합되면서 근접 행렬의 행과 열을 지우는 응집형 구조다. N N 근접 행렬 D에는 모든 거리 d(i,j)가 포함되어 있다.군집에는 시퀀스 번호 0,1,......, (n - 1)가 할당되며 L(k)은 k번째 군집화 수준이다.시퀀스 번호 m의 클러스터는 (m)으로 표시되고, 클러스터(r)와 (s) 사이의 근접성은 d[(r),(s)로 표시된다.

완전한 링크 클러스터링 알고리즘은 다음 단계로 구성된다.

  1. L( )= 0 L 및 시퀀스 번호 = 0 을(를) 갖는 분리형 클러스터링으로 시작하십시오
  2. [( )(), ( s ) , ( s에 따라 에서 유사한클러스터 을 찾으십시오. d [ ( r ) ,( ) = d ( i), ( d ( ) = ( ) = ] = #
  3. 시퀀스 번호: = + }을를) 증분하십시오클러스터) ) (를) 단일 클러스터로 병합하여 다음 클러스터링 을(를) 형성하십시오 이 클러스터링의 = d로 설정하십시오
  4. 클러스터) ( 해당하는 행과 열을 삭제하고 새로 구성된 클러스터에 해당하는 행과 열을 추가하여 근접 행렬을 업데이트하십시오.The proximity between the new cluster, denoted and old cluster is defined as .
  5. 모든 개체가 하나의 클러스터에 있으면 중지하십시오.그렇지 않으면 2단계로 이동하십시오.

최적 효율적 계획

위에서 설명한 알고리즘은 이해하기 쉽지만 복잡성 ) 1976년 5월 D.디파이즈는 단일 링크 클러스터링에 대한 유사한 알고리즘 SLINK에서 영감을 받아 CLINK (1977년 발행)[4]로 알려진 복잡성 (2 O만 최적으로 효율적인 알고리즘을 제안했다.

작업 예제

작업 예는 5S 리보솜 RNA 시퀀스 정렬에서 계산된 JC69 유전자 거리 매트릭스를 기반으로 한다.바실러스 아열대( subilis, 바실러스 스타어터모필루스( 유산균 바이러스덴스( 아콜레플라즈마모디쿰( d 마이크로코커스 루테우스([5][6]

1단계

  • 첫 번째 군집화

5개 요소 그 요소들 사이의 쌍방향 거리의 다음 {\}이 있다고 가정해 봅시다.

a b c d e
a 0 17 21 31 23
b 17 0 30 34 21
c 21 30 0 28 39
d 31 34 28 0 43
e 23 21 39 43 0

이 예에서 1( , )= 의 가장 작은 이므로 요소에 한다

  • 첫 번째 분기 길이 추정

이(가) {\(와) b{\}이(가) 연결된 노드를 나타내도록 하십시오.설정 Δ( ,)= ( b , = 1( , )/ }은 a및 b {\ b} {\displaystyle 로부터 동일하도록 보장한다이는 초경량 가설의 예상에 해당한다. b 을(를) 결합하는 분기의 길이 Δ)= / = 8 최종 덴드로그램 참조).

  • 첫 번째 거리 행렬 업데이트

그런 다음 초기 근접 D1 {\1}를 새로운 2 {\D_{2}}( 참조 b {\ b를) {\ a의 클러스터링으로 인해 크기가 한 행과 한 열로 축소됨 에서 굵은 값}는 첫 번째 군집 , )의 각 요소와 각 요소 사이의 최대 거리를 유지하여 계산한 새로운 거리에 해당한다

}의 기울임꼴로 표시된 값은 첫 번째 군집에 포함되지 않은 요소 사이의 거리에 해당하므로 행렬 업데이트의 영향을 받지 않는다.

두 번째 단계

  • 두 번째 군집화

이제 새로운 거리 D }} :부터 시작하여 이전의 세 단계를 반복한다.

(a,b) c d e
(a,b) 0 30 34 23
c 30 0 28 39
d 34 28 0 43
e 23 39 43 0

여기서 ( ), )= 의 가장 낮은 우리는 ) 요소와 함께 클러스터(, b ) {\에 가입한다

  • 두 번째 분기 길이 추정

이()( ,) 이(가) 연결된 노드를 나타내도록 하십시오.Because of the ultrametricity constraint, the branches joining or to , and to , are equal and have the following total length:

We deduce the missing branch length: (see the final dendrogram)

  • 2차 거리 매트릭스

그런 다음 D }}매트릭스를 새로운 거리 매트릭스 3 D_아래 참조)로 업데이트하고 ){\의 클러스터링으로 인해 크기가 한 행과 한 열로 축소된다.

세 번째 단계

  • 세 번째 군집화

업데이트된 거리 매트릭스 에서 시작하여 이전 세 단계를 다시 반복한다

((a,b),e) c d
((a,b),e) 0 39 43
c 39 0 28
d 43 28 0

여기서 ( c, )= 은 D 의 가장 작은값이기 때문에 요소 에 가입한다

  • 세 번째 분기 길이 추정

(가) 이(가) 연결된 노드를 나타내도록 하십시오. 및 d (를) 연결하는 분기의 길이는 Δ, )= / = 마지막 덴드로그램 참조)

  • 3차 거리 행렬 업데이트

There is a single entry to update:

최종 단계

최종 행렬은 다음과 같다.

((a,b),e) (c,d)
((a,b),e) 0 43
(c,d) 43 0

그래서 우리는 (, ), e) , ) 을(를) 결합한다

이(가(, ), e) ( d ){\(가) 연결되는 (root) 노드를 나타내도록 한다. ), ) {\( , ){\d) 디스플레이style (를) r r 결합하는 분기의 길이는 다음과 같다.

남은 두 가지 가지 가지 길이를 추론해 봅시다.

전체 링크 덴드로그램

WPGMA Dendrogram 5S data

덴드로그램은 이제 완성되었다.모든 팁 ~ 이 r

따라서 덴드로그램은 가장 깊은 노드인 에 의해 뿌리를 내린다.

다른 링크와의 비교

대안적 연결 체계에는 단일 연결 클러스터링과 평균 연결 클러스터링이 포함된다. 순진한 알고리즘에서 다른 연결을 구현하는 것은 단순히 근접 매트릭스의 초기 계산과 위의 알고리즘의 4단계에서 클러스터 간 거리를 계산하기 위해 다른 공식을 사용하는 것이다.그러나 임의의 연결에는 최적으로 효율적인 알고리즘을 사용할 수 없다.조정해야 할 수식은 굵은 텍스트를 사용하여 강조 표시했다.

완전한 연결 클러스터링은 비록 각 클러스터의 많은 요소들이 서로 매우 멀리 떨어져 있더라도 단일 연결 클러스터링을 통해 형성된 클러스터들이 서로 가까이 있기 때문에 함께 강제될 수 있는 소위 체인 현상이라는 대안적인 단일 연결 방법의 단점을 피한다.완전한 연결은 대략 같은 직경의 콤팩트한 군집을 찾는 경향이 있다.[7]

동일한 거리 행렬에서 다른 군집화 방법으로 얻은 덴드로그램 비교.
Simple linkage-5S.svg
Complete linkage Dendrogram 5S data.svg
WPGMA Dendrogram 5S data.svg
UPGMA Dendrogram 5S data.svg
단일 링크 클러스터링. 전체 링크 클러스터링 평균 연결 클러스터링: WPGMA 평균 연결 클러스터링: UPGMA.

참고 항목

참조

  1. ^ Sorensen T (1948). "A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on Danish commons". Biologiske Skrifter. 5: 1–34.
  2. ^ Legendre P, Legendre L (1998). Numerical Ecology (Second English ed.). p. 853.
  3. ^ Everitt BS, Landau S, Leese M (2001). Cluster Analysis (Fourth ed.). London: Arnold. ISBN 0-340-76119-9.
  4. ^ Defays D (1977). "An efficient algorithm for a complete link method". The Computer Journal. British Computer Society. 20 (4): 364–366. doi:10.1093/comjnl/20.4.364.
  5. ^ Erdmann VA, Wolters J (1986). "Collection of published 5S, 5.8S and 4.5S ribosomal RNA sequences". Nucleic Acids Research. 14 Suppl (Suppl): r1-59. doi:10.1093/nar/14.suppl.r1. PMC 341310. PMID 2422630.
  6. ^ Olsen GJ (1988). "Phylogenetic analysis using ribosomal RNA". Methods in Enzymology. 164: 793–812. doi:10.1016/s0076-6879(88)64084-5. PMID 3241556.
  7. ^ 에버릿, 랜다우와 리스(2001), 페이지 62-64.

추가 읽기

  • Späth H (1980). Cluster Analysis Algorithms. Chichester: Ellis Horwood.