업그마

UPGMA

UPGMA(산술 평균을 사용한 가중치 없는 쌍 그룹 방법)는 단순한 집적(상향식) 계층 군집화 방법입니다.이 방법은 일반적으로 Sokal과 Michener에 [1]기인한다.

UPGMA 방식은 WPGMA 방식과 유사합니다.

가중치 없는 항은 모든 거리가 계산되는 각 평균에 동일하게 기여함을 나타내며, 이 평균이 달성되는 산술은 참조하지 않습니다.따라서 WPGMA의 단순 평균은 가중 결과를 생성하고 UPGMA의 비례 평균은 가중되지 않은 결과를 생성한다(작업 [2]참조).

알고리즘.

UPGMA 알고리즘은 쌍별 유사도 매트릭스(또는 차등도 매트릭스)에 존재하는 구조를 반영하는 루트 트리(덴드로그램)를 구성합니다.각 단계에서 가장 가까운 두 군집이 더 높은 수준의 군집으로 결합됩니다.크기(, 카디널리티)(\ {\mathcal {B}})의 두 A {\ {Bdisplaystyle {\mathcal { 사이의 거리는 모든 의 평균이 됩니다. x(\x와 B {의 y y 사이의 {\displaystyle d 즉 각 클러스터의 요소 간 평균 거리

즉, 각 클러스터 단계에서 결합된 AB {\ {B 클러스터X {\ X 사이의 업데이트된 거리는 평균에 의해 결정됩니다. 거리:

UPGMA 알고리즘은 루트 덴드로그램을 생성하며 일정한 비율의 가정이 필요하다. 즉, 루트로부터 모든 분기 팁까지의 거리가 동일한 초변형 트리를 가정한다.팁이 동시에 샘플링된 분자 데이터(DNA, RNA단백질)인 경우, 초측정성 가정은 분자 시계를 가정하는 것과 같아진다.

작업 예

이 작업 예는 5개 세균의 5S 리보솜 RNA 배열 정렬에서 계산한 JC69 유전자 거리 매트릭스에 기초한다. a), (\ b 락토바실루스 c d 마이크로코커스 e[3][4]

제1단계

  • 첫 번째 클러스터링

5개의 요소 와 그 사이의 쌍방향 거리 1})이 있다고 가정합니다.

a b c d e
a 0 17 21 31 23
b 17 0 30 34 21
c 21 30 0 28 39
d 31 34 28 0 43
e 23 21 39 43 0

이 예에서는 ({ b)= ({이므로 b 결합합니다.

  • 첫 번째 분기 길이 추정

{ u }는 \ a b { b 현재 연결되어 있는 를 나타냅니다. (a , ) (b , ) ( ,) / ( \ ( , u ) = \ ( , u ) D_하면 등거리에 있음을 확인할 수 있습니다.이것은 초파형성 가설의 기대와 일치한다. \ a b u\displaystyle bb\displaystyle b u .5최종 덴드로그램 참조)의 길이가.

  • 첫 번째 거리 매트릭스 업데이트

그런 다음 초기 거리 새로운 거리 로 업데이트합니다(아래 참조). {})의 굵은 값은 b b{\d_ 클러스터링되므로 크기가 1행 및 1열 감소됩니다.2 첫 번째 클러스터, 각 요소와 나머지 각 요소 간의 거리를 평균하여 계산한 새로운 거리에 해당합니다.

기울임꼴 값은 첫 번째 클러스터에 포함되지 않은 요소 간의 거리에 대응하므로 매트릭스 업데이트의 영향을 받지 않습니다.

두 번째 단계

  • 세컨드 클러스터링

이제 새로운 거리 2 D_부터 시작하여 이전 세 단계를 반복합니다.

(a, b) c d e
(a, b) 0 25.5 32.5 22
c 25.5 0 28 39
d 32.5 28 0 43
e 22 39 43 0

( ( ,b) , ) { ( ( , b ) = 2이므로, ( a , ,b )와 요소 e { e 를 결합합니다.

  • 두 번째 분기 길이 추정

{ v ( { e { e 현재 연결되어 있는노드를 나타냅니다.울트라메트릭성의 제약으로 인해 \a} b {\b}에서 {\ v 및 e {\e}에서 v {\v)로 하는 브랜치는 동일하며 가 다음과 같습니다. ( a , ) b , ) / 2 sty ( e, v ) = / = {displaystystyle , = { displaystyle displaystyledisplayst

된 분기 길이를 추정합니다. ( , ) ( ( ,) -) ( , ) ( ( ,) -( ( , ) - . 2.5 \style \ display ( ) \ style ( , ) \ ( e , v ) \ , v ) \ sclan ( e , v ) \ ( , v ) \ sclan ( e , v ) \ sclan ) \ slannel (

  • 두 번째 거리 매트릭스 업데이트

그런 다음 2})를 새로운 거리 참조)로 합니다 (,b )\ (a , ) \ displaystyle ( a , b ) {\eringering eringeringering {\ ( a , b ) \ D _ { 3} in in in in in in in in in in in in in ) in in in in in in in in in in in in in in in in {\ cor D_{ D_ displayst비례 평균으로 계산된 새 거리에 대한 계산:

이 비례 평균 덕분에 이 새로운 거리는e\e하나의 요소)에 대해 ( display style a, b)\ (a, b)\display (a, b)\display style (a, b 클러스터2개 요소)의 더 큰 크기를 차지합니다.마찬가지로:

따라서 비례 평균은 의 초기 거리({와 동일한 가중치를 부여합니다.이것이 수학적 절차가 아니라 초기 거리에 대해 방법이 가중치가 부여되지 않는 이유이다.

세 번째 단계

  • 세 번째 클러스터링

업데이트된 거리 3 D_부터 시작하여 이전 세 단계를 다시 설명합니다.

(a,b,e) c d
(a,b,e) 0 30 36
c 30 0 28
d 36 28 0

서 D ( , ) ( \ _ { , d) )은 D의 최소값이므로 d { d합니다.

  • 세 번째 분기 길이 추정

w는 c dd가 현재 연결되어 있는 를 나타냅니다.c{\ c {\ dw {\ w 하는 브런치의 길이는 ( , ) ( d,w ) / ( \ (,w ) =/ 2 = 14) ( displaystyledisplaystyle ( displaystyle ) ) ) 。

  • 세 번째 거리 매트릭스 업데이트

갱신할 엔트리는 1개뿐입니다.단, 의 요소의 평균 계산에서 각각11)의 기여도를 가지는 것에 주의해 주세요.

마지막 단계

4}) 매트릭스는 다음과 같습니다.

(a,b,e) (c,d)
(a,b,e) 0 33
(c,d) 33 0

( ( (a ,), e ){ ( , b, e )} (c , ) { , ) 접속합니다.

r은 (a {( { 연결되어 있는 (root) 노드를 나타냅니다. ,b ,) { ,) ( ,) { , d 를 r { r} 결합하는 브랜치에는 다음과 같은 가 있습니다.

나머지 2개의 분기 길이를 추정합니다.

UPGMA 덴드로그램

UPGMA Dendrogram 5S data.svg

덴드로그램이 완료되었습니다.[5]모든 팁(\ a에서 e er\ r

따라서 덴드로그램은 가장 깊은 노드인r {\r}에 를 두고 있습니다.

다른 링크와의 비교

대체 링크 방식으로는 단일 링크 클러스터링, 완전 링크 클러스터링WPGMA 평균 링크 클러스터링있습니다.다른 링크의 실장은 상기 알고리즘의 거리 매트릭스 갱신 단계에서 클러스터 간 거리를 계산하기 위해 다른 공식을 사용하는 것에 불과합니다.완전한 링크 클러스터링을 통해 단일 링크 클러스터링을 통해 형성된 클러스터는 각 클러스터의 많은 요소가 서로 매우 멀리 떨어져 있더라도 서로 근접하여 강제로 함께 결합될 수 있는 이른바 체인 현상이라는 대체 단일 링크 클러스터링 방법의 단점을 피할 수 있습니다.완전 연결은 [6]지름이 거의 같은 콤팩트한 군집을 찾는 경향이 있습니다.

동일한 거리 행렬에서 서로 다른 클러스터링 방법으로 얻은 덴드로그램 비교.
Simple linkage-5S.svg
Complete linkage Dendrogram 5S data.svg
WPGMA Dendrogram 5S data.svg
UPGMA Dendrogram 5S data.svg
단일 링크 클러스터링 완전한 링크 클러스터링 평균 링크 클러스터링: WPGMA. 평균 링크 클러스터링: UPGMA.

사용하다

  • 생태학에서는 관련 기술자 변수(종 구성 [7]등)의 쌍별 유사성에 기초하여 표본 추출 단위(식물도 등)를 분류하는 가장 일반적인 방법 중 하나이다.예를 들어, 그것은 해양 박테리아와 [8]원생 동물 사이의 영양적 상호작용을 이해하기 위해 사용되어 왔다.
  • 생물정보학에서 UPGMA는 페네틱 트리(phenetic tree)의 생성에 사용됩니다.UPGMA는 처음에는 단백질 전기영동 연구에 사용하도록 설계되었지만, 현재는 보다 정교한 알고리즘을 위한 가이드 트리를 제작하는 데 가장 많이 사용됩니다.예를 들어 이 알고리즘은 시퀀스가 정렬되는 순서를 제안하기 때문에 시퀀스 정렬 절차에서 사용됩니다.실제로, 가이드 트리는 진화 속도나 계통 발생 친화성에 관계없이 가장 유사한 시퀀스를 그룹화하는 것을 목표로 하며, 그것이 바로 UPGMA의[9] 목표이다.
  • 계통유전학에서 UPGMA는 일정한 진화율(분자 클럭 가설)을 가정하고 모든 시퀀스가 동시에 샘플링되었으며, 이 가정이 테스트되고 사용되는 데이터 세트에 대해 정당화되지 않는 한 관계를 추론하는 데 잘 알려진 방법은 아니다.'엄격한 클럭' 하에서도 서로 다른 시간에 샘플링된 시퀀스가 울트라메트릭 트리로 이어지면 안 된다는 점에 유의하십시오.

시간의 복잡성

UPGMA 트리를 구축하기 위한 알고리즘의 간단한 실장에서는O3)의 시간 복잡도를 , 각 클러스터에 대해 히프를 사용하여 다른 클러스터와의 거리를 유지하면 O logn)의 시간이 단축됩니다.{n }\ O}\n Mion Murtag 됩니다 O 시공간 알고리즘.[10]

「 」를 참조해 주세요.

레퍼런스

  1. ^ Sokal, Michener (1958). "A statistical method for evaluating systematic relationships". University of Kansas Science Bulletin. 38: 1409–1438.
  2. ^ Garcia S, Puigbò P. "DendroUPGMA: A dendrogram construction utility" (PDF). p. 4.
  3. ^ Erdmann VA, Wolters J (1986). "Collection of published 5S, 5.8S and 4.5S ribosomal RNA sequences". Nucleic Acids Research. 14 Suppl (Suppl): r1–59. doi:10.1093/nar/14.suppl.r1. PMC 341310. PMID 2422630.
  4. ^ Olsen GJ (1988). "Phylogenetic analysis using ribosomal RNA". Methods in Enzymology. 164: 793–812. doi:10.1016/s0076-6879(88)64084-5. PMID 3241556.
  5. ^ Swofford DL, Olsen GJ, Waddell PJ, Hillis DM (1996). "Phylogenetic inference". In Hillis DM, Moritz C, Mable BK (eds.). Molecular Systematics, 2nd edition. Sunderland, MA: Sinauer. pp. 407–514. ISBN 9780878932825.
  6. ^ Everitt, B. S.; Landau, S.; Leese, M. (2001). Cluster Analysis. 4th Edition. London: Arnold. p. 62–64.
  7. ^ Legendre P, Legendre L (1998). Numerical Ecology. Developments in Environmental Modelling. Vol. 20 (Second English ed.). Amsterdam: Elsevier.
  8. ^ Vázquez-Domínguez E, Casamayor EO, Català P, Lebaron P (April 2005). "Different marine heterotrophic nanoflagellates affect differentially the composition of enriched bacterial communities". Microbial Ecology. 49 (3): 474–85. doi:10.1007/s00248-004-0035-5. JSTOR 25153200. PMID 16003474. S2CID 22300174.
  9. ^ Wheeler TJ, Kececioglu JD (July 2007). "Multiple alignment by aligning alignments". Bioinformatics. 23 (13): i559–68. doi:10.1093/bioinformatics/btm226. PMID 17646343.
  10. ^ Murtagh F (1984). "Complexities of Hierarchic Clustering Algorithms: the state of the art". Computational Statistics Quarterly. 1: 101–113.

외부 링크