업그마
UPGMAUPGMA(산술 평균을 사용한 가중치 없는 쌍 그룹 방법)는 단순한 집적(상향식) 계층 군집화 방법입니다.이 방법은 일반적으로 Sokal과 Michener에 [1]기인한다.
UPGMA 방식은 WPGMA 방식과 유사합니다.
가중치 없는 항은 모든 거리가 계산되는 각 평균에 동일하게 기여함을 나타내며, 이 평균이 달성되는 산술은 참조하지 않습니다.따라서 WPGMA의 단순 평균은 가중 결과를 생성하고 UPGMA의 비례 평균은 가중되지 않은 결과를 생성한다(작업 [2]예 참조).
알고리즘.
UPGMA 알고리즘은 쌍별 유사도 매트릭스(또는 차등도 매트릭스)에 존재하는 구조를 반영하는 루트 트리(덴드로그램)를 구성합니다.각 단계에서 가장 가까운 두 군집이 더 높은 수준의 군집으로 결합됩니다.크기(즉, 카디널리티)(\ {\mathcal {B}})의 두 A {\ {B와 displaystyle {\mathcal { 사이의 거리는 모든 의 평균이 됩니다.의 쌍x(\x와 B {의 y y 사이의 {\displaystyle d 즉 각 클러스터의 요소 간 평균 거리
즉, 각 클러스터 단계에서 결합된 AB {\ {B과 클러스터X {\ X 사이의 업데이트된 거리는 의 평균에 의해 결정됩니다. 거리:
UPGMA 알고리즘은 루트 덴드로그램을 생성하며 일정한 비율의 가정이 필요하다. 즉, 루트로부터 모든 분기 팁까지의 거리가 동일한 초변형 트리를 가정한다.팁이 동시에 샘플링된 분자 데이터(DNA, RNA 및 단백질)인 경우, 초측정성 가정은 분자 시계를 가정하는 것과 같아진다.
작업 예
이 작업 예는 5개 세균의 5S 리보솜 RNA 배열 정렬에서 계산한 JC69 유전자 거리 매트릭스에 기초한다. a), (\ b 락토바실루스 c d 마이크로코커스 e[3][4]
제1단계
- 첫 번째 클러스터링
5개의 요소 와 그 사이의 쌍방향 거리 1})이 있다고 가정합니다.
a | b | c | d | e | |
---|---|---|---|---|---|
a | 0 | 17 | 21 | 31 | 23 |
b | 17 | 0 | 30 | 34 | 21 |
c | 21 | 30 | 0 | 28 | 39 |
d | 31 | 34 | 28 | 0 | 43 |
e | 23 | 21 | 39 | 43 | 0 |
이 예에서는 ({ b)=이 의({이므로 와 b를 결합합니다.
- 첫 번째 분기 길이 추정
{ u }는 \ a b { b가 현재 연결되어 있는 를 나타냅니다. (a , ) (b , ) ( ,) / ( \ ( , u ) = \ ( , u ) D_하면 가와등거리에 있음을 확인할 수 있습니다.이것은 초파형성 가설의 기대와 일치한다. \ a b u\displaystyle b와b\displaystyle b u .5최종 덴드로그램 참조)의 길이가.
- 첫 번째 거리 매트릭스 업데이트
그런 다음 초기 거리 을 새로운 거리 로 업데이트합니다(아래 참조). {})의 굵은 값은 b b와 {\d_로 클러스터링되므로 크기가 1행 및 1열 감소됩니다.2은 첫 번째 클러스터,의 각 요소와 나머지 각 요소 간의 거리를 평균하여 계산한 새로운 거리에 해당합니다.
의 기울임꼴 값은 첫 번째 클러스터에 포함되지 않은 요소 간의 거리에 대응하므로 매트릭스 업데이트의 영향을 받지 않습니다.
두 번째 단계
- 세컨드 클러스터링
이제 새로운 거리 2 D_부터 시작하여 이전 세 단계를 반복합니다.
(a, b) | c | d | e | |
---|---|---|---|---|
(a, b) | 0 | 25.5 | 32.5 | 22 |
c | 25.5 | 0 | 28 | 39 |
d | 32.5 | 28 | 0 | 43 |
e | 22 | 39 | 43 | 0 |
서 ( ( ,b) , ) { ( ( , b ) = 은 2의 이므로, ( a , ,b )와 요소 e { e 를 결합합니다.
- 두 번째 분기 길이 추정
{ v는 ( { e { e가 현재 연결되어 있는노드를 나타냅니다.울트라메트릭성의 제약으로 인해 \a} b {\b}에서 {\ v 및 e {\e}에서 v {\v)로 하는 브랜치는 동일하며 가 다음과 같습니다. ( a , ) b , ) / 2 sty ( e, v ) = / = {displaystystyle , = { displaystyle displaystyledisplayst
된 분기 길이를 추정합니다. ( , ) ( ( ,) -) ( , ) ( ( ,) -( ( , ) - . 2.5 \style \ display ( ) \ style ( , ) \ ( e , v ) \ , v ) \ sclan ( e , v ) \ ( , v ) \ sclan ( e , v ) \ sclan ) \ slannel (
- 두 번째 거리 매트릭스 업데이트
그런 다음 2})를 새로운 거리 참조)로 합니다 (,b )\ (a , ) \ displaystyle ( a , b ) {\eringering eringeringering {\ ( a , b ) \ D _ { 3} in in in in in in in in in in in in in ) in in in in in in in in in in in in in in in in {\ cor D_{ D_ displayst비례 평균으로 계산된 새 거리에 대한 계산:
이 비례 평균 덕분에 이 새로운 거리는e\e하나의 요소)에 대해 ( display style a, b)\ (a, b)\display (a, b)\display style (a, b 클러스터2개 요소)의 더 큰 크기를 차지합니다.마찬가지로:
따라서 비례 평균은 의 초기 거리({와 동일한 가중치를 부여합니다.이것이 수학적 절차가 아니라 초기 거리에 대해 방법이 가중치가 부여되지 않는 이유이다.
세 번째 단계
- 세 번째 클러스터링
업데이트된 거리 3 D_부터 시작하여 이전 세 단계를 다시 설명합니다.
(a,b,e) | c | d | |
---|---|---|---|
(a,b,e) | 0 | 30 | 36 |
c | 30 | 0 | 28 |
d | 36 | 28 | 0 |
서 D ( , ) ( \ _ {( , d) )은 D의 최소값이므로 와d { d를 합니다.
- 세 번째 분기 길이 추정
w는 c와 dd가 현재 연결되어 있는 를 나타냅니다.c{\ c 및 {\ d와w {\ w를 하는 브런치의 길이는 ( , ) ( d,w ) / ( \ (,w ) =/ 2 = 14) ( displaystyledisplaystyle ( displaystyle ) ) ) 。
- 세 번째 거리 매트릭스 업데이트
갱신할 엔트리는 1개뿐입니다.단, 의 요소와의 평균 계산에서 각각11)의 기여도를 가지는 것에 주의해 주세요.
마지막 단계
4}) 매트릭스는 다음과 같습니다.
(a,b,e) | (c,d) | |
---|---|---|
(a,b,e) | 0 | 33 |
(c,d) | 33 | 0 |
( ( (a ,), e ){ ( , b, e )} (c , ) { , )에 접속합니다.
r은 (a { 및( {이 연결되어 있는 (root) 노드를 나타냅니다. ,b ,) { ,) 및 ( ,) { , d 를 r { r} 결합하는 브랜치에는 다음과 같은 가 있습니다.
나머지 2개의 분기 길이를 추정합니다.
UPGMA 덴드로그램
덴드로그램이 완료되었습니다.[5]모든 팁(\ a에서 e e은r\ r
따라서 덴드로그램은 가장 깊은 노드인r {\r}에 를 두고 있습니다.
다른 링크와의 비교
대체 링크 방식으로는 단일 링크 클러스터링, 완전 링크 클러스터링 및 WPGMA 평균 링크 클러스터링이 있습니다.다른 링크의 실장은 상기 알고리즘의 거리 매트릭스 갱신 단계에서 클러스터 간 거리를 계산하기 위해 다른 공식을 사용하는 것에 불과합니다.완전한 링크 클러스터링을 통해 단일 링크 클러스터링을 통해 형성된 클러스터는 각 클러스터의 많은 요소가 서로 매우 멀리 떨어져 있더라도 서로 근접하여 강제로 함께 결합될 수 있는 이른바 체인 현상이라는 대체 단일 링크 클러스터링 방법의 단점을 피할 수 있습니다.완전 연결은 [6]지름이 거의 같은 콤팩트한 군집을 찾는 경향이 있습니다.
단일 링크 클러스터링 | 완전한 링크 클러스터링 | 평균 링크 클러스터링: WPGMA. | 평균 링크 클러스터링: UPGMA. |
사용하다
- 생태학에서는 관련 기술자 변수(종 구성 [7]등)의 쌍별 유사성에 기초하여 표본 추출 단위(식물도 등)를 분류하는 가장 일반적인 방법 중 하나이다.예를 들어, 그것은 해양 박테리아와 [8]원생 동물 사이의 영양적 상호작용을 이해하기 위해 사용되어 왔다.
- 생물정보학에서 UPGMA는 페네틱 트리(phenetic tree)의 생성에 사용됩니다.UPGMA는 처음에는 단백질 전기영동 연구에 사용하도록 설계되었지만, 현재는 보다 정교한 알고리즘을 위한 가이드 트리를 제작하는 데 가장 많이 사용됩니다.예를 들어 이 알고리즘은 시퀀스가 정렬되는 순서를 제안하기 때문에 시퀀스 정렬 절차에서 사용됩니다.실제로, 가이드 트리는 진화 속도나 계통 발생 친화성에 관계없이 가장 유사한 시퀀스를 그룹화하는 것을 목표로 하며, 그것이 바로 UPGMA의[9] 목표이다.
- 계통유전학에서 UPGMA는 일정한 진화율(분자 클럭 가설)을 가정하고 모든 시퀀스가 동시에 샘플링되었으며, 이 가정이 테스트되고 사용되는 데이터 세트에 대해 정당화되지 않는 한 관계를 추론하는 데 잘 알려진 방법은 아니다.'엄격한 클럭' 하에서도 서로 다른 시간에 샘플링된 시퀀스가 울트라메트릭 트리로 이어지면 안 된다는 점에 유의하십시오.
시간의 복잡성
UPGMA 트리를 구축하기 위한 알고리즘의 간단한 실장에서는O3)의 시간 복잡도를 , 각 클러스터에 대해 히프를 사용하여 다른 클러스터와의 거리를 유지하면 O logn)의 시간이 단축됩니다.{n }\ O}\n Mion Murtag 가 됩니다 O 시공간 알고리즘.[10]
「 」를 참조해 주세요.
레퍼런스
- ^ Sokal, Michener (1958). "A statistical method for evaluating systematic relationships". University of Kansas Science Bulletin. 38: 1409–1438.
- ^ Garcia S, Puigbò P. "DendroUPGMA: A dendrogram construction utility" (PDF). p. 4.
- ^ Erdmann VA, Wolters J (1986). "Collection of published 5S, 5.8S and 4.5S ribosomal RNA sequences". Nucleic Acids Research. 14 Suppl (Suppl): r1–59. doi:10.1093/nar/14.suppl.r1. PMC 341310. PMID 2422630.
- ^ Olsen GJ (1988). "Phylogenetic analysis using ribosomal RNA". Methods in Enzymology. 164: 793–812. doi:10.1016/s0076-6879(88)64084-5. PMID 3241556.
- ^ Swofford DL, Olsen GJ, Waddell PJ, Hillis DM (1996). "Phylogenetic inference". In Hillis DM, Moritz C, Mable BK (eds.). Molecular Systematics, 2nd edition. Sunderland, MA: Sinauer. pp. 407–514. ISBN 9780878932825.
- ^ Everitt, B. S.; Landau, S.; Leese, M. (2001). Cluster Analysis. 4th Edition. London: Arnold. p. 62–64.
- ^ Legendre P, Legendre L (1998). Numerical Ecology. Developments in Environmental Modelling. Vol. 20 (Second English ed.). Amsterdam: Elsevier.
- ^ Vázquez-Domínguez E, Casamayor EO, Català P, Lebaron P (April 2005). "Different marine heterotrophic nanoflagellates affect differentially the composition of enriched bacterial communities". Microbial Ecology. 49 (3): 474–85. doi:10.1007/s00248-004-0035-5. JSTOR 25153200. PMID 16003474. S2CID 22300174.
- ^ Wheeler TJ, Kececioglu JD (July 2007). "Multiple alignment by aligning alignments". Bioinformatics. 23 (13): i559–68. doi:10.1093/bioinformatics/btm226. PMID 17646343.
- ^ Murtagh F (1984). "Complexities of Hierarchic Clustering Algorithms: the state of the art". Computational Statistics Quarterly. 1: 101–113.