던 지수
Dunn indexDunn 지수(DI)(J. C 소개).1974년 Dunn)은 클러스터링 알고리즘을 평가하기 위한 지표다.[1][2]이는 내부 평가 체계라는 점에서 데이비스-볼딘 지수 또는 실루엣 지수를 포함한 유효성 지수 그룹의 일부로서, 결과는 클러스터된 데이터 자체에 기초한다.다른 모든 지수와 마찬가지로, 목적은 군집 내 분산과 비교하여 군집 구성원 간의 분산이 작고 서로 다른 군집들의 평균이 충분히 멀리 떨어져 있는 군집들의 집합을 식별하는 것이다.주어진 클러스터 할당의 경우 Dunn 지수가 높을수록 클러스터링이 더 낫다는 것을 나타낸다.이를 사용할 때의 단점 중 하나는 군집 수와 데이터의 차원성이 증가함에 따른 계산 비용이다.
예선
군집의 크기나 직경을 정의하는 방법에는 여러 가지가 있다.이것은 군집 내에서 가장 먼 두 지점 사이의 거리일 수 있고, 군집 내부의 데이터 지점 사이의 모든 쌍별 거리의 평균일 수도 있으며, 군집 중심에서 각 데이터 지점의 거리일 수도 있다.이러한 각 공식은 아래에 수학적으로 나타나 있다.
C를i 벡터의 군집이 되게 하라.x와 y는 동일한 클러스터 C에i 할당된 2n 치수 벡터가 되도록 한다.
- = x , C (, ) {x}d)}, 최대 거리를 계산한다.
- , which calculates the mean distance between all pairs.
- , calculates distance of all the points from the mean.
이것은 또한 유사한 제형이 가능한 인터클러스터 거리에 대해서도 말할 수 있는데, 각 군집마다 한 개씩 또는 가장 먼 두 개의 데이터 점을 사용하거나, 또는 중심점 사이의 거리 등을 사용한다.지수의 정의는 그러한 공식화를 포함하며, 그렇게 형성된 지수의 집단을 Dunn-like Index라고 부른다., ) 를 클러스터 C와i 클러스터j C 사이의 인터클러스터 거리 메트릭으로 설정하십시오.
정의
위의 표기법으로 m 군집이 있는 경우 세트에 대한 Dunn 색인을 다음과 같이 정의한다.
- .
설명
이러한 방식으로 정의되면 DI는 집합의 클러스터 수인 m에 의존한다.군집 수를 알 수 없는 경우 DI가 가장 높은 m을 군집 수로 선택할 수 있다.또한 클러스터링 문제의 기하학적 구조를 기반으로 한 맨해튼 거리 또는 유클리드 거리처럼 잘 알려진 메트릭스를 사용할 수 있는 d(x,y)의 정의에 관해서도 약간의 유연성이 있다.이 공식은 특이한 문제를 가지고 있는데, 만일 군집들 중 하나가 잘못 처리되고 다른 군집들이 빽빽하게 들어차 있다면, 분모가 평균 항이 아닌 '최대' 항을 포함하고 있기 때문에, 군집들의 집합에 대한 던 지수는 비특이적으로 낮을 것이다.따라서 이것은 최악의 경우 지표로, 명심해야 한다.MATLAB, R, Apache Mahout과 같은 일부 벡터 기반 프로그래밍 언어에서 Dunn 지수를 즉시 구현한다.[3][4][5]
참고 및 참조
- ^ Dunn, J. C. (1973-09-17). "A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters". Journal of Cybernetics. 3 (3): 32–57. doi:10.1080/01969727308546046. S2CID 120919314.
- ^ Dunn, J. C. (1973-09-01). "Well-Separated Clusters and Optimal Fuzzy Partitions". Journal of Cybernetics (published 1974). 4 (1): 95–104. doi:10.1080/01969727408546059. ISSN 0022-0280.
- ^ "MATLAB implementation of the Dunn Index". Retrieved 5 December 2011.
- ^ Lukasz, Nieweglowski. "Package 'clv'" (PDF). R project. CRAN. Retrieved 2 April 2013.
- ^ "Apache Mahout". Apache Software Foundation. Retrieved 9 May 2013.
외부 링크
- Pakhira, Malay K.; Bandyopadhyay, Sanghamitra; Maulik, Ujjwal (2004). "Validity index for crisp and fuzzy clusters". Pattern Recognition. 37 (3): 487–501. doi:10.1016/j.patcog.2003.06.005.
- Bezdek, J.C.; Pal, N.R. (1995). "Cluster validation with generalized Dunn's indices". Proceedings 1995 Second New Zealand International Two-Stream Conference on Artificial Neural Networks and Expert Systems. IEEE Xplore: 190–193. doi:10.1109/ANNES.1995.499469. ISBN 0-8186-7174-2.
- 클러스터 유효성 알고리즘