퍼지 군집화

Fuzzy clustering

퍼지 군집화(Fuzzy clustering, soft k-means라고도 함)는 각 데이터 점이 둘 이상의 군집에 속할 수 있는 군집화의 한 형태다.

클러스터링 또는 클러스터 분석에는 동일한 클러스터에 속하는 항목이 가능한 한 유사하고 서로 다른 클러스터에 속하는 항목이 가능한 한 서로 다른 클러스터로 데이터 포인트를 할당하는 작업이 포함된다.군집은 유사성 측정을 통해 식별된다.이러한 유사성 측정에는 거리, 연결성 및 강도가 포함된다.데이터나 응용 프로그램에 따라 다른 유사성 측도를 선택할 수 있다.[1]

하드 클러스터링과 비교

비 퍼지 클러스터링(하드 클러스터링이라고도 함)에서는 데이터가 구별되는 클러스터로 나뉘는데, 여기서 각 데이터 포인트는 정확히 하나의 클러스터에만 속할 수 있다.퍼지 군집화에서 데이터 점은 잠재적으로 여러 군집에 속할 수 있다.예를 들어, 사과는 빨강 또는 녹색(하드 클러스터링)이 될 수 있지만, 사과 또한 빨강 AND 녹색(퍼지 클러스터링)이 될 수 있다.여기서, 사과는 어느 정도까지는 붉을 수 있을 뿐만 아니라 어느 정도까지는 녹색이 될 수 있다.빨간색 [빨간색 = 0]이 아닌 녹색 [녹색 = 1]에 속하는 사과 대신, 사과는 녹색 [녹색 = 0.5]과 빨간색 [빨간색 = 0.5]에 속할 수 있다.이 값은 0과 1 사이에 정규화되지만 확률을 나타내지 않으므로 두 값을 최대 1까지 추가할 필요는 없다.

멤버십

각 데이터 포인트(태그)에 멤버십 등급이 부여된다.이러한 멤버십 등급은 데이터 포인트가 각 클러스터에 속하는 정도를 나타낸다.따라서 구성원 등급이 낮은 클러스터 가장자리의 점들은 클러스터 중심에 있는 점보다 더 낮은 수준으로 클러스터에 있을 수 있다.

퍼지 C-평균 군집화

가장 널리 사용되는 퍼지 군집화 알고리즘 중 하나는 FCM(Fuzzy C-평균 군집화) 알고리즘이다.

역사

퍼지 c-평균(FCM) 클러스터링은 J.C에 의해 개발되었다.1973년 던,[2] J.C.에 의해 개선되었다.1981년 베즈데크.[3]

일반 설명

퍼지 c-평균 알고리즘은 k-평균 알고리즘과 매우 유사하다.

  • 여러 개의 군집을 선택하십시오.
  • 각 데이터 점에 랜덤하게 계수를 할당하여 군집에 포함시키십시오.
  • 알고리즘이 수렴될 때까지 반복하십시오(즉, 두 반복 사이의 계수의 변화는 지정된 민감도 임계값인 이하임).
    • 각 군집의 중심(아래 참조)을 계산하십시오.
    • 각 데이터 점에 대해 군집 내 존재 계수를 계산하십시오.

중심

임의의 점 x에는 k번째 군집 wk(x)에 있는 정도를 나타내는 계수 집합이 있다.퍼지 c-평균을 사용하는 경우 군집의 중심은 군집에 속하는 정도에 따라 가중치가 부여된 모든 점의 평균이다. 또는 수학적으로

여기서 m은 클러스터 퍼지 정도를 제어하는 하이퍼 파라미터다.높이 올라갈수록 결국 클러스터는 솜털이 더 많아질 것이다.

알고리즘.

FCM 알고리즘은 하여 n {\n 요소 ={ 1, . . , n} {\ {_{1},\_{n}\}}}의 유한 컬렉션을 c 퍼지 클러스터 모음으로 분할하려고 시도한다.

유한한 데이터 집합이 주어진 알고리즘은 c c클러스터 중심 C= 1,.. C 파티션 행렬 목록을 반환한다.

, where each element, , tells the degree to which element, , belongs to cluster .

FCM은 다음과 같은 객관적 기능을 최소화하는 것을 목적으로 한다.

여기서:

K-평균 군집화와 비교

K-means clustering also attempts to minimize the objective function shown above, except that in K-means, the membership values are either zero or one, and cannot take values in between, i.e. . In Fuzzy C-means, the degree of fuzziness is parametrized by 여기서 m (가) 크면 클러스터가 더 솜털처럼 된다.제한 에서 i j {\ w_ 멤버쉽은 0 또는 1로 수렴되며, 퍼지 C-평균의 목표는 K-평균의 그것과 일치한다.실험이나 영역 지식이 없는 경우 은(는) 일반적으로 2로 설정된다.알고리즘은 클러스터 내 분산도 최소화하지만 'k'-평균과 동일한 문제를 가지고 있다. 최소값은 국소 최소값이며, 결과는 가중치의 초기 선택에 따라 달라진다.

관련 알고리즘

클러스터 수에 대해 자동으로 결정된 퍼지 C-평균(FCM)은 검출 정확도를 향상시킬 수 있다.[4]기대-최대화 알고리즘과 함께 가우스인의 혼합물을 사용하는 것은 보다 통계적으로 정형화된 방법이며, 이러한 생각들 중 일부를 포함한다: 부분적인 계급 가입.

이 원리를 더 잘 이해하기 위해 단차원 데이터의 고전적인 예가 아래 x축에 제시되어 있다.

Fuzzy Example 1.jpg

이 데이터 세트는 전통적으로 두 개의 클러스터로 그룹화할 수 있다.x축에서 임계값을 선택하면 데이터가 두 개의 군집으로 분리된다.결과 클러스터는 다음 이미지에서 볼 수 있듯이 'A' 및 'B'라는 레이블이 붙는다.따라서 데이터 집합에 속하는 각 점은 1 또는 0의 멤버쉽 계수를 가질 것이다.각 해당 데이터 포인트의 이 멤버십 계수는 y축의 포함으로 표현된다.

Example 2.jpg

퍼지 군집화에서 각 데이터 점은 여러 군집에 대한 구성원 자격을 가질 수 있다.멤버십 계수의 정의를 엄격히 1 또는 0에서 완화함으로써, 이 값들은 1에서 0까지의 모든 값에서 범위가 될 수 있다.다음 이미지는 이전 클러스터링의 데이터 세트를 보여주지만, 이제 퍼지 c-평균 클러스터링이 적용되었다.첫째, 두 클러스터를 정의하는 새로운 임계값이 생성될 수 있다.다음으로, 각 데이터 포인트에 대한 새로운 멤버쉽 계수는 각 군집 중심으로부터의 거리뿐만 아니라 군집 중심들에 기초하여 생성된다.

Example 3.jpg

알 수 있듯이, 중간 데이터 포인트는 클러스터 A와 클러스터 B에 속하며 0.3 값은 클러스터 A에 대한 데이터 포인트의 구성원 자격 계수 입니다.[5]

적용들

클러스터링 문제는 표면과학, 생물학, 의학, 심리학, 경제학, 그리고 많은 다른 학문들에 응용된다.[6]

생물정보학

생물정보학 분야에서 클러스터링은 많은 응용 분야에 사용된다.RNA시퀀싱 데이터나 다른 기술로부터 유전자 발현 데이터를 분석하는 패턴 인식 기법으로서 한 가지 용도가 있다.[7]이 경우 유사한 표현 패턴을 가진 유전자를 같은 군집으로 묶고, 서로 다른 군집은 뚜렷하고 잘 분리된 표현 패턴을 보인다.군집화의 사용은 유전자 기능과 규제에 대한 통찰력을 제공할 수 있다.[6]퍼지 군집화는 유전자가 둘 이상의 군집에 속할 수 있게 해주기 때문에 조건적으로 공동 조절되거나 공동 발현되는 유전자의 식별을 가능하게 한다.[8]예를 들어, 한 유전자는 둘 이상의 전사 인자에 의해 작용될 수 있으며, 한 유전자는 둘 이상의 기능을 가진 단백질을 인코딩할 수 있다.따라서 퍼지 클러스터링은 하드 클러스터링보다 더 적절하다.

영상분석

퍼지 c-평균은 이미지의 객체를 클러스터링할 때 이미지 처리에 매우 중요한 도구였다.1970년대에 수학자들은 소음 속 군집화의 정확성을 높이기 위해 공간 용어를 FCM 알고리즘에 도입하였다.[9]또한 FCM 알고리즘은 Hu와 Zernike Moments와 같은 이미지 기반 기능을 사용하여 서로 다른 활동을 구별하기 위해 사용되어 왔다.[10]대신에, 퍼지 논리 모델은 HSL 색 공간 HSL과 HSV의 세 가지 구성요소에 정의된 퍼지 집합에 설명될 수 있다. 색상을 설명하는 멤버쉽 함수는 색상 식별의 인간의 직관을 따른다.[11]

마케팅

마케팅에서 고객들은 그들의 요구, 브랜드 선택, 사이코그래픽 프로파일 또는 다른 마케팅 관련 파티션에 따라 퍼지 클러스터로 분류될 수 있다.[citation needed]

이미지 처리 예제

원본(왼쪽 위), 클러스터링(오른쪽 위) 및 구성원 지도(아래쪽)를 사용하여 퍼지 클러스터링으로 분할된 영상

k-평균 군집화 알고리즘을 이용한 영상분할은 패턴인식, 객체탐지, 의료영상 등에 오랫동안 사용되어 왔다.그러나, 노이즈, 그림자, 카메라의 변화 등 현실 세계의 한계로 인해, 전통적인 하드 클러스터링은 종종 위에서 언급한 바와 같이 영상 처리 작업을 신뢰성 있게 수행하지 못하는 경우가 많다.[citation needed]퍼지 클러스터링은 이 과제에 대한 수행에 보다 적용 가능한 알고리즘으로 제안되었다.주어진 것은 Matlab에서 퍼지 클러스터링을 거친 그레이 스케일 영상이다.[12]원본 이미지는 클러스터된 이미지 옆에 표시된다.색상은 각 픽셀의 멤버십을 식별하는 데 사용되는 세 개의 구별되는 군집을 시각적으로 표현하기 위해 사용된다.아래에는 해당 강도 값의 퍼지 멤버쉽 계수를 정의하는 차트가 제공된다.

퍼지 클러스터링 계수를 사용할 애플리케이션에 따라 다른 전처리 기법을 RGB 영상에 적용할 수 있다.RGB에서 HCL로의 변환은 일반적인 관행이다.[13]

참고 항목

참조

  1. ^ "Fuzzy Clustering". reference.wolfram.com. Retrieved 2016-04-26.
  2. ^ Dunn, J. C. (1973-01-01). "A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters". Journal of Cybernetics. 3 (3): 32–57. doi:10.1080/01969727308546046. ISSN 0022-0280.
  3. ^ 베즈데크, 제임스 C. (1981년).퍼지 목표 함수 알고리즘을 사용한 패턴 인식.ISBN 0-306-40671-3
  4. ^ Said, E El-Khamy; Rowayda A Sadek; Mohamed A El-Khoreby (October 2015). "An efficient brain mass detection with adaptive clustered based fuzzy C-mean and thresholding". 2015 IEEE International Conference on Signal and Image Processing Applications (ICSIPA): 429–433.
  5. ^ "Clustering - Fuzzy C-means". home.deib.polimi.it. Retrieved 2017-05-01.
  6. ^ a b Ben-Dor, Amir; Shamir, Ron; Yakhini, Zohar (1999-10-01). "Clustering Gene Expression Patterns". Journal of Computational Biology. 6 (3–4): 281–297. CiteSeerX 10.1.1.34.5341. doi:10.1089/106652799318274. ISSN 1066-5277. PMID 10582567.
  7. ^ Valafar, Faramarz (2002-12-01). "Pattern Recognition Techniques in Microarray Data Analysis". Annals of the New York Academy of Sciences. 980 (1): 41–64. CiteSeerX 10.1.1.199.6445. doi:10.1111/j.1749-6632.2002.tb04888.x. ISSN 1749-6632. PMID 12594081.
  8. ^ 발라파 F.마이크로 어레이 데이터 분석의 패턴 인식 기술.뉴욕 과학 아카데미 연보2002년 12월 1일;980(1):41-64.
  9. ^ Ahmed, Mohamed N.; Yamany, Sameh M.; Mohamed, Nevin; Farag, Aly A.; Moriarty, Thomas (2002). "A Modified Fuzzy C-Means Algorithm for Bias Field Estimation and Segmentation of MRI Data" (PDF). IEEE Transactions on Medical Imaging. 21 (3): 193–199. CiteSeerX 10.1.1.331.9742. doi:10.1109/42.996338. PMID 11989844..
  10. ^ Banerjee, Tanvi (2014). "Day or Night Activity Recognition From Video Using Fuzzy Clustering Techniques". IEEE Transactions on Fuzzy Systems. 22 (3): 483–493. CiteSeerX 10.1.1.652.2819. doi:10.1109/TFUZZ.2013.2260756.
  11. ^ Alireza, Kashani; Kashani, Amir; Milani, Nargess; Akhlaghi, Peyman; Khezri, Kaveh (2008). Robust Color Classification Using Fuzzy Reasoning and Genetic Algorithms in RoboCup Soccer Leagues. Robocup. Lecture Notes in Computer Science. Vol. 5001. pp. 548–555. doi:10.1007/978-3-540-68847-1_59. ISBN 978-3-540-68846-4.
  12. ^ "Fuzzy Clustering - MATLAB & Simulink". www.mathworks.com. Retrieved 2017-05-03.
  13. ^ Lecca, Paola (2011). Systemic Approaches in Bioinformatics and Computational Systems Biology. IGI Global. p. 9. ISBN 9781613504369.