중국어 속삭임(클러스터법

Chinese whispers (clustering method)

차이나 위스퍼는 네트워크 과학에서 사용되는 클러스터화 방식으로 유명한 위스퍼 [1]게임의 이름을 따왔다.클러스터링 방법은 기본적으로 특정 네트워크 내의 노드 또는 링크 커뮤니티를 식별하기 위해 사용됩니다.이 알고리즘은 2005년에 [1]Chris Biemann과 Sven Teresniak의해 설계되었다.이 이름은 노드가 동일한 유형의 정보를 [1]서로 전송하는 커뮤니티의 분리로 프로세스를 모델링할 수 있다는 사실에서 유래했습니다.

Chinese Whisper는 하드 파티셔닝, 랜덤화, 플랫 클러스터링([1]클러스터 간의 계층 관계 없음) 방식입니다.랜덤 속성은 같은 네트워크에서 프로세스를 여러 번 실행하면 다른 결과가 나오는 반면 하드 파티셔닝으로 인해 한 번에 하나의 노드만 하나의 클러스터에 속할 수 있음을 의미합니다.원래 알고리즘은 무방향, 가중치 및 가중치 없는 그래프에 적용할 수 있습니다.중국어 귓속말은 시간 선형이며,[1] 이는 네트워크에서 노드 및 링크 수가 매우 많아도 매우 빠르다는 것을 의미합니다.

알고리즘.

중국인의 속삭임이 어떻게 작용하는지 보여주는 사례입니다.다른 색상은 다른 클래스를 나타냅니다.

알고리즘은 무방향 무가중치 [1]그래프에서 다음과 같이 동작합니다.

  1. 모든 노드가 고유 클래스에 할당됩니다(초기 클래스의 수는 노드 수와 동일).
  2. 그런 다음 모든 네트워크 노드가 랜덤 순서로 하나씩 선택됩니다.모든 노드는 지정된 노드가 가장 많은 링크를 가진 클래스로 이동합니다.균등한 경우 군집은 균등하게 연결된 클래스에서 랜덤하게 선택됩니다.
  3. 2단계는 미리 정해진 횟수만큼 반복되거나 프로세스가 수렴될 때까지 반복됩니다.결국 이머징 클래스는 네트워크의 클러스터를 나타냅니다.

프로세스가 수렴되지 않을 수 있기 때문에 반복 횟수에 대한 미리 정해진 임계값이 필요합니다.한편, 약 10000개의 노드를 가지는 네트워크에서는,[1] 컨버전스가 없는 경우에서도, 클러스터는 40~50회의 반복 후에도 큰폭으로 변화하지 않습니다.

장점과 단점

중국인들의 속삭임의 가장 큰 강점은 시간 직선적 특성에 있다.처리 시간은 노드 수에 따라 선형적으로 증가하므로 알고리즘은 네트워크 내의 커뮤니티를 매우 빠르게 식별할 수 있습니다.이러한 이유로 중국어 속삭임은 노드 수가 매우 많은 그래프에서 커뮤니티 구조를 분석하는 데 좋은 도구입니다.네트워크의 월드 속성[1]작을 경우 메서드의 효율은 더욱 높아집니다.

한편, 작은 노드 번호의 경우 알고리즘이 결정적이지 않기 때문에 결과 클러스터는 종종 서로 크게 다릅니다.그 이유는 소규모 네트워크의 경우 어떤 노드에서 반복 프로세스를 시작하느냐가 더 중요하지만 대규모 네트워크에서는 시작점의 관련성이 [1]사라지기 때문입니다.따라서 작은 그래프의 경우 다른 클러스터링 방법을 사용하는 것이 좋습니다.

적용들

중국의 속삭임은 네트워크 과학의 많은 하위 분야에서 사용됩니다.가장 자주 언급되는 것은 자연어 처리 [2][3]문제의 맥락입니다.한편, 이 알고리즘은 네트워크 프레임워크와 관련된 모든 종류의 커뮤니티 식별 문제에 적용할 수 있습니다.중국어 귓속말은 네트워크 분석을 위해 설계된 오픈 소스 프로그램인 Gephi[4] 확장 패키지로 개인적으로 사용할 수 있습니다.

레퍼런스

  1. ^ a b c d e f g h i Chris Biemann, "Chinese Whispers - 효율적인 그래프 클러스터링 알고리즘과 자연어 처리 문제에 대한 적용", 2006
  2. ^ Antonio Di Marco - Roberto Navigili, "그래프 기반 Word Sense Induction을 통한검색 결과 클러스터링다양화", 2013
  3. ^ Ioannis Korkontzelos - 수레쉬 Manandhar, "다단어 표현에서의 구성성 검출", 2009
  4. ^ ""Gephi Marketplace"". Archived from the original on 2015-09-23. Retrieved 2015-06-02.

외부 링크