문서 클러스터링
Document clustering![]() |
문서 클러스터링(또는 텍스트 클러스터링)은 텍스트 문서에 클러스터 분석을 적용하는 것이다.그것은 자동 문서 구성, 주제 추출, 빠른 정보 검색 또는 필터링에 응용 프로그램을 가지고 있다.
개요
문서 클러스터링은 설명자 및 설명자 추출의 사용을 포함한다.설명자는 클러스터 내의 내용을 설명하는 단어 집합이다.문서 클러스터링은 일반적으로 중앙집중식 프로세스로 간주된다.문서 클러스터링의 예로는 검색 사용자를 위한 웹 문서 클러스터링이 있다.
문서 클러스터링 적용은 온라인과 오프라인 두 가지 유형으로 분류할 수 있다.온라인 애플리케이션은 대개 오프라인 애플리케이션과 비교할 때 효율성 문제로 제약을 받는다.텍스트 클러스터링은 유사한 문서(뉴스, 트위터 등)의 그룹화 및 고객/직원 피드백 분석, 모든 문서에 걸쳐 의미 있는 암묵적 주제를 발견하는 등 다양한 작업에 사용할 수 있다.
일반적으로 두 가지 공통 알고리즘이 있다.첫 번째는 계층 기반 알고리즘으로 단일 링크, 완전한 링크, 그룹 평균, 워드의 방법을 포함한다.문서를 종합하거나 분할함으로써, 문서를 계층 구조로 클러스터링할 수 있어, 검색에 적합하다.그러나 그러한 알고리즘은 대개 효율성 문제를 겪는다.다른 알고리즘은 K-평균 알고리즘과 그 변형을 사용하여 개발된다.일반적으로 계층적 알고리즘은 상세한 분석을 위해 보다 심층적인 정보를 생성하는 반면, K-평균 알고리즘의 변형을 중심으로 한 알고리즘은 보다 효율적이며 대부분의 목적에 충분한 정보를 제공한다.[1]: Ch.14
이러한 알고리즘은 더 나아가 하드 또는 소프트 클러스터링 알고리즘으로 분류할 수 있다.하드 클러스터링은 하드 할당을 계산한다. 각 문서는 정확히 하나의 클러스터 구성원이 된다.소프트 클러스터링 알고리즘의 할당은 부드럽다. 문서의 할당은 모든 클러스터에 대한 분배다.소프트 할당에서 문서는 몇 개의 클러스터에 부분적인 구성원 자격을 가진다.[1]: 499 차원성 감소 방법은 소프트 클러스터링의 하위 유형으로 간주될 수 있다. 문서의 경우 잠재 의미 인덱싱(용어 히스토그램에서 단수 값 분해)[2] 및 주제 모델을 포함한다.
다른 알고리즘은 그래프 기반 클러스터링, 온톨로지 지원 클러스터링 및 순서에 민감한 클러스터링을 포함한다.
클러스터링을 지정하면 클러스터별로 사람이 판독할 수 있는 레이블을 자동으로 도출하는 것이 유익할 수 있다.이를 위한 다양한 방법이 존재한다.
검색 엔진의 클러스터링
웹 검색 엔진은 넓은 질의에 대응하여 수천 페이지를 반환하는 경우가 많아 사용자가 관련 정보를 검색하거나 식별하기 어렵다.클러스터링 방법은 검색된 문서를 의미 있는 카테고리 목록으로 자동 분류하는 데 사용될 수 있다.
절차들
실제로 문서 클러스터링은 종종 다음과 같은 단계를 수행한다.
1. 토큰화
토큰화는 텍스트 데이터를 단어와 구와 같은 작은 단위(토큰)로 구문 분석하는 과정이다.일반적으로 사용되는 토큰화 방법으로는 Bag-of-words 모델과 N-gram 모델이 있다.
서로 다른 토큰은 유사한 정보(예: 토큰화 및 토큰화)를 수행할 수 있다.그리고 우리는 모든 토큰을 다양한 파생 및 재조명 사전을 사용하여 그것의 기본 형태로 줄임으로써 유사한 정보를 반복적으로 계산하는 것을 피할 수 있다.
어떤 토큰은 다른 토큰보다 덜 중요하다.예를 들어, "the"와 같은 일반적인 단어들은 텍스트의 본질적인 특성을 드러내는 데 별로 도움이 되지 않을 수 있다.따라서 보통 추가 분석을 하기 전에 중지 단어와 구두점을 제거하는 것이 좋다.
4. 용어 주파수 또는 tf-idf 계산
텍스트 데이터를 사전 처리한 후 피쳐 생성을 진행할 수 있다.문서 클러스터링의 경우, 문서에 대한 기능을 생성하는 가장 일반적인 방법 중 하나는 모든 토큰의 용어 빈도를 계산하는 것이다.완벽하지는 않지만, 이러한 빈도는 일반적으로 문서의 주제에 대한 몇 가지 단서를 제공할 수 있다.그리고 때때로 용어 빈도의 가중치를 역 문서 빈도로 하는 것도 유용하다.자세한 내용은 tf-idf를 참조하십시오.
5. 군집화
그러면 우리가 생성한 기능에 따라 다른 문서를 클러스터링할 수 있다.다양한 유형의 클러스터링 방법은 클러스터 분석의 알고리즘 섹션을 참조하십시오.
6. 평가 및 시각화
마지막으로, 클러스터링 모델은 다양한 지표에 의해 평가될 수 있다.그리고 때로는 군집을 낮은(2)차원 공간으로 표시하여 결과를 시각화하는 것이 도움이 된다.가능한 접근 방법으로 다차원적 스케일링을 참조하십시오.
클러스터링 v. 분류
계산 텍스트 분석의 군집화 알고리즘은 문서를 하위 집합 또는 군집이라고 하는 텍스트 집합으로 그룹화하며, 알고리즘의 목표는 서로 구별되는 내부적으로 일관성 있는 군집을 만드는 것이다.[3]반면 분류는 문서의 특징을 이용해 문서의 '유형'을 예측하는 감독 학습의 한 형태다.
참고 항목
참조
- ^ a b 매닝, 크리스, 힌리히 쉬체 MIT 프레스 통계 자연 언어 처리 재단.케임브리지, MA: 1999년 5월.
- ^ http://nlp.stanford.edu/IR-book/pdf/16flat.pdf[bare URL PDF]
- ^ "Introduction to Information Retrieval". nlp.stanford.edu. p. 349. Retrieved 2016-05-03.
참고 문헌 목록
- 크리스토퍼 D.매닝, 프라바카르 라그하반, 힌리히 슈트체.정보 검색 소개의 플랫 클러스터링.케임브리지 대학교 출판부2008
- 니콜라스 O.앤드류스와 에드워드 A.Fox, 2007년 10월 16일 문서 클러스터링의 최근 발전[1]
- 클라우디오 카르피네토, 스타니슬라브 오시우스키, 조반니 로마노, 다위드 와이스.웹 클러스터링 엔진에 대한 설문 조사.ACM 컴퓨팅 설문 조사, 제41권, 제3호(2009년 7월), 제17조 ISSN 0360-0300
- Wui Lee Chang, Kai Meng Tay, Chee Peng Lim, 문서 클러스터링 및 시각화를 위한 지역 재학습이 있는 새로운 진화하는 나무 기반 모델, 신경 처리 편지, DOI: 10.1007/s11063-017-9597-3.https://link.springer.com/article/10.1007/s11063-017-9597-3