문서구분

Document classification

문서 분류 또는 문서 분류는 도서관 과학, 정보 과학 및 컴퓨터 과학에서 문제입니다.이 작업은 하나 이상의 클래스 또는 카테고리문서를 할당하는 것입니다.이것은 「수동」(또는 「지적」) 또는 알고리즘으로 실시할 수 있습니다.문서의 지적 분류는 주로 도서관 과학 분야이며, 문서의 알고리즘 분류는 주로 정보 과학 및 컴퓨터 과학 분야입니다.그러나 이 문제는 중복되고 있기 때문에 문서 분류에 관한 학제간 연구가 이루어지고 있다.

분류할 서류는 텍스트, 이미지, 음악 등일 수 있다.모든 종류의 문서는 특별한 분류 문제를 가지고 있다.달리 지정되지 않은 경우 텍스트 분류가 암시됩니다.

문서는 주제 또는 기타 속성(문서 유형, 저자, 인쇄 연도 등)에 따라 분류할 수 있습니다.이 문서의 나머지 부분에서는 주제 분류만 고려됩니다.문서의 주제 분류에는 콘텐츠 기반 접근법과 요청 기반 접근법의 두 가지 주요 철학이 있습니다.

"내용 기반" 분류와 "요청 기반" 분류

내용 기반 분류는 문서의 특정 주제에 부여된 가중치에 따라 문서가 할당되는 클래스가 결정되는 분류입니다.예를 들어, 도서관의 분류를 위한 일반적인 규칙은 책 내용의 적어도 20%는 책이 [1]할당된 클래스에 관한 것이어야 한다는 것이다.자동 분류에서는 주어진 단어가 문서에 나타나는 횟수일 수 있습니다.

요청 지향 분류(또는 -색인화)는 사용자의 예상 요청이 문서 분류 방식에 영향을 미치는 분류입니다.분류자는 자신에게 다음과 같이 묻는다: "이 실체를 어떤 기술자로 찾아야 하는가?", "가능한 모든 쿼리를 생각하고 해당 실체와 관련된 것을 결정한다."(Soergel, 1985, 페이지 230[2]).

요청 지향 분류는 특정 대상 사용자 또는 사용자 그룹을 대상으로 하는 분류일 수 있습니다.예를 들어, 페미니스트 연구를 위한 라이브러리 또는 데이터베이스는 이력 라이브러리와 비교할 때 문서를 다르게 분류/색인할 수 있다.단, 요구 지향 분류를 정책 기반 분류로 이해하는 것이 좋습니다.분류는 몇 가지 이상에 따라 수행되며 분류를 수행하는 라이브러리 또는 데이터베이스의 목적을 반영합니다.이렇게 하면 반드시 사용자 스터디를 기반으로 한 분류나 색인화 작업이 아닙니다.사용 또는 사용자에 대한 경험적 데이터가 적용되는 경우에만 요청 지향 분류를 사용자 기반 접근법으로 간주해야 한다.

분류와 색인화

때때로 분류에 문서를 할당하는 것과 문서에 주제를 할당하는 것 사이에 구별이 생기기도 하지만, Frederick Wilfrid Lancaster가 주장했듯이 이 구별은 성과가 없다."이러한 용어의 구별은 매우 무의미하며 혼란을 일으킬 뿐입니다."(Lancaster, 2003, 페이지 21[3])라고 그는 쓰고 있다.이 구별이 순수하게 표면적이라는 관점은 분류 시스템이 시소러스로 변환될 수 있다는 사실에서도 입증된다(cf., Aitchison, 1986,[4] 2004;[5] Bringon, 2008;[6] Riesthuis & Bliedung, 1991[7]).따라서 문서에 라벨을 붙이는 행위(를 들어 통제된 어휘의 용어를 문서에 할당하는 행위)는 동시에 해당 용어로 색인화된 문서 클래스에 해당 문서를 할당하는 것이다(X로 색인화되거나 분류된 모든 문서는 동일한 문서 클래스에 속함).즉, 문서에 레이블을 지정하는 것은 해당 레이블 아래에 색인화된 문서 클래스에 지정하는 것과 같습니다.

자동 문서 분류(ADC)

자동 문서 분류 태스크는 세 가지 종류로 나눌 수 있다: 일부 외부 메커니즘(인간의 피드백 등)이 문서의 올바른 분류에 대한 정보를 제공하는 감독 문서 분류, 분류가 완전히 수행되어야 하는 비감독 문서 분류(문서 클러스터링이라고도 함)외부 정보와 반감독 문서 분류([8]문서 일부가 외부 메커니즘에 의해 라벨링됨)를 참조하지 않습니다.다양한 라이센스 모델에서는 [9][10][11][12][13][14]몇 가지 소프트웨어 제품을 사용할 수 있습니다.

기술

자동 문서 분류 기법에는 다음이 포함됩니다.

적용들

분류기법이 적용되었다.

  • 스팸 필터링: 전자 메일 스팸 메시지와 정규 전자 메일을 구별하는 프로세스
  • 전자 메일 라우팅, 항목에 따라[15] 일반 주소로 전송되는 전자 메일의 특정 주소 또는 우편함
  • 언어 식별, 텍스트 언어 자동 결정
  • 장르 분류, 텍스트의[16] 장르 자동 결정
  • 다양한 연령대 또는 독자 유형에 적합한 자료를 찾거나 보다 큰 텍스트 단순화 시스템의 일부로 텍스트의 가독성 정도를 자동으로 결정하는 가독성 평가
  • 감정 분석, 문서의 전체 맥락적 극성 또는 어떤 주제에 대한 연설자 또는 작가의 태도를 결정합니다.
  • 공중 보건 감시에서 소셜 미디어를 사용한 보건 관련 분류
  • 아티클 분류, 예를 들어 생물학에서 수동으로 큐레이션된 주석 데이터베이스를 생성하기 위한 첫 번째 단계로 수행되고 있는 수동 문헌 큐레이션과 관련된 아티클 선택

「 」를 참조해 주세요.

추가 정보

레퍼런스

  1. ^ 미국 의회 도서관(2008년).제목 매뉴얼.워싱턴 DC: 의회 도서관, 정책 및 표준 부서.(시트 H 180: "작업의 20% 이상을 차지하는 토픽에만 제목을 할당하십시오.")
  2. ^ Soergel, Dagobert(1985년).정보 정리: 데이터베이스검색 시스템의 원리.올랜도, 플로리다: 학술 출판사.
  3. ^ 랭커스터, F. W. (2003)이론과 실제의 색인화 및 추상화.도서관 협회, 런던
  4. ^ 애치슨, J. (1986)시소러스의 소스로서의 분류:시소러스 용어 및 구조의 출처로서의 H. E. 블리스의 서지 분류." 문서 저널, 제42권 제3호, 페이지 160-181.
  5. ^ 애치슨, J. (2004)BC2의 테사우리: 블리스 뮤직 스케줄에서 도출된 실험적인 시소러스에서 드러난 문제와 가능성.블리스 분류 게시판, 제46권, 20-26페이지
  6. ^ Brutton, V. (2008년「용어의 기초가 되는 면 분류: 블리스 서지 분류 (제2판)에서 분류된 구조를 시소러스 형식으로 변환.]" Axiomates, Vol. 18 No.2, p. 193-210.
  7. ^ 리슈이스, G. J. A., & Bliedung, St. (1991)"UDC의 신화." 지식 조직 및 휴먼 인터페이스를 위한 도구, 제2권, 페이지 109-117.인덱스 베를라그, 프랑크푸르트
  8. ^ Rossi, R. G., Lopes, A. d. A. 및 Rezende, S. O. (2016).텍스트의 트랜시덕티브 분류를 개선하기 위해 초당 이기종 네트워크에서 최적화 및 라벨 전파.정보처리 및 관리, 52(2): 217~257.
  9. ^ "An Interactive Automatic Document Classification Prototype" (PDF). Archived from the original (PDF) on 2017-11-15. Retrieved 2017-11-14.
  10. ^ 인터랙티브 자동 문서 분류 프로토타입 2015년 4월 24일 웨이백 머신에 보관
  11. ^ 문서 분류 - Artsyl
  12. ^ ABBYY FineReader Engine 11 for Windows
  13. ^ 분류기 - 안티닷
  14. ^ "3 Document Classification Methods for Tough Projects". www.bisok.com. Retrieved 2021-08-04.
  15. ^ 스테판 부세만, 스벤 슈마이어, 로만 G.Arns(2000).콜센터 메시지 분류세르게이 니렌버그, 더글라스 아펠트, 파비오 치라베그나, 로버트 데일, eds., Proc.제6차 Applied Natural Language Processing Conf.(ANLP'00), 페이지 158-165, ACL.
  16. ^ Santini, Marina; Rosso, Mark (2008), Testing a Genre-Enabled Application: A Preliminary Assessment (PDF), BCS IRSG Symposium: Future Directions in Information Access, London, UK, pp. 54–63, archived from the original (PDF) on 2019-11-15, retrieved 2011-10-21
  17. ^ X. 다이, M. 비크다시, B.Meyer, "소셜 미디어에서 공중 보건 감시까지:트위터 분류를 위한 단어 임베딩 기반 클러스터링 방법," SouthterCon 2017, Charlotte, NC, 2017, 페이지 1-7. doi:10.1109/SECON. 2017.7925400
  18. ^ Krallinger, M; Leitner, F; Rodriguez-Penagos, C; Valencia, A (2008). "Overview of the protein-protein interaction annotation extraction task of Bio Creative II". Genome Biology. 9 Suppl 2: S4. doi:10.1186/gb-2008-9-s2-s4. PMC 2559988. PMID 18834495.

외부 링크