다중 문서 요약

Multi-document summarization

다중 문서 요약은 동일한 주제에 대해 작성된 여러 텍스트에서 정보를 추출하는 것을 목적으로 하는 자동 절차입니다.그 결과 생성되는 요약 보고서를 통해 전문 정보 소비자와 같은 개별 사용자는 대규모 문서 클러스터에 포함된 정보를 빠르게 이해할 수 있습니다.이와 같이 다중 문서 요약 시스템은 정보 과부하에 대처하는 다음 단계를 수행하는 뉴스 집계기를 보완하고 있다.

주요 장점과 어려움

다중 문서 요약은 간결하면서도 포괄적인 정보 리포트를 생성합니다.서로 다른 의견을 종합하여 개략적으로 설명함으로써 하나의 문서 내에서 모든 토픽을 다양한 관점에서 기술합니다.간단한 요약의 목적은 가장 관련성이 높은 소스 문서를 참조하여 정보 검색을 단순화하고 시간을 단축하는 것이지만, 이론적으로 포괄적인 복수 문서 요약에는 필요한 정보가 포함되어 있어야 합니다.따라서 원래 파일에 액세스할 필요가 있는 경우는 개선이 필요한 경우에 한정됩니다.실제로, 상반된 견해와 편견을 가진 여러 문서를 요약하는 것은 어렵습니다.사실, 상반된 견해를 가진 문서를 명확하게 추출하여 요약하는 것은 거의 불가능하다. 경우 추상적인 요약이 선호됩니다.

자동 요약은 편집 터치나 주관적인 인간의 개입 없이 알고리즘적으로 여러 소스에서 추출한 정보를 제시하므로 완전히 편견이 없다.충돌하는 보기를 가진 문서의 자동 추출 요약을 수행하는 경우 여전히 어려움이 있습니다.

기술적 과제

다중 문서 요약 태스크는 긴 문서라도 단일 문서를 요약하는 것보다 더 복잡합니다.그 어려움은 큰 문서 세트 내의 주제적 다양성에서 비롯된다.좋은 요약 기술은 주요 주제를 완전성, 가독성 및 대비와 결합하는 것을 목표로 합니다.NIST가 매년 실시하는 문서 이해 [1]회의는 다중 문서 요약 과제를 수용하는 기술에 대한 정교한 평가 기준을 개발했다.

이상적인 복수 문서 요약 시스템은 소스 텍스트를 단축할 뿐만 아니라 다양한 관점을 나타내기 위해 주요 측면을 중심으로 정리된 정보를 제시한다.성공은 주어진 주제에 대한 개요를 만듭니다.이러한 텍스트 편집은 또한 인간이 편집한 개요 텍스트에 대한 기본 요건이어야 한다.복수 문서 요약 품질 기준은 다음과 같습니다.

  • 주요 내용의 개요를 포함한 전체 텍스트 섹션으로 쉽게 이동할 수 있는 명확한 구조
  • 섹션 내의 텍스트는 의미 있는 단락으로 분할됩니다.
  • 보다 일반적인 주제적 측면에서 보다 구체적인 주제적 측면으로의 점진적인 이행
  • 가독성이 뛰어납니다.

후자의 점은 추가 사항을 언급할 가치가 있다.자동 개요에 다음 사항이 표시되도록 주의하십시오.

  • 각 문서(예: 웹 페이지)에서 종이 인쇄된 "정보 소음"이 발생하지 않음
  • 개요에서 언급되거나 설명되지 않은 내용에 대한 언급은 없다.
  • 텍스트가 문장에서 끊어지지 않는다
  • 시멘틱 용장성은 없습니다.

실제 시스템

멀티 문서 요약 테크놀로지는 현재 이용 가능한 고급 웹 기반 시스템 중에서 선택할 수 있는 뷰로 발전하고 있습니다.

  • ReviewChomp는 특정 제품 또는 서비스에 대한 고객 리뷰 요약을 제공합니다.어떤 제품들은 온라인 리뷰를 수천 개 가지고 있어서 사람들이 실시간으로 리뷰를 읽을 수 없게 만든다.제품 또는 서비스 검색은 웹 사이트에서 수행합니다.
  • Ultimate Research[2] Assistant - 인터넷 검색 결과에서 텍스트 마이닝을 수행하여 요약 및 정리하여 사용자가 온라인 검색을 쉽게 수행할 수 있도록 합니다.툴에 사용되는 특정 텍스트 마이닝 기술에는 개념 추출, 텍스트 요약, 계층 개념 클러스터링(예를 들어 자동 분류법 생성), 태그 클라우드 및 마인드 맵을 포함한 다양한 시각화 기술이 포함됩니다.
  • IResearch Reporter[3]-상업 텍스트 추출 및 텍스트 Summarization 시스템, 무료 데모 사이트는 user-entered 쿼리, 구글 검색 엔진에, 여러 관련 서류를 검색합니다, 분류를 생성하면 피해서 가 되어 쉽게 읽을 수 자연 언어 요약 보고서를 복수의 문서에 수거된 세트, 모든 추출물 링크된 origina.나는 d웹, 후처리, 엔티티 추출, 이벤트관계 추출, 텍스트 추출, 추출 클러스터링, 언어 분석, 다중 문서, 전문, 자연어 처리, 분류 규칙, 클러스터링, 언어 분석, 텍스트 요약 구성 도구 세트.
  • 뉴스블래스터는[4] 사용자가 가장 관심 있는 뉴스를 찾을 수 있도록 도와주는 시스템이다.이 시스템은 매일 여러 사이트(CNN, 로이터, Fox News 등)의 뉴스를 자동으로 수집, 클러스터링, 분류 및 요약하여 사용자에게 결과를 참조할 수 있는 인터페이스를 제공합니다.
  • NewsInessence를[5] 사용하여 웹에서 기사 클러스터를 검색하고 요약할 수 있습니다.URL에서 시작하여 유사한 문서를 검색하거나 지정된 키워드 집합과 일치하는 문서를 검색할 수 있습니다.NewsInessence는 또한 매일 뉴스 기사를 다운로드하고 그것들로부터 뉴스 클러스터를 생산합니다.
  • NewsFeed[6] Researchor는 뉴스 애그리게이터(예: Google 뉴스)에 의해 처음 클러스터된 문서를 지속적으로 자동 요약하는 뉴스 포털입니다.NewsFeed Researchor는 비즈니스, 기술, 미국 및 국제 뉴스와 관련된 주요 이벤트를 다루는 무료 온라인 엔진을 지원합니다.이 도구는 사용자가 선택한 항목에 대한 요약을 작성할 수 있도록 주문형 모드에서도 사용할 수 있습니다.
  • 스크래치[7] 이것은 검색 엔진과 비슷하지만 쿼리를 기반으로 가장 관련성이 높은 웹사이트에 대한 링크를 제공하는 대신 관련 웹사이트에서 관련 정보를 스크래치하고 사용자에게 사전 정의, 이미지 및 비디오와 함께 통합된 다중 문서 요약을 제공합니다.
  • JistWeb은[8] 쿼리 고유의 다중 문서 요약기입니다.

자동 생성된 다중 문서 요약이 인간이 작성한 개요와 점점 더 유사해짐에 따라, 추출된 텍스트 스니펫의 사용은 언젠가 공정한 사용 저작권 개념과 관련하여 저작권 문제에 직면할 수 있습니다.

참고 문헌

  • Günes Erkan; Dragomir R. Radev (1 December 2004). "LexRank: Graph-based Lexical Centrality as Salience in Text Summarization". Journal of Artificial Intelligence Research. 22: 457–479. arXiv:1109.2128. doi:10.1613/JAIR.1523. ISSN 1076-9757. Wikidata Q81312697.
  • 드라고미르 R. 라데프, 홍얀징, 말고르자타 스티,, 다니엘 탐.여러 문서의 중심 기반 요약.정보처리 및 관리(40:919–938, 2004년 12월).[5]
  • 캐슬린 R.맥킨과 드라고미르 R. 라데프.여러 뉴스 기사의 요약을 생성합니다.Proceedings, ACM Conference on Research and Development in Information Retrieval SIGIR'95, 74-82쪽, 워싱턴, 시애틀, 1995년 7월.[6]
  • C.-Y. 린, E.Hovy, "단일 문서 요약부터 복수 문서 요약까지: 프로토타입 시스템과 평가", "ACL의 진행", 페이지 457–464, 2002
  • 캐슬린 맥킨, 레베카 패소노, 데이비드 KElson, Ani Nenkova, Julia Hirschberg, "요약 도움이 됩니까?여러 문서 요약 태스크 기반 평가", SIGIR'05, 브라질 살바도르, 2005년 8월 15~19일 [7]
  • 바질레이, 노스엘하다드, K.R.McKeown, "다중 자료 뉴스 요약에서 문장 순서를 위한 전략 추론", Journal of AI Research, v. 17, 페이지 35-55, 2002
  • M. Soubbotin, S. Soubbotin, "요약 품질에 영향을 미치는 요소 간의 균형", 문서 이해 워크숍(DUC), 캐나다 밴쿠버, B.C., 2005년 10월 9-10일 [8]
  • C 라빈드라나트 차우다리, 그리고 P.스레니바사 쿠마르"Esum: 쿼리 고유의 여러 문서 요약을 위한 효율적인 시스템입니다."ECIR(정보 검색 어드밴스), 페이지 724–728.스프링거 베를린 하이델베르크, 2009.

「 」를 참조해 주세요.

레퍼런스

  1. ^ "Document Understanding Conferences". Nlpir.nist.gov. 2014-09-09. Retrieved 2016-01-10.
  2. ^ "Generate Research Report". Ultimate Research Assistant. Retrieved 2016-01-10.
  3. ^ "iResearch Reporter service". Iresearch-reporter.com. Archived from the original on 2013-06-09. Retrieved 2016-01-10.
  4. ^ [1] 2013년 4월 16일 Wayback Machine에 보관
  5. ^ [2] 2011년 4월 11일 Wayback Machine에서 아카이브 완료
  6. ^ "News Feed Researcher General Stuff". Newsfeedresearcher.com. Retrieved 2016-01-10.
  7. ^ [3] 2009년 9월 19일 Wayback Machine에서 아카이브 완료
  8. ^ [4] 2013년 5월 29일 Wayback Machine에서 보관

외부 링크