문장 추출

Sentence extraction

문장 추출은 텍스트의 자동 요약에 사용되는 기술입니다.이 얕은 접근법에서 통계적 휴리스틱스는 텍스트의 가장 두드러진 문장을 식별하기 위해 사용된다.문장 추출은 온톨로지나 언어 지식 등의 추가 지식 기반을 필요로 하는 보다 지식 집약적인 심층 접근법에 비해 저비용 접근법입니다.간단히 말해서 "문장 추출"은 중요한 문장만 통과시키는 필터 역할을 한다.

요약 작업에 문장 추출 기법을 적용하는 것의 주요 단점은 결과 요약에서 일관성의 손실이다.그럼에도 불구하고, 문장 추출 요약은 문서의 주요 요점에 대한 귀중한 단서를 제공할 수 있으며 종종 인간 독자들에게 충분히 이해될 수 있다.

절차.

일반적으로 휴리스틱스의 조합은 문서 내에서 가장 중요한 문장을 결정하기 위해 사용됩니다.각 경험적 접근법은 문장에 (양수 또는 음수) 점수를 할당합니다.모든 휴리스틱스를 적용한 후 가장 높은 점수를 받은 문장이 요약에 포함됩니다.개별 휴리스틱은 중요도에 따라 가중치를 부여한다.

초기 접근법과 몇 가지 샘플 휴리스틱스

오늘날 사용되는 많은 기술들의 기초를 닦은 중요한 논문들은 1958년[1] 한스 피터 과 1969년 [2]H. P. 에드먼슨의해 출판되었다.

Luhn은 문서의 시작 부분이나 단락에서 문장에 더 많은 비중을 부여할 것을 제안했다.Edmundson은 요약에 제목 단어의 중요성을 강조하였고, 의미 내용이 낮은 비정보적 단어(예: "of", "the", "a"와 같은 대부분의 문법적 단어)를 필터링하기 위해 중지 목록을 최초로 사용했다.그는 또한 보너스 단어와 낙인 단어, 즉 중요한 단어(예: "중요한" 단어 형태) 또는 중요하지 않은 정보와 함께 발생할 수 있는 단어를 구분했다.키워드, 즉 문서에서 상당히 자주 발생하는 단어를 사용한다는 그의 생각은 오늘날에도 여전히 요약자의 핵심 휴리스틱 중 하나이다.오늘날 대규모 언어적 말뭉치를 이용할 수 있는 경우, 정보 검색에서 유래한 tf-idf 값을 텍스트의 핵심 단어를 식별하는 데 성공적으로 적용할 수 있다. 예를 들어, "cat"이라는 단어가 말뭉치(IDF는 "문서 빈도"를 의미함)보다 요약할 텍스트에서 상당히 자주 발생하는 경우(TF = "용어 빈도"는 "문서 빈도"를 의미한다).re corpus는 "cat"을 의미하며, "cat"은 텍스트의 중요한 단어가 될 가능성이 높다. 텍스트는 실제로 고양이에 대한 텍스트일 수 있다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Hans Peter Luhn (April 1958). "The Automatic Creation of Literature Abstracts" (PDF). IBM Journal: 159–165.
  2. ^ H. P. Edmundson (1969). "New Methods in Automatic Extracting" (PDF). Journal of the ACM. 16 (2): 264–285. doi:10.1145/321510.321519. S2CID 1177942.