문서 구조화

Document structuring

Document Structuring자연어 생성의 하위 작업으로, 생성된 텍스트에서 문장의 순서 및 그룹화(예를 들어 단락으로)를 결정하는 것을 포함한다.콘텐츠 결정 NLG 과제와 밀접한 관련이 있다.

생성된 텍스트에 포함시키고자 하는 4개의 문장이 있다고 가정해 보십시오.

  1. 토요일에는 비가 올 것이다.
  2. 일요일에는 날씨가 맑을 것이다.
  3. 토요일에는 최고 기온이 10 °C가 될 것이다.
  4. 일요일에는 최고 기온이 15°C가 될 것이다.

이러한 메시지의 순서는 다음과 같이 24개(4!)가 있다.

  • (1234) 토요일에는 비가 올 것이다.일요일에는 날씨가 맑을 것이다.토요일에는 최고 기온이 10 °C가 될 것이다.일요일에는 최고 기온이 15 °C가 될 것이다.
  • (2341년) 일요일에는 맑을 것이다.토요일에는 최고 기온이 10 °C가 될 것이다.일요일에는 최고 기온이 15 °C가 될 것이다.토요일에는 비가 올 것이다.
  • (4321) 일요일에는 최대 기온이 15 °C가 될 것이다.토요일에는 최고 기온이 10 °C가 될 것이다.일요일에는 날씨가 맑을 것이다.토요일에는 비가 올 것이다.

이러한 순서 중 일부는 다른 것들보다 낫다.예를 들어, 위에 표시된 텍스트 중에서 인간 독자는 (2314)와 (4321)보다 (1234)를 더 선호한다.

어떤 순서든 문장을 문단 및 섹션과 같은 상위 구조로 분류할 수 있는 여러 가지 방법이 있다.예를 들어, (1234)의 문장을 다음과 같이 문단으로 그룹화할 수 있는 8가지(2**3) 방법이 있다.

  • (12)(34)
토요일에는 비가 올 것이다.일요일에는 날씨가 맑을 것이다.
토요일에는 최고 기온이 10 °C가 될 것이다.일요일에는 최고 기온이 15 °C가 될 것이다.
  • (1)(23)(4)
토요일에는 비가 올 것이다.
일요일에는 날씨가 맑을 것이다.토요일에는 최고 기온이 10 °C가 될 것이다.
일요일에는 최고 기온이 15 °C가 될 것이다.

주문과 마찬가지로 인간 독자는 일부 그룹을 다른 그룹보다 선호한다. 예를 들어, (12)(34)가 (1)(23)(4)보다 선호된다.

문서 구조화 작업은 독자의 관점에서 일관되고 잘 구성된 텍스트로 귀결되는 문장의 순서와 그룹화를 선택하는 것이다.

알고리즘 및 모델

문서 구조화에는 스키마, 말뭉치 기반, 휴리스틱의 세 가지 기본 접근방식이 있다.

스키마는 문서에 대한 문장 순서 지정 및 그룹화(내용 결정 정보 포함)를 명시적으로 지정하는 템플리트다.전형적으로 그것들은 타겟 장르에서 인간이 쓴 텍스트의 말뭉치를 수동으로 분석하고, 이들 텍스트에서 문서 템플릿을 추출하여 구성된다.스키마는 짧거나(5문장 이하) 표준화된 구조를 가지지만 길이가 길고 고정된 구조가 없는 텍스트를 생성하는 데 문제가 있는 텍스트의 경우 실제로 잘 작동한다.

말뭉치 기반 구조화 기법은 통계적 말뭉치 분석 기법을 사용하여 주문 및/또는 그룹화 모델을 자동으로 구축한다.그러한 기법은 컴퓨터 프로그램이 텍스트 문서의 요약을 자동으로 생성하는 자동 요약에서 흔히 볼 수 있다.[2]원칙적으로 비언어적 데이터에서 생성된 텍스트에 적용할 수 있지만 이 작업은 초기 단계에 있다. 과제는 자연어 생성 시스템에 의해 생성된 텍스트가 일반적으로 상당히 높은 품질을 가질 것으로 예상된다는 것이다. 이는 자동 요약 시스템에 의해 생성된 텍스트의 경우가 항상 그렇지는 않다.

마지막 접근법은 휴리스틱 기반 구조화다.그러한 알고리즘은 경험적 접근 규칙을 기반으로 구조화 작업을 수행하는데, 이는 수사학 이론,[3] 심리언어학 모델 [4]및/또는 잠재적 사용자와의 시험 실험에서 얻은 직관 및 피드백의 조합에서 나올 수 있다.[5]휴리스틱스 기반의 구조는 지적으로 호소력이 있지만, 부분적으로 휴리스틱스가 항상 이용 가능한 것은 아닌 의미 정보(문장이 서로 어떻게 관련되는지)에 의존하는 경우가 많기 때문에, 실제로 잘 작동하도록 하는 것은 어려울 수 있다.반면에 휴리스틱스 규칙은 텍스트 독자들에게 가장 좋은 것에 초점을 맞출 수 있는 반면, 다른 접근법은 작가 흉내 내는 것에 초점을 맞출 수 있다.

서사

아마도 궁극적인 문서 구조화 과제는 좋은 서술(즉, 장면을 설정하고 소개/개요하는 것으로 시작하는 텍스트)을 생성하는 것이다. 그런 다음 독자들이 쉽게 개별 사건이 어떻게 연관되어 있고 서로 연결될 수 있도록 일련의 사건을 명료하게 설명하고 요약/종료하는 것으로 마무리하는 것이다.이러한 의미에서의 서술은 이야기뿐만 아니라 사실에 입각한 텍스트에도 적용된다는 점에 유의하십시오.기존 NLG 시스템은 내러티브를 잘 만들지 못해 사용자 비판의 주요 원천이다.[6]

좋은 내러티브를 만들어내는 것은 NLG의 모든 면에서 도전이지만 가장 근본적인 도전은 아마도 문서구조에 있을 것이다.

참조

  1. ^ K McKeown(1985년).텍스트 생성.케임브리지 대학교 출판부
  2. ^ M 라파타(2003년).확률론적 텍스트 구조화: 문장 순서에 대한 실험.ACL-2003의 절차 [1]
  3. ^ D Scott와 C de Souza(1990).RST 기반 텍스트 생성에서 메시지 전달Dale, Mellish, Zock (eds) 자연어 생성에 대한 현재 연구, 47-73페이지
  4. ^ N Karamanis, M Poesio, C Mellish, J Oberlander(2004).신뢰성 있게 주석이 달린 말뭉치를 사용하여 텍스트 구조의 일관성을 평가하는 센터링 기반 지표 평가.ACL-2004 절차[2]
  5. ^ S Williams와 E Repeative.저숙련 독자를 위한 기본 기술 보고서 생성.자연어 공학 14:495-535
  6. ^ E Repeat, A Gatt, F Portet, M van der Meulen(2008).임상 데이터를 요약한 NLG 시스템 평가의 중요성 및 기타 교훈INLG-2008 절차서[3]