자동 집약

Automatic summarization

자동 요약은 원본 콘텐츠 내에서 가장 중요하거나 관련된 정보를 나타내는 하위 집합(요약)을 생성하기 위해 일련의 데이터를 계산적으로 단축하는 프로세스입니다.

텍스트와 더불어 이미지 및 동영상도 요약할 수 있습니다.텍스트 요약은 문서에서 [1]가장 유용한 문장을 찾습니다.이미지 요약의 다양한 방법은 현재 진행 중인 연구의 대상이며, 일부에서는 특정 컬렉션에서 가장 대표적인 이미지를 표시하거나 [2][3][4]비디오를 생성하려고 합니다.비디오 요약은 비디오 [5]콘텐츠에서 가장 중요한 프레임을 추출합니다.

시판 제품

2022년 구글 독스는 자동 요약 기능을 [6]출시했다.

접근

자동 요약에는 추출추상화의 두 가지 일반적인 방법이 있습니다.

추출 기반 요약

여기서, 원래의 데이터로부터 컨텐츠가 추출되지만, 추출된 컨텐츠는 어떠한 방법으로도 수정되지 않는다.추출된 콘텐츠의 예로는 텍스트 문서를 "태그 부착" 또는 색인화하는 데 사용할 수 있는 키 프레이즈, 또는 위에서 설명한 바와 같이 요약본, 대표 이미지 또는 비디오 세그먼트로 구성된 키 문장(제목 포함) 등이 있습니다.텍스트의 경우, 추출은 전체 문서를 자세히 [7]읽기로 선택하기 전에 요약(가능한 경우), 제목과 소제목, 그림, 섹션의 첫 번째와 마지막 단락, 그리고 선택적으로 단락의 첫 번째와 마지막 문장을 읽는 스키밍 과정과 유사하다.임상 관련성(환자/문제, 개입 및 [8]결과 포함) 측면에서 주요 텍스트 시퀀스를 포함하는 추출의 다른 예.

추상화 기반 요약

이것은 주로 텍스트에 적용되어 왔습니다.추상적 방법은 원래 내용의 내부 의미 표현을 구축한 후 이 표현을 사용하여 인간이 표현할 수 있는 것에 가까운 요약을 작성합니다.추상화는 소스 문서의 섹션을 바꿔서 추출된 내용을 변환하여 추출된 텍스트보다 더 강하게 압축할 수 있습니다.그러나 이러한 변환은 추출보다 계산적으로 훨씬 더 어려우며, 자연어 처리와 종종 원본 문서가 특별한 지식 분야와 관련된 경우 원본 텍스트의 영역에 대한 깊은 이해를 모두 포함한다.「파라프라싱」은, 이미지와 비디오에 적용하는 것이 한층 더 어려워지기 때문에, 대부분의 집약 시스템은 추출이 가능합니다.

서머리 지원

집약 품질을 높이기 위한 접근방식은 소프트웨어와 인력의 조합에 의존합니다.기계 지원 인간 요약에서 추출 기법은 (인간이 텍스트를 추가하거나 삭제하는) 포함 대상 구절을 강조 표시합니다.Human Aided Machine Summary 에서는 Google Translate에서 자동번역 출력을 편집하는 것과 동일한 방식으로 소프트웨어 출력을 후처리합니다.

요약을 위한 응용 프로그램 및 시스템

추출 요약 태스크에는 요약 프로그램의 초점을 맞추는 작업에 따라 크게 두 가지 유형이 있습니다.첫 번째는 일반 요약으로, 컬렉션의 일반적인 요약 또는 요약(문서, 이미지 세트, 비디오, 뉴스 기사 등)을 얻는 데 초점을 맞추고 있습니다.두 번째는 쿼리 관련 요약(쿼리 기반 요약이라고도 함)으로, 쿼리에 고유한 개체를 요약합니다.요약 시스템은 사용자의 요구에 따라 관련 텍스트 요약과 일반 기계 생성 요약을 모두 생성할 수 있습니다.

요약 문제의 예로는 문서 요약이 있습니다. 문서 요약은 주어진 문서에서 자동으로 요약을 생성하려고 시도합니다.단일 원본 문서에서 요약을 생성하는 데 관심이 있는 반면, 여러 원본 문서(예: 동일한 주제에 대한 문서 클러스터)를 사용할 수 있는 경우도 있습니다.이 문제를 다중 문서 요약이라고 합니다.관련 앱이 뉴스 기사를 요약하고 있습니다.웹에서 특정 주제에 대한 뉴스 기사를 자동으로 취합하여 최신 뉴스를 요약으로 간결하게 표현하는 시스템을 상상해 보십시오.

이미지 수집 요약은 자동 요약의 또 다른 응용 프로그램 예입니다.더 큰 [9]영상 세트에서 대표적인 영상 세트를 선택하는 것으로 구성됩니다. 컨텍스트의 요약은 이미지 수집 탐색 시스템에서 결과의 가장 대표적인 이미지를 보여주는 데 유용합니다.비디오 집약은 관련 도메인이며 시스템에서 자동으로 긴 비디오의 트레일러를 만듭니다.또한 소비자 또는 개인 비디오에 응용 프로그램이 있어 지루하거나 반복적인 작업을 생략할 수 있습니다.마찬가지로, 보안 감시 비디오에서도 중요하고 의심스러운 액티비티를 추출할 수 있지만, 캡처된 지루하고 중복된 프레임은 모두 무시해야 합니다.

매우 높은 수준에서 요약 알고리즘은 전체 집합의 정보를 포함하는 개체의 하위 집합(예: 문장 집합 또는 이미지 집합)을 찾으려고 합니다.이것은 코어 세트라고도 불립니다.이러한 알고리즘은 다양성, 범위, 정보 및 요약의 대표성과 같은 개념을 모델링합니다.쿼리 기반 요약 기법. 또한 요약과 쿼리의 관련성을 모델링합니다.자연스럽게 요약 문제를 모델링하는 기술 및 알고리즘으로는 TextRank 및 PageRank, 서브모듈러 집합 함수, 결정점 프로세스, 최대 한계 관련성(MMR) 등이 있습니다.

키 프레이즈

태스크는 다음과 같습니다.저널 기사와 같은 텍스트가 제공되며 [10]텍스트에서 논의된 주요 주제를 캡처하는 키워드 또는 키[구절] 목록을 작성해야 합니다.연구 기사의 경우 많은 저자들이 수동으로 할당된 키워드를 제공하지만 대부분의 텍스트에는 기존의 키프레이즈가 없다.예를 들어, 뉴스 기사에는 키 프레이즈가 첨부되어 있는 경우는 거의 없지만, 다음에 설명하는 많은 어플리케이션에서 키 프레이즈를 자동적으로 첨부할 수 있으면 편리합니다.뉴스 기사의 예시 텍스트를 생각해 보십시오.

AP통신이 입수한 문서에 따르면 육군 공병대는 2006년 허리케인 시즌이 시작될 때까지 뉴올리언스를 보호하겠다는 부시 대통령의 약속을 지키기 위해 서두르고 있지만 지난해에는 결함이 있는 홍수 통제 펌프를 설치했다.

키워드 추출자는 "Army Corps of Engineers", "President Bush", "New Orleans" 및 "불량 홍수 제어 펌프"를 키워드 문구로 선택할 수 있습니다.이것들은 텍스트에서 직접 추출한 것입니다.이와는 대조적으로 추상적인 키프레이즈 시스템은 내용을 내부화하고 텍스트에 나타나지 않는 키프레이즈를 생성하지만 "정치적 과실"이나 "홍수로부터 불충분한 보호"와 같이 인간이 만들어낼 수 있는 것과 더 유사합니다.추상화에는 텍스트에 대한 깊은 이해가 필요하며, 이는 컴퓨터 시스템을 어렵게 만든다.키프레이즈에는 다양한 용도가 있습니다.간단한 요약을 제공하여 문서 검색을 활성화하고, 정보 검색을 개선하며(문서에 키프레이즈가 할당되어 있는 경우 사용자는 전체 텍스트 검색보다 더 신뢰할 수 있는 히트를 생성하기 위해 키프레이즈로 검색할 수 있음), 대용량 텍스트 말뭉치를 위한 인덱스 항목을 생성하는 데 사용할 수 있습니다.

다른 문헌과 주요 용어, 단어 또는 구문의 정의에 따라 키워드 추출은 매우 관련이 깊은 주제이다.

지도 학습 접근법

Turney의 [11]연구를 시작으로, 많은 연구자들이 기계 학습의 감독상의 문제로 키 프레이즈 추출에 접근해 왔습니다.문서가 주어지면 텍스트에 있는 유니그램, bigram 및 trigram 각각에 대한 예를 작성합니다(단, 아래에서 설명한 것처럼 다른 텍스트 단위도 가능합니다).그런 다음 각 예를 설명하는 다양한 특징을 계산한다(예: 문구가 대문자로 시작됩니까?).일련의 트레이닝 문서에 사용할 수 있는 기존의 키워드가 있는 것을 전제로 하고 있습니다.이미 알려진 키프레이즈를 사용하여 예제에 긍정 또는 부정 라벨을 할당할 수 있습니다.그런 다음 특징의 함수로서 긍정적인 예와 부정적인 예시를 구별할 수 있는 분류기를 배운다.일부 분류자는 테스트 예제에 대해 이진 분류를 만드는 반면, 다른 분류자는 키 프레이즈일 가능성을 할당합니다.예를 들어, 위의 텍스트에서는 첫 번째 대문자 문구가 키프레이즈일 가능성이 높다는 규칙을 배울 수 있습니다.학습자를 교육한 후 다음과 같은 방법으로 테스트 문서의 키프레이즈를 선택할 수 있습니다.테스트 문서에 동일한 예제 생성 전략을 적용한 다음 학습자를 통해 각 사례를 실행합니다.학습한 모델에서 반환된 바이너리 분류 결정 또는 확률을 통해 주요 문구를 확인할 수 있습니다.확률이 지정되면 임계값을 사용하여 키프레이즈를 선택합니다.키 프레이즈 추출기는 일반적으로 정밀도와 리콜을 사용하여 평가됩니다.Precision은 제안된 키 프레이즈 중 실제로 몇 개가 올바른지 측정합니다.리콜은 시스템에서 제안한 실제 키프레이즈의 수를 측정합니다.두 측정치는 두 측정값의 조화 평균인 F-점수로 결합할 수 있습니다(F = 2PR/(P + R)).제안된 키 프레이즈와 알려진 키 프레이즈 간의 일치는 다른 텍스트 정규화를 막거나 적용한 후에 확인할 수 있습니다.

관리 대상 키 프레이즈 추출 시스템을 설계하려면 몇 가지 선택지를 결정해야 합니다(이들 중 일부는 비관리 대상에도 해당).첫 번째 선택은 정확하게 예를 생성하는 방법입니다.Turney와 다른 사람들은 중간 구두점 없이 그리고 정지어를 제거한 후에 가능한 모든 유니그램, 빅그램, 그리고 삼각법을 사용했다.Hulth는 특정 패턴의 음성 태그와 일치하는 토큰 시퀀스가 되도록 예를 선택하면 어느 정도 개선할 수 있음을 보여 주었습니다.예를 생성하는 메커니즘은 라벨이 부착된 모든 키프레이즈를 후보로서 생성하는 것이 이상적이지만 대부분의 경우 그렇지 않습니다.예를 들어, 만약 우리가 유니그램, 빅그램, 그리고 삼각함수만 사용한다면, 우리는 4개의 단어가 포함된 알려진 키프레이즈를 추출할 수 없을 것이다.따라서 리콜이 실패할 수 있습니다.그러나 너무 많은 예제를 생성하면 정밀도가 저하될 수 있습니다.

우리는 또한 예를 설명하고 학습 알고리즘이 키 프레이즈를 비키 프레이즈와 구별할 수 있을 만큼 충분한 정보를 제공하는 기능을 만들어야 한다.일반적으로 특징에는 다양한 용어 빈도(현재 텍스트 또는 더 큰 말뭉치에 문구가 나타나는 횟수), 예제의 길이, 첫 번째 발생의 상대적 위치, 다양한 부울 구문 특징(예: 모든 대문자 포함) 등이 포함된다.Turney지는 약 12개의 그러한 특집을 사용했다.Hulth는 Turney의 주요 논문에서 도출된 KEA(Keyphrase Extraction Algorithm) 작업에서 가장 성공적인 기능 세트를 사용합니다.

최종적으로는 테스트 문서의 키 프레이즈 리스트를 반환할 필요가 있기 때문에, 그 수를 제한하는 방법이 필요합니다.앙상블 방법(즉, 여러 분류자의 투표 사용)은 사용자가 제공한 키 구문의 수를 제공하기 위해 임계값화할 수 있는 숫자 점수를 생성하는 데 사용되었다.이것은 Turney가 C4.5 결정 트리에서 사용하는 기법입니다.Hulth는 단일 이진 분류기를 사용했기 때문에 학습 알고리즘이 암묵적으로 적절한 숫자를 결정합니다.

예시와 기능이 작성되면 키프레이즈를 예측하는 방법을 배울 필요가 있습니다.의사결정 트리, Naigive Bayes, 규칙 유도 등 사실상 모든 지도 학습 알고리즘을 사용할 수 있습니다.Turney의 GenEx 알고리즘의 경우, 유전 알고리즘은 도메인 고유의 키 프레이즈 추출 알고리즘의 파라미터를 학습하기 위해 사용됩니다.추출기는 일련의 휴리스틱에 따라 키 프레이즈를 식별합니다.유전 알고리즘은 알려진 핵심 문구를 가진 교육 문서의 성과와 관련하여 이러한 휴리스틱스의 매개변수를 최적화합니다.

감독되지 않은 접근법:텍스트 순위

다른 키 프레이즈 추출 알고리즘은 Text Rank입니다.관리 대상 메서드는 키프레이즈를 특징짓는 기능에 대해 해석 가능한 규칙을 작성할 수 있는 등 몇 가지 훌륭한 속성을 가지고 있지만 대량의 트레이닝 데이터도 필요합니다.이미 알려진 키프레이즈를 가진 문서가 많이 필요합니다.또한 특정 도메인에 대한 훈련은 추출 프로세스를 해당 도메인에 맞춤화하는 경향이 있으므로 Turney의 결과 중 일부에서 알 수 있듯이 결과 분류자가 반드시 휴대할 수 있는 것은 아니다.감독되지 않은 키 프레이즈를 추출하면 교육 데이터가 필요하지 않습니다.그것은 다른 각도에서 문제에 접근한다.키 프레이즈를 특징짓는 명시적 기능을 학습하는 대신 TextRank[12] 알고리즘은 텍스트 자체의 구조를 이용하여 PageRank가 중요한 웹 페이지를 선택하는 것과 같은 방법으로 텍스트에 "중앙"으로 보이는 키 프레이즈를 결정합니다.이것은 소셜 네트워크의 「프레스티지」또는 「추천」의 개념에 근거하고 있습니다.이와 같이 TextRank는 이전의 트레이닝 데이터에 전혀 의존하지 않고 임의의 텍스트에서 실행할 수 있으며 텍스트 고유의 특성에 따라 출력을 생성할 수 있습니다.따라서 알고리즘은 새로운 도메인 및 언어로 쉽게 이식할 수 있습니다.

TextRank는 NLP를 위한 범용 그래프 기반 랭킹 알고리즘입니다.기본적으로 특정 NLP 태스크용으로 특별히 설계된 그래프에서 PageRank를 실행합니다.키 프레이즈 추출의 경우 일부 텍스트 단위 집합을 정점으로 사용하여 그래프를 작성합니다.가장자리는 텍스트 단위 정점 간의 의미적 또는 어휘적 유사성의 측정에 기초합니다.PageRank와 달리 엣지는 일반적으로 방향이 없으며 유사도를 반영하기 위해 가중치를 부여할 수 있습니다.일단 그래프가 구성되면, 이 그래프는 감쇠 계수와 결합되어 확률 행렬을 형성하기 위해 사용되며('랜덤 서퍼 모델'과 같이), 정점에 대한 랭킹은 고유값 1에 대응하는 고유 벡터(즉, 그래프상의 랜덤 워크의 정지 분포)를 구함으로써 구해진다.

정점은 순위를 매기고 싶은 것과 일치해야 합니다.잠재적으로 우리는 지도된 방법과 비슷한 것을 할 수 있고 유니그램, 빅그램, 트리그램 등에 대한 정점을 만들 수 있다.그러나 그래프를 작게 유지하기 위해 저자들은 첫 번째 단계에서 개별 유니그램의 순위를 매기고, 그 다음 순위가 높은 인접 유니그램을 결합하여 여러 단어로 된 구문을 만드는 두 번째 단계를 포함하기로 결정했다.이것은 임의의 길이의 키프레이즈를 만들 수 있는 좋은 부작용이 있습니다.예를 들어 유니그램의 순위를 매겨 '고급', '자연', '언어' 및 '처리'가 모두 높은 순위를 매긴 경우 원문을 보고 이 단어들이 연속적으로 나타나는지 확인하고 4개를 모두 사용하여 최종 키프레이즈를 작성합니다.그래프에 배치된 유니그램은 음성의 일부로 필터링할 수 있습니다.저자들은 형용사와 명사가 포함하기에 가장 좋다는 것을 발견했다.따라서, 이 단계에서 몇 가지 언어 지식이 작용합니다.

에지는 이 TextRank 응용 프로그램에서 단어 공존을 기반으로 생성됩니다.유니그램이 원본 텍스트에서 크기 N의 창 내에 나타나는 경우 두 정점은 모서리에 의해 연결됩니다.N은 보통 약 2 ~10입니다따라서 NLP에 대한 텍스트에서 "자연"과 "언어"가 연결될 수 있습니다. "자연"과 "처리"도 모두 동일한 N개의 단어 문자열에 표시되므로 연결됩니다.이 가장자리들은 "텍스트 응집"의 개념과 서로 가까이 나타나는 단어들이 의미 있는 방식으로 연관되어 있고 독자들에게 서로를 "추천"한다는 생각에 기초한다.

이 방법은 단순히 개별 정점의 순위를 매기기 때문에 임계값을 지정하거나 제한된 수의 키 프레이즈를 생성할 수 있는 방법이 필요합니다.선택한 기법은 카운트 T를 그래프에 있는 정점 총수의 사용자 지정 분수로 설정하는 것입니다.그런 다음 정상 확률을 기준으로 상위 T개의 정점/유니그램이 선택됩니다.그런 다음 후 처리 단계를 적용하여 이들 T 유니그램의 인접 인스턴스를 병합한다.그 결과 T 최종 키프레이즈보다 많거나 적을 수 있지만 숫자는 원문의 길이에 거의 비례해야 한다.

PageRank를 공존 그래프에 적용하는 것이 왜 유용한 키 프레이즈를 생성하는지는 처음에는 명확하지 않습니다.한 가지 방법은 다음과 같습니다.텍스트 전체에서 여러 번 나타나는 단어는 여러 개의 서로 다른 네이버를 가질 수 있습니다.예를 들어 기계 학습에 관한 텍스트에서 유니그램 "학습"은 4개의 다른 문장에서 "기계", "감독됨", "감독됨", "감독되지 않음" 및 "반감독됨"과 함께 발생할 수 있습니다.따라서 "학습" 정점은 이러한 다른 수정 단어와 연결되는 중앙 "허브"가 됩니다.그래프에서 PageRank/TextRank를 실행하면 "학습" 순위가 높게 매겨질 수 있습니다.마찬가지로 텍스트에 "감독 분류"라는 문구가 포함되어 있으면 "감독"과 "분류" 사이에 차이가 있습니다."분류"가 다른 여러 곳에 나타나서 이웃이 많다면, 그 중요성은 "감독"의 중요성에 기여할 것이다.상위권에 들면, 「학습」, 「분류」와 함께 T대 유니그램에 선정됩니다.그 후 처리의 마지막 단계에서는, 「감시 학습」과 「감시 분류」라고 하는 키워드로 끝납니다.

즉, 공존 그래프에는 자주 나타나는 용어와 다른 컨텍스트에서 나타나는 용어에 대해 촘촘하게 연결된 영역이 포함됩니다.이 그래프의 랜덤 워크는 군집 중심에 있는 항에 큰 확률을 할당하는 고정 분포를 가집니다.이것은 PageRank에 의해 높은 순위를 매기는 것과 유사합니다.이 접근방식은 문서 요약에도 사용되고 있습니다.이러한 접근방식은 다음과 같습니다.

문서 요약

키 프레이즈 추출과 마찬가지로 문서 요약은 텍스트의 본질을 식별하는 것을 목적으로 합니다.유일한 진정한 차이점은 이제 단어와 구가 아닌 전체 문장인 더 큰 텍스트 단위를 다루고 있다는 것입니다.

몇 가지 요약 방법에 대해 자세히 설명하기 전에 요약 시스템의 일반적인 평가 방법에 대해 설명하겠습니다.가장 일반적인 방법은 소위 ROUZE(Recall Oriented Understudy for Gisting Evaluation) 수단을 사용하는 것입니다.이는 참조로 알려진 하나 이상의 인간 생성 모델 요약에 존재하는 내용을 시스템 생성 요약이 얼마나 잘 다루는지 결정하는 리콜 기반 측정값입니다.리콜을 기반으로 시스템에 텍스트에 모든 중요한 주제를 포함하도록 장려합니다.호출은 유니그램, 빅그램, 트리거 또는 4그램 매칭에 대해 계산할 수 있습니다.예를 들어, ROUZE-1은 시스템에 나타나는 유니그램의 카운트 분할과 참조 요약의 유니그램의 카운트 분할로 계산된다.

참조가 여러 개일 경우 ROUZE-1 점수가 평균화됩니다.ROUZE는 내용 중복만을 기반으로 하기 때문에 자동 요약과 참조 요약 간에 동일한 일반 개념이 논의되는지 여부를 판단할 수 있지만 결과가 일관되는지 또는 문장이 합리적인 방식으로 함께 흐르는지 판단할 수 없다.고차 n-그램 ROUZE 측도는 어느 정도 유창성을 판단하려고 합니다.ROUZE는 기계 번역에 대한 BLEU 측정과 비슷하지만 번역 시스템이 정확성을 선호하기 때문에 BLEU는 정밀도에 기반합니다.

문서 요약에서 유망한 행은 적응형 문서/텍스트 [13]요약입니다.적응형 요약의 개념은 문서/텍스트 장르에 대한 예비 인식과 이 장르에 최적화된 요약 알고리즘의 후속 적용을 포함한다.먼저 적응형 요약 수행이 [14]작성되었음을 요약합니다.

지도 학습 접근법

감시 텍스트 요약은 감시 키 프레이즈 추출과 매우 유사합니다.기본적으로 문서 모음과 인간이 작성한 요약이 있다면 요약에 포함시킬 수 있는 문장의 특징을 배울 수 있습니다.특징에는 문서의 위치(즉, 처음 몇 문장이 중요할 수 있음), 문장의 단어 수 등이 포함될 수 있다.감독 추출 요약의 주요 어려움은 원본 훈련 문서의 문장에 "요약" 또는 "요약하지 않음"으로 레이블을 붙일 수 있도록 문장을 추출하여 알려진 요약을 수동으로 작성해야 한다는 것이다.일반적으로 사람들이 요약을 작성하는 방법은 아니므로 저널 요약이나 기존 요약을 사용하는 것만으로는 충분하지 않습니다.이러한 요약의 문장은 원본 텍스트의 문장과 반드시 일치하지 않기 때문에 훈련 예제에 레이블을 할당하는 것은 어려울 것입니다.단, ROUGE-1은 단일그램에만 관심이 있으므로 이러한 자연 요약은 여전히 평가 목적으로 사용될 수 있다.

최대 엔트로피 기반 요약

DUC 2001과 2002 평가 워크숍에서 TNO는 뉴스 영역의 다중 문서 요약을 위한 문장 추출 시스템을 개발했다.이 시스템은 모델링 경험을 위해 순진한 베이즈 분류기와 통계 언어 모델을 사용하는 하이브리드 시스템을 기반으로 했습니다.시스템은 양호한 결과를 나타냈지만, ME는 기능 의존성에 강한 것으로 알려져 있기 때문에, 연구진은 회의 요약 태스크에 대한 최대 엔트로피(ME) 분류기의 효과를 조사하기를 원했다.브로드캐스트 뉴스 도메인의 요약에도 최대 엔트로피가 적용되었습니다.

Text Rank 및 Lex Rank

요약에 대한 감독되지 않은 접근법은 감독되지 않은 주요 문구를 추출하는 것과 정신적으로 매우 유사하며 비용이 많이 드는 훈련 데이터 문제를 회피한다.일부 비지도 요약 접근법은 문서의 모든 문장의 평균 단어 벡터인 "중심" 문장을 찾는 것에 기초한다.그러면 이 중심 문장과 유사성을 기준으로 문장의 순위를 매길 수 있습니다.

문장의 중요성을 추정하는 보다 원칙적인 방법은 랜덤 워크와 고유 벡터 중심성을 사용하는 것이다.LexRank는[15] 기본적으로 TextRank와 동일한 알고리즘이며, 두 알고리즘 모두 문서 요약에 이 방법을 사용합니다.두 가지 방법은 동시에 서로 다른 그룹에 의해 개발되었으며, LexRank는 단순히 요약에 초점을 맞췄을 뿐이지만 키 프레이즈 추출이나 기타 NLP 순위 지정 태스크에도 쉽게 사용할 수 있습니다.

LexRank와 TextRank 모두에서 그래프는 문서의 각 문장에 대한 정점을 생성하여 구성됩니다.

문장 사이의 가장자리는 어떤 형태의 의미 유사성이나 내용이 겹치는 것에 기초한다.LexRank는 TF-IDF 벡터의 코사인 유사도를 사용하는 반면, TextRank는 두 문장이 공통으로 갖는 단어 수(문장의 길이로 정규화됨)에 따라 매우 유사한 척도를 사용한다.LexRank 논문은 코사인 값에 임계값을 적용한 후 가중치가 없는 에지를 사용하는 것을 탐구했지만, 유사성 점수와 동일한 가중치를 가진 에지를 사용하는 실험도 했다.TextRank는 연속적인 유사성 점수를 가중치로 사용합니다.

두 알고리즘 모두 결과 그래프에 PageRank를 적용하여 문장의 순위를 매긴다.요약은 상위 순위 문장을 결합하여 요약의 크기를 제한하기 위해 임계값 또는 길이 컷오프를 사용하여 구성됩니다.

여기서 설명한 대로 TextRank가 요약에 적용되었으며, LexRank는 사용자가 지정하거나 자동으로 튜닝된 선형 조합을 사용하여 LexRank 점수(정지 확률)를 문장 위치 및 길이와 같은 다른 기능과 결합하는 더 큰 요약 시스템(MEAD)의 일부로 사용되었습니다.이 경우 일부 트레이닝 문서가 필요할 수 있습니다. 단, TextRank 결과에는 추가 기능이 반드시 필요한 것은 아닙니다.

또 다른 중요한 차이점은 TextRank가 단일 문서 요약에 사용된 반면, LexRank는 다중 문서 요약에 적용되었다는 것입니다.작업은 두 경우 모두 동일하며, 선택할 수 있는 문장의 수만 증가했습니다.그러나 여러 문서를 요약할 때 동일한 요약에 넣을 중복 또는 중복성이 높은 문장을 선택할 위험이 더 크다.특정 이벤트에 대한 뉴스 기사 클러스터가 있고 하나의 요약을 생성하려고 한다고 가정해 보십시오.각 기사에는 유사한 문장이 많을 수 있으며, 요약에는 다른 아이디어만 포함하기를 원할 것입니다.이 문제에 대처하기 위해 LexRank는 랭크순으로 문장을 추가하여 요약을 작성하는 휴리스틱 후처리 단계를 적용하지만 요약에 이미 배치된 문장과 너무 유사한 문장은 모두 폐기합니다.사용되는 방법은 Cross-Sentence Information Subsumption(CSIS)이라고 불립니다.

이 방법들은 문장이 독자들에게 다른 유사한 문장들을 "추천"한다는 생각에 기반을 두고 있다.따라서, 만약 한 문장이 다른 많은 문장과 매우 유사하다면, 그것은 매우 중요한 문장이 될 것이다.이 문장의 중요성은 그것을 "추천"하는 문장의 중요성에서도 기인한다.그래서 높은 순위를 매겨 요약에 넣으려면, 한 문장이 많은 문장과 비슷해야 하고, 다른 많은 문장과 비슷해야 합니다.이는 직관적으로 이해가 되며 알고리즘을 임의의 새 텍스트에 적용할 수 있습니다.이러한 메서드는 도메인에 의존하지 않고 쉽게 휴대할 수 있습니다.뉴스 영역에서 중요한 문장을 나타내는 특징이 생물의학 영역과 상당히 다를 수 있다는 것을 상상할 수 있다.그러나 감독되지 않은 "권장" 기반 접근법은 모든 영역에 적용된다.

다중 문서 요약

다중 문서 요약은 동일한 주제에 대해 작성된 여러 텍스트에서 정보를 추출하는 것을 목적으로 하는 자동 절차입니다.요약 보고서를 작성하면 전문 정보 소비자와 같은 개별 사용자가 대규모 문서 클러스터에 포함된 정보를 빠르게 파악할 수 있습니다.이와 같이 다중 문서 요약 시스템은 정보 과부하에 대처하는 다음 단계를 수행하는 뉴스 집계기를 보완하고 있다.질문에 [16][8]대한 응답으로 여러 문서를 요약할 수도 있습니다.

다중 문서 요약은 간결하면서도 포괄적인 정보 리포트를 생성합니다.서로 다른 의견을 종합하여 개략적으로 설명함으로써 하나의 문서 내에서 모든 주제를 여러 관점에서 설명합니다.요약본의 목적은 가장 관련성이 높은 소스 문서를 참조함으로써 정보 검색을 단순화하고 시간을 단축하는 것이지만, 포괄적인 복수 문서 요약본에는 필요한 정보가 포함되어 있어야 합니다.따라서 원래 파일에 액세스할 필요가 있는 경우는 개선이 필요한 경우에 한정됩니다.자동 요약은 편집 터치나 주관적인 인간의 개입 없이 알고리즘적으로 여러 소스에서 추출한 정보를 제시하므로 완전히 [dubious ]편견이 없다.

다양성 도입

다중 문서 추출 요약은 잠재적인 용장성 문제에 직면해 있습니다.이상적으로는, 「중심」(즉, 주된 생각을 포함한다)과 「다양」(즉, 서로 다르다)의 양쪽 모두의 문장을 추출하고 싶다.LexRank는 CSIS를 사용한 휴리스틱 최종 단계로서 다양성을 다루고 있으며, 다른 시스템에서는 정보 검색 결과의 중복성을 제거하기 위해 Maximal Merginal Reliency(MMR;[17] 최대 한계 관련성)와 같은 유사한 방법을 사용해 왔다.흡수 마르코프 연쇄 랜덤 워크를 기반으로 한 통합 수학 프레임워크에서 "중심성"과 "다양성"을 모두 처리하는 Page/Lex/TextRank와 같은 범용 그래프 기반 랭킹 알고리즘이 있다. (흡수 랜덤 워크는 현재 t를 일으키는 "블랙홀"로 작용하는 상태를 흡수하는 것을 제외하면 표준 랜덤 워크와 같다.)그는 그 상태에서 갑자기 걷다가 끝납니다.)이 알고리즘은 GRATSPPER라고 불립니다.[18]순위 부여 과정 중 다양성을 명시적으로 촉진할 뿐만 아니라, GRATSPPER는 사전 순위(요약 시 문장 위치 기준)를 통합한다.

그러나 다중 문서 요약에 대한 최신 결과는 하위 모듈 함수의 혼합을 사용하여 얻습니다.이러한 방법은 Document Summary Corpora, DUC 04 - 07의 [19]최신 결과를 달성했습니다.DUC-04에 [20]대한 결정론적 점 프로세스(하위 모듈 함수의 특수한 경우)를 사용해도 유사한 결과를 얻을 수 있었다.

각 문서에서 각 문장의 의미를 나타내는 표의문자를 단순화·생성해 용장성을 회피하고, 그 표의문자의 형태와 위치를 비교해 「질적으로」 유사성을 평가하는 다국어 복수문서의 집약을 위한 새로운 방법이 최근 개발되고 있다.이 도구는 단어 빈도를 사용하지 않으며, 훈련이나 전처리가 필요하지 않으며, 각 문장의 의미를 나타내는 표의문자를 생성한 후 사용자가 제공한 두 개의 파라미터, 즉 동등성(두 문장이 동등하다고 간주되는 경우)과 관련성(원하는 요약의 길이)을 사용하여 요약합니다.

서브모듈러 기능은 요약을 위한 범용 도구로서 기능합니다.

서브모듈러 집합 함수의 개념은 최근 다양한 요약 문제에 대한 강력한 모델링 도구로 부상하고 있습니다.하위 모듈 함수는 커버리지, 정보, 표현 다양성의 개념을 자연스럽게 모델링합니다.게다가 서브모듈형 최적화의 특수한 인스턴스로서 몇 가지 중요한 조합 최적화 문제가 발생합니다.를 들어 세트커버 문제는 세트커버 함수가 서브모듈러이기 때문에 서브모듈러 최적화의 특수한 경우입니다.set cover 함수는 주어진 개념 세트를 커버하는 오브젝트의 서브셋을 찾으려고 합니다.예를 들어, 문서 요약에서는 문서 내의 모든 중요하고 관련성이 있는 개념을 요약에 포함시켜야 합니다.이것은 세트 커버의 예시입니다.마찬가지로 설비 로케이션 문제도 서브모듈 함수의 특수한 경우입니다.시설 위치 기능은 커버리지와 다양성을 자연스럽게 모델링합니다.하위 모듈 최적화 문제의 또 다른 예는 다양성을 모델링하기 위해 결정적프로세스를 사용하는 것입니다.마찬가지로 Maximum-Marginal-Reliance 절차는 하위 모듈 최적화의 인스턴스로도 볼 수 있습니다.커버리지, 다양성 및 정보를 장려하는 이러한 모든 중요한 모델은 하위 모듈식이다.게다가 서브모듈러 함수는 효율적으로 결합할 수 있으며, 결과적인 함수는 여전히 서브모듈러 함수이다.따라서, 어떤 이는 다양성을 모델링하는 하위 모듈 함수와 커버리지를 모델링하고 문제에 대한 하위 모듈 함수의 올바른 모델을 학습하기 위해 인간의 감독을 사용하는 다른 하위 모듈 함수를 결합할 수 있다.

하위 모듈 함수는 요약에 적합한 문제이지만 최적화를 위한 매우 효율적인 알고리즘도 허용합니다.예를 들어 단순한 그리디 알고리즘은 일정한 요인 [21]보증을 허용합니다.또한 그리디 알고리즘은 구현이 매우 간단하며 대규모 데이터셋으로 확장할 수 있어 요약 문제에 매우 중요합니다.

서브모듈 함수는 거의 모든 요약 문제에 대해 최첨단 기술을 구현했습니다.예를 들어, Lin과 Bilmes의 2012년[22] 연구는 문서 요약을 위해 하위 모듈 함수가 DUC-04, DUC-05, DUC-06 및 DUC-07 시스템에서 현재까지 가장 좋은 결과를 달성했음을 보여줍니다.마찬가지로, Lin과 Bilmes,[23] 2011의 연구는 자동 요약을 위한 많은 기존 시스템이 하위 모듈 함수의 인스턴스임을 보여준다.이는 서브모듈 함수를 요약 [citation needed]문제에 대한 올바른 모델로 확립하는 획기적인 결과였다.

하위 모듈 함수는 다른 요약 작업에도 사용되었습니다.Tschietschek 등, 2014년[24], 하위 모듈 함수의 혼합이 영상 수집 요약에 대한 최첨단 결과를 달성한다는 것을 보여준다.마찬가지로, Bairi 등, 2015는[25] 다중 문서 주제 계층 구조를 요약하기 위한 하위 모듈 함수의 효용을 보여준다.하위 모듈 함수는 기계 학습 데이터 [26]세트를 요약하는 데도 성공적으로 사용되었습니다.

적용들

자동 요약의 구체적인 적용 분야는 다음과 같습니다.

  • 2011년에 만들어진 Reddit 봇 "autotldr"[27]은 Reddit 투고의 댓글 섹션에 뉴스 기사를 요약합니다.그것은 요약본을 수십만 [28]번 상향 투표한 레딧 커뮤니티에 의해 매우 유용한 것으로 밝혀졌다.이름은 TL을 참조합니다.DR - 인터넷 속어로 "너무 길다;[29][30] 읽지 않았다"라는 의미입니다.

평가 기법

자동 요약의 정보성을 평가하는 가장 일반적인 방법은 인간이 만든 모델 요약과 비교하는 것이다.

평가 기법은 내적,[32] 외적,[31] 교재간 및 교재내로 구분됩니다.

내적 및 외적 평가

내적 평가는 요약 시스템 자체를 테스트하는 반면 외적 평가는 요약이 다른 작업의 완료에 어떻게 영향을 미치는지에 따라 요약 시스템을 테스트합니다.본질적 평가는 주로 요약의 일관성과 정보성을 평가해 왔다.반면 외인성 평가는 관련성 평가, 독해력 등과 같은 작업에 대한 요약의 영향을 테스트했다.

텍스트 간 및 텍스트 간

텍스트 내 방법은 특정 요약 시스템의 출력을 평가하고, 텍스트 간 방법은 여러 요약 시스템의 출력에 대한 대조 분석에 초점을 맞춘다.

인간의 판단은 종종 "좋은" 요약으로 간주되는 것에 대해 큰 차이를 보이며, 이는 평가 과정을 자동으로 만드는 것이 특히 어렵다는 것을 의미한다.수동 평가를 사용할 수 있지만 이는 요약뿐만 아니라 원본 문서도 읽어야 하기 때문에 시간과 노동 집약적인 작업입니다.다른 이슈는 일관성과 커버리지에 관한 것이다.

연구 그룹이 요약 및 번역 작업을 위해 시스템을 제출하는 NIST의 연례 문서 이해 회의에서 사용된 지표 중 하나는 ROUZE 메트릭(Recall-Oriented Understudy for Gisting Evaluation [2])이다.기본적으로 자동 생성된 요약과 이전에 작성된 인간 요약 간의 n그램 중복을 계산한다.높은 수준의 중복은 두 요약 간에 공유되는 개념의 높은 수준을 나타내야 한다.이와 같은 중복 메트릭은 요약의 일관성에 대한 피드백을 제공할 수 없습니다.아나포어 해결은 아직 완전히 해결되지 않은 또 다른 문제로 남아 있습니다.마찬가지로, 영상 집약을 위해, Tschiatschek [33]등은 영상 집약을 위한 알고리즘의 성능을 판단하는 Visual-ROUGE 점수를 개발했다.

도메인 고유 요약 기법 및 도메인 독립 요약 기법

영역에 의존하지 않는 요약 기법은 일반적으로 정보가 풍부한 텍스트 세그먼트를 식별하기 위해 사용할 수 있는 일련의 일반적인 특징을 적용한다.최근 연구의 초점은 텍스트 영역 고유의 사용 가능한 지식을 활용하는 영역별 요약 기법으로 옮겨가고 있습니다.예를 들어, 의학 텍스트에 대한 자동 요약 연구는 일반적으로 성문화된 의학 지식과 [34]온톨로지의 다양한 출처를 활용하려고 시도한다.

요약의 정성적 평가

지금까지 존재하는 평가 시스템의 주요 단점은 적어도 하나의 참조 요약이 필요하다는 것이며, 일부 방법에서는 모델과 자동 요약을 비교할 수 있어야 한다는 것이다.이것은 어렵고 비용이 많이 드는 작업입니다.텍스트의 말뭉치와 그에 상응하는 요약을 얻기 위해서는 많은 노력이 필요하다.또한 일부 방법의 경우 비교에 사용할 수 있는 인간이 만든 요약뿐만 아니라 일부 요약에서 수동 주석을 수행해야 한다(예: 피라미드 방법의 SCU).어쨌든 평가방법에 입력으로 필요한 것은 금본위제로서 기능하는 요약과 자동 요약 세트이다.또한, 이들은 모두 서로 다른 유사성 지표와 관련하여 정량적 평가를 수행한다.

역사

이 지역의 첫 번째 출판물은 1957년(Hans Peter Luhn)으로 거슬러 올라가며, 통계 기법으로 시작한다.2015년에는 연구가 크게 증가했다.용어 빈도-역 문서 빈도는 2016년까지 사용되었다.패턴 기반 요약은 2016년까지 발견된 다중 문서 요약의 가장 강력한 옵션이었다.다음 해에는 잠재의미분석(LSA)과 비음성행렬인수분해(NMF)로 추월되었다.이들은 다른 접근방식을 대체하지 못했고 종종 이 접근방식과 결합되기도 했지만, 2019년에는 기계 학습 방법이 성숙에 가까워진 것으로 간주되는 단일 문서의 추출 요약을 지배했다.2020년까지 이 분야는 여전히 매우 활발했고 연구는 추상적인 요약과 [36]실시간 요약으로 옮겨가고 있다.

최근의 어프로치

최근 보다 전통적인 RNN(LSTM)을 대체하는 트랜스포머 모델이 등장하면서 텍스트 시퀀스를 다른 유형의 텍스트 시퀀스로 매핑하는 유연성이 제공되어 자동 요약에 매우 적합합니다.여기에는[37] T5, 페가수스 등의 모델이 포함됩니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Torres-Moreno, Juan-Manuel (1 October 2014). Automatic Text Summarization. Wiley. pp. 320–. ISBN 978-1-848-21668-6.
  2. ^ Pan, Xingjia; Tang, Fan; Dong, Weiming; Ma, Chongyang; Meng, Yiping; Huang, Feiyue; Lee, Tong-Yee; Xu, Changsheng (2021-04-01). "Content-Based Visual Summarization for Image Collection". IEEE Transactions on Visualization and Computer Graphics. 27 (4): 2298–2312. doi:10.1109/tvcg.2019.2948611. ISSN 1077-2626. PMID 31647438. S2CID 204865221.
  3. ^ "WIPO PUBLISHES PATENT OF KT FOR "IMAGE SUMMARIZATION SYSTEM AND METHOD" (SOUTH KOREAN INVENTORS)". US Fed News Service. January 10, 2018. ProQuest 1986931333. Retrieved January 22, 2021.
  4. ^ Li Tan; Yangqiu Song; Shixia Liu; Lexing Xie (February 2012). "ImageHive: Interactive Content-Aware Image Summarization". IEEE Computer Graphics and Applications. 32 (1): 46–55. doi:10.1109/mcg.2011.89. ISSN 0272-1716. PMID 24808292. S2CID 7668289.
  5. ^ Sankar K. Pal; Alfredo Petrosino; Lucia Maddalena (25 January 2012). Handbook on Soft Computing for Video Surveillance. CRC Press. pp. 81–. ISBN 978-1-4398-5685-7.
  6. ^ "Auto-generated Summaries in Google Docs". Google AI Blog. Retrieved 2022-04-03.
  7. ^ 리처드 수츠, 피터 웨버카입니다텍스트 스킴 방법.https://www.dummies.com/education/language-arts/speed-reading/how-to-skim-text/ 2019년 12월 접속.
  8. ^ a b Afzal M, Alarm F, Malik KM, Malik GM, 심층 뉴럴 네트워크를 사용한 임상 컨텍스트 인식 생물의학 텍스트 요약: 모델 개발과 검증, J Med Internet Res 2020;22(10):e19810, DOI: 10.2196/179.50 PM.
  9. ^ 호르헤 E. 카마르고와 파비오 A.곤살레스.이미지 수집 요약을 위한 다중 클래스 커널 정렬 방법.제14회 패턴인식에 관한 이베로아메리카 회의의 진행: 패턴인식, 이미지 분석, 컴퓨터 비전 및 응용분야의 진전(CIARP '09), 에두아르도 베이로-코로차노, 얀-올로프 에클룬드(Eds.스프링거-벨라그, 베를린, 하이델베르크, 545-552.doi:10.1007/978-3-642-10268-4_64
  10. ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation". Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. Vol. 650. pp. 222–235. doi:10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
  11. ^ Turney, Peter D (2002). "Learning Algorithms for Keyphrase Extraction". Information Retrieval, ). 2 (4): 303–336. arXiv:cs/0212020. Bibcode:2002cs.......12020T. doi:10.1023/A:1009976227802. S2CID 7007323.
  12. ^ Rada Mihalcea 및 Paul Tarau, 2004: TextRank: Bring Order in Texts, North Texas Computer Science University 학과: CS1 maint: 타이틀로서의 아카이브 카피(링크) CS1 maint: 봇: 원본 URL 상태 불명(링크)
  13. ^ Yatsko, V. A.; Starikov, M. S.; Butakov, A. V. (2010). "Automatic genre recognition and adaptive text summarization". Automatic Documentation and Mathematical Linguistics. 44 (3): 111–120. doi:10.3103/S0005105510030027. S2CID 1586931.
  14. ^ UNIS(범용 서머리라이저)
  15. ^ Günesh Erkan 및 Dragomir R. Radev: LexRank: 그래프 기반의 어휘 집중성 텍스트 요약 [1]
  16. ^ "다양한 질의응답 시스템: 종합적으로 보는 것", 국제 인텔리전트 정보 데이터베이스 시스템 저널, 5(2), 119-142, 2011.
  17. ^ 카보넬, 제이미, 제이드 골드스타인입니다"문서 재정렬과 요약 작성에 다양성 기반의 재순위 MMR을 사용합니다."제21회 ACM SIGIR 연례 국제정보검색연구개발회의 진행.ACM, 1998.
  18. ^ 주, 샤오진 등"임의의 보행 흡수법을 사용한 랭킹의 다양성 향상." HLT-NAACL. 2007.
  19. ^ 후이린, 제프 빌메스"서브모듈러 셸의 혼합과 요약을 문서화하는 응용 프로그램 학습
  20. ^ Alex Kulesza와 Ben Taskar, 머신러닝의 결정적 포인트 프로세스.Foundations and Trends in Machine Learning, 2012년 12월
  21. ^ 넴하우저, 조지 L. 로렌스 A.울지, 마샬 L.피셔."서브 모듈러 집합 함수를 최대화하기 위한 근사 분석 - I." 수학 프로그래밍 14.1(1978): 265-294.
  22. ^ 후이린, 제프 빌메스"요약 문서화를 위한 응용 프로그램과 하위 모듈형 쉘의 혼합 학습", UAI, 2012
  23. ^ 후이린, 제프 빌메스"문서 요약을 위한 하위 모듈 함수 클래스", 제49회 컴퓨터 언어학 협회 연례 회의:인간언어테크놀로지(ACL-HLT), 2011
  24. ^ Sebastian Tschiatschek, Rishabh Iyer, Hoachen Wei 및 Jeff Bilmes, NIPS(Neural Information Processing Systems), 캐나다 몬트리올, 2014년 12월 - 2014년 이미지 수집 요약을 위한 하위 모듈 기능 혼합 학습.
  25. ^ Ramakrishna Bairi, Rishabh Iyer, Ganesh Ramakrishnan 및 Jeff Bilmes, 하위 모듈러 혼합을 사용한 다중 문서 주제 계층 요약, 2015년 7월 중국 베이징, 컴퓨터 언어학 협회 연차 총회에 등장.
  26. ^ Kai Wei, Rishabh Iyer 및 Jeff Bilmes, 데이터 서브셋 선택액티브 러닝의 서브모듈리티가 Proc에 등장합니다.프랑스 릴에서 2015년 6월 - 2015년 국제기계학습회의
  27. ^ "overview for autotldr". reddit. Retrieved 9 February 2017.
  28. ^ Squire, Megan (2016-08-29). Mastering Data Mining with Python – Find patterns hidden in your data. Packt Publishing Ltd. ISBN 9781785885914. Retrieved 9 February 2017.
  29. ^ "What Is 'TLDR'?". Lifewire. Retrieved 9 February 2017.
  30. ^ "What Does TL;DR Mean? AMA? TIL? Glossary Of Reddit Terms And Abbreviations". International Business Times. 29 March 2012. Retrieved 9 February 2017.
  31. ^ Mani, I. 요약 평가: 개요
  32. ^ Yatsko, V. A.; Vishnyakov, T. N. (2007). "A method for evaluating modern systems of automatic text summarization". Automatic Documentation and Mathematical Linguistics. 41 (3): 93–103. doi:10.3103/S0005105507030041. S2CID 7853204.
  33. ^ Sebastian Tschiatschek, Rishabh Iyer, Hoachen Wei 및 Jeff Bilmes, NIPS(Neural Information Processing Systems), 캐나다 몬트리올, 2014년 12월 - 2014년 12월 (PDF) 이미지 수집 요약을 위한 서브모듈러 기능의 혼합 학습
  34. ^ Sarker, Abeed; Molla, Diego; Paris, Cecile (2013). An Approach for Query-focused Text Summarization for Evidence-based medicine. Lecture Notes in Computer Science. Vol. 7885. pp. 295–304. doi:10.1007/978-3-642-38326-7_41. ISBN 978-3-642-38325-0.
  35. ^ 렌, 한스 피터(1957년)."문학 정보의 기계화된 부호화와 검색에 대한 통계적 접근"(PDF).IBM 연구 개발 저널. 1(4): 309–317. doi:10.1147/rd.14.0309.
  36. ^ Widyassari, Adhika Pramita; Rustad, Supriadi; Shidik, Guruh Fajar; Noersasongko, Edi; Syukur, Abdul; Affandy, Affandy; Setiadi, De Rosal Ignatius Moses (2020-05-20). "Review of automatic text summarization techniques & methods". Journal of King Saud University - Computer and Information Sciences. 34 (4): 1029–1046. doi:10.1016/j.jksuci.2020.05.006. ISSN 1319-1578.
  37. ^ "Exploring Transfer Learning with T5: the Text-To-Text Transfer Transformer". Google AI Blog. Retrieved 2022-04-03.

추가 정보