파라프라싱(컴퓨터언어학)
Paraphrasing (computational linguistics)계산 언어학에서 패러프레이징 또는 패러프레이징은 파라프레이스를 검출하고 생성하는 자연 언어 처리 작업이다.패러프레이싱의 적용은 정보 검색, 질문 답변, 텍스트 요약, 표절 탐지 등 다양하다.[1]파라프라싱은 기계번역 평가에서도 유용하며,[2] 기존 법인을 확장하기 위한 의미파싱과 새로운 샘플[3] 생성에도 유용하다.[4]
패러프레이즈 생성
다중 시퀀스 정렬
바질레이와 이 사장은[4] 이날 같은 사건을 다룬 뉴스 기사인 일변도의 병렬 코메타를 이용해 파라프레이를 생성하는 방법을 제안했다.훈련은 다중 시퀀스 정렬을 사용하여 비고지 말뭉치에서 문장 수준의 파라프레이를 생성하는 것으로 구성된다.이 일은 에 의해 이루어진다.
- X, Y, Z가 변수인 각 개별 말뭉치에서 반복적인 패턴 찾기, 즉 "X (주입/주입) Y people, Z strong"
- 그러한 패턴들 사이의 쌍을 찾는 것, 즉 "X (주입/주름) Y 사람들, Z 심각"과 "Y가 X에 의해 (주름/주름)되었고, 그 중 Z가 심각한 상태였습니다."
이는 먼저 n그램 중첩을 사용하여 유사한 문장을 함께 묶음으로써 달성된다.반복 패턴은 다중 시퀀스 정렬을 사용하여 군집 내에서 발견된다.그런 다음 각 군집 내에서 변동성이 높은 영역, 즉 군집 문장의 50% 이상이 공유하는 단어 사이에 있는 영역을 찾아 논쟁 단어의 위치를 결정한다.패턴 간의 쌍은 회사 간의 유사한 변수 단어들을 비교함으로써 발견된다.마지막으로, 소스 문장에 일치하는 클러스터를 선택한 다음, 소스 문장의 주장을 클러스터 내의 임의 수의 패턴으로 대체하여 새로운 파라프레이스를 생성할 수 있다.
구문 기반 컴퓨터 변환
배너드와 캘리슨-버치가 제안한 대로 구문 기반 번역의 사용을 통해서도 패러프레이즈가 생성될 수 있다.[5]주요 개념은 피벗 언어로 구문을 정렬하여 원어의 잠재적 파라프레이스를 생성하도록 구성된다.예를 들어, 영어 문장에서 "통제 중"이라는 문구는 독일어 상대 문장에서 "언터 코톨"이라는 문구와 일치한다.이어 "언터 콘트롤"이라는 구절이 독일어 문장에서 발견되는데, 정렬된 영어 구절은 "통제 중"이라는 뜻의 비유인 "체크 중"이다.
The probability distribution can be modeled as , the probability phrase is a paraphrase of , which is equivalent to s 언어로번역될 수 있는 모든 f {\displaystyle 위에 표시 e }라는 문장이 문맥에 추가되기 전에 추가된다.따라서 최적의 비유인 { 다음과 같이 모델링할 수 있다.
( ) } f 및 1) 은 단순히 주파수를 취하기만 하면 근사치가 가능하다. }를 e 2 e_}}로 대체했을 때S {\ S}을(를 형성할 확률을 계산하여S {\을(를) 이전으로 추가한다
장단기억기
장단기메모리(LSTM) 모델을 활용해 파라프레이스를 생성하는 데 성공했다.[6]요컨대, 모델은 인코더와 디코더 구성요소로 구성되며, 둘 다 누적 잔차 LSTM의 변형을 사용하여 구현된다.먼저, LSTM 인코딩은 문장의 모든 단어를 하나의 핫 인코딩으로 입력하여 최종 숨겨진 벡터를 생성하는데, 입력 문장의 표현으로 볼 수 있다.그런 다음 디코딩 LSTM은 숨겨진 벡터를 입력으로 가져가고 새로운 문장을 생성하며, 종말 토큰으로 종료된다.인코더와 디코더는 단순한 확률적 경사로 강하를 이용해 복잡성을 최소화해 해당 구절의 단열 분포를 재현하는 훈련을 받는다.새로운 파라프레이스는 인코더에 새로운 구문을 입력하고 출력을 디코더에 전달함으로써 생성된다.
암호 인식
재귀 오토엔코더
소처 외 연구진이[1] 재귀 오토엔코더의 사용을 통해 패러프레이즈 인식을 시도했다.자동인코더를 재귀적으로 사용해 문장의 구성요소와 함께 문장의 벡터표현을 제작하는 것이 주요 개념이다.파라프라스의 벡터 표현은 유사한 벡터 표현을 가져야 한다. 그것들은 처리된 후 분류를 위해 신경망에 입력으로 공급된다.
인코더는 W 단어로 구성된 문장 을(를) 하면 2n {\ n차원 단어를 입력으로 사용하고 로n {\차원 벡터를 생성하도록 설계되어 있다.한 자동가 S {\ S의 모든 단어 쌍에 적용되어 m/ 벡터를 생성한다.그런 다음 자동 인코더는 단일 벡터가 생성될 때까지 새로운 벡터를 입력으로 재귀적으로 적용한다.입력의 홀수가 주어지면, 첫 번째 벡터는 다음 재귀 수준으로 포워드 된다.그리고 나서 자동 인코더는 초기 단어 임베딩들을 포함하여 전체 재귀 트리의 모든 벡터를 재현하도록 훈련된다.
길이 4와 길이 3의 }와 }} 문장이 각각 두 개 주어질 경우 자동 코딩기는 초기 단어 임베딩(membuing)을 포함하여 7과 5 벡터 표현을 생성한다.The euclidean distance is then taken between every combination of vectors in and to produce a similarity matrix . is then subject to a dynamic min-pooling layer to produce a고정 크기 행렬. 은 (는) 모든 잠재적 문장 중에서 크기가 균일하지 않기 때문에 S 대략 으로 나뉜다.그런 다음 출력은 평균 0과 표준 편차 1로 정규화되고 소프트맥스 출력으로 완전히 연결된 계층으로 공급된다.소프트맥스 모델에 대한 동적 풀링은 알려진 파라프레이스 쌍을 사용하여 훈련된다.
건너뛰기식 벡터
스킵사고 벡터는 스킵 그램 모델과 유사한 방식으로 문장의 의미적 의미에 대한 벡터 표현을 창조하려는 시도다.[7]스킵사고 벡터는 인코더와 디코더 두 개의 핵심 구성 요소로 구성된 스킵사고 모델을 사용하여 생산된다.서류 뭉치를 주어진다면, 생략 사고 모델은 문장을 입력으로 받아 생략 사고 벡터로 인코딩하도록 훈련된다.스킵사고 벡터는 두 디코더 모두에 대한 입력으로 사용되는데, 그 중 하나는 이전 문장을 재생산하려고 하고 다른 하나는 다음 문장 전체를 재생산하려고 시도한다.인코더와 디코더는 재귀신경망(RNN)이나 LSTM을 이용하여 구현할 수 있다.
파라프레이스는 서로 간에 동일한 의미적 의미를 지니기 때문에 유사한 생략 벡터를 가져야 한다.따라서 단순 로지스틱 회귀 분석은 입력으로 두 개의 생략된 벡터의 절대적 차이와 구성 요소별 산출물을 사용하여 좋은 성과를 얻도록 훈련될 수 있다.
평가하기
파라프레이스를 평가하는 데 사용할 수 있는 방법은 여러 가지가 있다.인식은 분류 문제로 제기될 수 있기 때문에 정확도, f1 점수, ROC 곡선 등 대부분의 표준 평가 지표가 비교적 잘 된다.그러나 문제 때문에 f1-점수를 계산하는 데 어려움이 있으며, 좋은 파라프레이스는 문맥에 따라 좌우된다는 사실과 함께 주어진 구문에 대한 완전한 파라프레이스 목록을 작성한다.이러한 문제에 대응하기 위해 고안된 측정기준은 ParaMetric이다.[8]ParaMetric은 파라프레이스의 자동 정렬을 유사한 구문의 수동 정렬과 비교하여 자동 파라프레이즈 시스템의 정밀도와 리콜을 계산하는 것을 목표로 한다.ParaMetric은 단순히 구문 정렬의 품질을 평가하기 때문에, 그것은 구문 정렬을 그것의 생성 과정의 일부로 사용한다고 가정할 뿐만 아니라, 구문 정렬을 평가하는 데 사용될 수 있다.ParaMetric에 대한 눈에 띄는 단점은 정격을 생성하기 전에 초기에 생성해야 하는 크고 철저한 수동 정렬이다.
패러프레이즈 생성 평가는 기계번역 평가와 비슷한 어려움이 있다.종종 문맥, 요약으로 사용되는지 여부, 그리고 다른 요소들 사이에서 어떻게 그것이 생성되는지에 따라 문맥이 달라지는 경우가 있다.또한 좋은 비유는 보통 그 출처 구절과 어휘적으로 다르다.패러프레이즈 생성을 평가하기 위해 사용되는 가장 간단한 방법은 인간 판사의 사용을 통해서일 것이다.불행히도, 인간 판사를 통한 평가는 시간을 소모하는 경향이 있다.평가에 대한 자동화된 접근방식은 본질적으로 인식과 같은 어려운 문제이기 때문에 어려운 것으로 입증된다.원래 기계번역을 평가하는 데 사용되었지만, 2개 국어 평가 언더스터디(BLU)는 파라프레이 생성 모델 평가에도 성공적으로 사용되어 왔다.그러나 파라프레이스는 종종 몇 가지 어휘적으로 다르지만 똑같이 유효한 해결책을 가지고 있어 BLEU와 다른 유사한 평가 지표를 손상시킨다.[9]
암호 생성 평가를 위해 특별히 고안된 지표에는 앞서 언급한 ParaMetric과 함께 n-그램 변경(PNC)[9] 및 PEM(Paraphraph Evaluation Metric)[10]의 문구를 포함한다.PINC는 BLEU와 함께 사용하도록 설계되었으며, 부족한 부분을 커버할 수 있도록 도와준다.BLEU는 어휘적 차이 측정이 어렵기 때문에, PINC는 소스 문장과 후보 문장의 n그램 중복이 없다는 것을 측정하는 것이다.일부 의미적 동등성을 유지하기 위해 원천 문장에 나타나는 n-gram을 제외한 문장 사이의 Jaccard 거리가 본질적으로 존재한다.반면 PEM은 N그램으로 계산한 단일 값 휴리스틱을 피벗 언어로 중복하여 반환함으로써 파라프라임의 "적합성, 유창성 및 어휘적 차이성"을 평가하려고 시도한다.그러나 PEM의 큰 단점은 사람 심판뿐만 아니라 대규모의 도메인 내 병렬 법인을 사용하여 훈련을 받아야 한다는 것이다.[9]즉, 패러프레이즈 생성 시스템을 평가하기 위해 패러프레이즈 인식 시스템을 훈련시키는 것과 다름없다.
수십만 개의 중복 질문이 포함된 Quora 질문 쌍 데이터 집합은 파라프레이 검출기 평가를 위한 일반적인 데이터 집합이 되었다.[11]지난 3년간 최고의 파라프레이즈 검출 모델은 모두 Transformer 아키텍처를 사용했으며, 모두 질문 쌍과 미세 조정하기 전에 더 많은 일반 데이터를 가진 대량의 사전 교육에 의존했다.
참고 항목
참조
- ^ a b Socher, Richard; Huang, Eric; Pennington, Jeffrey; Ng, Andrew; Manning, Christopher (2011), "Advances in Neural Information Processing Systems 24", Dynamic Pooling and Unfolding Recursive Autoencoders for Paraphrase Detection
- ^ Callison-Burch, Chris (October 25–27, 2008). Syntactic Constraints on Paraphrases Extracted from Parallel Corpora. EMNLP '08 Proceedings of the Conference on Empirical Methods in Natural Language Processing. Honolulu, Hawaii. pp. 196–205.
- ^ 베란트, 요나단, 퍼시 량."파라프레이징을 통한 세마틱 파싱."제52회 연산언어학협회 연차총회(제1권: 장편논문)의 진행.2014년 1권
- ^ a b Barzilay, Regina; Lee, Lillian (May–June 2003). Learning to Paraphrase: An Unsupervised Approach Using Multiple-Sequence Alignment. Proceedings of HLT-NAACL 2003.
- ^ Bannard, Colin; Callison-Burch, Chris (2005). Paraphrasing Bilingual Parallel Corpora. Proceedings of the 43rd Annual Meeting of the ACL. Ann Arbor, Michigan. pp. 597–604.
- ^ Prakash, Aaditya; Hasan, Sadid A.; Lee, Kathy; Datla, Vivek; Qadir, Ashequl; Liu, Joey; Farri, Oladimeji (2016), Neural Paraphrase Generation with Staked Residual LSTM Networks, arXiv:1610.03098, Bibcode:2016arXiv161003098P
- ^ Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Ruslan; Zemel, Richard; Torralba, Antonio; Urtasun, Raquel; Fidler, Sanja (2015), Skip-Thought Vectors, arXiv:1506.06726, Bibcode:2015arXiv150606726K
- ^ Callison-Burch, Chris; Cohn, Trevor; Lapata, Mirella (2008). ParaMetric: An Automatic Evaluation Metric for Paraphrasing (PDF). Proceedings of the 22nd International Conference on Computational Linguistics. Manchester. pp. 97–104. doi:10.3115/1599081.1599094. S2CID 837398.
- ^ a b c Chen, David; Dolan, William (2008). Collecting Highly Parallel Data for Paraphrase Evaluation. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, Oregon. pp. 190–200.
- ^ Liu, Chang; Dahlmeier, Daniel; Ng, Hwee Tou (2010). PEM: A Paraphrase Evaluation Metric Exploiting Parallel Texts. Proceedings of the 2010 Conference on Empricial Methods in Natural Language Processing. MIT, Massachusetts. pp. 923–932.
- ^ "Paraphrase Identification on Quora Question Pairs". Papers with Code.
외부 링크
- Microsoft Research Paraprase Corpus - 한 쌍이 의미론적 동등성을 캡처하는지 여부를 확인하기 위해 주석을 단 뉴스 기사에서 추출한 5800쌍의 문장으로 구성된 데이터 집합
- PPDB(Paraprase Database) - 16개 언어로 된 수백만 개의 파라프레이를 포함하는 검색 가능한 데이터베이스