질문에 대한 답변

Question answering

QA(Question Answering)는 정보 검색자연 언어 처리(NLP) 분야의 컴퓨터 과학 분야로, 인간이 제기하는 질문에 [1]자연 언어로 자동 응답하는 시스템을 구축하는 것에 관한 것입니다.

개요

질문 답변 구현(일반적으로 컴퓨터 프로그램)은 지식 또는 정보의 구조화된 데이터베이스(일반적으로 지식 기반)를 쿼리함으로써 답변을 구성할 수 있습니다.일반적으로 질문 응답 시스템은 자연어 문서의 비정형 집합에서 답변을 얻을 수 있습니다.

질문 응답 시스템에 사용되는 자연어 문서 모음의 예는 다음과 같습니다.

질문에 대한 답변 연구는 사실, 목록, 정의, 방법, 이유, 가설, 의미상 제약 및 교차 언어 질문을 포함한 광범위한 질문 유형을 다루려고 시도합니다.

  • 클로즈드 도메인 질문 답변은 특정 도메인(예: 의료 또는 자동차 유지보수)의 질문을 다루고 온톨로지 내에서 자주 공식화된 도메인별 지식을 활용할 수 있습니다.또는 클로즈드 도메인은 절차 정보가 아닌 설명적인 정보를 요구하는 질문 등 제한된 유형의 질문만 수용되는 상황을 나타낼 수 있습니다.기계 판독 어플리케이션의 맥락에서 질문 응답 시스템은 예를 들어 알츠하이머병과 [2]관련된 의료 분야에서도 구축되었습니다.
  • 개방형 도메인 질문 답변은 거의 모든 질문에 대응하며 일반적인 온톨로지 및 세계 지식에만 의존할 수 있습니다.한편, 이러한 시스템은 일반적으로 해답을 추출할 수 있는 훨씬 더 많은 데이터를 가지고 있습니다.

역사

두 개의 초기 질문 답변 시스템은 야구와[3] 루나였다.[4]BAYBAG는 1년간 메이저리그에 대한 질문에 답했다.루나는 아폴로 달 탐사 임무에 의해 귀환된 암석의 지질학적 분석에 대한 질문에 답했습니다.두 질문 응답 시스템 모두 선택한 영역에서 매우 효과적이었다.실제로 LUNA는 1971년 달 과학 컨벤션에서 시연되었으며, 시스템에 대한 훈련을 받지 않은 사람들이 제기하는 문제의 90%를 답할 수 있었다.그 후 몇 년 동안 제한된 영역의 질문 답변 시스템이 개발되었습니다.이 모든 시스템의 공통점은 선택된 도메인의 전문가가 손으로 쓴 핵심 데이터베이스 또는 지식 시스템을 가지고 있다는 것입니다.BAYBAG와 LUNAR의 언어 능력은 최초의 chatterbot 프로그램인 ELIZA와 DOCR과 유사한 기술을 사용했습니다.

SHRDLU는 1960년대 후반과 1970년대 초반에 Terry Winograd에 의해 개발된 매우 성공적인 질의응답 프로그램이었다.장난감 세계(블록 월드)에서 로봇의 동작을 시뮬레이션하여 로봇에게 세계 상태에 대한 질문을 할 수 있는 가능성을 제공하였다.이 시스템의 강점은 컴퓨터 프로그램에서 쉽게 부호화할 수 있는 물리 규칙을 가진 매우 특정한 영역과 매우 단순한 세계를 선택하는 것이었습니다.

1970년대에는 좁은 지식 영역을 대상으로 한 지식 기반이 개발되었다.이러한 전문가 시스템과 연계하기 위해 개발된 질문 답변 시스템은 지식 영역 내에서 질문에 대한 보다 반복 가능하고 유효한 응답을 생성했습니다.이러한 전문가 시스템은 내부 아키텍처를 제외하고 현대의 질문 응답 시스템과 매우 유사했습니다.전문가 시스템은 전문가가 구성하고 정리한 지식 기반에 크게 의존하는 반면, 현대의 질문 응답 시스템은 대규모의 비정형 자연어 텍스트 코퍼스의 통계 처리에 의존한다.

1970년대와 1980년대는 컴퓨터 언어학에서 포괄적인 이론의 발전을 보았고, 이는 텍스트 이해와 질문 답변에 대한 야심찬 프로젝트의 발전을 이끌었다.그러한 시스템의 한 예는 1980년대 후반 U.C. 버클리 대학Robert Wilensky에 의해 개발된 Unix Consultant(UC)입니다.시스템은 Unix 운영체제에 관한 질문에 답했습니다.이 회사는 도메인의 포괄적인 수작업 지식 기반을 가지고 있으며, 다양한 유형의 사용자를 수용하기 위한 답변을 표현하는 것을 목표로 했습니다.또 다른 프로젝트는 독일의 한 도시에서 관광 정보 영역에서 운영되는 텍스트 이해 시스템인 LILOG였다.UC 및 LILOG 프로젝트에서 개발된 시스템은 단순한 데모 단계를 거치지 않았지만 컴퓨터 언어학과 추론에 관한 이론의 개발에 도움이 되었습니다.

건강 및 생명 [5]과학자를 위한 EIGLi와 같은 전문 자연어 질문 응답 시스템이 개발되었습니다.

아키텍처

2001년 현재, 질문 응답 시스템에는 일반적으로 질문 유형과 [6]답변 유형을 결정하는 질문 분류기 모듈이 포함되어 있습니다.

질문 답변 방법

질문 답변은 우수한 검색 코퍼스에 크게 의존합니다. 답변을 포함하는 문서가 없으면 질문 답변 시스템이 할 수 있는 일이 거의 없기 때문입니다.따라서 질문 도메인이 컬렉션과 직교하지 않는 한, 일반적으로 컬렉션 크기가 클수록 질문 응답 성능이 향상된다는 것은 의미가 있다.웹과 같은 대규모 수집에서 데이터 중복이라는 개념은 정보 덩어리가 다양한 컨텍스트와 [7]문서에서 다양한 방식으로 표현될 가능성이 높기 때문에 다음과 같은 두 가지 이점이 있습니다.

  1. 올바른 정보를 여러 형태로 표시함으로써 문항 응답 시스템이 텍스트를 이해하기 위해 복잡한 NLP 기술을 수행해야 하는 부담을 덜 수 있다.
  2. 정답은 정답이 잘못된 긍정의 인스턴스보다 문서에 더 많이 표시되는 것에 의존하여 잘못된 긍정의 필터가 될 수 있습니다.

일부 질문 응답 시스템은 자동화[8][9]추론에 크게 의존합니다.

열린 도메인 질문 답변

정보 검색에서 오픈 도메인 질문 응답 시스템은 사용자의 질문에 대한 답변을 반환하는 것을 목적으로 한다.반환된 답변은 관련 [10]문서 목록이 아닌 짧은 텍스트 형식입니다.이 시스템은 컴퓨터 언어학, 정보 검색지식 표현 기술을 조합하여 답을 찾습니다.

이 시스템은 를 들어 "중국의 국경일은 언제입니까?"와 같은 일련의 키워드가 아닌 자연어 질문을 입력으로 받아들인다.그런 다음 문장은 논리 형식을 통해 쿼리로 변환됩니다.자연어 질문의 형태로 입력을 받는 것은 시스템을 보다 사용하기 쉽게 만들지만 실행하기가 더 어렵습니다. 다양한 질문 유형이 있고 시스템이 합리적인 답변을 제공하기 위해 올바른 질문을 식별해야 하기 때문입니다.질문에 질문 유형을 할당하는 것은 중요한 작업이며, 전체 답변 추출 프로세스는 올바른 질문 유형과 그에 따른 정답 유형을 찾는 데 의존합니다.

키워드 추출은 입력 질문 [11]유형을 식별하는 첫 번째 단계입니다.질문 유형을 직접 나타내는 명확한 단어가 있는 경우도 있습니다. 즉, "누구", "어디" 또는 "몇 개"는 각각 "사람", "장소" 또는 "번호" 유형이어야 함을 시스템에 알려줍니다.위의 예에서 "When"이라는 단어는 답변이 "Date" 유형이어야 함을 나타냅니다.POS(Part-of-Speech) 태그 부착 및 구문 해석 기술을 사용하여 응답 유형을 결정할 수도 있습니다.이 경우 주어는 '중국의 국경일', 술어는 'is', 부사 수식어는 'when'이므로 답변 유형은 'Date'이다.안타깝게도, "어느", "무엇" 또는 "어떻게"와 같은 일부 의문어는 명확한 답변 유형을 제공하지 않습니다.각 단어는 여러 유형을 나타낼 수 있습니다.이런 상황에서는 질문의 다른 단어들을 고려해 볼 필요가 있다.첫 번째로 해야 할 일은 질문의 의미를 나타낼 수 있는 단어를 찾는 것입니다.그런 다음 WordNet과 같은 사전은 컨텍스트를 이해하기 위해 사용할 수 있습니다.

질문 유형이 식별되면 정보 검색 시스템을 사용하여 올바른 키워드를 포함하는 문서 세트를 찾습니다.태그 및 NP/Verb Group 청커를 사용하여 발견된 문서에 올바른 엔티티 및 관계가 언급되었는지 확인할 수 있습니다."누구" 또는 "장소"와 같은 질문의 경우, 검색된 문서에서 관련 "개인" 및 "위치" 이름을 찾기 위해 명명된 엔티티 인식자를 사용합니다.관련 단락만 순위를 매길 수 있습니다.

벡터 공간 모델을 후보 답변을 분류하는 전략으로 사용할 수 있다.질문 유형 분석 단계에서 결정된 정답 유형이 올바른지 확인합니다.추론 기법은 후보 답변을 검증하기 위해서도 사용할 수 있다.그런 다음 각 후보에게 포함된 질문 단어의 수와 이 단어들이 후보와 얼마나 가까운지에 따라 점수가 매겨집니다. 더 많고 더 가까울수록 좋습니다.그 후, 해답은 해석에 의해서, 컴팩트하고 의미 있는 표현으로 변환됩니다.위의 예에서 예상되는 출력 응답은 "1st Oct"입니다.

수학 문제 답안

Ask Platypus와 Wikidata를 기반으로 한 오픈 소스 수학 인식 질문 응답 시스템은 [12]2018년에 출판되었습니다.시스템은 영어 또는 힌디어 자연어 질문을 입력으로 받고 Wikidata에서 검색된 수학 공식을 간결한 답변으로 반환합니다.결과 수식은 계산 가능한 형식으로 변환되어 사용자가 변수 값을 삽입할 수 있습니다.변수 및 공통 상수의 이름과 값은 Wikidata에서 검색됩니다(사용 가능한 경우).이 시스템은 테스트 세트에서 상용 계산 수학 지식 엔진을 능가한다고 주장되고 있습니다.MathQA는 Wikimedia(https://mathqa.wmflabs.org/)가 주최합니다.2022년에는 수학 문제 유형 [13]15개를 맞힐 수 있도록 확대되었다.

MathQA 메서드는 자연어와 공식 언어를 조합해야 합니다.가능한 방법 중 하나는 Entity Linking을 통해 감독 주석을 수행하는 것입니다.CLEF 2020의[14] "ARQMath 태스크"는 플랫폼 Math Stack Exchange(MSE)에서 새로 게시된 질문과 커뮤니티에서 [15]이미 답변한 기존 질문을 연결하는 문제를 해결하기 위해 시작되었습니다.이 연구소는 Mansouri 등이 범용 검색 엔진에서 수학 쿼리의 20%가 잘 형성된 [16]질문으로 표현된다는 사실을 발견했기 때문에 동기 부여가 되었다.여기에는 두 개의 개별 하위 작업이 포함되어 있습니다.과제 1: 새로운 질문에 대한 오래된 포스트의 답변을 매칭하는 "응답 검색"과 과제 2: 오래된 포스트의 공식과 새로운 질문을 매칭하는 "공식 검색".공식 언어를 포함하는 수학의 영역에서 시작하여, 목표는 나중에 다른 유형의 특수 표기법(예: 화학 공식)[14][15]을 사용하는 다른 영역(예: 화학, 생물학 등 STEM 분야)으로 과제를 확장하는 것이다.

진보.

질문 응답 시스템 최근 몇년간 knowledge[17]의 예를 들어 추가 도메인을 포함하는 것으로 확대되었다, 시스템 자동으로와 지형 해석 질문, 정의와 용어에 대한 문제까지 전기 문제, 다중 언어 문제들과 오디오의 콘텐츠 images,에 대한 질문에 답할 개발되었다.[18]과비디오.[19] 현재 질문 답변 연구 주제에는 다음이 포함됩니다.

2011년 IBM에 의해 개발된 질문 응답 컴퓨터 시스템인 왓슨은 Jeopardy!의 두 번의 시범 경기에서 Brad Rutter와 Ken Jennings와 경쟁하여 큰 [30]차이로 승리했습니다.Facebook Research는 자사의 DrQA[31] 시스템을 오픈 소스 라이선스로 이용할 수 있도록 했습니다.이 시스템은 위키피디아를 지식 [32]소스로 하여 오픈 도메인 질의응답에 사용되어 왔습니다.

레퍼런스

  1. ^ Philipp Cimiano; Christina Unger; John McCrae (1 March 2014). Ontology-Based Interpretation of Natural Language. Morgan & Claypool Publishers. ISBN 978-1-60845-990-2.
  2. ^ 로서 모란테, 마틴 크롤린저, 알폰소 발렌시아, 월터 대레만스.알츠하이머병에 대한 생물의학 교재 기계 판독CLEF 2012 평가 랩 및 워크숍.2012년 9월 17일
  3. ^ GREEN JR, Bert F; et al. (1961). "Baseball: an automatic question-answerer" (PDF). Western Joint IRE-AIEE-ACM Computer Conference: 219–224.
  4. ^ Woods, William A; Kaplan, R. (1977). "Lunar rocks in natural English: Explorations in natural language question answering". Linguistic Structures Processing 5. 5: 521–569.
  5. ^ "EAGLi platform - Question Answering in MEDLINE". candy.hesge.ch. Retrieved 2021-12-02.
  6. ^ Hirschman, L. & Gaizauskas, R. (2001) 자연어 질의응답. 여기서의 뷰자연언어공학(2001), 7:4:275-300 케임브리지 대학 출판부.
  7. ^ 린, J. (2002)질문 답변의 자원으로서의 웹: 관점과 과제.제3회 언어 자원 및 평가에 관한 국제 회의(LREC 2002)의 속행.
  8. ^ 몰도반, 댄 등"Cogex: 질문의 답을 위한 논리 프로버"2003년 인간언어기술컴퓨터언어학협회 북미지회 회의 진행-제1권.컴퓨터 언어학 협회, 2003.
  9. ^ 푸르바흐, 울리히, 잉고 글뢰크너, 비욘 펠저."자연어 질문에 대한 자동 추리 적용"Ai Communications 23.2-3 (2010): 241-265.
  10. ^ Sun, Haitian; Dhingra, Bhuwan; Zaheer, Manzil; Mazaitis, Kathryn; Salakhutdinov, Ruslan; Cohen, William (2018). "Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text". Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium. pp. 4231–4242. arXiv:1809.00782. doi:10.18653/v1/D18-1455. S2CID 52154304.
  11. ^ Harabagiu, Sanda; Hickl, Andrew (2006). "Methods for using textual entailment in open-domain question answering". Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL - ACL '06. pp. 905–912. doi:10.3115/1220175.1220289.
  12. ^ Moritz Schubotz; Philipp Scharpf; et al. (12 September 2018). "Introducing MathQA: a Math-Aware question answering system". Information Discovery and Delivery. Emerald Publishing Limited. 46 (4): 214–224. arXiv:1907.01642. doi:10.1108/IDD-06-2018-0022.
  13. ^ 샤프, P. 슈보츠, M. Gipp, B.디지털 라이브러리에 관한 ACM/IEEE 합동 회의, 2022년 비감독 공식 라벨을 통한 질문 답변을 위한 수학 문서 마이닝.
  14. ^ a b Zanibbi, Richard; Oard, Douglas W.; Agarwal, Anurag; Mansouri, Behrooz (2020), "Overview of ARQMath 2020: CLEF Lab on Answer Retrieval for Questions on Math", Lecture Notes in Computer Science, Cham: Springer International Publishing, pp. 169–193, doi:10.1007/978-3-030-58219-7_15, ISBN 978-3-030-58218-0, retrieved 2021-06-09
  15. ^ a b Scharpf; et al. (2020-12-04). ARQMath Lab: An Incubator for Semantic Formula Search in zbMATH Open?. OCLC 1228449497.
  16. ^ Mansouri, Behrooz; Zanibbi, Richard; Oard, Douglas W. (June 2019). "Characterizing Searches for Mathematical Concepts". 2019 ACM/IEEE Joint Conference on Digital Libraries (JCDL). IEEE: 57–66. doi:10.1109/jcdl.2019.00019. ISBN 978-1-7281-1547-4. S2CID 198972305.
  17. ^ Paşca, Marius (2005). "Book Review New Directions in Question Answering Mark T. Maybury (editor) (MITRE Corporation) Menlo Park, CA: AAAI Press and Cambridge, MA: The MIT Press, 2004, xi+336 pp; paperbound, ISBN 0-262-63304-3, $40.00, £25.95". Computational Linguistics. 31 (3): 413–417. doi:10.1162/089120105774321055. S2CID 12705839.
  18. ^ a b 앤더슨, 피터 등"이미지 캡션 및 시각적 질문에 대한 상향식하향식 주의"컴퓨터 비전과 패턴 인식에 관한 IEEE 회의의 진행.2018.
  19. ^ 주, 린차오 등"영상 질문에 대한 시간적 맥락 파악 중"International Journal of Computer Vision 124.3 (2017): 409-421.
  20. ^ 스쿼터오니, 실비아, 수레쉬 마난다르입니다"인터랙티브 오픈 도메인 질문 응답 [dead link]시스템 설계"자연언어공학 15.1 (2009) : 73-95.
  21. ^ 라이트, 마크 등"질문의 재사용 답변: 예비 연구"질문의 새로운 방향 답변입니다.2003.
  22. ^ 이, 원타우, 샤오둥 허, 크리스토퍼 미크."단일 관계 질문 답변에 대한 의미 분석"컴퓨터 언어학 협회 제52회 연차총회(제2권: 단문).2014.
  23. ^ Pererera, R., Nand, P. 및 Naem, A. 2017.질문 응답 시스템에서 응답문 생성을 위해 유형화된 종속성 하위 트리 패턴을 활용합니다.
  24. ^ 드 살보 브라즈, 로드리고 등"자연어에서의 의미적 함의에 대한 추론 모델"머신러닝 과제 워크숍스프링거, 베를린, 하이델베르크, 2005년
  25. ^ "BitCrawl by Hobson Lane". Archived from the original on October 27, 2012. Retrieved 2012-05-29.{{cite web}}: CS1 maint: bot: 원래 URL 상태를 알 수 없습니다(링크).
  26. ^ 페레라, R. 및 페레라, U. 2012.주제별 역할 기반 대상 식별 모델을 통해 질문에 답합니다.
  27. ^ Bahadorreza Ofoghi; John Yearwood & Liping Ma (2008). The impact of semantic class identification and semantic role labeling on natural language answer extraction. The 30th European Conference on Information Retrieval (ECIR'08). Springer Berlin Heidelberg. pp. 430–437. doi:10.1007/978-3-540-78646-7_40.
  28. ^ Bahadorreza Ofoghi; John Yearwood & Liping Ma (2009). "The impact of frame semantic annotation levels, frame‐alignment techniques, and fusion methods on factoid answer processing". Journal of the American Society for Information Science and Technology. 60 (2): 247–263. doi:10.1002/asi.20989.
  29. ^ 다스, 아비섹 등"잠복형 질문 답변"컴퓨터 비전과 패턴 인식에 관한 IEEE 회의의 진행.2018.
  30. ^ Markoff, John (2011-02-16). "On 'Jeopardy!' Watson Win is All but Trivial". The New York Times.
  31. ^ "DrQA".
  32. ^ Chen, Danqi; Fisch, Adam; Weston, Jason; Bordes, Antoine (2017). "Reading Wikipedia to Answer Open-Domain Questions". arXiv:1704.00051 [cs.CL].

추가 정보

외부 링크