Winograd 스키마 챌린지

Winograd schema challenge

WSC(Winograd Schema Challenge)는 토론토 대학의 컴퓨터 과학자인 Hector Levesque가 제안한 기계 지능 테스트입니다.튜링 테스트를 개선하기 위해 고안된 이 테스트는 매우 특정한 구조의 질문을 사용하는 객관식 테스트입니다: 그것들은 스탠포드 [1]대학의 컴퓨터 과학 교수인 Terry Winograd의 이름을 딴 Winograd 스키마라고 불리는 것의 예입니다.

표면적으로는 Winograd 스키마 질문은 단순히 아나포라의 해결을 요구한다: 기계는 문장에서 애매한 대명사의 선행어를 식별해야 한다.이것은 그것을 자연어 처리의 과제로 만들지만, Levesque는 Winograd 스키마의 경우, 그 과업은 지식과 상식적[2]추론의 사용을 필요로 한다고 주장한다.

Nuance Communications는 2014년 7월에 매년 WSC 대회를 후원하고 인간 퍼포먼스에 [3]필적하는 최고의 시스템에 25,000달러의 상금을 수여할 것이라고 발표했습니다.하지만, 그 상은 더 이상 제공되지 않는다.

배경

Winograd Schema Challenge는 튜링 테스트의 정신으로 제안되었다.1950년 앨런 튜링에 의해 제안된 튜링 테스트는 인공지능 철학에서 중심적인 역할을 한다.튜링은 기계가 생각할 수 있는지 아닌지를 논하는 대신 인공지능의 과학은 실험할 수 있는 지능적인 행동을 보여주는 것에 관심을 가져야 한다고 제안했다.그러나 튜링이 제안한 테스트의 정확한 성격은 특히 유진 구스트만이라는 인공지능 챗봇이 2014년에 통과했다고 주장한 이후 정밀 조사를 받고 있다.튜링 테스트의 주요 관심사 중 하나는 기계가 진정한 [4]지능이 아닌 무차별적인 힘이나 속임수로 테스트를 쉽게 통과할 수 있다는 것입니다.

Winograd 스키마 챌린지는 테스트를 [5]잘 수행한 프로그램의 특성으로 밝혀진 문제를 개선하기 위해 부분적으로 제안되었습니다.

튜링의 원래 제안은 그가 모방 게임이라고 부르는 것인데, 이것은 텍스트 전용 채널을 통해 인간 심판들과 컴퓨터 프로그램들 사이의 영어로 자유롭고 제한 없는 대화를 포함한다.일반적으로, 기계는 질문자가 5분간의 [4]대화에서 자신과 사람의 차이를 구별할 수 없다면 테스트를 통과한다.

튜링 테스트의 약점

유진 구스트만의 연주는 튜링 테스트의 문제들 중 일부를 나타냈다.Levesque는 다음과 같이 [6][2]가지 주요 문제를 식별합니다.

  • 속임수:기계는 강제로 잘못된 신분을 구성하도록 강요받지만, 이는 지능의 일부가 아닙니다.
  • 대화:많은 상호작용이 "합법적인 대화"로 간주될 수 있습니다.농담, 교묘한 회피, 주문지점 등 지능적인 추론을 필요로 하지 않습니다.
  • 평가:인간은 실수를 하고 심판들은 종종 결과에 동의하지 않는다.

Winograd 스키마

WSC의 주요 요소는 Winograd 스키마에서 파생된 질문의 특수한 형식입니다.이 형식의 질문은 다양한 영역에서 지식과 상식적인 추론을 요구하도록 맞춤화할 수 있습니다.또한 선택적인 제한이나 문장의 단어에 대한 통계 정보에 의해 답변을 배신하지 않도록 주의 깊게 작성해야 합니다.

기원.

Winograd 스키마의 첫 번째 인용 예(및 그 이름의 이유)[7]는 Terry Winograd에 의한 것입니다.

시의원들은 시위대가 폭력을 행사한다는 이유로 허가를 거부했다.

"feared"와 "advocated"를 선택하면 스키마가 다음 두 가지 인스턴스로 바뀝니다.

시의원들은 폭력을 우려하여 시위대의 허가를 거부했다.

시의원들은 시위자들이 폭력을 옹호한다는 이유로 허가를 거부했다.

스키마 챌린지 질문은 'the'라는 대명사는 시의원을 가리키는가, 아니면 시위대를 가리키는가?'입니다.스키마의 두 인스턴스를 전환하면 응답이 변경됩니다.정답은 인간[citation needed] 독자에게는 즉각적이지만 기계에서는 모방하기 어려운 것으로 판명되었습니다.Levesque는[2] 지식은 이러한 문제에서 중심적인 역할을 한다고 주장한다: 이 스키마에 대한 해답은 의회 의원과 시위자들 사이의 전형적인 관계와 행동에 대한 우리의 이해와 관련이 있다.

Winograd 스키마 챌린지의 최초 제안 이후, 뉴욕 대학의 Ernest Davis 교수는 Winograd 스키마 [8]챌린지에 나타나야 할 질문의 예로서 다양한 소스로부터 140개 이상의 Winograd 스키마 목록을 작성했습니다.

형식 설명

Winograd 스키마 챌린지 질문은 다음 세 부분으로 구성됩니다.

  1. 다음 내용을 포함하는 문장 또는 간단한 담화:
    • 동일한 의미 클래스의 두 개의 명사구(남성, 여성, 무생물 또는 사물 또는 사람의 그룹),
    • 위의 명사구 중 하나를 가리키는 애매한 대명사.
    • 특별한 단어와 대체 단어를 대체 단어로 대체하면 대명사의 자연 분해능이 변화하도록 하는 특수 단어와 대체 단어.
  2. 애매한 대명사의 정체를 묻는 질문, 그리고
  3. 문제의 명사구에 대응하는 두 가지 선택지입니다.

기계는 정답 선택지를 포함하는 표준화된 형태로 문제를 제공하므로, 2진수 결정 문제가 됩니다.

이점

Winograd 스키마 챌린지에는 다음과 같은 이점이 있습니다.

  • 그것들을 해결하기 위해서는 지식과 상식적인 추론이 필요하다.
  • 다양한 난이도의 Winograd 스키마는 단순한 인과 관계에서 사건의 복잡한 서술에 이르기까지 모든 것을 포함하여 설계될 수 있다.
  • 특정 영역(예: 사회/심리학적 또는 공간적 추론)에서 추론 능력을 테스트하도록 구성할 수 있다.
  • 인간 [5]심판은 필요 없다.

함정

Winograd 스키마의 과제 중 한 가지 어려움은 질문의 개발입니다.그들은 해결하기 위해 상식적인 추론이 필요함을 확실히 하기 위해 신중하게 조정될 필요가 있다.예를 들어, Levesque는[5] "너무 쉬운" 소위 Winograd 스키마의 예를 다음과 같이 제시합니다.

그 여자들은 임신 중이어서 알약 복용을 중단했다.[임신/암 유발] 개인은 누구였습니까?

이 질문에 대한 답은 선택적인 제한에 근거해 결정될 수 있다: 어떤 상황에서든 약은 임신을 하지 않고, 여성은 발암성이 없지만, 약은 할 수 있다.따라서 이 답변은 추론이나 문장의 의미 이해 없이 도출될 수 있다. 필요한 것은 임신 및 발암성 선택 제한에 대한 데이터이다.

활동

2016년과 2018년에 Nuance Communications는 90% 이상의 득점자에게 25,000달러의 대상을 제공하는 대회를 후원했습니다(비교적으로 인간은 WSC[9] 질문의 92~96%에 정답을 맞춥니다).하지만 2016년에는 아무도 수상할 수 없었고 2018년 대회는 [10]전망 부족으로 취소되었다. 그 상은 [11]더 이상 제공되지 않는다.

2015년 3월 23일부터 25일까지 스탠포드 대학의 AAAI 스프링 심포지엄 시리즈에서 Winograd 스키마 도전에 특별히 초점을 맞춘 제12회 국제 심포지엄이 개최되었다.조직위원회에는 레오라 모겐스턴(레이도스), 테오도르 파트코스(연구 및 기술 헬라스 재단), 로버트 슬론(시카고 일리노이대)[12]이 포함됐다.

2016 Winograd Schema Challenge는 2016년 7월 11일 IJCAI-16에서 개최되었습니다.4명의 참가자가 있었다.콘테스트의 첫 번째 라운드는 문장 [13]쌍으로 구성된 것이 아니라 문학적 출처에서 수정된 발음 모호성 문제를 해결하는 것이었다.가장 높은 점수를 획득한 사람은 [14]중국 과학기술대학의 취안 류 외 연구원이 58%를 맞혔습니다.그 때문에, 그 도전의 룰에 의해, 상은 수여되지 않고, 도전은 2라운드로 진행되지 않았다.2016년 조직위원회는 레오라 모겐스턴, 어니스트 데이비스, 찰스 오르티즈였다.

2017년에는 상식적인 지식 습득을 위해 설계된 뉴럴 어소시에이션 모델이 원래 273개의 Winograd 스키마 데이터 [15]집합에서 수동으로 선택한 70개의 문제에 대해 70%의 정확도를 달성했습니다.2018년 6월에는 반복신경망 언어 모델의 [16]앙상블을 사용하여 전체 데이터셋에서 63.7%의 정확도를 달성하여 상식을 습득하기 위해 독립형 말뭉치에서 학습하는 심층신경망을 최초로 활용하였다.2019년에는 상식적인 [9]추론을 배울 필요가 없도록 적절한 WSC 유사 교육 데이터로 BERT 언어 모델을 미세 조정하여 원래 Winograd 스키마 데이터 세트에서 90.1%의 점수를 얻었다.일반 언어 모델 GPT-3는 2020년에 [17]특정 미세 조정 없이 88.3%의 점수를 달성했다.

보다 도전적이고 적대적인 44,000개의 문제를 다루는 "Winogrande" 데이터 세트가 2019년에 설계되었습니다.이 데이터 세트는 이전 데이터 [9]세트의 대명사 형식이 아닌 빈칸 채우기 스타일의 문장으로 구성됩니다.

Winograd 스키마 과제 버전은 자동 자연어 [18]이해에 관한 과제를 GLUE(General Language Understanding Evaluation) 벤치마크 모음의 일부입니다.

레퍼런스

  1. ^ Ackerman, Evan (29 July 2014). "Can Winograd Schemas Replace Turing Test for Defining Human-level AI". IEEE Spectrum. Retrieved 29 October 2014.
  2. ^ a b c Levesque, H. J. (2014). "On our best behaviour". Artificial Intelligence. 212: 27–35. doi:10.1016/j.artint.2014.03.007.
  3. ^ "Nuance announces the Winograd Schemas Challenge to Advance Artificial Intelligence Innovation". Business Wire. 28 July 2014. Retrieved 9 November 2014.
  4. ^ a b Turing, Alan (October 1950). "Computing Machinery and Intelligence" (PDF). Mind. LIX (236): 433–460. doi:10.1093/mind/LIX.236.433. Retrieved 28 October 2014.
  5. ^ a b c Levesque, Hector; Davis, Ernest; Morgenstern, Leora (2012). The Winograd Schema Challenge. Proceedings of the Thirteenth International Conference on Principles of Knowledge Representation and Reasoning. Retrieved 29 October 2014.
  6. ^ Michael, Julian (18 May 2015). The Theory of Correlation Formulas and Their Application to Discourse Coherence (Thesis). UT Digital Repository. p. 6. hdl:2152/29979.
  7. ^ Winograd, Terry (January 1972). "Understanding Natural Language" (PDF). Cognitive Psychology. 3 (1): 1–191. doi:10.1016/0010-0285(72)90002-3. Retrieved 4 November 2014.
  8. ^ Davis, Ernest. "A Collection of Winograd Schemas". cs.nyu.edu. NYU. Retrieved 30 October 2014.
  9. ^ a b c Sakaguchi, Keisuke; Le Bras, Ronan; Bhagavatula, Chandra; Choi, Yejin (2019). "WinoGrande: An Adversarial Winograd Schema Challenge at Scale". arXiv:1907.10641 [cs.CL].
  10. ^ Boguslavsky, I.M.; Frolova, T.I.; Iomdin, L.L.; Lazursky, A.V.; Rygaev, I.P.; Timoshenko, S.P. (2019). "Knowledge-based approach to Winograd Schema Challenge" (PDF). Proceedings of the International Conference of Computational Linguistics and Intellectual Technologies. Moscow. The prize could not be awarded to anybody. Most of the participants showed a result close to the random choice or even worse. The second competition scheduled for 2018 was canceled due to the lack of prospective participants.
  11. ^ "Winograd Schema Challenge". CommonsenseReasoning.org. Retrieved 24 January 2020.
  12. ^ "AAAI 2015 Spring Symposia". Association for the Advancement of Artificial Intelligence. Retrieved 1 January 2015.
  13. ^ Davis, Ernest; Morgenstern, Leora; Ortiz, Charles (Fall 2017). "The First Winograd Schema Challenge at IJCAI-16". AI Magazine.
  14. ^ Liu, Quan; Jiang, Hui; Ling, Zhen-Hua; Zhu, Xiaodan; Wei, Si; Hu, Yu (2016). "Commonsense Knowledge Enhanced Embeddings for Solving Pronoun Disambiguation Problems in Winograd Schema Challenge". arXiv:1611.04146 [cs.AI].
  15. ^ Liu, Quan; Jiang, Hui; Evdokimov, Andrew; Ling, Zhen-Hua; Zhu, Xiaodan; Wei, Si; Hu, Yu (2017). "Cause-Effect Knowledge Acquisition and Neural Association Model for Solving A Set of Winograd Schema Problems". Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence: 2344–2350. doi:10.24963/ijcai.2017/326. ISBN 9780999241103.
  16. ^ Trinh, Trieu H.; Le, Quoc V. (26 September 2019). "A Simple Method for Commonsense Reasoning". arXiv:1806.02847 [cs.AI].
  17. ^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; et al. (2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL].
  18. ^ "GLUE Benchmark". GlueBenchmark.com. Retrieved 30 July 2019.

외부 링크