GPT-1

GPT-1
GPT-1(Generative Pre-trained Transformer 1)
원본 작성자오픈AI
초기출시2018년 2월, 5년 전(2018년 2월)
저장소
후계자GPT-2
유형
면허증.MIT[1]
웹사이트openai.com/blog/gpt-2-1-5b-release/
오리지널 GPT 아키텍처

GPT-1(Generative Pre-trained Transformer 1)은 오픈 시스템의 첫 번째 제품입니다.2017년 구글트랜스포머 아키텍처 발명에 따른 AI대형 언어 모델.[2]2018년 오픈인공지능은 "생성적 사전 훈련에 의한 언어 이해력 향상"이라는 제목의 논문을 발표했는데,[3] 이 논문에서 그들은 생성적 사전 훈련된 변압기의 일반적인 개념과 함께 초기 모델을 소개했습니다.[4]

그 당시까지 가장 성능이 좋은 신경 NLP 모델은 주로 많은 양의 수동 레이블이 지정된 데이터에서 지도 학습을 채택했습니다.지도 학습에 대한 이러한 의존도는 주석이 잘 달리지 않은 데이터셋에 대한 사용을 제한했습니다.매우 큰 모델을 훈련하는 것을 엄청나게 비싸고 시간이 많이 걸리는 것 외에도,[3][5] 많은 언어(Swahili 또는 Haitian Creole)는 말뭉치 구축을 위한 사용 가능한 텍스트가 부족하기 때문에 이러한 모델을 사용하여 번역하고 해석하기가 어렵습니다.[5]대조적으로, GPT의 "반감독" 접근 방식은 두 단계를 포함했습니다:[3] 언어 모델링 목표가 초기 매개 변수를 설정하는 데 사용되는 감독되지 않은 생성적 "사전 훈련" 단계와 이러한 매개 변수가 목표 작업에 적응되는 감독된 차별적 "미세 조정" 단계.

주의력 강화 RNN을 포함하는 이전의 기술과 달리 변압기 아키텍처를 사용하면 GPT 모델이 반복적인 메커니즘을 통해 달성할 수 있는 것보다 더 구조화된 메모리를 제공할 수 있었습니다. 이로 인해 "다양한 작업에 걸쳐 강력한 전송 성능"이 발생했습니다.[3]

북코퍼스를 선택한 이유

BookCorpus가 교육용 데이터 세트로 선택된 이유는 연속 텍스트의 긴 부분이 모델이 장거리 정보를 처리하는 데 도움이 되었기 때문입니다.[6]그곳에는 다양한 장르의 출판되지 않은 소설책 7,000권 이상이 들어 있었습니다.당시 사용 가능한 데이터셋의 나머지 부분은 규모가 크지만 이러한 장기적인 구조가 부족했습니다(문장 수준에서 "뒤틀림"됨).[3]

BookCorpus 텍스트는 ftfy 라이브러리에서 표준화된 구두점공백으로 정리된 다음 spaCy에 의해 토큰화되었습니다.[3]

건축학

GPT-1 아키텍처는 12개의 마스크된 자가 주의 헤드를 사용하는 12층 디코더 전용 변압기로, 각각 64개의 차원 상태(총 768개)를 가지고 있었습니다.단순한 확률적 경사 하강이 아닌 Adam 최적화 알고리즘이 사용되었습니다. 학습률은 처음 2,000회 업데이트 동안 0에서 최대 2.5×10으로−4 선형적으로 증가하고 코사인 스케줄을 사용하여 0으로 어닐링했습니다.[3]

미세 조정은 특정 작업에 맞게 조정되었지만 사전 교육은 그렇지 않았습니다. 다양한 작업을 수행하기 위해 기본 작업에 무관한 모델 아키텍처에 대한 최소한의 변경을 수행했습니다.[3]그럼에도 불구하고 GPT-1은 여러 언어 처리 작업에서 이전 벤치마크에서 여전히 개선되어 여러 가지 다양한 작업에 대한 작업 지향 아키텍처로 차별적으로 훈련된 모델을 능가했습니다.[3]

성과평가

GPT-1은 다양한 데이터 세트의 문장 쌍을 해석하고 "유인", "모순" 또는 "중립"으로 분류하는 능력을 평가하여 자연어 추론(텍스트 수반이라고도 함) 작업에 대한 이전 최고 결과보다[3] 5.8% 및 1.5% 향상되었습니다.[3]이러한 데이터셋의 예로는 QNLI(Wikipedia 기사)와 MultiNLI(다른 출처 중 전사된 연설, 대중 소설 및 정부 보고서)가 있습니다.[7]질문 응답 및 상식 추론과 관련된 두 가지 작업에서 이전 모델보다 유사한 성능을 보였습니다.[8] 중고등학교 시험의 서면 질문-응답 쌍 데이터 세트인 RACE에서 5.7%, 스토리 클로즈 테스트에서 8.9%의 성능을 보였습니다.[9]

GPT-1은 Quora 질문 쌍(QQP) 데이터 세트를 사용하여 두 문장이 서로의 패러프레이즈인지 여부를 예측하는 기능을 평가하면서 이전의 가장 우수한 성능 모델에서 의미 유사성(또는 패러프레이즈 감지)을 4.2% 향상시켰습니다.

GPT-1은 언어 수용성 코퍼스(CoLA)를 사용한 텍스트 분류 작업에서 이전 최고점인 35.0에[3] 비해 45.4의 점수를 얻었습니다.마지막으로, GPT-1은 다중 작업 테스트인 GLE에서 총 72.8점(이전 기록 68.9점 대비)[10]을 얻었습니다.

참고문헌

  1. ^ "gpt-2". GitHub. Archived from the original on 11 March 2023. Retrieved 13 March 2023.
  2. ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017-06-12). "Attention Is All You Need". arXiv:1706.03762 [cs.CL].
  3. ^ a b c d e f g h i j k l m Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. p. 12. Archived (PDF) from the original on 26 January 2021. Retrieved 23 January 2021.
  4. ^ "Archived copy". Archived from the original on 2023-04-15. Retrieved 2023-04-29.{{cite web}}: CS1 maint: 제목 그대로 보관된 복사본(링크)
  5. ^ a b Tsvetkov, Yulia (22 June 2017). "Opportunities and Challenges in Working with Low-Resource Languages" (PDF). Carnegie Mellon University. Archived (PDF) from the original on 31 March 2020. Retrieved 23 January 2021.
  6. ^ Zhu, Yukun; Kiros, Ryan; Zemel, Richard; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (22 June 2015). "Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books". arXiv:1506.06724 [cs.CV]. # of books: 11,038 / # of sentences: 74,004,228 / # of words: 984,846,357 / mean # of words per sentence: 13 / median # of words per sentence: 11
  7. ^ Williams, Adina; Nangia, Nikita; Bowman, Samuel (1 June 2018). "A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference" (PDF). Association for Computational Linguistics. Archived (PDF) from the original on 11 February 2020. Retrieved 23 January 2021. At 433k examples, this resource is one of the largest corpora available for natural language inference (a.k.a. recognizing textual entailment), [...] offering data from ten distinct genres of written and spoken English [...] while supplying an explicit setting for evaluating cross-genre domain adaptation.
  8. ^ Lai, Guokun; Xie, Qizhe; Hanxiao, Liu; Yang, Yiming; Hovy, Eduard (15 April 2017). "RACE: Large-scale ReAding Comprehension Dataset From Examinations". arXiv:1704.04683 [cs.CL].
  9. ^ Mostafazadeh, Nasrin; Roth, Michael; Louis, Annie; Chambers, Nathanael; Allen, James F. (3 April 2017). "LSDSem 2017 Shared Task: The Story Cloze Test" (PDF). Association for Computational Linguistics. Archived (PDF) from the original on 22 November 2020. Retrieved 23 January 2021. The LSDSem'17 shared task is the Story Cloze Test, a new evaluation for story understanding and script learning. This test provides a system with a four-sentence story and two possible endings, and the system must choose the correct ending to the story. Successful narrative understanding (getting closer to human performance of 100%) requires systems to link various levels of semantics to commonsense knowledge.
  10. ^ Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omar; Bowman, Samuel R. (20 April 2018). "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding". arXiv:1804.07461 [cs.CL].