GPT-2
GPT-2원본 작성자 | 오픈AI |
---|---|
초기출시 | 2019년 2월 14일; | 전 )
저장소 | https://github.com/openai/gpt-2 |
선대 | GPT-1 |
후계자 | GPT-3 |
유형 | |
면허증. | MIT[1] |
웹사이트 | openai |
시리즈의 일부(on) |
머신 러닝 데이터 마이닝(data mining) |
---|
GPT-2(Generative Pre-trained Transformer 2)는 오픈사의 대형 언어 모델입니다.인공지능과 GPT 모델의 기본 시리즈 중 두 번째입니다. GPT-2는 다양한 장르의 출판되지 않은 소설책 7,000권 이상의 데이터 세트인 BookCorpus에서 [2]사전 교육되었으며 800만 웹 [3]페이지의 데이터 세트에서 교육되었습니다.2019년 2월 부분 출시되었으며,[4][5][6][7][8] 2019년 11월 5일 15억 파라미터 모델이 전면 출시되었습니다.
GPT-2는 GPT-1의[9] "직접 스케일업(direct scale-up)"으로 개발되었으며, 매개 변수 수와 훈련 데이터 [8]세트 크기가 모두 10배 증가했습니다.그것은 범용 학습기이고 다양한 작업을 수행하는 능력은 텍스트를 번역하고 텍스트에서 주제에 대한 질문에 답하고 더 큰 [10]텍스트에서 구절을 요약하고 때때로 구별되지 않는 수준으로 텍스트 출력을 생성할 수 있게 해준 [3][10]일반적인 능력의 결과였습니다.인간의 [11]그것으로부터 가능하지만, 그것은 긴 [12]구절들을 생성할 때 반복적이 되거나 말도 안 되는 것이 될 수 있습니다.GPT-3와 GPT-4로 대체되었는데, GPT-4는 더 이상 오픈 소스가 아닙니다.
GPT-2는 이전 GPT-1 및 후속 GPT-3 및 GPT-4와 같이 생성적인 사전 훈련된 트랜스포머 아키텍처를 가지고 있으며, 이전의 반복 및 컨볼루션 기반 [13][14]아키텍처 대신 주의를 사용하는 심층 신경망, 특히 트랜스포머 [9]모델을 구현합니다.주의 메커니즘을 통해 모델은 가장 [15][16]관련성이 높을 것으로 예측되는 입력 텍스트의 세그먼트에 선택적으로 초점을 맞출 수 있습니다.이 모델은 크게 향상된 병렬화를 가능하게 하며, RNN/CNN/LSTM 기반 [9]모델의 이전 벤치마크를 능가합니다.
트레이닝
변압기 아키텍처가 대규모 병렬화를 가능하게 했기 때문에, GPT 모델은 이전의 NLP 모델보다 더 큰 코퍼스에서 훈련될 수 있었습니다.GPT-1 모델은 이 접근 방식이 실행 가능하다는 것을 보여주었지만, GPT-2는 초대형 말뭉치에서 훈련된 네트워크의 출현 특성을 더 자세히 탐구할 것입니다.웹 크롤링에 의해 생성되고 이전에 NLP [17]시스템을 훈련하는 데 사용된 큰 코퍼스인 커먼크롤(CommonCrawl)은 큰 크기 때문에 고려되었지만 추가 검토를 통해 이해할 수 없는 많은 [3][17]양의 콘텐츠가 밝혀짐에 따라 거부되었습니다.대신 열기웹텍스트는 2017년 12월 이전에 적어도 3개 이상의 업보를 받은 레딧 게시물에 의해 연결된 페이지만 스크랩하여 생성되었으며, 이를 AI가 웹텍스트라고 하는 새로운 말뭉치를 개발했습니다.그 후 코퍼스가 정리되었습니다. HTML 문서가 평문으로 파싱되고 중복 페이지가 제거되었으며 위키피디아 페이지가 제거되었습니다(다른 많은 데이터셋에 존재하면 [3]과적합을 초래할 수 있었기 때문입니다).
GPT-2 훈련 비용은 [18][19]시간당 256달러로 알려졌지만, 훈련을 완료하는 데 걸린 시간은 알려지지 않았기 때문에 전체 훈련 비용을 [20]정확하게 추정할 수는 없습니다.그러나 트랜스포머 아키텍처를 사용하는 비교 가능한 대규모 언어 모델의 경우, BERT와 XLNet의 교육 프로세스가 각각 $6,912와 $245,000의 [19]리소스를 소비하는 등 비용이 더욱 상세히 문서화되어 있습니다.
풀어주다
GPT-2는 2019년 2월 14일 처음 발표되었습니다.2019년 2월 제임스 빈센트(James Vincent)의 더 버지(The Verge) 기사는 "그것이 만들어내는 글은 보통 인간이 아닌 것으로 쉽게 식별할 수 있지만 언어 생성 [21]프로그램의 "지금까지 가장 흥미로운 예 중 하나"로 남아 있다고 말했습니다.
가짜 표제를 붙이면 기사의 나머지 부분이 가짜 인용문과 통계로 완성됩니다.단편 소설의 첫 줄을 입력하면 다음에 당신의 캐릭터가 어떻게 되는지 알려줄 것입니다.적절한 프롬프트가 [21]주어지면 팬픽션도 쓸 수 있습니다.
가디언지는 이 결과물을 "믿을 수 있는 신문 산문"[12]이라고 표현했고, 복스의 켈시 파이퍼는 "내가 본 AI 시스템 중 가장 멋진 것 중 하나는 또한 나를 [22]직장에서 쫓아낼 것입니다."라고 말했습니다.더 버지는 GPT-2의 유연성을 "감동적"이라고 평가했으며, 특히 언어 간의 텍스트 번역, 긴 기사 요약, 사소한 질문에 대한 답변 기능이 [21]주목했습니다.
수정된 튜링 테스트를 사용하는 암스테르담 대학의 한 연구는 적어도 일부 시나리오에서 참가자들이 GPT-2에 의해 만들어진 시와 [23]인간이 쓴 시를 구별할 수 없다는 것을 발견했습니다.
제한사항 및 부분 해제
이전 오픈 기간 동안AI 모델은 즉시 대중에게 공개되었습니다.AI는 처음에 GPT-2의 소스 코드를 발표할 때 악의적인 [12]사용의 위험을 이유로 2월에 발표할 때 공개를 거부했습니다.[12] 발표 시 선택된 언론 매체에 대해 모델에 대한 제한적인 접근(즉, 소스 코드 자체가 아닌 입력 및 출력을 허용하는 인터페이스)이 허용되었습니다.일반적으로 인용되는 한 가지 정당성은, 생성된 텍스트가 보통 완전히 참신하기 때문에, 자동화된 필터를 회피하기 위해 스팸 발송자들에 의해 사용될 수 있다는 것이었습니다.인공지능은 [12]GPT-2 버전을 "제품에 대한 무한한 긍정적 - 또는 부정적 - 리뷰를 생성"하도록 미세 조정했습니다.
또 다른 이유는 GPT-2가 음란하거나 인종차별적인 텍스트를 생성하는 데 사용될 수 있다는 것이었습니다.Jeremy Howard와 같은 연구자들은 "트위터, 이메일, 그리고 웹을 모든 다른 말들을 사라지게 하고 [21]필터링하는 것이 불가능하게 만드는 합리적이고 맥락에 맞는 산문으로 완전히 채우는 기술"에 대해 경고했습니다.알렌 인공지능 연구소는 GPT-2에 대응하여 "신경 가짜 뉴스"[24]를 탐지할 수 있는 도구를 발표했습니다.
그러나 의견은 갈렸습니다.2019년 2월, The Verge의 한 기사는 GPT-2가 제기하는 위협이 [25]과장되었다고 주장했습니다. Caltech의 교수이자 Nvidia의 기계 학습 연구 책임자인 Anima Anandkumar는 GPT-2가 Open에 의해 묘사된 위협을 제기할 수 있는 능력을 가지고 있다는 증거가 없다고 말했습니다.AI, 그리고 그들이 한 일은 "열린 것의 반대"였고, 그들이 풀 모델 출시를 거부한 것을 "악의적인 [25]BS"로 특징 지었습니다.그래디언트는 오픈에게 보내는 공개 편지를 발행했습니다.AI는 모델을 공개적으로 공개할 것을 요청하고, 텍스트 생성 AI가 주는 위협을 인쇄기가 주는 위협과 비교하며, 포토샵을 "혼돈의 가능성이 있음에도 불구하고 (감사하게도) 현대 사회를 파괴하지 않은 기술"[26]의 예로 들었습니다.
30년이 지난 지금, 포토샵은 고등학생들이 사용하기에 충분히 간단하고, 그 자체의 동사를 명령할 수 있을 정도로 어디에나 있음에도 불구하고 사회는 비교적 상처가 없는 상태로 나타났습니다. 왜일까요?포토샵에 [26]대해 모두가 알고 있기 때문입니다.
774M 출고
열려있는 동안AI는 완전히 훈련된 모델이나 훈련을 받은 회사를 공개하지 않았고, 이전 출판물에서의 방법에 대한 설명(그리고 기본 기술의 무료 가용성)으로 GPT-2가 다른 사람에 의해 자유 소프트웨어로 복제되는 것을 가능하게 했습니다; 그러한 복제 중 하나인 OpenGPT-2는 2019년 8월에 출시되었습니다.OpenWebText라는 웹 텍스트의 자유 라이선스 버전과 함께 사용할 수 있습니다.OpenGPT-2의 클라우드 컴퓨팅 비용은 약 $50,[27]000으로 책정되었습니다.
2019년 8월 20일 오픈AI는 GPT-2의 부분 버전을 출시했는데, 7억 7천 4백만 개의 파라미터(전체 15억 개의 파라미터 [7]모델 크기의 약 절반)를 가지고 있습니다.
전체 1.5B 릴리즈
GPT-2가 광범위한 오용이 될 것이라는 초기의 우려는 받아들여지지 않았습니다.더 버지는 "AI 기술이 일종의 '인포칼립스'를 초래할 것이라는 주장에 회의적일 이유가 있습니다."라고 말했습니다.우선, 우리는 적은 비용으로 그럴듯한 텍스트를 대량으로 생성할 수 있는 프로그램을 이미 보유하고 있습니다. [28]바로 인간입니다."2019년 11월까지 오픈AI는 "지금까지 강력한 오용 증거를 보지 못했다"고 밝혔고,[4][5] 15억 개의 매개 변수를 가진 풀 버전은 2019년 11월 5일에 출시되었습니다.
한계
자연어 텍스트의 그럴듯한 구절을 생성하는 GPT-2의 능력은 일반적으로 긍정적으로 언급되었지만, 특히 두 문단보다 더 긴 텍스트를 생성할 때 그것의 단점도 지적되었습니다. 복스는 "산문은 꽤 거칠고 때때로 비평적이지 않으며,[22] 기사가 길어질수록 일관성이 떨어집니다."라고 말했습니다.더 버지는 GPT-2 글쓰기의 긴 샘플이 "주제를 멀리하는" 경향이 있고 전반적인 [21]일관성이 결여되어 있다고 비슷하게 지적했습니다.레지스터는 "그것을 읽는 인간은 잠시 후에 뭔가 이상하다는 것을 깨달아야 한다"고 의견을 냈고, "[18]GPT-2는 정보를 추출하고 검색하기 위해 알고리즘에 의존하는 다른 시스템뿐만 아니라 질문에 대답하지 않는다"고 언급했습니다.
GPT-2 배포는 리소스 집약적이며, 모델의 전체 버전은 5기가바이트 이상으로 애플리케이션에 로컬로 내장하기가 어렵고 많은 양의 RAM을 사용합니다.또한 단일 예측을 수행하면 "100% 활용률로 CPU를 몇 분 동안 차지할 수 있다"며 GPU 처리를 수행하더라도 "단일 예측에 몇 [11]초가 걸릴 수 있다"고 말합니다.이러한 문제를 완화하기 위해 허깅 페이스는 지식 증류법을 사용하여 "일부 품질 벤치마크에서 점수가 몇 점 낮지만" "33% 더 작고 두 배 더 빠른"[11] 더 작은 모델을 생산하는 DistilGPT2를 만들었습니다.
적용 및 후속 연구
GPT-2는 풀 버전 출시 전부터 다양한 응용 프로그램과 서비스, 엔터테인먼트 용도로 사용되었습니다.2019년 6월 r/SubSimulatorGPT2라는 이름의 하위 레딧이 생성되었는데, 이는 서로 다른 하위 레딧에서 훈련된 다양한 GPT-2 인스턴스가 게시물을 만들고 서로의 의견에 응답하여 "r/비트코인의 AI 의인화가 r/ShittyFoodPorn의 머신러닝에서 파생된 정신과 논쟁하는 [28]것"을 관찰할 수 있는 상황을 만들었습니다.다양한 프로그래밍 언어로 코드 라인을 자동 완성하기 위해 출시된 GPT-2 기반 소프트웨어 프로그램은 사용자들에 의해 "게임 체인저"[29]로 묘사되었습니다.
2019년에는 GPT-2를 사용하여 사용자 [30]입력을 기반으로 동적인 텍스트 모험을 생성하는 AI 던전이 출시되었습니다.AI Dungeon은 이제 GPT-3 API의 최대 릴리스에 옵션 유료 업그레이드로 액세스할 수 있으며, 이 사이트의 무료 버전은 GPT-3의 [31]두 번째로 큰 릴리스를 사용합니다. AI Dungeon을 중심으로 구성된 회사 Latitude는 [32]2021년에 시드 펀딩으로 330만 달러를 모았습니다.여러 웹 사이트에서 GPT-2 및 기타 변압기 [33][34][35]모델의 다양한 인스턴스에 대한 대화형 시연을 제공합니다.
2021년 2월, 문제 청소년을 위한 위기 센터는 GPT-2 파생 챗봇을 사용하여 모의 청소년과 대화할 수 있도록 함으로써 상담사를 훈련시키는 데 도움을 주기 시작할 것이라고 발표했습니다(이 사용은 순전히 내부적인 목적이었고, GPT-2가 청소년과 [36]소통하는 것을 포함하지 않았습니다).
2023년 5월 9일 오픈AI, GPT-2 지도 공개 오픈인공지능은 후속 모델인 GPT-4를 사용하여 GPT-2의 각 뉴런을 매핑하여 [37]기능을 결정했습니다.
성과평가
GPT-2는 데이터 세트와 기술의 폭이 넓어 단순한 텍스트 제작을 넘어 다양한 작업을 수행할 수 있게 되었습니다. 질문에 답하고 요약하며,[21][22] 심지어는 순서대로 다음 단어를 예측하는 방법 외에 어떤 지시도 받지 않고 다양한 특정 도메인의 언어 간 번역까지 가능해졌습니다.
일반화된 학습의 한 예는 프랑스어와 영어 사이의 기계 번역을 수행하는 GPT-2의 능력이며, 이에 대해 WMT-14 번역 작업을 사용하여 GPT-2의 성능을 평가했습니다.GPT-2의 교육 말뭉치는 사실상 프랑스어 텍스트를 포함하지 않았습니다. 교육 전에 데이터 세트를 청소하는 동안 영어가 아닌 텍스트가 의도적으로 제거되었으며, 그 결과 모델이 학습할 수 있는 나머지 40,000MB 중 10MB의 프랑스어만 사용할 수 있었습니다(대부분 영어 게시물 및 [3]기사의 외국어 인용문에서).
그럼에도 불구하고, GPT-2는 WMT-14 영어-프랑스어 테스트 세트에서 5 BLEU를 달성했습니다.또한 GPT-2가 11.5 BLEU를 달성한 프랑스어-영어 테스트 세트에서 여러 개의 현대(2017) 비감독 기계 번역 기준선을 능가할 수 있었습니다.이는 33.[3]5 BLEU를 달성한 최고 성능의 현대 비지도 접근 방식(2019)보다 낮은 수준에 머물렀습니다.그러나 다른 모델은 이러한 결과를 얻기 위해 많은 양의 프랑스어 텍스트를 사용했습니다. GPT-2는 유사한 접근 [3]방식의 약 1/500 크기의 단일 언어 프랑스어 말뭉치를 사용한 것으로 추정되었습니다.
건축물 | 매개변수 수 | 교육 자료 | |
---|---|---|---|
GPT-1 | 12레벨, 12헤드 트랜스포머 디코더 (엔코더 없음), 그 뒤에 선형 소프트맥스가 있습니다. | 1,200억 | BookCorpus:[38] 다양한 장르의 미출간 도서 7000여권 중 4.5GB의 텍스트 |
GPT-2 | GPT-1(수정된 정규화 포함) | 15억 | 웹 텍스트: 레딧에서 투표한 4,500만 개의 웹 페이지에서 40GB의 텍스트, 800만 개의 문서. |
GPT-3 | GPT-2, 그러나 더 큰 확장이 가능하도록 수정되었습니다. | 1750억 | 570GB 평문, 0.4조 토큰대부분 일반적인 크롤, 웹텍스트, 영어 위키백과, 두 권의 책 말뭉치 (Books1, Books2). |
GPT-2는 2020년에[40] 대중에게 공개된 1750억 개의 매개 변수 [39]GPT-3이 뒤따를 예정이었습니다.GPT-3에 대한 접근은 오픈에서 제공하는 API를 통해 독점적으로 제공됩니다.인공지능과 마이크로소프트.[41]그것은 나중에 GPT-4로 이어졌습니다.
참고문헌
- ^ "gpt-2". GitHub. Archived from the original on 11 March 2023. Retrieved 13 March 2023.
- ^ Zhu, Yukun; Kiros, Ryan; Zemel, Richard; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (22 June 2015). "Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books". arXiv:1506.06724 [cs.CV].
# of books: 11,038 / # of sentences: 74,004,228 / # of words: 984,846,357 / mean # of words per sentence: 13 / median # of words per sentence: 11
- ^ a b c d e f g Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 February 2019). "Language models are unsupervised multitask learners" (PDF). 1 (8). Archived (PDF) from the original on 6 February 2021. Retrieved 19 December 2020.
{{cite journal}}
:저널 요구사항 인용journal=
(도움말) - ^ a b Vincent, James (7 November 2019). "OpenAI has published the text-generating AI it said was too dangerous to share". The Verge. Archived from the original on 11 June 2020. Retrieved 19 December 2020.
- ^ a b "GPT-2: 1.5B Release". OpenAI. 2019-11-05. Archived from the original on 2019-11-14. Retrieved 2019-11-14.
- ^ Piper, Kelsey (15 May 2019). "A poetry-writing AI has just been unveiled. It's ... pretty good". Vox. Archived from the original on 7 November 2020. Retrieved 19 December 2020.
- ^ a b Johnson, Khari (20 August 2019). "OpenAI releases curtailed version of GPT-2 language model". VentureBeat. Archived from the original on 18 December 2020. Retrieved 19 December 2020.
- ^ a b "Better Language Models and Their Implications". OpenAI. 14 February 2019. Archived from the original on 19 December 2020. Retrieved 19 December 2020.
- ^ a b c Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. p. 12. Archived (PDF) from the original on 26 January 2021. Retrieved 23 January 2021.
- ^ a b Hegde, Chaitra; Patil, Shrikumar (9 June 2020). "Unsupervised Paraphrase Generation using Pre-trained Language Models". arXiv:2006.05477 [cs.CL].
- ^ a b c Kaiser, Caleb (31 January 2020). "Too big to deploy: How GPT-2 is breaking servers". Towards Data Science. Archived from the original on 15 February 2020. Retrieved 27 February 2021.
- ^ a b c d e Hern, Alex (14 February 2019). "New AI fake text generator may be too dangerous to release, say creators". The Guardian. Archived from the original on 14 February 2019. Retrieved 19 December 2020.
- ^ Polosukhin, Illia; Kaiser, Lukasz; Gomez, Aidan N.; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish (2017-06-12). "Attention Is All You Need". arXiv:1706.03762 [cs.CL].
- ^ Olah, Chris; Carter, Shan (8 September 2016). "Attention and Augmented Recurrent Neural Networks". Distill. 1 (9). doi:10.23915/distill.00001. Archived from the original on 22 December 2020. Retrieved 22 January 2021.
- ^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 September 2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL].
- ^ Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (17 August 2015). "Effective Approaches to Attention-based Neural Machine Translation". arXiv:1508.04025 [cs.CL].
- ^ a b Trinh, Trieu H.; Le, Quoc V. (7 Jun 2018). "A Simple Method for Commonsense Reasoning". arXiv:1806.02847 [cs.CL].
- ^ a b Quach, Katyanna (14 February 2019). "Roses are red, this is sublime: We fed OpenAI's latest chat bot a classic Reg headline". The Register. Archived from the original on 9 March 2021. Retrieved 27 February 2021.
- ^ a b "The Staggering Cost of Training SOTA AI Models". Synced. 27 June 2019. Archived from the original on 24 November 2020. Retrieved 27 February 2021.
- ^ Wiggers, Kyle (23 March 2020). "Google open-sources framework that reduces AI training costs by up to 80%". VentureBeat. Archived from the original on 26 November 2020. Retrieved 27 February 2021.
- ^ a b c d e f Vincent, James (14 February 2019). "OpenAI's new multitalented AI writes, translates, and slanders". The Verge. Archived from the original on 18 December 2020. Retrieved 19 December 2020.
- ^ a b c Piper, Kelsey (14 February 2019). "An AI helped us write this article". Vox. Archived from the original on 8 November 2020. Retrieved 19 December 2020.
- ^ Köbis, Nils; Mossink, Luca D. (1 January 2021). "Artificial intelligence versus Maya Angelou: Experimental evidence that people cannot differentiate AI-generated from human-written poetry". Computers in Human Behavior. 114: 106553. doi:10.1016/j.chb.2020.106553. hdl:21.11116/0000-0007-13E5-1.
- ^ Schwartz, Oscar (4 July 2019). "Could 'fake text' be the next global political threat?". The Guardian. Archived from the original on 16 July 2019. Retrieved 16 July 2019.
- ^ a b Vincent, James (21 February 2019). "AI researchers debate the ethics of sharing potentially harmful programs". The Verge. Archived from the original on 9 February 2021. Retrieved 27 February 2021.
- ^ a b Zhang, Hugh (19 February 2019). "OpenAI: Please Open Source Your Language Model". The Gradient. Archived from the original on 28 January 2021. Retrieved 28 February 2021.
- ^ Gokaslan, Aaron; Cohen, Vanya; Pavlick, Ellie; Tellex, Stefanie (22 August 2019). "OpenGPT-2: We Replicated GPT-2 Because You Can Too". Noteworthy. Archived from the original on 29 April 2023. Retrieved 27 February 2021.
- ^ a b Vincent, James (6 June 2019). "There's a subreddit populated entirely by AI personifications of other subreddits". The Verge. Archived from the original on 21 February 2021. Retrieved 27 February 2021.
- ^ Vincent, James (24 July 2019). "This AI-powered autocompletion software is Gmail's Smart Compose for coders". The Verge. Archived from the original on 9 March 2021. Retrieved 27 February 2021.
- ^ Olson, Mathew (17 December 2019). "AI Dungeon 2, the Text Adventure Where You Can do Nearly Anything, Is Now on Mobile". Archived from the original on 20 September 2020. Retrieved 27 February 2021.
- ^ Nelius, Joanna (3 August 2020). "This AI-Powered Choose-Your-Own-Adventure Text Game Is Super Fun and Makes No Sense". Gizmodo. Archived from the original on 28 February 2021. Retrieved 27 February 2021.
- ^ Ha, Anthony (4 February 2021). "AI Dungeon-maker Latitude raises $3.3M to build games with 'infinite' story possibilities". TechCrunch. Archived from the original on 21 February 2021. Retrieved 27 February 2021.
- ^ "Write With Transformer". Archived from the original on December 4, 2019. Retrieved December 4, 2019.
- ^ "Talk to Transformer". Archived from the original on December 4, 2019. Retrieved December 4, 2019.
- ^ "CreativeEngines". Archived from the original on February 3, 2023. Retrieved June 25, 2021.
- ^ Ohlheiser, Abby; Hao, Karen (26 February 2021). "An AI is training counselors to deal with teens in crisis". MIT Technology Review. Archived from the original on 27 February 2021. Retrieved 27 February 2021.
- ^ "Language models can explain neurons in language models". OpenAI. Retrieved 13 May 2023.
- ^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). "Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books": 19–27. arXiv:1506.06724. Archived from the original on 2023-02-05. Retrieved 2023-02-05.
{{cite journal}}
:저널 요구사항 인용journal=
(도움말) - ^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (July 22, 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL].
- ^ Arram (July 9, 2020). "GPT-3: An AI that's eerily good at writing almost anything". Arram Sabeti. Archived from the original on July 20, 2020. Retrieved July 31, 2020.
- ^ Hao, Karen (September 23, 2020). "OpenAI is giving Microsoft exclusive access to its GPT-3 language model". MIT Technology Review. Archived from the original on 2021-02-05. Retrieved 2020-09-25.
The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI's other models and receive its output. Only Microsoft, however, will have access to GPT-3's underlying code, allowing it to embed, repurpose, and modify the model as it pleases.