사전 교육을 받은 생성형 변압기

Generative pre-trained transformer
원본 GPT 모델

생성 사전 훈련된 변압기(GPT)는 대형 언어 모델(LLM)[1][2][3]의 한 유형이며 생성 인공 [4][5]지능을 위한 중요한 프레임워크입니다.이 개념과 최초의 그러한 모델은 2018년 미국 인공지능 단체 OpenAI[6]의해 소개되었습니다. OpenAI OpenAI OpenAIGPT 모델은 변압기 아키텍처를 기반으로 하는 인공 신경망으로, 레이블이 지정되지 않은 텍스트의 대규모 데이터 세트에 대해 사전 교육을 받았으며 새로운 인간과 [2][3]유사한 콘텐츠를 생성할 수 있습니다.2023년 현재 대부분의 LLM은 이러한 특성을[7] 가지고 있으며,[8] GPT로 널리 지칭되기도 합니다.

OpenAI는 "GPT-n" 시리즈를 [9]구성하기 위해 순차적으로 번호가 매겨진 매우 영향력 있는 GPT 기초 모델을 출시했습니다.이들 각각은 크기(훈련 가능한 매개 변수의 수)와 훈련으로 인해 이전보다 훨씬 더 능력이 뛰어났습니다.가장 최근의 GPT-4는 2023년 3월에 출시되었습니다.이러한 모델은 다음과 같은 지침에 맞게 미세 조정된 모델을 포함하여 작업별 GPT 시스템의 기초가 되었으며, 이는 다시 ChatGPT 챗봇 [1]서비스에 동력을 공급합니다. ChatGPT ChatGPT ChatGPT

"GPT"라는 용어는 다른 사람들이 개발한 모델의 이름 및/또는 설명에도 종종 사용됩니다.예를 들어, 다른 GPT 기초 모델에는 Euther에 의해 만들어진 일련의 GPT-3 영감 모델이 포함됩니다.AI,[10] 그리고 최근 세레브라스가 [11]만든 7개의 모델 시리즈.또한 Salesforce의 "Einstein GPT"(CRM용),[12] Bloomberg GPT(금융용)[13]같은 각 분야의 업무별 GPT도 개발했습니다.

역사

생성적 사전 훈련(GP)은 머신 러닝 [14][15]애플리케이션에서 오랫동안 확립된 개념이었지만,[16] 변압기 아키텍처는 구글이 발명한 2017년까지 사용할 수 없었습니다.그 발전은 2018년[17] BERT와 2019년 [18]XLNet과 같은 대형 언어 모델의 출현으로 이어졌는데, 이 모델은 사전 훈련된 변환기(PT)였지만 생성되도록 설계되지 않았습니다("인코더 전용").[19]또한 그 무렵인 2018년, OpenAI는 "Generative Pre-Training을 통한 언어 이해 향상"이라는 제목의 기사를 발표하여 최초의 생성 사전 OpenAI 변압기(GPT) 시스템 OpenAI OpenAI을 도입했습니다.

변압기 기반 아키텍처 이전에 최고 성능의 신경 NLP(자연어 처리) 모델은 일반적으로 수동으로 레이블이 지정된 대량의 데이터로부터 지도 학습을 사용했습니다.지도 학습에 대한 의존성은 주석이 잘 달리지 않은 데이터 세트에 대한 사용을 제한했고, 또한 매우 큰 언어 [20]모델을 훈련하는 것이 엄청나게 비싸고 시간이 많이 소요되었습니다.

OpenAI는 대규모 생성 시스템을 만들기 위해 채용되었으며 변압기 모델을 최초로 사용한 준감독 접근 방식으로 언어 모델링 목표를 사용하여 초기 매개 변수를 설정하는 비감독 생성 "사전 훈련" 단계인 OpenAI의 두 단계를 포함합니다.그리고 이러한 매개 변수를 대상 [20]작업에 적용하기 위해 감독된 차별적인 "미세 조정" 단계.

기본 모델

기본 모델은 광범위한 다운스트림 [21]작업에 적응할 수 있도록 광범위한 데이터에 대해 훈련된 AI 모델입니다.

지금까지 가장 주목할 만한 GPT 기반 모델은 OpenAIGPT-n 시리즈입니다. OpenAI OpenAI OpenAI그 중 가장 최근의 은 GPT-4로, OpenAI는 규모나 교육 세부 사항(특히 "대규모 [22]모델의 경쟁 환경 및 안전 영향")의 공개를 거부했습니다. OpenAI

OpenAI의 GPT-n 시리즈
모델 건축 파라미터수 교육자료 발매일 교육비
GPT-1 12-레벨, 12-헤드 트랜스포머 디코더(인코더 없음), 선형 소프트맥스 순입니다. 1억 1천 7백만 BookCorpus:[23] 다양한 장르의 미발표 7000권의 텍스트 4.5GB 2018년 6월 11일[6] "8개 GPU에서 1개월"[6] 또는 1.7e19 FLOP.[24]
GPT-2 GPT-1, 그러나 수정된 정규화 포함 15억 웹 텍스트: 40GB의 텍스트, 8백만 개의 문서, 4천 5백만 개의 웹 페이지에서 레딧에 투표했습니다. 2019년 2월 14일(초기/한정 버전)과 2019년 11월 5일(전체 버전)[25] "십 페타플롭/s-day"[26] 또는 1.5e21 FLOP.[24]
GPT-3 GPT-2, 그러나 더 큰 스케일링이 가능하도록 수정됨 1750억 570GB 일반 텍스트, 0.4조 개의 토큰.대부분 CommonCrawl, WebText, 영어 위키백과, 두 권의 책 (Books1 및 Books2). 2020년 5월 28일[26] 3630 페타플롭/s-day(그림 2.2) 또는 3.1e23 FLOP.[24]
GPT-3.5 미공개 1750억 미공개 2022년 3월 15일 미공개
GPT-4 또한 텍스트 예측과 RLHF로 훈련되어 텍스트와 이미지를 모두 입력으로 받아들입니다.자세한 내용은 [22]공개되지 않습니다. ~1조 미공개 2023년 3월 14일 미공개.예상 2.1e25 FLOP.[24]

GPT-3와 비교되고 최근 API를 [27][28]통해 개발자들이 사용할 수 있게 된 광범위한 기반 모델인 Google의 PalLM과 GPT-3의 가장 성능이 좋은 오픈 소스 대안으로 보고된 Together의 GPT-JT가 있습니다(이전의 오픈 소스 [29]GPT에서 파생됨).

기본 GPT는 또한 입력 및/또는 출력을 위해 텍스트 이외의 양식을 사용할 수 있습니다.GPT-4는 텍스트 및 이미지 입력을 처리할 수 있는 다중 모드 LLM입니다(출력이 [30]텍스트로 제한됨).멀티모달 출력과 관련하여, 일부 생성 변압기 기반 모델은 확산 및 병렬[32] 디코딩과 같은[31] 텍스트-이미지 기술에 사용됩니다.이러한 종류의 모델은 [33]이미지로 작동할 수 있는 다운스트림 시스템을 개발하기 위한 시각적 기초 모델(VFM)의 역할을 할 수 있습니다.

작업별 모델

기본 GPT 모델은 특정 작업 및/또는 주제 영역으로 향하는 더 많은 대상 시스템을 생성하도록 추가로 조정될 수 있습니다.이러한 적응 방법에는 특정 형태의 신속[34]엔지니어링뿐만 아니라 추가적인 미세 조정(기초 모델에 대해 수행된 것 이상)이 포함될 수 있습니다.

2022년 1월, OpenAI는 "Instruct GPT"라는 일련의 모델을 선보였는데, 이는 감독 교육과 인간의 여성 OpenAI(기본 GPT-3 언어 [35][36]모델에 대한 OpenAI)로부터 재OpenAI 학습을 결합하여 사용하여 지침을 따르도록 미세 조정된 모델입니다.기본 모델보다 더 높은 정확도, 덜 부정적인/독성적인 정서, 그리고 일반적으로 사용자 요구에 더 잘 부합하는 것이 장점이었습니다.따라서 OpenAI는 이를 API 서비스 [37]오퍼링의 기반으로 사용하기 시작했습니다.

2022년 11월, OpenAI는 인스트럭트 [38]GPT와 유사한 방식으로 훈련된 명령어 학습 언어 모델에 의해 구동되는 온라인 채팅 인터페이스인 ChatGPT를 출시했습니다. ChatGPT ChatGPT ChatGPT그들은 인간 AI 트레이너가 사용자와 AI를 모두 재생하는 대화를 제공하는 RLHF를 사용하여 이 모델을 훈련하고 챗봇에 적합한 대화 형식을 위해 이 새로운 대화 데이터 세트를 InstructGPT 데이터 세트와 혼합했습니다.

다른 주요 챗봇은 현재 OpenAI의 GPT-4(OpenAI와 Microsoft [39]간의 광범위한 긴밀한 협업의 일부)를 사용하는 Microsoft의 Bing Chat과 Google의 경쟁 챗봇 Bard(PaLM [40]OpenAI OpenAI로 전환할 계획인 LaMDA 계열의 대화 훈련 언어 모델을 기반으로 함)를 포함합니다.

다중 모달리티

생성적 변압기 기반 시스템은 또한 텍스트 이외의 양식을 포함하는 작업을 대상으로 할 수 있습니다.

예를 들어 Microsoft의 "Visual ChatGPT"는 ChatGPT를 VFM(Visual Foundation Model)과 결합하여 [41]텍스트뿐만 아니라 이미지로 구성된 입력 또는 출력을 가능하게 합니다. ChatGPT ChatGPT또한, 텍스트 음성 변환 기술의 발전은 기본 GPT [42]언어 모델과 함께 사용될 때 오디오 콘텐츠 생성을 위한 강력한 도구를 제공합니다.

도메인별 특성

GPT 시스템은 특정 필드 또는 도메인을 지향할 수 있습니다.이러한 모델 및 앱의 보고된 일부 예는 다음과 같습니다.

  • Einstein GPT - 영업 및 마케팅 영역용, 고객 관계 관리 지원(GPT-3.[43]5 사용)
  • Bloomberg GPT - 금융 뉴스 및 정보를 지원하기 위한 금융 도메인용(소유 [44]데이터와 결합된 "무료로 이용 가능한" AI 방법 사용)
  • Khanmigo – 교육 영역에서 과외를 위한 GPT 버전으로 설명되며, Khan Academy를 사용하는 학생들이 직접 답을 제공하지 않고 학업을 안내함으로써 도움을 줍니다(GPT-4[45][46]구동).
  • Slack GPT - Slack 인스턴트 메시징 서비스에 대한 탐색 및 요약 토론을 지원합니다(OpenAI의 [47]API 사용). OpenAI OpenAI OpenAI OpenAI
  • 바이오GPT - 바이오메디컬 도메인용, 바이오메디컬 문헌 텍스트 생성 및 마이닝 지원(GPT-2 [48]사용)

때때로 소프트웨어 플러그인 또는 추가 기능을 통해 도메인별로 특수성을 달성할 수 있습니다.예를 들어, 여러 회사에서 OpenAI의 ChatGPT [49][50]인터페이스와 직접 상호 작용하는 특정 플러그인을 개발했으며, Google Workspace에는 스프레드시트 기능 ChatGPTn Google [51][52]Sheets를 사용하는 데 도움이 되는 "GPT for Sheets and Docs"와 같은 추가 기능이 있습니다. ChatGPT ChatGPT

선정도서 목록

이 섹션에는 GPT 모델에 대한 OpenAI 및 마이크로소프트의 주요 공식 문서가 나열되어 있습니다.

GPT-1:[6] 보고서, GitHub 공개.[53]

GPT-2: 블로그 발표,[54] "단계별 출시"[55] 결정 보고, 깃허브 [56]출시

GPT-3: 보고.[26]이후 GitHub 또는 다른 형태의 코드 릴리스는 없습니다.

GPT: 블로그 공지,[35] 보고서를 [36]지시합니다.

ChatGPT: 블로그 공지사항(보고서 [38]없음).

GPT-4: 블로그 발표,[57] 보고서,[58][59] 모델 [60]카드

레퍼런스

  1. ^ a b Haddad, Mohammed. "How does GPT-4 work and how can you start using it in ChatGPT?". www.aljazeera.com.
  2. ^ a b "Generative AI: a game-changer society needs to be ready for". World Economic Forum.
  3. ^ a b "The A to Z of Artificial Intelligence". Time. April 13, 2023.
  4. ^ Hu, Luhui (November 15, 2022). "Generative AI and Future". Medium.
  5. ^ "CSDL IEEE Computer Society". www.computer.org.
  6. ^ a b c d "Improving language understanding with unsupervised learning". openai.com. Archived from the original on 2023-03-18. Retrieved 2023-03-18.
  7. ^ Toews, Rob. "The Next Generation Of Large Language Models". Forbes.
  8. ^ Mckendrick, Joe (March 13, 2023). "Most Jobs Soon To Be 'Influenced' By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests". Forbes.
  9. ^ https://www.makeuseof.com/gpt-models-explained-and-compared/
  10. ^ "EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J".
  11. ^ "News" (Press release).
  12. ^ Morrison, Ryan (7 March 2023). "Salesforce launches EinsteinGPT built with OpenAI technology". Tech Monitor.
  13. ^ "The ChatGPT of Finance is Here, Bloomberg is Combining AI and Fintech". Forbes.
  14. ^ http://cs224d.stanford.edu/papers/maas_paper.pdf
  15. ^ https://www.cambridge.org/core/journals/apsipa-transactions-on-signal-and-information-processing/article/tutorial-survey-of-architectures-algorithms-and-applications-for-deep-learning/023B6ADF962FA37F8EC684B209E3DFAE
  16. ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (December 5, 2017). "Attention Is All You Need". arXiv:1706.03762 – via arXiv.org. {{cite journal}}:저널 요구 사항 인용 journal=(도움말)
  17. ^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (May 24, 2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 – via arXiv.org. {{cite journal}}:저널 요구 사항 인용 journal=(도움말)
  18. ^ https://proceedings.neurips.cc/paper_files/paper/2019/file/dc6a7e655d7e5840e66733e9ee67cc69-Paper.pdf
  19. ^ Naik, Amit Raja (September 23, 2021). "Google Introduces New Architecture To Reduce Cost Of Transformers". Analytics India Magazine.
  20. ^ a b c Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. p. 12. Archived (PDF) from the original on 26 January 2021. Retrieved 23 January 2021.
  21. ^ "Introducing the Center for Research on Foundation Models (CRFM)". Stanford HAI.
  22. ^ a b OpenAI (2023). "GPT-4 Technical Report" (PDF). Archived (PDF) from the original on 2023-03-14. Retrieved 2023-03-16.
  23. ^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. IEEE International Conference on Computer Vision (ICCV) 2015. pp. 19–27. arXiv:1506.06724. Archived from the original on 2023-02-05. Retrieved 2023-02-07.
  24. ^ a b c d "ML input trends visualization". Epoch. Retrieved 2023-05-02.
  25. ^ Vincent, James (November 7, 2019). "OpenAI has published the text-generating AI it said was too dangerous to share". The Verge.
  26. ^ a b c d Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (May 28, 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165v4 – via arXiv.org. {{cite journal}}:저널 요구 사항 인용 journal=(도움말)
  27. ^ Vincent, James (March 14, 2023). "Google opens up its AI language model PaLM to challenge OpenAI and GPT-3". The Verge.
  28. ^ "Google Opens Access to PaLM Language Model".
  29. ^ Iyer, Aparna (November 30, 2022). "Meet GPT-JT, the Closest Open Source Alternative to GPT-3". Analytics India Magazine.
  30. ^ https://www.marktechpost.com/2023/03/27/multimodal-language-models-the-future-of-artificial-intelligence-ai/
  31. ^ https://www.marktechpost.com/2022/11/14/how-do-dall%C2%B7e-2-stable-diffusion-and-midjourney-work/
  32. ^ https://analyticsindiamag.com/google-launches-muse-a-new-text-to-image-transformer-model/
  33. ^ https://arxiv.org/pdf/2303.04671.pdf
  34. ^ https://arxiv.org/pdf/2108.07258.pdf%20
  35. ^ a b "Aligning language models to follow instructions". openai.com. Archived from the original on 23 March 2023. Retrieved 23 March 2023.
  36. ^ a b Ouyang, Long; Wu, Jeff; Jiang, Xu; et al. (4 March 2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155. {{cite journal}}:저널 요구 사항 인용 journal=(도움말)
  37. ^ Ramnani, Meeta (January 28, 2022). "OpenAI dumps its own GPT-3 for something called InstructGPT, and for right reason". Analytics India Magazine.
  38. ^ a b "Introducing ChatGPT". openai.com. Archived from the original on 2023-03-16. Retrieved 2023-03-16.
  39. ^ https://techcrunch.com/2023/05/04/microsoft-doubles-down-on-ai-with-new-bing-features/
  40. ^ "ChatGPT vs. Bing vs. Google Bard: Which AI Is the Most Helpful?". CNET.
  41. ^ https://www.infoq.com/news/2023/04/microsoft-visual-chatgpt/
  42. ^ https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/
  43. ^ https://techmonitor.ai/technology/ai-and-automation/salesforce-einsteingpt-openai-chatgpt
  44. ^ https://www.cnbc.com/2023/04/13/bloomberg-plans-to-integrate-gpt-style-ai-into-its-terminal.html
  45. ^ https://www.fastcompany.com/90891522/the-learning-nonprofit-khan-academy-piloting-a-version-of-gpt-called-khanmigo
  46. ^ https://thejournal.com/articles/2023/03/14/khan-academy-pilots-gpt-4-powered-tool-khanmigo-for-teachers.aspx
  47. ^ https://www.pcworld.com/article/1807402/slack-gpt-will-bring-ai-chatbots-to-your-conversations.html
  48. ^ https://arxiv.org/pdf/2210.10341.pdf
  49. ^ https://wire19.com/chatgpt-plugins/
  50. ^ https://openai.com/blog/chatgpt-plugins
  51. ^ https://www.makeuseof.com/how-use-chatgpt-google-sheets/
  52. ^ https://www.infoworld.com/article/3689175/embrace-and-extend-excel-for-ai-data-prep.html
  53. ^ finetune-transformer-lm, OpenAI, 2023-05-01, retrieved 2023-05-01
  54. ^ "GPT-2: 1.5B release". openai.com. Retrieved 2023-05-01.
  55. ^ Solaiman, Irene; Brundage, Miles; Clark, Jack; Askell, Amanda; Herbert-Voss, Ariel; Wu, Jeff; Radford, Alec; Krueger, Gretchen; Kim, Jong Wook; Kreps, Sarah; McCain, Miles; Newhouse, Alex; Blazakis, Jason; McGuffie, Kris; Wang, Jasmine (2019-11-12). "Release Strategies and the Social Impacts of Language Models". arXiv:1908.09203 [cs].
  56. ^ gpt-2, OpenAI, 2023-05-01, retrieved 2023-05-01
  57. ^ "GPT-4". openai.com. Retrieved 2023-05-01.
  58. ^ OpenAI (2023-03-27). "GPT-4 Technical Report". arXiv:2303.08774 [cs].
  59. ^ Bubeck, Sébastien; Chandrasekaran, Varun; Eldan, Ronen; Gehrke, Johannes; Horvitz, Eric; Kamar, Ece; Lee, Peter; Lee, Yin Tat; Li, Yuanzhi; Lundberg, Scott; Nori, Harsha; Palangi, Hamid; Ribeiro, Marco Tulio; Zhang, Yi (2023-04-13). "Sparks of Artificial General Intelligence: Early experiments with GPT-4". arXiv:2303.12712 [cs].
  60. ^ GPT-4 시스템 카드, OpenAI, 2023년 3월 23일 OpenAI