손바닥

PaLM

PaLM(경로 언어 모델)은 구글 [1]AI가 개발한 5400억 매개 변수 변압기 기반의 대형 언어 모델입니다.연구원들은 또한 모델 [2]규모의 효과를 테스트하기 위해 80억 및 620억 매개 변수 모델의 작은 버전의 PaLM을 훈련시켰습니다.

PalLM은 상식 추론, 산술 추론, 농담 설명, 코드 생성 및 [2][3][4][5]번역을 포함한 광범위한 작업을 수행할 수 있습니다.PaLM은 생각의 사슬 프롬프트와 결합하여 단어 문제 및 논리 기반 [1][2]질문과 같은 여러 단계의 추론이 필요한 데이터 세트에서 훨씬 더 나은 성능을 달성했습니다.

이 모델은 2022년 4월에 처음 발표되었으며 Google이 PaLM 및 기타 여러 [6]기술에 대한 API를 출시한 2023년 3월까지 비공개로 유지되었습니다.API는 먼저 [7]일반에 공개되기 전에 대기자 목록에 참여하는 제한된 수의 개발자가 사용할 수 있습니다.

Google과 DeepMind는 의료 데이터에 미세 조정되고 의료 질문 답변 [8][9]벤치마크에서 이전 모델을 능가하는 Med-PaLM이라는 PaLM 540B 버전을 개발했습니다.Med-PaLM은 미국 의료 면허 문제에서 가장 먼저 합격 점수를 획득했으며, 객관식과 개방형 질문에 모두 정확하게 답할 뿐만 아니라 추론을 제공하고 [10]자체 반응을 평가할 수 있습니다.

Google은 또한 비전 변압기를 사용하여 PaLM을 확장하여 로봇 [11][12]조작에 사용할 수 있는 최첨단 비전 언어 모델인 PaLM-E를 만들었습니다.이 모델은 재교육이나 미세 [13]조정 없이 로봇 공학 작업을 경쟁적으로 수행할 수 있습니다.

2023년 5월, Google은 연례 Google I/O [14]기조연설에서 PaLM 2를 발표했습니다.PaLM 2는 3조 6천억 [15]개의 토큰에 대해 훈련된 3,400억 개의 매개 변수 모델로 보고되었습니다.

교육

PalLM은 다양한 자연어 작업 및 사용 사례로 구성된 7,800억 개의 토큰의 고품질 코퍼스에 대해 사전 교육을 받았습니다.이 데이터 세트에는 필터링된 웹 페이지, , Wikipedia 기사, 뉴스 기사, GitHub의 오픈 소스 저장소에서 얻은 소스 코드 및 소셜 미디어 [1][2]대화가 포함됩니다.Google의 LaMDA [2]모델을 교육하는 데 사용된 데이터 세트를 기반으로 합니다.데이터 세트의 소셜 미디어 대화 부분은 말뭉치의 50%를 차지하며, 이는 모델의 대화 [2]기능을 지원합니다.

PaLM 540B는 2개의 TPU v4 포드를 통해 교육을 받았으며, 각 포드에는 3,072개의 TPU v4 칩이 768개의 호스트에 연결되어 있으며, 모델과 데이터 병렬성의 조합을 사용하여 연결되었으며,[2][16] 이는 현재까지 설명된 TPU 구성 중 가장 큰 것입니다.이를 통해 6,144개의 칩을 사용하여 규모에 맞게 효율적으로 교육할 수 있었으며, 이 규모에서 LLM에 대해 달성한 최고의 교육 효율성 기록인 하드웨어 FLOP 활용률 57.8%[3]를 기록했습니다.

참고 항목

레퍼런스

  1. ^ a b c Narang, Sharan; Chowdhery, Aakanksha. "Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance". ai.googleblog.com. Retrieved 17 March 2023.
  2. ^ a b c d e f g Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; et al. (2022). "PaLM: Scaling Language Modeling with Pathways". arXiv:2204.02311 [cs.CL].
  3. ^ a b Anadiotis, George (12 April 2022). "Google sets the bar for AI language models with PaLM". VentureBeat. Retrieved 17 March 2023.
  4. ^ Bastian, Matthias (5 April 2022). "Google PaLM: Giant language AI can explain jokes". THE DECODER. Retrieved 17 March 2023.
  5. ^ "Google: Why Is No One Talking About PaLM (NASDAQ:GOOG) Seeking Alpha". seekingalpha.com. 12 December 2022. Retrieved 17 March 2023.
  6. ^ Vincent, James (14 March 2023). "Google opens up its AI language model PaLM to challenge OpenAI and GPT-3". The Verge. Retrieved 17 March 2023.
  7. ^ Huffman, Scott; Woodward, Josh. "PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications". Retrieved 17 March 2023.
  8. ^ Singhal, Karan; Azizi, Shekoofeh; Tu, Tao; et al. (2022). "Large Language Models Encode Clinical Knowledge". arXiv:2212.13138 [cs.CL].
  9. ^ "MedPaLM: New Chatbots Will Soon Be Better Than Waiting For A Doctor". The Medical Futurist. 17 January 2023. Retrieved 17 March 2023.
  10. ^ Matias, Yossi; Corrado, Greg (14 March 2023). "Our latest health AI research updates". Google. Retrieved 17 March 2023.
  11. ^ Driess, Danny; Xia, Fei; Sajjadi, Mehdi S. M.; et al. (2023). "PaLM-E: An Embodied Multimodal Language Model". arXiv:2303.03378 [cs.LG].
  12. ^ Driess, Danny; Florence, Pete. "PaLM-E: An embodied multimodal language model". ai.googleblog.com. Retrieved 17 March 2023.
  13. ^ Edwards, Benj (7 March 2023). "Google's PaLM-E is a generalist robot brain that takes commands". Ars Technica. Retrieved 17 March 2023.
  14. ^ Lardinois, Frederic (May 10, 2023). "Google launches PaLM 2, its next-gen large language model". TechCrunch. Archived from the original on May 10, 2023. Retrieved May 10, 2023.
  15. ^ Elias, Jennifer (16 May 2023). "Google's newest A.I. model uses nearly five times more text data for training than its predecessor". CNBC. Retrieved 18 May 2023.
  16. ^ "An empirical analysis of compute-optimal large language model training". www.deepmind.com. Retrieved 17 March 2023.