손바닥

PaLM(경로 언어 모델)은 구글 ^[1]AI가 개발한 5400억 매개 변수 변압기 기반의 대형 언어 모델입니다.연구원들은 또한 모델 ^[2]규모의 효과를 테스트하기 위해 80억 및 620억 매개 변수 모델의 작은 버전의 PaLM을 훈련시켰습니다.

PalLM은 상식 추론, 산술 추론, 농담 설명, 코드 생성 및 ^[2]^[3]^[4]^[5]번역을 포함한 광범위한 작업을 수행할 수 있습니다.PaLM은 생각의 사슬 프롬프트와 결합하여 단어 문제 및 논리 기반 ^[1]^[2]질문과 같은 여러 단계의 추론이 필요한 데이터 세트에서 훨씬 더 나은 성능을 달성했습니다.

이 모델은 2022년 4월에 처음 발표되었으며 Google이 PaLM 및 기타 여러 ^[6]기술에 대한 API를 출시한 2023년 3월까지 비공개로 유지되었습니다.API는 먼저 ^[7]일반에 공개되기 전에 대기자 목록에 참여하는 제한된 수의 개발자가 사용할 수 있습니다.

Google과 DeepMind는 의료 데이터에 미세 조정되고 의료 질문 답변 ^[8]^[9]벤치마크에서 이전 모델을 능가하는 Med-PaLM이라는 PaLM 540B 버전을 개발했습니다.Med-PaLM은 미국 의료 면허 문제에서 가장 먼저 합격 점수를 획득했으며, 객관식과 개방형 질문에 모두 정확하게 답할 뿐만 아니라 추론을 제공하고 ^[10]자체 반응을 평가할 수 있습니다.

Google은 또한 비전 변압기를 사용하여 PaLM을 확장하여 로봇 ^[11]^[12]조작에 사용할 수 있는 최첨단 비전 언어 모델인 PaLM-E를 만들었습니다.이 모델은 재교육이나 미세 ^[13]조정 없이 로봇 공학 작업을 경쟁적으로 수행할 수 있습니다.

2023년 5월, Google은 연례 Google I/O ^[14]기조연설에서 PaLM 2를 발표했습니다.PaLM 2는 3조 6천억 ^[15]개의 토큰에 대해 훈련된 3,400억 개의 매개 변수 모델로 보고되었습니다.

교육

PalLM은 다양한 자연어 작업 및 사용 사례로 구성된 7,800억 개의 토큰의 고품질 코퍼스에 대해 사전 교육을 받았습니다.이 데이터 세트에는 필터링된 웹 페이지, 책, Wikipedia 기사, 뉴스 기사, GitHub의 오픈 소스 저장소에서 얻은 소스 코드 및 소셜 미디어 ^[1]^[2]대화가 포함됩니다.Google의 LaMDA ^[2]모델을 교육하는 데 사용된 데이터 세트를 기반으로 합니다.데이터 세트의 소셜 미디어 대화 부분은 말뭉치의 50%를 차지하며, 이는 모델의 대화 ^[2]기능을 지원합니다.

PaLM 540B는 2개의 TPU v4 포드를 통해 교육을 받았으며, 각 포드에는 3,072개의 TPU v4 칩이 768개의 호스트에 연결되어 있으며, 모델과 데이터 병렬성의 조합을 사용하여 연결되었으며,^[2]^[16] 이는 현재까지 설명된 TPU 구성 중 가장 큰 것입니다.이를 통해 6,144개의 칩을 사용하여 규모에 맞게 효율적으로 교육할 수 있었으며, 이 규모에서 LLM에 대해 달성한 최고의 교육 효율성 기록인 하드웨어 FLOP 활용률 57.8%^[3]를 기록했습니다.

참고 항목

레퍼런스

^ ^a ^b ^c Narang, Sharan; Chowdhery, Aakanksha. "Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance". ai.googleblog.com. Retrieved 17 March 2023.
^ ^a ^b ^c ^d ^e ^f ^g Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; et al. (2022). "PaLM: Scaling Language Modeling with Pathways". arXiv:2204.02311 [cs.CL].
^ ^a ^b Anadiotis, George (12 April 2022). "Google sets the bar for AI language models with PaLM". VentureBeat. Retrieved 17 March 2023.
^ Bastian, Matthias (5 April 2022). "Google PaLM: Giant language AI can explain jokes". THE DECODER. Retrieved 17 March 2023.
^ "Google: Why Is No One Talking About PaLM (NASDAQ:GOOG) Seeking Alpha". seekingalpha.com. 12 December 2022. Retrieved 17 March 2023.
^ Vincent, James (14 March 2023). "Google opens up its AI language model PaLM to challenge OpenAI and GPT-3". The Verge. Retrieved 17 March 2023.
^ Huffman, Scott; Woodward, Josh. "PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications". Retrieved 17 March 2023.
^ Singhal, Karan; Azizi, Shekoofeh; Tu, Tao; et al. (2022). "Large Language Models Encode Clinical Knowledge". arXiv:2212.13138 [cs.CL].
^ "MedPaLM: New Chatbots Will Soon Be Better Than Waiting For A Doctor". The Medical Futurist. 17 January 2023. Retrieved 17 March 2023.
^ Matias, Yossi; Corrado, Greg (14 March 2023). "Our latest health AI research updates". Google. Retrieved 17 March 2023.
^ Driess, Danny; Xia, Fei; Sajjadi, Mehdi S. M.; et al. (2023). "PaLM-E: An Embodied Multimodal Language Model". arXiv:2303.03378 [cs.LG].
^ Driess, Danny; Florence, Pete. "PaLM-E: An embodied multimodal language model". ai.googleblog.com. Retrieved 17 March 2023.
^ Edwards, Benj (7 March 2023). "Google's PaLM-E is a generalist robot brain that takes commands". Ars Technica. Retrieved 17 March 2023.
^ Lardinois, Frederic (May 10, 2023). "Google launches PaLM 2, its next-gen large language model". TechCrunch. Archived from the original on May 10, 2023. Retrieved May 10, 2023.
^ Elias, Jennifer (16 May 2023). "Google's newest A.I. model uses nearly five times more text data for training than its predecessor". CNBC. Retrieved 18 May 2023.
^ "An empirical analysis of compute-optimal large language model training". www.deepmind.com. Retrieved 17 March 2023.

[blog-1] Narang, Sharan; Chowdhery, Aakanksha. "Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance". ai.googleblog.com. Retrieved 17 March 2023.

[paper-2] ^ ^a ^b ^c ^d ^e ^f ^g Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; et al. (2022). "PaLM: Scaling Language Modeling with Pathways". arXiv:2204.02311 [cs.CL].

[venturebeat-3] Anadiotis, George (12 April 2022). "Google sets the bar for AI language models with PaLM". VentureBeat. Retrieved 17 March 2023.

[4] Bastian, Matthias (5 April 2022). "Google PaLM: Giant language AI can explain jokes". THE DECODER. Retrieved 17 March 2023.

[5] "Google: Why Is No One Talking About PaLM (NASDAQ:GOOG) Seeking Alpha". seekingalpha.com. 12 December 2022. Retrieved 17 March 2023.

[6] Vincent, James (14 March 2023). "Google opens up its AI language model PaLM to challenge OpenAI and GPT-3". The Verge. Retrieved 17 March 2023.

[7] Huffman, Scott; Woodward, Josh. "PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications". Retrieved 17 March 2023.

[8] Singhal, Karan; Azizi, Shekoofeh; Tu, Tao; et al. (2022). "Large Language Models Encode Clinical Knowledge". arXiv:2212.13138 [cs.CL].

[9] "MedPaLM: New Chatbots Will Soon Be Better Than Waiting For A Doctor". The Medical Futurist. 17 January 2023. Retrieved 17 March 2023.

[10] Matias, Yossi; Corrado, Greg (14 March 2023). "Our latest health AI research updates". Google. Retrieved 17 March 2023.

[11] Driess, Danny; Xia, Fei; Sajjadi, Mehdi S. M.; et al. (2023). "PaLM-E: An Embodied Multimodal Language Model". arXiv:2303.03378 [cs.LG].

[12] Driess, Danny; Florence, Pete. "PaLM-E: An embodied multimodal language model". ai.googleblog.com. Retrieved 17 March 2023.

[13] Edwards, Benj (7 March 2023). "Google's PaLM-E is a generalist robot brain that takes commands". Ars Technica. Retrieved 17 March 2023.

[14] Lardinois, Frederic (May 10, 2023). "Google launches PaLM 2, its next-gen large language model". TechCrunch. Archived from the original on May 10, 2023. Retrieved May 10, 2023.

[cnbc-20230516-15] Elias, Jennifer (16 May 2023). "Google's newest A.I. model uses nearly five times more text data for training than its predecessor". CNBC. Retrieved 18 May 2023.

[16] "An empirical analysis of compute-optimal large language model training". www.deepmind.com. Retrieved 17 March 2023.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

Search

손바닥

네임스페이스

더

교육

참고 항목

레퍼런스