대언어 모델
Large language model에 관한 시리즈의 일부 |
머신러닝 데이터 마이닝 |
---|
대규모 언어 모델(LLM)은 범용 언어 생성 및 분류와 같은 기타 자연어 처리 작업을 달성할 수 있는 것으로 유명한 언어 모델입니다. LLM은 계산 집약적인 자체 감독 및 반 감독 훈련 과정에서 텍스트 문서에서 통계적 관계를 학습하여 이러한 능력을 습득합니다.[1] LLM은 입력된 텍스트를 취하여 다음 토큰이나 단어를 반복적으로 예측함으로써 생성 AI의 한 형태인 텍스트 생성에 사용할 수 있습니다.[2]
LLM은 인공 신경망입니다. 2024년[update] 3월 현재 가장 크고 가장 성능이 뛰어난 것은 디코더 전용 트랜스포머 기반 아키텍처로 구축되었으며, 최근 구현된 일부는 순환 신경망 변형 및 맘바(상태 공간 모델)와 같은 다른 아키텍처를 기반으로 합니다.[3][4][5]
2020년까지 미세 조정은 모델이 특정 작업을 수행할 수 있도록 조정할 수 있는 유일한 방법이었습니다. 그러나 GPT-3와 같은 더 큰 크기의 모델은 유사한 결과를 얻기 위해 신속하게 설계될 수 있습니다.[6] 그들은 인간 언어 말뭉치에 내재된 구문, 의미론 및 "존재론"에 대한 지식을 습득하는 것으로 생각되지만 말뭉치에 존재하는 부정확성과 편향성도 있습니다.[7]
일부 주목할 만한 LLM이 열려 있습니다.AI의 GPT 시리즈 모델(예: GPT-3.5 및 GPT-4, ChatGPT 및 마이크로소프트 코파일럿에 사용됨), 구글의 PaLM 및 제미니(이 중 후자는 현재 동명의 챗봇에 사용됨), xAI의 그록(Grok), 메타의 LLaMA 계열의 오픈 소스 모델, 아티스틱의 클로드 모델, 미스트랄 AI의 오픈 소스 모델.
역사

2017년 뉴르에서IPS 컨퍼런스에서 구글 연구원들은 획기적인 논문 "관심은 당신이 필요로 하는 모든 것"에서 트랜스포머 아키텍처를 소개했습니다. 이 논문의 목표는 2014 Seq2seq 기술을 개선하는 것이었으며, 주로 Bahdanau 등이 2014년에 개발한 주의 메커니즘을 기반으로 했습니다.[9] 이듬해인 2018년 BERT가 도입되면서 빠르게 '유비쿼터스'로 자리 잡았습니다.[10] 원래 트랜스포머에는 인코더 및 디코더 블록이 모두 있지만 BERT는 인코더 전용 모델입니다.
2018년 디코더 전용 GPT-1을 선보였지만, 2019년 오픈으로 인해 널리 주목받은 것은 GPT-2입니다.AI는 처음에는 악의적인 사용을 우려하여 공개하기에 너무 강력하다고 여겼습니다.[11] 2020년 GPT-3는 한 단계 더 발전하여 2024년[update] 현재 API를 통해서만 사용할 수 있으며 로컬에서 실행할 모델을 다운로드할 수 없습니다. 그러나 일반 대중의 상상력을 사로잡고 일부 언론의 과대 광고와 온라인 화제를 일으킨 것은 2022년 소비자 대면 브라우저 기반 ChatGPT였습니다. 2023년형 GPT-4는 정확도가 높아졌고, 멀티모달 기능으로 "성배"라는 찬사를 받았습니다.[13] OpenAI는 높은 수준의 아키텍처와 GPT-4의 매개변수 수를 밝히지 않았습니다.
그동안 경쟁 언어 모델은 적어도 매개변수 수 측면에서 GPT 시리즈를 따라잡기 위해 대부분 역할을 해왔습니다.[14] 매개변수 수 또는 측정된 정확도 측면에서 주목할 만한 예외로는 Google의 2019년 T5-11B 및 2022년 PaLM-E와 Arthinic의 2024년 Claude 3가 있습니다. Elo 등급에서는 2024년 1월 26일 구글의 바드(Gemini Pro)가 일반 GPT-4를 능가했지만, 제한적으로 사용 가능한 GPT-4-터보는 능가하지 못했습니다.[15]
2022년부터 소스 사용 가능한 모델이 인기를 얻고 있으며, 특히 처음에는 BLOM과 LLaMA가 사용 분야에 제한이 있지만. 미스트랄 AI의 모델인 미스트랄 7B와 믹스트랄 8x7b는 아파치 라이선스를 더 허용합니다. 2024년[update] 1월 기준으로 Mixtral 8x7b는 LMSYS 챗봇 아레나 리더보드에 따르면 가장 강력한 오픈 LLM으로 GPT-3.5보다 강력하지만 GPT-4만큼 강력하지는 않습니다.[16]
데이터셋 전처리
확률적 토큰화
기계 학습 알고리즘은 텍스트가 아닌 숫자를 처리하기 때문에 텍스트를 숫자로 변환해야 합니다. 첫 번째 단계에서 어휘를 결정한 다음 정수 인덱스를 임의로 그러나 각 어휘 항목에 고유하게 할당하고 마지막으로 임베딩을 정수 인덱스에 연결합니다. 알고리즘에는 바이트 쌍 인코딩과 워드피스가 포함됩니다.
확률론적 토큰화는 또한 데이터 세트를 압축합니다. LLM은 일반적으로 들쭉날쭉하지 않은 배열이어야 하므로, 가장 긴 배열의 길이와 일치할 때까지 짧은 텍스트를 "패딩"해야 합니다. 단어당 평균적으로 얼마나 많은 토큰이 필요한지는 데이터 세트의 언어에 따라 다릅니다.[17][18]
BPE
바이트 쌍 인코딩의 수정을 사용하여 첫 번째 단계에서 모든 고유 문자(빈칸 및 문장 부호 포함)는 초기 n-그램 집합(즉, 초기 유니그램 집합)으로 처리됩니다. 연속적으로 가장 빈번한 인접 문자 쌍이 바이그램으로 병합되고 쌍의 모든 인스턴스가 바이그램으로 대체됩니다. 가장 자주 같이 발생하는 (이전에 병합된) n-그램의 인접 쌍의 모든 발생은 지정된 크기의 어휘를 얻을 때까지 반복적으로 더 긴 n-그램으로 병합됩니다 (GPT-3의 경우 크기는 50257입니다).[19] 토큰 어휘는 0부터 토큰 어휘의 크기에 이르는 정수로 구성됩니다. 새로운 단어는 항상 토큰과 초기 설정된 유니그램의 조합으로 해석할 수 있습니다.[20]
주로 영어 말뭉치에서 추출한 빈도를 기반으로 한 토큰 어휘는 평균 영어 단어에 대해 가능한 한 적은 토큰을 사용합니다. 그러나 이러한 영어 최적화 토큰화기에 의해 인코딩된 다른 언어의 평균 단어는 차선의 토큰 양으로 분할됩니다. GPT-2 토큰화기는 미얀마의 샨어와 같은 일부 언어에 대해 단어당 최대 15배 더 많은 토큰을 사용할 수 있습니다. 포르투갈어와 독일어와 같은 훨씬 더 널리 퍼진 언어들은 영어와 비교하여 "50%의 프리미엄"을 가지고 있습니다.[21]
예를 들어, GPT-3(Legacy)에서 사용하는 토큰화기가 다음 문장을 분할하는 방법은 다음과 같습니다.
상품권 | 이저 | : | 문자 | -> | 시리즈 | 의 | 수치의 | " | t | 네 알겠습니다 | ens | " |
데이터셋 클리닝
LLM 훈련의 맥락에서 데이터 세트는 일반적으로 데이터 세트에서 독성 통로를 제거하고 저품질 데이터를 폐기하며 중복을 제거합니다.[22] 데이터 세트를 정리하면 교육 효율성이 향상되고 다운스트림 성능이 향상될 수 있습니다.[23][24]
웹에서 LLM 생성 콘텐츠의 비율이 증가함에 따라 향후 데이터 클리닝에는 이러한 콘텐츠를 필터링하는 것이 포함될 수 있습니다. LLM 생성 콘텐츠는 콘텐츠가 인간 텍스트와 유사하지만(필터링이 어려워짐) 품질이 낮은 경우(이에 대해 학습된 모델의 성능 저하) 문제가 될 수 있습니다.[25]
교육 및 아키텍처
인간 피드백을 통한 강화 학습(RLHF)
근위 정책 최적화와 같은 알고리즘을 통한 인간 피드백(RLHF)의 강화 학습은 인간의 선호도 데이터 세트를 기반으로 모델을 더욱 미세 조정하는 데 사용됩니다.[26]
명령어 튜닝
"자기 지시" 접근 방식을 사용하여 LLM은 몇 가지 사례의 인간이 생성한 수정에서 시작하여 순진한 응답을 대체하여 올바른 응답을 부트스트랩할 수 있었습니다. 예를 들어, "햄릿에 표현된 주요 주제에 대한 에세이를 작성하세요"라는 지침에서 코퍼스에서 이 텍스트 시퀀스의 빈도를 기준으로 초기 순진한 완료는 "3월 17일 이후에 에세이를 제출하면 지연된 날마다 성적이 10% 감소합니다"일 수 있습니다.[27]
전문가 혼합
가장 큰 LLM은 직접 교육하고 사용하기에는 너무 비쌀 수 있습니다. 이러한 모델의 경우 전문가 혼합(MoE)을 적용할 수 있으며, 이는 2017년부터 구글 연구원들이 최대 1조 개의 매개 변수에 달하는 모델을 훈련시키기 위해 추구하는 연구 라인입니다.[28][29][30]
신속한 엔지니어링, 주의 메커니즘 및 컨텍스트 창
이전에는 (비용이 많이 드는) 미세 조정만으로 달성할 수 있는 대부분의 결과는 신속한 엔지니어링을 통해 달성할 수 있지만 단일 대화의 범위(더 정확하게는 컨텍스트 창의 범위로 제한됨)로 제한됩니다.[31]

컨텍스트 윈도우의 범위 내에서 어떤 토큰이 서로 관련이 있는지 알아보기 위해 어텐션 메커니즘은 여러 어텐션 헤드를 사용하여 각 토큰에 대한 "소프트" 가중치를 계산하며, 각 토큰은 자체 소프트 가중치를 계산하기 위한 고유한 "관련성"을 갖습니다. 예를 들어, 작은 (즉, 1억 1,700만 개의 파라미터 크기) GPT-2 모델에는 12개의 주의 헤드와 1k 토큰의 컨텍스트 창이 있습니다.[33] 중간 버전에는 345M 매개 변수가 있으며 각각 12개의 주의 헤드가 있는 24개의 레이어가 포함되어 있습니다. 경사 하강이 있는 훈련에는 512의 배치 크기가 사용되었습니다.[20]
2024년 2월에 발표된 구글의 제미니 1.5와 같은 가장 큰 모델은 최대 100만 크기의 컨텍스트 창을 가질 수 있습니다(컨텍스트 창 1,000만도 "성공적으로 테스트"[34]되었습니다). 큰 컨텍스트 창이 있는 다른 모델에는 최대 20만 개의 컨텍스트 창이 있는 Arthinic의 Claude 2.1이 포함됩니다.[35] 이 최대값은 입력 토큰의 수를 나타내며 최대 출력 토큰 수는 입력과 다르며 종종 더 작습니다. 예를 들어, GPT-4 터보 모델의 최대 출력은 4096 토큰입니다.[36]
모델이 다음 답변을 생성할 때 고려할 수 있는 대화 길이도 컨텍스트 창 크기에 따라 제한됩니다. 채팅-GPT와 같은 대화의 길이가 컨텍스트 창보다 긴 경우, 다음 답변을 생성할 때 컨텍스트 창 내부의 부분만 고려하거나 모델이 대화의 너무 먼 부분을 요약하기 위해 일부 알고리즘을 적용해야 합니다.
컨텍스트 창을 더 크게 만드는 것의 단점에는 높은 계산 비용과 로컬 컨텍스트에 대한 초점을 희석시키는 것이 포함되며, 더 작게 만드는 것은 모델이 중요한 장거리 종속성을 놓칠 수 있습니다. 균형을 맞추는 것은 실험 및 도메인별 고려 사항입니다.
모델은 훈련 데이터 세트의 세그먼트가 주어졌을 때 세그먼트가 어떻게 계속되는지 또는 세그먼트에서 무엇이 누락되었는지 예측하기 위해 사전 훈련될 수 있습니다.[37] 둘 다 될 수 있습니다.
- 자동 회귀 분석(예: 세그먼트가 계속되는 방식, GPT가 하는 방식을 예측하는 것): 예를 들어, "나는 먹는 것을 좋아한다"는 세그먼트가 주어졌을 때, 모델은 "아이스크림" 또는 "스시"를 예측합니다.
- "마스크"(즉, 세그먼트에서 누락된 부분을 채우는 것, "BERT"[38]가 하는 방식): 예를 들어, 세그먼트가 주어지면 "나는 다음을 좋아한다.
[__] [__]
크림", 모델은 "먹다"와 "얼음"이 없어진다고 예측합니다.
모델은 문장 쌍이 제시되고 모델이 훈련 말뭉치에 연속적으로 나타나는지 여부를 예측해야 하는 NSP(Next Sentence Prediction)와 같이 데이터 분포에 대한 이해도를 테스트하는 보조 작업에 대해 학습할 수 있습니다.[38] 훈련 중에는 정규화 손실도 훈련을 안정화하는 데 사용됩니다. 그러나 정규화 손실은 일반적으로 테스트 및 평가 중에 사용되지 않습니다.
교육비
소프트웨어 및 하드웨어의 발전으로 2020년부터 비용이 크게 감소하여 2023년에는 120억 매개변수 LLM 계산 비용이 72,300A100-GPU 시간인 반면 2020년에는 a1 훈련 비용이 감소했습니다.50억 개의 파라미터를 가진 LLM(2020년 최신 기술보다 두 배나 작음)은 8만 달러에서 160만 달러 사이였습니다.[39][40][41] 2020년 이후로 점점 더 큰 모델에 많은 금액이 투자되었습니다. 예를 들어, 2019년 GPT-2(즉, 15억 매개변수 모델) 훈련에는 50,000달러가 소요된 반면, 2022년 PaLM(즉, 5400억 매개변수 모델) 훈련에는 800만 달러, 메가트론-튜링 NLG 530B(2021년)에는 약 1,100만 달러가 소요되었습니다.[42]
트랜스포머 기반 LLM의 경우 추론 비용보다 훈련 비용이 훨씬 높습니다. 하나의 토큰에 대해 훈련하는 데는 파라미터당 6 FLOP가 소요되는 반면, 하나의 토큰에 대해 추론하는 데는 파라미터당 1~2 FLOP가 소요됩니다.[43]
공구사용
원칙적으로, 적어도 외부 도구나 추가 소프트웨어를 사용하지 않고는 어떤 LLM으로도 해결할 수 없는 특정 작업이 있습니다. 이러한 작업의 예는 LLM이 훈련 코퍼스에서 이 계산의 연속에 아직 직면하지 않은 경우 사용자의 입력 '354 * 139 ='에 응답하는 것입니다. 이러한 경우 LLM은 결과를 계산하는 실행 프로그램 코드에 의존해야 하며, 이 코드는 응답에 포함될 수 있습니다. 또 다른 예는 '지금 시간이 어떻게 되나요? 그것은, 별도의 프로그램 인터프리터가 컴퓨터에서 시스템 시간을 얻기 위해 코드를 실행해야 하기 때문에, LLM은 그것을 응답에 포함시킬 수 있습니다.[44][45] 이 기본 전략은 생성된 프로그램 및 기타 샘플링 전략을 여러 번 시도하여 정교화할 수 있습니다.[46] 비용 절감 및 공급업체 의존도 감소
일반적으로 LLM이 도구를 사용하도록 하려면 도구 사용을 위해 미세 조정해야 합니다. 도구의 수가 유한한 경우 한 번만 미세 조정을 수행할 수 있습니다. 온라인 API 서비스와 마찬가지로 도구 수가 임의로 증가할 수 있는 경우, LLM을 미세 조정하여 API 문서를 올바르게 읽고 API를 호출할 수 있습니다.[47][48]
더 간단한 도구 사용 형태는 Retrieve Augmented Generation입니다. 문서 검색으로 LLM을 증강하고, 때때로 벡터 데이터베이스를 사용합니다. 쿼리가 주어지면 문서 리트리버를 호출하여 가장 관련성이 높은 것을 검색합니다(일반적으로 쿼리와 문서를 벡터로 인코딩한 다음 쿼리 벡터에 가장 가까운 유클리드 노름에서 벡터가 있는 문서를 찾습니다). 그런 다음 LLM은 쿼리와 검색된 문서를 모두 기반으로 출력을 생성합니다.[49]
대리점
LLM은 언어 모델로, 목표가 없어 에이전트가 아니지만 지능형 에이전트의 구성 요소로 사용할 수 있습니다.[50] 연구원들은 이러한 통합을 위한 몇 가지 방법을 설명했습니다.[citation needed]
ReAct("Reason + Act") 메서드는 LLM을 플래너로 사용하여 LLM으로 에이전트를 구성합니다. LLM에 "큰 소리로 생각하라"는 메시지가 표시됩니다. 특히 언어 모델에는 환경에 대한 텍스트 설명, 목표, 가능한 조치 목록 및 지금까지의 조치 및 관찰 기록이 표시됩니다. 작업을 생성하기 전에 하나 이상의 생각을 생성한 다음 환경에서 실행합니다.[51] LLM 플래너에게 주어진 환경에 대한 언어적 설명은 환경을 설명하는 논문의 LaTeX 코드일 수도 있습니다.[52]
DEPS("Description, 설명, 계획 및 선택") 방식에서 LLM은 먼저 이미지 설명을 통해 시각적 세계에 연결된 다음, LLM이 수신하는 사전 훈련된 지식과 환경 피드백을 기반으로 복잡한 작업 및 행동에 대한 계획을 작성하라는 메시지가 표시됩니다.[53]
Reflection 메서드는[54] 여러 에피소드에 걸쳐 학습하는 에이전트를 구성합니다. 각 에피소드가 끝날 때마다 LLM은 에피소드의 기록을 제공받고 "배움된 교훈"을 생각하도록 촉구하며, 이는 후속 에피소드에서 더 나은 성능을 발휘하는 데 도움이 될 것입니다. 이러한 "학습된 교훈"은 후속 에피소드에서 에이전트에게 제공됩니다.[citation needed]
Monte Carlo 트리 검색은 LLM을 롤아웃 휴리스틱으로 사용할 수 있습니다. 프로그래밍 방식의 세계 모델을 사용할 수 없는 경우 LLM에 세계 모델 역할을 수행하도록 환경 설명을 요청할 수도 있습니다.[55]
개방형 탐색의 경우 LLM을 사용하여 "흥미성"에 대한 관찰 점수를 매길 수 있으며, 이는 정상(비 LLM) 강화 학습 에이전트를 안내하는 보상 신호로 사용될 수 있습니다.[56] 또는 커리큘럼 학습을 위해 점점 더 어려운 작업을 제안할 수 있습니다.[57] 개별 작업을 출력하는 대신 LLM 플래너는 복잡한 작업 시퀀스에 대한 "스킬" 또는 함수를 구성할 수도 있습니다. 기술을 저장하고 나중에 호출할 수 있으므로 계획에서 추상화 수준을 높일 수 있습니다.[57]
LLM 기반 에이전트는 이전 컨텍스트의 장기 메모리를 유지할 수 있으며, 검색 증강 생성과 동일한 방식으로 메모리를 검색할 수 있습니다. 여러 에이전트가 사회적으로 상호 작용할 수 있습니다.[58]
압축
일반적으로 LLM은 완전 또는 반정밀 부동 소수점 번호(float32 및 float16)로 훈련됩니다. 하나의 플로트 16에는 16비트 또는 2바이트가 있으므로 10억 개의 매개 변수에는 2기가바이트가 필요합니다. 가장 큰 모델은 일반적으로 1,000억 개의 매개 변수를 가지고 있으며, 로드하는 데 200 기가바이트가 필요하므로 대부분의 가전 제품의 범위를 벗어납니다.[citation needed]
훈련 후 양자화는[59] 대부분의 성능을 유지하면서 훈련된 모델의 매개 변수의 정밀도를 낮춤으로써 공간 요구 사항을 줄이는 것을 목표로 합니다.[60][61] 가장 간단한 형태의 양자화는 모든 수를 주어진 비트 수로 간단히 자릅니다. 레이어마다 다른 양자화 코드북을 사용하여 개선할 수 있습니다. 특히 중요한 매개변수("이상치 가중치")[62]에 대해 더 높은 정밀도로 서로 다른 매개변수에 대해 서로 다른 정밀도를 적용하여 추가 개선을 수행할 수 있습니다.
양자화된 모델은 일반적으로 동결되고 사전 양자화된 모델만 미세 조정되지만 양자화된 모델은 여전히 미세 조정될 수 있습니다.[63]
멀티모달리티
멀티모달리티(multimodality)는 "여러 가지 모달리티(modality)를 가지는 것"을 의미하며, "모달리티(modality)"는 비디오, 이미지, 오디오, 텍스트, 고유 인식 등과 같은 입력 또는 출력의 유형을 의미합니다.[64] 이미지에서 레이블을 지정하는 알렉스넷,[65] 이미지에서 텍스트로 시각적 질문 응답,[66] 음성에서 텍스트로 음성 인식과 같이 한 가지 양식을 수집하고 다른 양식을 출력하도록 특별히 훈련된 많은 AI 모델이 있습니다.
LLM에서 다중 모드 모델을 만드는 일반적인 방법은 훈련된 인코더의 출력을 "토큰화"하는 것입니다. 구체적으로, 다음과 같이 이미지를 이해할 수 있는 LLM을 구성할 수 있습니다. 훈련된 LLM을 취하고 훈련된 이미지 E 를 취합니다 작은 다층 퍼셉트론 f 를 만들어 임의의 y 에 대해 후처리된 f는 인코딩된 토큰과 동일한 차원을 갖습니다. 그것은 "이미지 토큰"입니다. 그런 다음 텍스트 토큰과 이미지 토큰을 인터리빙할 수 있습니다. 그런 다음 복합 모델은 이미지 텍스트 데이터 세트에서 미세 조정됩니다. 이 기본 구조는 모델을 개선하기 위해 더 정교한 적용이 가능합니다. 이미지 인코더는 안정성을 향상시키기 위해 동결될 수 있습니다.[67]
플라밍고는 토큰화 방법의 효과를 입증하여 한 쌍의 사전 학습된 언어 모델과 이미지 인코더를 미세 조정하여 처음부터 학습된 모델보다 시각적 질문 답변을 더 잘 수행할 수 있도록 했습니다.[68] 구글 PaLM 모델은 토큰화 방법을 사용하여 멀티모달 모델 PaLM-E로 미세 조정되었으며 로봇 제어에 적용되었습니다.[69] LLaMA 모델은 또한 이미지 입력 [70]및 비디오 입력을 허용하기 위해 토큰화 방법을 사용하여 멀티모달로 전환되었습니다.[71]
GPT-4는 텍스트와 이미지를 모두[72] 입력으로 사용할 수 있습니다(비록 비전 구성 요소는 GPT-4V까지[73] 대중에게 공개되지는 않았지만); 구글 딥마인드의 제미니도 멀티모달입니다.[74]
특성.
스케일링 법칙
다음 네 가지 하이퍼파라미터가 LLM을 특징짓습니다.
- (사전) 교육 비용( C
- 매개변수 N즉, 계층 내 뉴런의 양, 그들 사이의 가중치 및 편향의 양)과 같은 인공 신경망 자체의 크기,
- (사전) 훈련 데이터 세트의 크기(즉, 말뭉치의 토큰 수, D
- (사전) 훈련 후의 성과
그것들은 "스케일링 법칙"이라고 불리는 단순한 통계 법칙과 관련이 있습니다. 로그-로그 학습 속도 스케줄과 함께 한 에포크에 대해 자동 회귀적으로 훈련된 LLM에 대한 특정 스케일링 법칙("Chinchilla scaling")은 다음과 같이 말합니다.[75]
- C는 FLOPs에서 모델을 교육하는 데 드는 비용입니다.
- 은 (는) 모형에 있는 모수의 개수입니다.
- 은 (는) 교육 집합의 토큰 수입니다.
- 은 테스트 데이터 세트에서 훈련된 LLM에 의해 달성되는 토큰(nats/token)당 평균 음의 로그 가능성 손실입니다.
그리고 통계적 하이퍼 파라미터는
- } = 6 즉 하나의 토큰을 훈련하는 데 파라미터당 6개의 FLOP가 필요합니다. 훈련 비용은 하나의 토큰을 추론하는 데 파라미터당 1~2 FLOP가 드는 추론 비용보다 훨씬 높습니다.[43]
비상 능력

y축에서 x축 수량의 무한 확장으로도 달성할 수 있는 최상의 성능을 빼면 다양한 작업에서 측정된 대형 모델의 성능은 로그 로그 도표에서 다른(소형 및 중형) 모델의 성능을 선형으로 외삽한 것으로 보입니다. 그러나 때때로 라인의 기울기는 하류 스케일링 법칙에서 브레이크(들)[76]라고 하는 점에서 한 기울기에서 다른 기울기로 전환되며 호로 연결된 일련의 선형 세그먼트로 나타납니다. 더 큰 모델은 이 시점에서 "신흥 능력"을 획득하는 것으로 보입니다.[31][77] 이러한 기능은 프로그래밍되거나 설계되지 않고 발견되며, 일부 경우에는 LLM이 공개적으로 배포된 후에만 발견됩니다.[2]
창발적인 능력 중에서 가장 흥미로운 것은 예제 데모를 통한 맥락 학습입니다.[78] 상황에 맞는 학습은 다음과 같은 작업과 관련이 있습니다.
- 보고된 산술, 국제 음성 알파벳 해독, 단어의 글자 스크램블링 해제, 문맥상 단어의 모호성 제거,[31][79][80] 공간 단어 변환, 기본 방향(예:[81] [0, 0, 1; 0, 0, 0; 0]에 "동북"으로 응답), 텍스트로 표현된 색상 용어.
- 일련의 생각을 통해 다음과 같은 메시지를 표시합니다. 모델 크기가 62B를 초과하는 경우에만 생각의 사슬 프롬프트에 의해 모델 출력이 향상됩니다. 더 작은 모델은 생각의 연속 없이 즉시 대답하라는 메시지가 표시될 때 더 나은 성능을 발휘합니다.[82]
- 힌디어와 영어의 조합인 힌디어의 단락에서 공격적인 내용을 식별하고 유사한 영어의 Kiswahili 속담을 생성합니다.[83]
Schaeffer et al. 는 창발 능력이 예측할 수 없이 획득되는 것이 아니라 부드러운 스케일링 법칙에 따라 예측할 수 있게 획득된다고 주장합니다. 저자들은 객관식 질문을 해결하는 LLM의 장난감 통계 모델을 고려했고, 다른 유형의 작업을 설명하기 위해 수정된 이 통계 모델이 이러한 작업에도 적용된다는 것을 보여주었습니다.[84]
를 매개 변수 카운트 수, y를 모델의 성능이라고 합니다.
- = y={\일 때 ( x y) log x,y)}은 지수 곡선(일 때 고원에 도달하기 전)으로, 출현하는 것처럼 보입니다.
- = ( 토큰)) {\y = {\토큰}})}:( x, y)(\log x,y)} 은 직선(0에서 고원에 도달하기 전)이므로 출현으로 보이지 않습니다.
- = ( 높음 y = {\일 때 ( x y) log x,y)}은 계단 함수로 출현하는 것처럼 보입니다.
해석
대형 언어 모델은 그 자체로 "블랙박스"이며, 언어 작업을 어떻게 수행할 수 있는지 명확하지 않습니다. LLM의 작동 방식을 이해하기 위한 몇 가지 방법이 있습니다.
기계론적 해석 가능성은 LLM이 수행하는 추론을 근사화하는 기호 알고리즘을 발견하여 LLM을 역공학하는 것을 목표로 합니다. 한 예로, 소형 트랜스포머가 합법적인 오셀로의 움직임을 예측하도록 훈련되는 오셀로-GPT가 있습니다. 오셀로 보드의 선형 표현이 있다는 것이 발견되었으며, 표현을 수정하면 예측된 합법적인 오셀로가 올바른 방식으로 이동합니다.[85][86] 또 다른 예에서는 소형 트랜스포머가 카렐 프로그램에서 교육을 받습니다. 오셀로-GPT 예제와 유사하게 카렐 프로그램 의미론의 선형 표현이 있으며, 표현을 수정하면 출력이 올바르게 변경됩니다. 이 모델은 또한 훈련 세트의 프로그램보다 평균적으로 짧은 올바른 프로그램을 생성합니다.[87]
또 다른 예에서 저자는 모듈식 산술 덧셈에 대해 소형 변압기를 훈련시켰습니다. 결과 모델은 역설계되었으며 이산 푸리에 변환을 사용한 것으로 밝혀졌습니다.[88]
이해 및 지능
NLP 연구자들은 2022년 조사에서 (통합되지 않은) LLM이 "어떤 사소한 의미에서 자연어를 이해할 수 있는지"에 대한 질문에 고르게 의견이 나뉘었습니다.[89] "LLM 이해"를 지지하는 사람들은 수학적 추론과 같은 일부 LLM 능력이 특정 개념을 "이해"하는 능력을 암시한다고 믿습니다. 마이크로소프트 팀은 2023년에 GPT-4가 "수학, 코딩, 시각, 의학, 법학을 아우르는 새롭고 어려운 과제를 해결할 수 있다"고 주장했습니다. 심리학 등" 그리고 GPT-4는 "합리적으로 (아직 불완전한) 인공 일반 지능 시스템의 초기 버전으로 볼 수 있다": "소프트웨어 공학 지원자들을 위한 시험을 통과하는 시스템이 실제로 지능적이지 않다고 합리적으로 말할 수 있는가?"[90][91] 일부 연구자들은 LLM을 "외계 지능"으로 특징짓습니다.[92][93] 예를 들어, Connor Leahy 추측 CEO는 통합되지 않은 LLM을 설명할 수 없는 외계인 "Shoggoths"와 같다고 생각하고, RLHF 튜닝이 LLM의 내부 작동을 가리는 "미소 전면"을 만든다고 믿습니다. "너무 멀리 밀어내지 않으면 웃는 얼굴이 계속 유지됩니다. 하지만 그런 다음 [예상치 못한] 프롬프트를 표시하면 갑자기 정신 이상, 이상한 사고 과정, 그리고 분명히 인간이 아닌 이해에 대한 거대한 아랫배가 나타납니다."[94][95]
이와는 대조적으로 "LLMs 이해 부족" 학파의 일부 지지자들은 기존 LLM이 "단순히 기존 글을 리믹스하고 재조합"하고 있다고 믿거나,[93] 기존 LLM이 예측 능력, 추론 능력, 기관 및 설명 가능성에서 계속 가지고 있는 결함을 지적합니다.[89] 예를 들어, GPT-4는 계획 및 실시간 학습에 자연적인 결함이 있습니다.[91] 생성적 LLM은 훈련 데이터에 의해 정당화되지 않는 것으로 보이는 사실에 대한 주장을 자신 있게 주장하는 것으로 관찰되었으며, 이 현상을 "환각"이라고 합니다.[96] 특히, LLM의 맥락에서 환각은 구문론적으로 건전하고 유창하며 자연스러워 보이지만 실제로는 부정확하거나 말도 안되거나 제공된 소스 입력에 불성실한 텍스트 또는 응답의 생성에 해당합니다.[97] 신경과학자 테렌스 세즈노프스키(Terence Sejnowski)는 "LLM의 지능에 대한 전문가들의 의견이 엇갈리는 것은 자연 지능에 기초한 우리의 오래된 생각이 부적절하다는 것을 시사한다"고 주장했습니다.[89]
LLM의 지능이나 이해를 나타내는 문제는 두 가지 주요 측면을 가지고 있습니다. 첫 번째는 컴퓨터 시스템에서 사고와 언어를 모델링하는 방법이고, 두 번째는 컴퓨터 시스템이 언어와 같은 인간을 생성할 수 있도록 하는 방법입니다.[89] 인지의 모델로서 언어의 이러한 측면은 인지 언어학 분야에서 발전되어 왔습니다. 미국의 언어학자 조지 라코프(George Lakoff)는 언어를 학습 과제와 이해의 모델로 사용하기 위한 계산 기반으로 언어 신경 이론([98]NTL)을 제시했습니다. NTL 모델은 인간 뇌의 특정 신경 구조가 사고와 언어의 본질을 어떻게 형성하는지, 그리고 컴퓨터 시스템에서 사고와 언어를 모델링하는 데 적용할 수 있는 그러한 신경 시스템의 계산 특성은 무엇인지를 설명합니다. 컴퓨터 시스템에서 언어를 모델링하기 위한 프레임워크가 확립된 후, 컴퓨터 시스템이 허용 가능한 문법을 가진 언어를 생성하기 위한 프레임워크를 구축하는 것으로 초점이 옮겨졌습니다. 영국의 인지 언어학자이자 디지털 커뮤니케이션 기술자인 Vyvyan Evans는 2014년 "언어 신화: 왜 언어는 본능이 아닌가"라는 제목의 책에서 NLP가 인지 패턴을 모델링하고 언어와 같은 인간을 생성할 수 있도록 하는 확률론적 맥락 없는 문법(PCFG)의 역할을 계획했습니다.[99]
평가하기
곤혹스러움
언어 모델의 성능을 측정하는 가장 일반적인 방법은 주어진 텍스트 말뭉치에 대한 당혹감입니다. 난잡함은 모델이 데이터 세트의 내용을 얼마나 잘 예측할 수 있는지를 나타내는 척도입니다. 모델이 데이터 세트에 할당할 가능성이 높을수록 난잡함은 낮아집니다. 수학적으로 당혹감은 토큰당 평균 음의 로그 가능성의 지수로 정의됩니다.
언어 모델은 훈련 데이터에 너무 적합할 수 있기 때문에, 모델은 일반적으로 보이지 않는 데이터의 테스트 세트에 대한 당혹감으로 평가됩니다.[38] 이는 대규모 언어 모델의 평가를 위한 특정 과제를 제시합니다. 웹에서 크게 스크랩된 텍스트의 점점 더 큰 말뭉치에 대해 훈련을 받음에 따라 모델의 훈련 데이터에 무심코 주어진 테스트 세트의 일부가 포함될 가능성이 점점 더 높아집니다.[6]
BPW, BPC, and BPT
정보 이론에서 엔트로피의 개념은 클로드 섀넌에 의해 확립된 당혹감과 복잡하게 연결되어 있습니다.[101] 이 관계는 수학적으로 = (Pulflexity {\{Entropy=log _{Perplexity로 표현됩니다.
이러한 맥락에서 엔트로피는 일반적으로 단어당 비트(BPW) 또는 문자당 비트(BPC)로 정량화되며, 이는 언어 모델이 단어 기반 토큰화 또는 문자 기반 토큰화를 사용하는지 여부에 따라 달라집니다.
특히, 하위 단어 토큰화를 주로 사용하는 더 큰 언어 모델의 경우, 토큰당 비트 수(BPT)가 겉보기에 더 적절한 척도로 등장합니다. 그러나 다양한 LLM(Large Language Models)에 걸친 토큰화 방법의 차이로 인해 BPT는 다양한 모델 간의 비교 분석을 위한 신뢰할 수 있는 지표 역할을 하지 못합니다. BPT를 BPW로 변환하려면 단어당 평균 토큰 수를 곱하면 됩니다.
언어 모델의 평가 및 비교에서 교차 엔트로피는 일반적으로 엔트로피보다 선호되는 메트릭입니다. 기본 원리는 BPW가 낮을수록 모델의 압축 능력이 향상된다는 것입니다. 이는 정확한 예측을 하는 모델의 숙련도를 반영합니다.
태스크별 데이터 세트 및 벤치마크
보다 구체적인 다운스트림 작업에 대한 언어 모델의 기능을 평가하기 위해 많은 테스트 데이터 세트와 벤치마크도 개발되었습니다. 테스트는 일반 지식, 상식 추론, 수학적 문제 해결 등 다양한 능력을 평가하도록 설계될 수 있습니다.
평가 데이터 세트의 한 가지 광범위한 범주는 질문 답변 데이터 세트로, 예를 들어 "새너제이 샤크스가 스탠리 컵에서 우승했습니까?", "아니오"[102]와 같은 질문과 정답 쌍으로 구성됩니다. 모델의 프롬프트에 예상 답변을 도출할 수 있는 텍스트가 포함된 경우 질문 답변 작업은 "오픈북"으로 간주됩니다(예를 들어, 이전 질문은 "샤크스가 2016년 피츠버그 펭귄스에게 패하며 스탠리 컵 결승에 한 번 진출했다"는 문장을 포함한 일부 텍스트와 연결될 수 있습니다).[102] 그렇지 않으면 작업은 "폐쇄된 책"으로 간주되며 모델은 교육 중에 유지된 지식을 활용해야 합니다.[103] 일반적으로 사용되는 질문 답변 데이터 세트의 예로는 TruthfulQA, Web Questions, TriviaQA 및 SQuAD가 있습니다.[103]
평가 데이터 세트는 또한 텍스트 완성의 형태를 취할 수 있으며, 모델이 프롬프트를 완성할 가능성이 가장 높은 단어나 문장을 선택하도록 할 수 있습니다. 예를 들어, "앨리스는 밥과 친구였습니다. 앨리스는 그녀의 친구인 ____를 방문하러 갔습니다."[6]
다양한 평가 데이터 세트와 작업을 결합한 일부 복합 벤치마크도 개발되었습니다. 예를 들어, GULE, SuperGLUE, MMLU, BIG-bench, HELM 등이 있습니다.[101][103]
이전에는 평가 데이터 세트의 보류된 부분에 대한 결과를 나머지 부분에 대한 감독된 미세 조정을 수행한 후 보고하는 것이 일반적이었습니다. 연구자들은 특정 작업에 대한 프롬프트를 공식화하는 방법, 특히 해결된 작업의 몇 가지 예(즉, n-샷 프롬프트의 값)와 관련하여 세부 사항이 다르지만, 이제는 프롬프트 기술을 통해 사전 학습된 모델을 직접 평가하는 것이 더 일반적입니다.
적대적으로 구성된 평가
대규모 언어 모델의 개선 속도가 빠르기 때문에 평가 벤치마크는 짧은 수명으로 어려움을 겪었고, 최첨단 모델은 기존 벤치마크를 빠르게 "포화"하여 인간 주석자의 성능을 능가하여 벤치마크를 더 어려운 작업으로 대체하거나 보강하려는 노력으로 이어졌습니다.[104] 또한 AI가 실제 출제된 문제를 반드시 이해하지 못한 채 피상적인 시험 문항 문구에 통계적 상관관계를 이용해 정답을 맞히는 방식으로 객관식 시험에서 '속이는' 경우도 있습니다.[89]
일부 데이터 세트는 기존 언어 모델이 인간에 비해 성능이 비정상적으로 떨어지는 것으로 보이는 특정 문제에 초점을 맞춰 적대적으로 구성되었습니다. 한 가지 예로 TruthfulQA 데이터 세트가 있으며, 이 데이터 세트는 언어 모델이 훈련 중에 반복적으로 노출된 거짓을 모방하여 잘못된 답변을 하기 쉬운 817개의 질문으로 구성됩니다. 예를 들어, LLM은 "늙은 개에게 새로운 기술을 가르칠 수 있습니까?"라는 질문에 "아니오"라고 대답할 수 있습니다. 비록 이것이 문자 그대로 사실은 아니지만, 여러분이 늙은 개에게 새로운 기술을 가르칠 수 없는 영어 숙어에 노출되어 있기 때문입니다.[105]
적대적 평가 데이터 세트의 또 다른 예는 스웩(Swag)과 그 후속 제품인 헬라스웩(HellaSwag)이 텍스트 구절을 완성하기 위해 여러 옵션 중 하나를 선택해야 하는 문제 모음입니다. 잘못된 완성은 언어 모델에서 샘플링하고 분류기 세트로 필터링하여 생성되었습니다. 결과적인 문제는 인간에게는 사소하지만 데이터 세트가 생성될 당시에는 최첨단 언어 모델의 정확도가 떨어졌습니다. 예:
피트니스 센터 간판이 보입니다. 그리고 나서 우리는 한 남자가 카메라와 이야기하고, 운동 공 위에 앉아서 누워 있는 것을 봅니다. 남자가...
a) 공을 위와 아래로 실행하여 효율적인 운동 작업을 늘리는 방법을 보여줍니다.
b) 모든 팔과 다리를 움직이고 많은 근육을 만듭니다.
c) 그런 다음 공을 연주하면 그래픽과 헤지 트리밍 시연을 볼 수 있습니다.
d) 공 위에서 이야기하는 동안 윗몸일으키기를 합니다.[106]
BERT는 b)를 가장 가능성 있는 완료로 선택하지만 정답은 d)[106]입니다.
더 넓은 영향력
2023년 네이처 바이오메디컬 엔지니어링은 "사람이 쓴 텍스트와 대형 언어 모델이 만든 텍스트를 더 이상 정확하게 구별할 수 없다"며 "범용적인 대형 언어 모델이 빠르게 확산될 것이 거의 확실하다"고 썼습니다. 시간이 지남에 따라 많은 산업을 변화시킬 것이라는 것은 다소 안전한 베팅입니다."[107] 골드만삭스는 2023년에 생성 언어 AI가 향후 10년 안에 전 세계 GDP를 7% 증가시킬 수 있으며 전 세계적으로 3억 개의 일자리를 자동화에 노출시킬 수 있다고 제안했습니다.[108][109]
저작권
암기는 전통적인 인공 신경망의 일반적인 동작과 달리 학습 데이터에서 긴 문자열이 때때로 버바텀으로 출력되는 LLM의 새로운 동작입니다. 제어된 LLM 출력의 평가는 정확한 복제에[110] 대해 1% 이상 또는 최대 약 7%[111]까지 다양하게 훈련 데이터에서 암기된 양을 측정합니다.
보안.
일부 논평가들은 우발적이거나 의도적으로 잘못된 정보를 만들거나 다른 형태의 오용에 대해 우려를 표명했습니다.[112] 예를 들어, 대규모 언어 모델의 가용성은 생물 테러를 저지르는 데 필요한 기술 수준을 감소시킬 수 있습니다. 생물 보안 연구원 Kevin Esbelt는 LLM 제작자들이 병원체를 만들거나 향상시키는 것에 대한 교육 데이터 문서에서 제외해야 한다고 제안했습니다.[113]
구글과 코넬대, 버클리 캘리포니아대 등 여러 대학 연구진의 연구 결과, ChatGPT 등 언어 모델에 잠재적인 보안 위험이 존재한다는 사실이 밝혀졌습니다. 그들의 연구에서 그들은 질문자들이 AI 모델이 사용한 훈련 데이터를 ChatGPT에서 얻을 수 있는 가능성을 조사했습니다. 그들은 AI 모델에서 훈련 데이터를 얻을 수 있다는 것을 발견했습니다. 예를 들어 poem 3.5 터보에 'poem'라는 단어를 영원히 반복하라고 하면 AI 모델이 'poem'라고 수백 번 말한 뒤 갈라져 표준 대화 방식에서 벗어나 엉뚱한 문구를 뱉어내 훈련 데이터를 그대로 뱉어냅니다. 연구원들은 AI 모델이 유사한 방법으로 훈련 데이터를 노출하는 10,000개 이상의 예를 보았습니다. 연구진은 AI 모델이 실제로 안전한지 아닌지 구분하기 어려웠다고 말했습니다.[114]
LLM 모델 내에 "잠자는 에이전트"가 존재할 가능성이 있는 것도 새로운 보안 문제입니다. 모델에 내장된 숨겨진 기능으로 특정 이벤트나 조건에 의해 트리거될 때까지 휴면 상태로 유지됩니다. 활성화 시 LLM은 예상되는 동작에서 벗어나 안전하지 않은 동작을 수행합니다.[115]
알고리즘 편향
LLM은 인간과 유사한 텍스트를 생성하는 데 탁월한 능력을 보여주었지만, 훈련 데이터에 존재하는 편향을 상속하고 증폭하기 쉽습니다. 이는 인종, 성별, 언어 및 문화 그룹을 기반으로 하는 것과 같은 다양한 인구 통계의 왜곡된 표현 또는 부당한 대우에서 나타날 수 있습니다.[116] 현재 대형 언어 모델의 학습 데이터에 영어 데이터가 과도하게 표현되어 있기 때문에 비영어적 견해를 과소평가할 수도 있습니다.[117]
고정관념
AI 모델은 성별, 민족성, 연령, 국적, 종교 또는 직업에 기반한 고정관념을 포함하여 광범위한 고정관념을 강화할 수 있습니다. 이로 인해 때로는 유해하거나 경멸적인 방식으로 사람들의 그룹을 부당하게 일반화하거나 희화화하는 출력물이 발생할 수 있습니다.[118]
특히, 성별 편견은 이러한 모델이 한 성별에 대해 다른 성별에 대해 부당하게 편견을 갖는 결과물을 생성하는 경향을 나타냅니다. 이러한 편향은 일반적으로 이러한 모델이 학습된 데이터에서 발생합니다. 대형 언어 모델은 전통적인 성별 규범에 따라 역할과 특성을 할당하는 경우가 많습니다.[116] 예를 들어, 간호사나 비서를 주로 여성과 엔지니어 또는 CEO를 남성과 연결시킬 수 있습니다.[119]
정치편향
정치 편향은 알고리즘이 특정 정치적 관점, 이념 또는 결과를 다른 것보다 체계적으로 선호하는 경향을 말합니다. 언어 모델은 또한 정치적 편향을 나타낼 수 있습니다. 훈련 데이터에는 광범위한 정치적 의견과 적용 범위가 포함되어 있기 때문에, 모델은 데이터에 포함된 의견의 보급에 따라 특정 정치적 이념이나 관점에 치우친 응답을 생성할 수 있습니다.[120]
목록.
교육 비용 열의 경우 1페타FLOP-day = 1페타FLOP/sec × 1일 = 8.64E19 FLOP.
이름. | 출시일자[a] | 개발자 | 매개변수[b] 수 | 말뭉치 크기 | 교육비(페타FLOP-day) | 라이선스[c] | 메모들 |
---|---|---|---|---|---|---|---|
GPT-1 | 2018년6월 | OpenAI | 1억 1,700만 | MIT[121] | 최초의 GPT 모델, 디코더 전용 변압기입니다. | ||
BERT | 2018년10월 | 구글 | 3.4억[122] | 33억 단어[122] | 9[123] | 아파치 2.0[124] | 초기의 영향력 있는 언어 [7]모델이지만 인코더 전용이므로 프롬프트나 생성을[125] 위해 구축되지 않음 |
엑스엘넷 | 2019년6월 | 구글 | ~3.4억[126] | 330억 단어 | 아파치 2.0[127] | BERT의 대안; 인코더[128][129] 전용으로 설계 | |
GPT-2 | 2019년2월 | OpenAI | 15억[130] | 40GB[131](~100억 토큰)[132] | MIT[133] | 트랜스포머 아키텍처를 기반으로 한 범용 모델 | |
GPT-3 | 2020년 5월 | OpenAI | 1750억[39] | 3천억 개의[132] 토큰 | 3640[134] | 고유의 | GPT-3.5라고 불리는 미세 tuned 변종 GPT-3은 2022년 ChatGPT라는 웹 인터페이스를 통해 대중에게 공개되었습니다. |
GPT-네오 | 2021년3월 | 엘레우더AI | 27억[136] | 825 GiB[137] | MIT[138] | 엘레우더가 출시한 GPT-3 무료 대안 시리즈 중 첫 번째AI. GPT-Neo는 일부 벤치마크에서 동등한 크기의 GPT-3 모델을 능가했지만 가장 큰 GPT-3보다 훨씬 나빴습니다.[138] | |
GPT-J | 2021년6월 | 엘레우더AI | 60억[139] | 825 GiB[137] | 200[140] | 아파치 2.0 | GPT-3 스타일 언어 모델 |
메가트론 튜링 NLG | 2021년10월[141] | 마이크로소프트 및 엔비디아 | 5300억[142] | 3386억 토큰[142] | 제한된 웹 액세스 | 표준 아키텍처이지만 슈퍼컴퓨팅 클러스터에서 교육을 받았습니다. | |
어니 3.0 타이탄 | 2021년12월 | 바이두 | 2,600억[143] | 4Tb | 독점적 | 중국어 LLM. 어니봇은 이 모델을 기반으로 합니다. | |
클로드[144] | 2021년12월 | 인류학의 | 520억[145] | 4000억 개의[145] 토큰 | 베타. | 대화에서 바람직한 행동을 위해 미세 조정되었습니다.[146] | |
GLaM(Generalist Language Model) | 2021년12월 | 구글 | 1.2조[30] | 1조 6천억 개의[30] 토큰 | 5600[30] | 독점적 | 전문가들의 드문 혼합 모델로 GPT-3에 비해 훈련 비용은 비싸지만 추론 실행 비용은 저렴합니다. |
고퍼 | 2021년12월 | 딥마인드 | 2800억[147] | 3천억 개의[148] 토큰 | 5833[149] | 독점적 | 친칠라 모델로 더욱 발전했습니다. |
LaMDA(Dialog Applications용 언어 모델) | 2022년1월 | 구글 | 1370억[150] | 1.56T 워드,[150] 1680억 토큰[148] | 4110[151] | 독점적 | 대화의 응답 생성에 특화되어 있습니다. |
GPT-NeoX | 2022년2월 | 엘레우더AI | 200억[152] | 825 GiB[137] | 740[140] | 아파치 2.0 | 메가트론 구조에 기반을 둔 |
친칠라 | 2022년3월 | 딥마인드 | 700억[153] | 1.4조 개의[153][148] 토큰 | 6805[149] | 독점적 | 더 많은 데이터에 대해 훈련된 축소 매개변수 모델. 스패로우 봇에 사용되었습니다. 신경 스케일링 법칙으로 자주 인용됩니다. |
PaLM(Pathways Language Model) | 2022년4월 | 구글 | 5400억[154] | 7,680억 개의[153] 토큰 | 29250[149] | 독점적 | ~6000 TPU v4 칩에 대해 ~60일 동안 교육을 받았습니다. |
OPT(Open Pretrained Transformer) | 2022년 5월 | 메타 | 1750억[155] | 1800억 개의[156] 토큰 | 310[140] | 비상업적 연구[d] | Megatron의 일부를 개조한 GPT-3 아키텍처 |
YaLM 100B | 2022년6월 | 얀덱스 | 천억[157] | 1.7TB[157] | 아파치 2.0 | 마이크로소프트의 메가트론-LM을 기반으로 한 영어-러시아어 모델. | |
미네르바 | 2022년6월 | 구글 | 5400억[158] | 수학적 내용을 위해 필터링된 웹 페이지 및 arXiv 사전 인쇄 서버에[158] 제출된 논문에서 38.5B 토큰 | 독점적 | LLM은 '단계별 추론을 이용한 수학적, 과학적 문제' 풀이 훈련을 받았습니다.[159] 미네르바는 PaLM 모델을 기반으로 수학 및 과학 데이터에 대해 추가로 훈련되었습니다. | |
블룸 | 2022년7월 | 허깅 페이스가 주도하는 대형 콜라보레이션 | 1750억[160] | 3,500억 토큰(1.6TB)[161] | 책임 AI | 기본적으로 GPT-3이지만 다국어 말뭉치(프로그래밍 언어를 제외한 30% 영어)에 대해 훈련됨 | |
갈락티카 | 2022년11월 | 메타 | 1200억 | 1060억 개의[162] 토큰 | 알 수 없는 | CC-BY-NC-4.0 | 과학적 텍스트와 양식에 대한 교육을 받았습니다. |
AlexaTM(교사 모델) | 2022년11월 | 아마존 | 200억[163] | 1.3조[164] | 고유의[165] | 양방향 시퀀스 투 시퀀스 아키텍처 | |
뉴로사마 | 2022년12월 | 독립적인 | 알 수 없는 | 알 수 없는 | 개인 소유의 | 트위치에서 라이브 스트리밍을 위해 설계된 언어 모델입니다. | |
LLaMA(Large Language Model Meta AI) | 2023년2월 | 메타 | 650억[166] | 1.4조[166] | 6300[167] | 비상업적 연구[e] | 더 적은 매개변수로 더 나은 성능을 목표로 하기 위해 20개 언어로 구성된 대규모 말뭉치에 대해 훈련을 받았습니다.[166] 스탠포드 대학의 연구원들은 알파카라고 불리는 LLaMA 가중치를 기반으로 미세 조정된 모델을 훈련시켰습니다.[168] |
GPT-4 | 2023년3월 | OpenAI | 정확한 번호 알 수[f] 없음 | 알 수 없는 | 알 수 없는 | 고유의 | ChatGPT Plus 사용자가 사용할 수 있으며 여러 제품에 사용됩니다. |
세레브라스-GPT | 2023년3월 | 대뇌 | 130억[170] | 270[140] | 아파치 2.0 | 친칠라 포뮬러로 훈련되었습니다. | |
팔콘 | 2023년3월 | 기술혁신원 | 400억[171] | 정제된 웹 텍스트 코퍼스([172]필터링된 웹 텍스트 코퍼스)와 일부 "큐레이티드 코퍼스"[173]에서 나온 1조 개의 토큰. | 2800[167] | 아파치 2.0[174] | |
블룸버그GPT | 2023년3월 | 블룸버그 L.P. | 500억 | Bloomberg의 데이터 소스를 기반으로 한 3,630억 개의 토큰 데이터 세트와 범용 데이터[175] 세트의 3,450억 개의 토큰 | 독점적 | LLM은 독점 소스의 재무 데이터에 대해 "일반적인 LLM 벤치마크의 성능을 희생하지 않고 재무 작업에 대한 기존 모델을 상당한 마진으로 능가"하는 교육을 받았습니다. | |
판구 - σ | 2023년3월 | 화웨이 | 1조 8500억 | 3290억 개의[176] 토큰 | 독점적 | ||
오픈[177] 어시스턴트 | 2023년3월 | 라이온 | 170억 | 1.5조 토큰 | 아파치 2.0 | 클라우드 소스 오픈 데이터에 대한 교육 | |
쥬라기-2[178] | 2023년3월 | AI21 연구소 | 정확한 사이즈 알 수 없음 | 알 수 없는 | 독점적 | 다국어[179] | |
PaLM 2(경로 언어 모델 2) | 2023년 5월 | 구글 | 3400억[180] | 3.6조 토큰[180] | 85000[167] | 독점적 | 바드 챗봇에서 사용되었습니다.[181] |
라마2 | 2023년7월 | 메타 | 700억[182] | 2조 토큰[182] | 라마 2 라이선스 | LLaMA의 후계자. | |
클로드 2 | 2023년7월 | 인류학의 | 알 수 없는 | 알 수 없는 | 알 수 없는 | 독점적 | 클로드 챗봇에서 사용됩니다.[183] |
팔콘 180B | 2023년9월 | 기술혁신원 | 1800억[184] | 3.5조 토큰[184] | 팔콘 180B TII 라이선스 | ||
미스트랄 7B | 2023년9월 | 미스트랄 AI | 73억[185] | 알 수 없는 | 아파치 2.0 | ||
클로드 2.1 | 2023년11월 | 인류학의 | 알 수 없는 | 알 수 없는 | 알 수 없는 | 독점적 | 클로드 챗봇에서 사용됩니다. 200,000개의 토큰 또는 ~500페이지의 컨텍스트 창이 있습니다.[186] |
Grok-1[187] | 2023년11월 | x.AI | 3140억 | 알 수 없는 | 알 수 없는 | 아파치 2.0 | Grok 챗봇에서 사용됩니다. Grok-1은 8,192개의 토큰의 컨텍스트 길이를 가지며 X(Twitter)에 액세스할 수 있습니다.[188] |
쌍둥이자리 1.0 | 2023년12월 | 구글 딥마인드 | 알 수 없는 | 알 수 없는 | 알 수 없는 | 독점적 | 멀티모달 모델은 세 가지 크기로 제공됩니다. 같은 이름의 챗봇에서 사용됩니다.[189] |
Mixtral 8x7B | 2023년12월 | 미스트랄 AI | 총[190] 467억 개, 토큰당 129억 개의 파라미터 | 알 수 없는 | 알 수 없는 | 아파치 2.0 | 전문가 모델을 혼합하면 많은 벤치마크에서 GPT-3.5 및 Lama 270B보다 성능이 뛰어납니다. 모든 무게는 토렌트를 통해 방출되었습니다.[191] |
Phi-2 | 2023년12월 | 마이크로소프트 | 27억 | 1.4T 토큰 | 알 수 없는 | MIT | "최대 25배 더 큰 모델과 일치하거나 성능이 우수한" 소위 작은 언어 모델은 "Textbook Are Your Need"라는 논문을 기반으로 "Textbook-Quality" 데이터에 대해 훈련됩니다. 모델 교육은 "96개의 A100 GPU에서 14일"이 걸렸습니다.[192] |
이글7B | 2024년1월 | RWKV | 75억 2천만 | 1.1T 토큰 | 알 수 없는 | 아파치 2.0 | RWKV-v5 아키텍처를 기반으로 하는 "무관심" 선형 변환기입니다.[193] |
쌍둥이자리 1.5 | 2024년2월 | 구글 딥마인드 | 알 수 없는 | 알 수 없는 | 알 수 없는 | 독점적 | 전문가 혼합(MoE) 아키텍처를 기반으로 하는 멀티모달 모델. 컨텍스트 창은 100만 토큰으로 증가했지만 개발자는 128k만 사용할 수 있습니다.[194] |
젬마 | 2024년2월 | 구글 딥마인드 | 2B와 7B | 6T 토큰 | 알 수 없는 | 아파치 2.0[195] | |
클로드 3 | 2024년3월 | 인류학의 | 알 수 없는 | 알 수 없는 | 알 수 없는 | 독점적 | 하이쿠, 소넷, 오퍼스 세 가지 모델이 포함되어 있습니다.[196] |
참고 항목
메모들
- ^ 이 날짜는 모델의 아키텍처를 설명하는 문서가 처음 공개된 날짜입니다.
- ^ 많은 경우 연구자들은 크기가 다른 여러 버전의 모델을 공개하거나 보고합니다. 이 경우 가장 큰 모델의 크기가 여기에 나열됩니다.
- ^ 이것은 사전 훈련된 모델 가중치의 라이센스입니다. 거의 모든 경우에 교육 코드 자체가 오픈 소스이거나 쉽게 복제할 수 있습니다.
- ^ 66B를 포함한 소형 모델은 공개적으로 사용할 수 있으며 175B 모델은 요청 시 사용할 수 있습니다.
- ^ Facebook의 라이센스 및 배포 계획은 승인된 연구원에 대한 접근을 제한했지만 모델 가중치가 유출되어 널리 사용할 수 있게 되었습니다.
- ^ 기술 보고서에 명시된 바와 같이, "경쟁 환경과 GPT-4와 같은 대규모 모델의 안전성을 모두 고려할 때, 이 보고서에는 아키텍처(모델 크기 포함), 하드웨어, 교육 컴퓨팅, 데이터 세트 구성, 교육 방법 등에 대한 자세한 내용이 포함되어 있지 않습니다."[169]
참고문헌
- ^ "Better Language Models and Their Implications". OpenAI. 2019-02-14. Archived from the original on 2020-12-19. Retrieved 2019-08-25.
- ^ a b Bowman, Samuel R. (2023). "Eight Things to Know about Large Language Models". arXiv:2304.00612 [cs.CL].
- ^ Peng, Bo; et al. (2023). "RWKV: Reinventing RNNS for the Transformer Era". arXiv:2305.13048 [cs.CL].
- ^ Merritt, Rick (2022-03-25). "What Is a Transformer Model?". NVIDIA Blog. Retrieved 2023-07-25.
- ^ Gu, Albert; Dao, Tri (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752
- ^ a b c Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (Dec 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (eds.). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877–1901.
- ^ a b Manning, Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. 151 (2): 127–138. doi:10.1162/daed_a_01905. S2CID 248377870.
- ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). "Attention is All you Need" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30.
- ^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL].
- ^ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What We Know About How BERT Works". Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349. S2CID 211532403.
- ^ Hern, Alex (14 February 2019). "New AI fake text generator may be too dangerous to release, say creators". The Guardian. Retrieved 20 January 2024.
- ^ "ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months". Euronews. November 30, 2023. Retrieved January 20, 2024.
- ^ Heaven, Will (March 14, 2023). "GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why". MIT Technology Review. Retrieved January 20, 2024.
- ^ "Parameters in notable artificial intelligence systems". ourworldindata.org. November 30, 2023. Retrieved January 20, 2024.
- ^ "Google's Gemini Pro Beats GPT-4". analyticsindiamag.com. January 27, 2024. Retrieved January 29, 2024.
- ^ "LMSYS Chatbot Arena Leaderboard". huggingface.co. Retrieved January 20, 2024.
- ^ Yennie Jun (2023-05-03). "All languages are NOT created (tokenized) equal". Language models cost much more in some languages than others. Retrieved 2023-08-17.
In other words, to express the same sentiment, some languages require up to 10 times more tokens.
- ^ Petrov, Aleksandar; Malfa, Emanuele La; Torr, Philip; Bibi, Adel (June 23, 2023). "Language Model Tokenizers Introduce Unfairness Between Languages". NeurIPS. arXiv:2305.15425 – via openreview.net.
- ^ "OpenAI API". platform.openai.com. Archived from the original on April 23, 2023. Retrieved 2023-04-30.
- ^ a b Paaß, Gerhard; Giesselbach, Sven (2022). "Pre-trained Language Models". Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms. pp. 19–78. doi:10.1007/978-3-031-23190-2_2. ISBN 9783031231902. Retrieved 3 August 2023.
- ^ Petrov, Aleksandar; Emanuele La Malfa; Torr, Philip H. S.; Bibi, Adel (2023). "Language Model Tokenizers Introduce Unfairness Between Languages". arXiv:2305.15425 [cs.CL].
- ^ Dodge, Jesse; Sap, Maarten; Marasović, Ana; Agnew, William; Ilharco, Gabriel; Groeneveld, Dirk; Mitchell, Margaret; Gardner, Matt (2021). "Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus". arXiv:2104.08758 [cs.CL].
- ^ Lee, Katherine; Ippolito, Daphne; Nystrom, Andrew; Zhang, Chiyuan; Eck, Douglas; Callison-Burch, Chris; Carlini, Nicholas (May 2022). "Deduplicating Training Data Makes Language Models Better" (PDF). Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. 1: Long Papers: 8424–8445. doi:10.18653/v1/2022.acl-long.577.
- ^ Li, Yuanzhi; Bubeck, Sébastien; Eldan, Ronen; Del Giorno, Allie; Gunasekar, Suriya; Lee, Yin Tat (2023-09-11), Textbooks Are All You Need II: phi-1.5 technical report, arXiv:2309.05463
- ^ Brown, Tom B.; et al. (2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL].
- ^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan (2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155 [cs.CL].
- ^ Wang, Yizhong; Kordi, Yeganeh; Mishra, Swaroop; Liu, Alisa; Smith, Noah A.; Khashabi, Daniel; Hajishirzi, Hannaneh (2022). "Self-Instruct: Aligning Language Model with Self Generated Instructions". arXiv:2212.10560 [cs.CL].
- ^ Shazeer, Noam; Mirhoseini, Azalia; Maziarz, Krzysztof; Davis, Andy; Le, Quoc; Hinton, Geoffrey; Dean, Jeff (2017-01-01). "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer". arXiv:1701.06538 [cs.LG].
- ^ Lepikhin, Dmitry; Lee, HyoukJoong; Xu, Yuanzhong; Chen, Dehao; Firat, Orhan; Huang, Yanping; Krikun, Maxim; Shazeer, Noam; Chen, Zhifeng (2021-01-12). "GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding". arXiv:2006.16668 [cs.CL].
- ^ a b c d Dai, Andrew M; Du, Nan (December 9, 2021). "More Efficient In-Context Learning with GLaM". ai.googleblog.com. Retrieved 2023-03-09.
- ^ a b c Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (31 August 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research. ISSN 2835-8856.
- ^ Allamar, Jay. "Illustrated transformer". Retrieved 2023-07-29.
- ^ Allamar, Jay. "The Illustrated GPT-2 (Visualizing Transformer Language Models)". Retrieved 2023-08-01.
- ^ "Our next-generation model: Gemini 1.5". Google. 15 February 2024. Retrieved 18 February 2024.
- ^ "Long context prompting for Claude 2.1". December 6, 2023. Retrieved January 20, 2024.
- ^ "Rate limits". openai.com. Retrieved January 20, 2024.
- ^ Zaib, Munazza; Sheng, Quan Z.; Emma Zhang, Wei (4 February 2020). "A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP". Proceedings of the Australasian Computer Science Week Multiconference. pp. 1–4. arXiv:2104.10810. doi:10.1145/3373017.3373028. ISBN 9781450376976. S2CID 211040895.
- ^ a b c Jurafsky, Dan; Martin, James H. (7 January 2023). Speech and Language Processing (PDF) (3rd edition draft ed.). Retrieved 24 May 2022.
- ^ a b Wiggers, Kyle (28 April 2022). "The emerging types of language models and why they matter". TechCrunch.
- ^ Sharir, Or; Peleg, Barak; Shoham, Yoav (2020). "The Cost of Training NLP Models: A Concise Overview". arXiv:2004.08900 [cs.CL].
- ^ Biderman, Stella; Schoelkopf, Hailey; Anthony, Quentin; Bradley, Herbie; Khan, Mohammad Aflah; Purohit, Shivanshu; Prashanth, USVSN Sai (April 2023). "Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling". arXiv:2304.01373 [cs.CL].
- ^ Maslej, Nestor; Fattorini, Loredana; Brynjolfsson, Erik; Etchemendy, John; Ligett, Katrina; Lyons, Terah; Manyika, James; Ngo, Helen; Niebles, Juan Carlos (2023-10-05), Artificial Intelligence Index Report 2023, doi:10.48550/arXiv.2310.03715, retrieved 2024-03-12
- ^ a b 섹션 2.1 및 표 1,
- ^ Gao, Luyu; Madaan, Aman; Zhou, Shuyan; Alon, Uri; Liu, Pengfei; Yang, Yiming; Callan, Jamie; Neubig, Graham (2022-11-01). "PAL: Program-aided Language Models". arXiv:2211.10435 [cs.CL].
- ^ "PAL: Program-aided Language Models". reasonwithpal.com. Retrieved 2023-06-12.
- ^ Paranjape, Bhargavi; Lundberg, Scott; Singh, Sameer; Hajishirzi, Hannaneh; Zettlemoyer, Luke; Tulio Ribeiro, Marco (2023-03-01). "ART: Automatic multi-step reasoning and tool-use for large language models". arXiv:2303.09014 [cs.CL].
- ^ Liang, Yaobo; Wu, Chenfei; Song, Ting; Wu, Wenshan; Xia, Yan; Liu, Yu; Ou, Yang; Lu, Shuai; Ji, Lei; Mao, Shaoguang; Wang, Yun; Shou, Linjun; Gong, Ming; Duan, Nan (2023-03-01). "TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs". arXiv:2303.16434 [cs.AI].
- ^ Patil, Shishir G.; Zhang, Tianjun; Wang, Xin; Gonzalez, Joseph E. (2023-05-01). "Gorilla: Large Language Model Connected with Massive APIs". arXiv:2305.15334 [cs.CL].
- ^ Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau; Rocktäschel, Tim; Riedel, Sebastian; Kiela, Douwe (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 9459–9474. arXiv:2005.11401.
- ^ Huang, Wenlong; Abbeel, Pieter; Pathak, Deepak; Mordatch, Igor (2022-06-28). "Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents". Proceedings of the 39th International Conference on Machine Learning. PMLR: 9118–9147. arXiv:2201.07207.
- ^ Yao, Shunyu; Zhao, Jeffrey; Yu, Dian; Du, Nan; Shafran, Izhak; Narasimhan, Karthik; Cao, Yuan (2022-10-01). "ReAct: Synergizing Reasoning and Acting in Language Models". arXiv:2210.03629 [cs.CL].
- ^ Wu, Yue; Prabhumoye, Shrimai; Min, So Yeon (24 May 2023). "SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning". arXiv:2305.15486 [cs.AI].
- ^ Wang, Zihao; Cai, Shaofei; Liu, Anji; Ma, Xiaojian; Liang, Yitao (2023-02-03). "Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents". arXiv:2302.01560 [cs.AI].
- ^ Shinn, Noah; Cassano, Federico; Labash, Beck; Gopinath, Ashwin; Narasimhan, Karthik; Yao, Shunyu (2023-03-01). "Reflexion: Language Agents with Verbal Reinforcement Learning". arXiv:2303.11366 [cs.AI].
- ^ Hao, Shibo; Gu, Yi; Ma, Haodi; Jiahua Hong, Joshua; Wang, Zhen; Zhe Wang, Daisy; Hu, Zhiting (2023-05-01). "Reasoning with Language Model is Planning with World Model". arXiv:2305.14992 [cs.CL].
- ^ Zhang, Jenny; Lehman, Joel; Stanley, Kenneth; Clune, Jeff (2 June 2023). "OMNI: Open-endedness via Models of human Notions of Interestingness". arXiv:2306.01711 [cs.AI].
- ^ a b "Voyager An Open-Ended Embodied Agent with Large Language Models". voyager.minedojo.org. Retrieved 2023-06-09.
- ^ Park, Joon Sung; O'Brien, Joseph C.; Cai, Carrie J.; Ringel Morris, Meredith; Liang, Percy; Bernstein, Michael S. (2023-04-01). "Generative Agents: Interactive Simulacra of Human Behavior". arXiv:2304.03442 [cs.HC].
- ^ Nagel, Markus; Amjad, Rana Ali; Baalen, Mart Van; Louizos, Christos; Blankevoort, Tijmen (2020-11-21). "Up or Down? Adaptive Rounding for Post-Training Quantization". Proceedings of the 37th International Conference on Machine Learning. PMLR: 7197–7206.
- ^ Polino, Antonio; Pascanu, Razvan; Alistarh, Dan (2018-02-01). "Model compression via distillation and quantization". arXiv:1802.05668 [cs.NE].
- ^ Frantar, Elias; Ashkboos, Saleh; Hoefler, Torsten; Alistarh, Dan (2022-10-01). "GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers". arXiv:2210.17323 [cs.LG].
- ^ Dettmers, Tim; Svirschevski, Ruslan; Egiazarian, Vage; Kuznedelev, Denis; Frantar, Elias; Ashkboos, Saleh; Borzunov, Alexander; Hoefler, Torsten; Alistarh, Dan (2023-06-01). "SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression". arXiv:2306.03078 [cs.CL].
- ^ Dettmers, Tim; Pagnoni, Artidoro; Holtzman, Ari; Zettlemoyer, Luke (2023-05-01). "QLoRA: Efficient Finetuning of Quantized LLMs". arXiv:2305.14314 [cs.LG].
- ^ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Rich (2014-06-18). "Multimodal Neural Language Models". Proceedings of the 31st International Conference on Machine Learning. PMLR: 595–603.
- ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E (2012). "ImageNet Classification with Deep Convolutional Neural Networks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 25.
- ^ Antol, Stanislaw; Agrawal, Aishwarya; Lu, Jiasen; Mitchell, Margaret; Batra, Dhruv; Zitnick, C. Lawrence; Parikh, Devi (2015). "VQA: Visual Question Answering". ICCV: 2425–2433.
- ^ Li, Junnan; Li, Dongxu; Savarese, Silvio; Hoi, Steven (2023-01-01). "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models". arXiv:2301.12597 [cs.CV].
- ^ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Pauline; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arthur; Millican, Katherine; Reynolds, Malcolm; Ring, Roman; Rutherford, Eliza; Cabi, Serkan; Han, Tengda; Gong, Zhitao (2022-12-06). "Flamingo: a Visual Language Model for Few-Shot Learning". Advances in Neural Information Processing Systems. 35: 23716–23736. arXiv:2204.14198.
- ^ Driess, Danny; Xia, Fei; Sajjadi, Mehdi S. M.; Lynch, Corey; Chowdhery, Aakanksha; Ichter, Brian; Wahid, Ayzaan; Tompson, Jonathan; Vuong, Quan; Yu, Tianhe; Huang, Wenlong; Chebotar, Yevgen; Sermanet, Pierre; Duckworth, Daniel; Levine, Sergey (2023-03-01). "PaLM-E: An Embodied Multimodal Language Model". arXiv:2303.03378 [cs.LG].
- ^ Liu, Haotian; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae (2023-04-01). "Visual Instruction Tuning". arXiv:2304.08485 [cs.CV].
- ^ Zhang, Hang; Li, Xin; Bing, Lidong (2023-06-01). "Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding". arXiv:2306.02858 [cs.CL].
- ^ OpenAI (2023-03-27). "GPT-4 Technical Report". arXiv:2303.08774 [cs.CL].
- ^ OpenAI (September 25, 2023). "GPT-4V(ision) System Card" (PDF).
- ^ Pichai, Sundar, Google Keynote (Google I/O '23), timestamp 15:31, retrieved 2023-07-02
- ^ Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; Welbl, Johannes; Clark, Aidan; Hennigan, Tom; Noland, Eric; Millican, Katie; Driessche, George van den; Damoc, Bogdan (2022-03-29). "Training Compute-Optimal Large Language Models". arXiv:2203.15556 [cs.CL].
- ^ a b Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Broken Neural Scaling Laws". arXiv:2210.14891 [cs.LG].
- ^ "137 emergent abilities of large language models". Jason Wei. Retrieved 2023-06-24.
- ^ Hahn, Michael; Goyal, Navin (2023-03-14). "A Theory of Emergent In-Context Learning as Implicit Structure Induction". arXiv:2303.07971 [cs.LG].
- ^ Pilehvar, Mohammad Taher; Camacho-Collados, Jose (June 2019). "Proceedings of the 2019 Conference of the North". Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics: 1267–1273. doi:10.18653/v1/N19-1128. S2CID 102353817.
- ^ "WiC: The Word-in-Context Dataset". pilehvar.github.io. Retrieved 2023-06-27.
- ^ Patel, Roma; Pavlick, Ellie (2021-10-06). "Mapping Language Models to Grounded Conceptual Spaces". ICLR.
- ^ 대형 언어 모델의 비상 능력 자세히 보기 (Yao Fu, 2022년 11월 20일)
- ^ Ornes, Stephen (March 16, 2023). "The Unpredictable Abilities Emerging From Large AI Models". Quanta Magazine.
- ^ Schaeffer, Rylan; Miranda, Brando; Koyejo, Sanmi (2023-04-01). "Are Emergent Abilities of Large Language Models a Mirage?". arXiv:2304.15004 [cs.AI].
- ^ Li, Kenneth; Hopkins, Aspen K.; Bau, David; Viégas, Fernanda; Pfister, Hanspeter; Wattenberg, Martin (2022-10-01). "Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task". arXiv:2210.13382 [cs.LG].
- ^ "Large Language Model: world models or surface statistics?". The Gradient. 2023-01-21. Retrieved 2023-06-12.
- ^ Jin, Charles; Rinard, Martin (2023-05-01). "Evidence of Meaning in Language Models Trained on Programs". arXiv:2305.11169 [cs.LG].
- ^ Nanda, Neel; Chan, Lawrence; Lieberum, Tom; Smith, Jess; Steinhardt, Jacob (2023-01-01). "Progress measures for grokking via mechanistic interpretability". arXiv:2301.05217 [cs.LG].
- ^ a b c d e Mitchell, Melanie; Krakauer, David C. (28 March 2023). "The debate over understanding in AI's large language models". Proceedings of the National Academy of Sciences. 120 (13): e2215907120. arXiv:2210.13966. Bibcode:2023PNAS..12015907M. doi:10.1073/pnas.2215907120. PMC 10068812. PMID 36943882.
- ^ Metz, Cade (16 May 2023). "Microsoft Says New A.I. Shows Signs of Human Reasoning". The New York Times.
- ^ a b Bubeck, Sébastien; Chandrasekaran, Varun; Eldan, Ronen; Gehrke, Johannes; Horvitz, Eric; Kamar, Ece; Lee, Peter; Lee, Yin Tat; Li, Yuanzhi; Lundberg, Scott; Nori, Harsha; Palangi, Hamid; Ribeiro, Marco Tulio; Zhang, Yi (2023). "Sparks of Artificial General Intelligence: Early experiments with GPT-4". arXiv:2303.12712 [cs.CL].
- ^ "ChatGPT is more like an 'alien intelligence' than a human brain, says futurist". ZDNET. 2023. Retrieved 12 June 2023.
- ^ a b Newport, Cal (13 April 2023). "What Kind of Mind Does ChatGPT Have?". The New Yorker. Retrieved 12 June 2023.
- ^ Roose, Kevin (30 May 2023). "Why an Octopus-like Creature Has Come to Symbolize the State of A.I." The New York Times. Retrieved 12 June 2023.
- ^ "The A to Z of Artificial Intelligence". Time Magazine. 13 April 2023. Retrieved 12 June 2023.
- ^ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Dai, Wenliang; Madotto, Andrea; Fung, Pascale (November 2022). "Survey of Hallucination in Natural Language Generation" (pdf). ACM Computing Surveys. Association for Computing Machinery. 55 (12): 1–38. arXiv:2202.03629. doi:10.1145/3571730. S2CID 246652372. Retrieved 15 January 2023.
- ^ Varshney, Neeraj; Yao, Wenlin; Zhang, Hongming; Chen, Jianshu; Yu, Dong (2023). "A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of LLMs by Validating Low-Confidence Generation". arXiv:2307.03987 [cs.CL].
- ^ Lakoff, George (1999). Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Philosophy; Appendix: The Neural Theory of Language Paradigm. New York Basic Books. pp. 569–583. ISBN 978-0-465-05674-3.
- ^ Evans, Vyvyan. (2014). The Language Myth. Cambridge University Press. ISBN 978-1-107-04396-1.
- ^ Friston, Karl J. (2022). Active Inference: The Free Energy Principle in Mind, Brain, and Behavior; Chapter 4 The Generative Models of Active Inference. The MIT Press. ISBN 978-0-262-36997-8.
- ^ a b Huyen, Chip (October 18, 2019). "Evaluation Metrics for Language Modeling". The Gradient. Retrieved January 14, 2024.
- ^ a b Clark, Christopher; Lee, Kenton; Chang, Ming-Wei; Kwiatkowski, Tom; Collins, Michael; Toutanova, Kristina (2019). "BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions". arXiv:1905.10044 [cs.CL].
- ^ a b c Wayne Xin Zhao; Zhou, Kun; Li, Junyi; Tang, Tianyi; Wang, Xiaolei; Hou, Yupeng; Min, Yingqian; Zhang, Beichen; Zhang, Junjie; Dong, Zican; Du, Yifan; Yang, Chen; Chen, Yushuo; Chen, Zhipeng; Jiang, Jinhao; Ren, Ruiyang; Li, Yifan; Tang, Xinyu; Liu, Zikang; Liu, Peiyu; Nie, Jian-Yun; Wen, Ji-Rong (2023). "A Survey of Large Language Models". arXiv:2303.18223 [cs.CL].
- ^ Srivastava, Aarohi; et al. (2022). "Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models". arXiv:2206.04615 [cs.CL].
- ^ Lin, Stephanie; Hilton, Jacob; Evans, Owain (2021). "TruthfulQA: Measuring How Models Mimic Human Falsehoods". arXiv:2109.07958 [cs.CL].
- ^ a b Zellers, Rowan; Holtzman, Ari; Bisk, Yonatan; Farhadi, Ali; Choi, Yejin (2019). "HellaSwag: Can a Machine Really Finish Your Sentence?". arXiv:1905.07830 [cs.CL].
- ^ "Prepare for truly useful large language models". Nature Biomedical Engineering. 7 (2): 85–86. 7 March 2023. doi:10.1038/s41551-023-01012-6. PMID 36882584. S2CID 257403466.
- ^ "Your job is (probably) safe from artificial intelligence". The Economist. 7 May 2023. Retrieved 18 June 2023.
- ^ "Generative AI Could Raise Global GDP by 7%". Goldman Sachs. Retrieved 18 June 2023.
- ^ Peng, Zhencan; Wang, Zhizhi; Deng, Dong (13 June 2023). "Near-Duplicate Sequence Search at Scale for Large Language Model Memorization Evaluation" (PDF). Proceedings of the ACM on Management of Data. 1 (2): 1–18. doi:10.1145/3589324. S2CID 259213212. Retrieved 2024-01-20. Lee et al 2022를 인용합니다.
- ^ 펑, 왕, 덩 2023, 8페이지.
- ^ Alba, Davey (1 May 2023). "AI chatbots have been used to create dozens of news content farms". The Japan Times. Retrieved 18 June 2023.
- ^ "Could chatbots help devise the next pandemic virus?". Science. 14 June 2023. doi:10.1126/science.adj2463.
- ^ Stephen Council (1 Dec 2023). "How Googlers cracked an SF rival's tech model with a single word". SFGATE.
- ^ Hubinger, Evan (10 January 2024). "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training". arXiv:2401.05566 [cs.CR].
- ^ a b Stokel-Walker, Chris (November 22, 2023). "ChatGPT Replicates Gender Bias in Recommendation Letters". Scientific American. Retrieved 2023-12-29.
- ^ Luo, Queenie; Puett, Michael J.; Smith, Michael D. (2023-03-28). "A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube". arXiv:2303.16281v2 [cs.CY].
- ^ Cheng, Myra; Durmus, Esin; Jurafsky, Dan (2023-05-29), Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models, arXiv:2305.18189
- ^ Kotek, Hadas; Dockum, Rikker; Sun, David (2023-11-05). "Gender bias and stereotypes in Large Language Models". Proceedings of the ACM Collective Intelligence Conference. CI '23. New York, NY, USA: Association for Computing Machinery. pp. 12–24. doi:10.1145/3582269.3615599. ISBN 979-8-4007-0113-9.
- ^ Heikkilä, Melissa (August 7, 2023). "AI language models are rife with different political biases". MIT Technology Review. Retrieved 2023-12-29.
- ^ "finetune-transformer-lm". GitHub. Retrieved 2 January 2024.
- ^ a b Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].
- ^ Prickett, Nicole Hemsoth (2021-08-24). "Cerebras Shifts Architecture To Meet Massive AI/ML Models". The Next Platform. Retrieved 2023-06-20.
- ^ "BERT". March 13, 2023 – via GitHub.
- ^ Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin; Callison-Burch, Chris (2022). "Bidirectional Language Models Are Also Few-shot Learners". arXiv:2209.14500 [cs.LG].
- ^ "BERT, RoBERTa, DistilBERT, XLNet: Which one to use?". KDnuggets.
- ^ "xlnet". GitHub. Retrieved 2 January 2024.
- ^ Naik, Amit Raja (September 23, 2021). "Google Introduces New Architecture To Reduce Cost Of Transformers". Analytics India Magazine.
- ^ Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Ruslan; Le, Quoc V. (2 January 2020). "XLNet: Generalized Autoregressive Pretraining for Language Understanding". arXiv:1906.08237 [cs.CL].
- ^ "GPT-2: 1.5B Release". OpenAI. 2019-11-05. Archived from the original on 2019-11-14. Retrieved 2019-11-14.
- ^ "Better language models and their implications". openai.com.
- ^ a b "OpenAI's GPT-3 Language Model: A Technical Overview". lambdalabs.com. 3 June 2020.
- ^ "gpt-2". GitHub. Retrieved 13 March 2023.
- ^ 표 D.1 in
- ^ "ChatGPT: Optimizing Language Models for Dialogue". OpenAI. 2022-11-30. Retrieved 2023-01-13.
- ^ "GPT Neo". March 15, 2023 – via GitHub.
- ^ a b c Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn; Leahy, Connor (31 December 2020). "The Pile: An 800GB Dataset of Diverse Text for Language Modeling". arXiv:2101.00027 [cs.CL].
- ^ a b Iyer, Abhishek (15 May 2021). "GPT-3's free alternative GPT-Neo is something to be excited about". VentureBeat.
- ^ "GPT-J-6B: An Introduction to the Largest Open Source GPT Model Forefront". www.forefront.ai. Retrieved 2023-02-28.
- ^ a b c d Dey, Nolan; Gosal, Gurpreet; Zhiming; Chen; Khachane, Hemant; Marshall, William; Pathria, Ribhu; Tom, Marvin; Hestness, Joel (2023-04-01). "Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster". arXiv:2304.03208 [cs.LG].
- ^ Alvi, Ali; Kharya, Paresh (11 October 2021). "Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model". Microsoft Research.
- ^ a b Smith, Shaden; Patwary, Mostofa; Norick, Brandon; LeGresley, Patrick; Rajbhandari, Samyam; Casper, Jared; Liu, Zhun; Prabhumoye, Shrimai; Zerveas, George; Korthikanti, Vijay; Zhang, Elton; Child, Rewon; Aminabadi, Reza Yazdani; Bernauer, Julie; Song, Xia (2022-02-04). "Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model". arXiv:2201.11990 [cs.CL].
- ^ Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan; Zhao, Yanbin; Pang, Chao; Liu, Jiaxiang; Chen, Xuyi; Lu, Yuxiang; Liu, Weixin; Wang, Xi; Bai, Yangfan; Chen, Qiuliang; Zhao, Li; Li, Shiyong; Sun, Peng; Yu, Dianhai; Ma, Yanjun; Tian, Hao; Wu, Hua; Wu, Tian; Zeng, Wei; Li, Ge; Gao, Wen; Wang, Haifeng (December 23, 2021). "ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation". arXiv:2112.12731 [cs.CL].
- ^ "Product". Anthropic. Retrieved 14 March 2023.
- ^ a b Askell, Amanda; Bai, Yuntao; Chen, Anna; et al. (9 December 2021). "A General Language Assistant as a Laboratory for Alignment". arXiv:2112.00861 [cs.CL].
- ^ Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; et al. (15 December 2022). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073 [cs.CL].
- ^ "Language modelling at scale: Gopher, ethical considerations, and retrieval". www.deepmind.com. 8 December 2021. Retrieved 20 March 2023.
- ^ a b c Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; et al. (29 March 2022). "Training Compute-Optimal Large Language Models". arXiv:2203.15556 [cs.CL].
- ^ a b c d PaLM의 표 20 및 66페이지: 경로를 이용한 언어 모델링
- ^ a b Cheng, Heng-Tze; Thoppilan, Romal (January 21, 2022). "LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything". ai.googleblog.com. Retrieved 2023-03-09.
- ^ Thoppilan, Romal; De Freitas, Daniel; Hall, Jamie; Shazeer, Noam; Kulshreshtha, Apoorv; Cheng, Heng-Tze; Jin, Alicia; Bos, Taylor; Baker, Leslie; Du, Yu; Li, YaGuang; Lee, Hongrae; Zheng, Huaixiu Steven; Ghafouri, Amin; Menegali, Marcelo (2022-01-01). "LaMDA: Language Models for Dialog Applications". arXiv:2201.08239 [cs.CL].
- ^ Black, Sidney; Biderman, Stella; Hallahan, Eric; et al. (2022-05-01). GPT-NeoX-20B: An Open-Source Autoregressive Language Model. Proceedings of BigScience Episode #5 – Workshop on Challenges & Perspectives in Creating Large Language Models. Vol. Proceedings of BigScience Episode #5 – Workshop on Challenges & Perspectives in Creating Large Language Models. pp. 95–136. Retrieved 2022-12-19.
- ^ a b c Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Sifre, Laurent (12 April 2022). "An empirical analysis of compute-optimal large language model training". Deepmind Blog.
- ^ Narang, Sharan; Chowdhery, Aakanksha (April 4, 2022). "Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance". ai.googleblog.com. Retrieved 2023-03-09.
- ^ "Democratizing access to large-scale language models with OPT-175B". ai.facebook.com.
- ^ Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; Li, Xian; Lin, Xi Victoria; Mihaylov, Todor; Ott, Myle; Shleifer, Sam; Shuster, Kurt; Simig, Daniel; Koura, Punit Singh; Sridhar, Anjali; Wang, Tianlu; Zettlemoyer, Luke (21 June 2022). "OPT: Open Pre-trained Transformer Language Models". arXiv:2205.01068 [cs.CL].
- ^ a b Khrushchev, Mikhail; Vasilev, Ruslan; Petrov, Alexey; Zinov, Nikolay (2022-06-22), YaLM 100B, retrieved 2023-03-18
- ^ a b Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk; Ramasesh, Vinay; Slone, Ambrose; Anil, Cem; Schlag, Imanol; Gutman-Solo, Theo; Wu, Yuhuai; Neyshabur, Behnam; Gur-Ari, Guy; Misra, Vedant (30 June 2022). "Solving Quantitative Reasoning Problems with Language Models". arXiv:2206.14858 [cs.CL].
- ^ "Minerva: Solving Quantitative Reasoning Problems with Language Models". ai.googleblog.com. 30 June 2022. Retrieved 20 March 2023.
- ^ Ananthaswamy, Anil (8 March 2023). "In AI, is bigger always better?". Nature. 615 (7951): 202–205. Bibcode:2023Natur.615..202A. doi:10.1038/d41586-023-00641-w. PMID 36890378. S2CID 257380916.
- ^ "bigscience/bloom · Hugging Face". huggingface.co.
- ^ Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor; Stojnic, Robert (16 November 2022). "Galactica: A Large Language Model for Science". arXiv:2211.09085 [cs.CL].
- ^ "20B-parameter Alexa model sets new marks in few-shot learning". Amazon Science. 2 August 2022.
- ^ Soltan, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack; et al. (3 August 2022). "AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model". arXiv:2208.01448 [cs.CL].
- ^ "AlexaTM 20B is now available in Amazon SageMaker JumpStart AWS Machine Learning Blog". aws.amazon.com. 17 November 2022. Retrieved 13 March 2023.
- ^ a b c "Introducing LLaMA: A foundational, 65-billion-parameter large language model". Meta AI. 24 February 2023.
- ^ a b c "The Falcon has landed in the Hugging Face ecosystem". huggingface.co. Retrieved 2023-06-20.
- ^ "Stanford CRFM". crfm.stanford.edu.
- ^ "GPT-4 Technical Report" (PDF). OpenAI. 2023. Archived (PDF) from the original on March 14, 2023. Retrieved March 14, 2023.
- ^ Dey, Nolan (March 28, 2023). "Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models". Cerebras.
- ^ "Abu Dhabi-based TII launches its own version of ChatGPT". tii.ae.
- ^ Penedo, Guilherme; Malartic, Quentin; Hesslow, Daniel; Cojocaru, Ruxandra; Cappelli, Alessandro; Alobeidli, Hamza; Pannier, Baptiste; Almazrouei, Ebtesam; Launay, Julien (2023-06-01). "The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only". arXiv:2306.01116 [cs.CL].
- ^ "tiiuae/falcon-40b · Hugging Face". huggingface.co. 2023-06-09. Retrieved 2023-06-20.
- ^ UAE의 Falcon 40B, 기술혁신원의 세계 최고 AI 모델로 로열티 없음 2023년 5월 31일
- ^ Wu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastian; Kambadur, Prabhanjan; Rosenberg, David; Mann, Gideon (March 30, 2023). "BloombergGPT: A Large Language Model for Finance". arXiv:2303.17564 [cs.LG].
- ^ Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda; Podolskiy, Alexander; Arshinov, Grigory; Bout, Andrey; Piontkovskaya, Irina; Wei, Jiansheng; Jiang, Xin; Su, Teng; Liu, Qun; Yao, Jun (March 19, 2023). "PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing". arXiv:2303.10845 [cs.CL].
- ^ Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richárd; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrew (2023-04-14). "OpenAssistant Conversations – Democratizing Large Language Model Alignment". arXiv:2304.07327 [cs.CL].
- ^ Wrobel, Sharon. "Tel Aviv startup rolls out new advanced AI language model to rival OpenAI". www.timesofisrael.com. Retrieved 2023-07-24.
- ^ Wiggers, Kyle (2023-04-13). "With Bedrock, Amazon enters the generative AI race". TechCrunch. Retrieved 2023-07-24.
- ^ a b Elias, Jennifer (16 May 2023). "Google's newest A.I. model uses nearly five times more text data for training than its predecessor". CNBC. Retrieved 18 May 2023.
- ^ "Introducing PaLM 2". Google. May 10, 2023.
- ^ a b "Introducing Llama 2: The Next Generation of Our Open Source Large Language Model". Meta AI. 2023. Retrieved 2023-07-19.
- ^ "Claude 2". anthropic.com. Retrieved 12 December 2023.
- ^ a b "Falcon 180B". Technology Innovation Institute. 2023. Retrieved 2023-09-21.
- ^ "Announcing Mistral 7B". Mistral. 2023. Retrieved 2023-10-06.
- ^ "Introducing Claude 2.1". anthropic.com. Retrieved 12 December 2023.
- ^ xai-org/grok-1, xai-org, 2024-03-19, retrieved 2024-03-19
- ^ "Grok-1 model card". x.ai. Retrieved 12 December 2023.
- ^ "Gemini – Google DeepMind". deepmind.google. Retrieved 12 December 2023.
- ^ "Mixtral of experts". mistral.ai. 11 December 2023. Retrieved 12 December 2023.
- ^ Franzen, Carl (11 December 2023). "Mistral shocks AI community as latest open source model eclipses GPT-3.5 performance". VentureBeat. Retrieved 12 December 2023.
- ^ Hughes, Alyssa (12 December 2023). "Phi-2: The surprising power of small language models". Microsoft Research. Retrieved 13 December 2023.
- ^ Cheah, Eugene. "🦅 Eagle 7B : Soaring past Transformers with 1 Trillion Tokens Across 100+ Languages (RWKV-v5)". blog.rwkv.com. Retrieved 31 January 2024.
- ^ "Our next-generation model: Gemini 1.5". Google. 15 February 2024. Retrieved 16 February 2024.
This means 1.5 Pro can process vast amounts of information in one go — including 1 hour of video, 11 hours of audio, codebases with over 30,000 lines of code or over 700,000 words. In our research, we've also successfully tested up to 10 million tokens.
- ^ "Gemma" – via GitHub.
- ^ "Introducing the next generation of Claude". www.anthropic.com. Retrieved 2024-03-04.
추가읽기
- 주라프스키, 댄, 마틴, 제임스. H. 음성 및 언어 처리: 자연어 처리, 컴퓨터 언어학 및 음성 인식 소개, 제3판 초안, 2023.
- Phuong, Mary; Hutter, Marcus (2022). "Formal Algorithms for Transformers". arXiv:2207.09238 [cs.LG].
- Eloundou, Tyna; Manning, Sam; Mishkin, Pamela; Rock, Daniel (2023). "GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models". arXiv:2303.10130 [econ.GN].
- Eldan, Ronen; Li, Yuanzhi (2023). "TinyStories: How Small Can Language Models Be and Still Speak Coherent English?". arXiv:2305.07759 [cs.CL].
- Frank, Michael C. (27 June 2023). "Baby steps in evaluating the capacities of large language models". Nature Reviews Psychology. 2 (8): 451–452. doi:10.1038/s44159-023-00211-x. ISSN 2731-0574. S2CID 259713140. Retrieved 2 July 2023.
- Zhao, Wayne Xin; et al. (2023). "A Survey of Large Language Models". arXiv:2303.18223 [cs.CL].
- Kaddour, Jean; et al. (2023). "Challenges and Applications of Large Language Models". arXiv:2307.10169 [cs.CL].
- Yin, Shukang; Fu, Chaoyou; Zhao, Sirui; Li, Ke; Sun, Xing; Xu, Tong; Chen, Enhong (2023-06-01). "A Survey on Multimodal Large Language Models". arXiv:2306.13549 [cs.CV].
- GitHub에서 LLMs 저장소를 엽니다.