뮤제로
MuZero![]() | 이 문서는 갱신할 필요가 있습니다.(2022년 5월) |
이 기사는 에 관한 시리즈의 일부입니다. |
체스 프로그래밍 |
---|
![]() |
MuZero는 인공지능 연구 회사인 DeepMind가 규칙을 [1][2][3]몰라도 게임을 마스터하기 위해 개발한 컴퓨터 프로그램이다.2019년 출시에는 바둑, 체스, 장기, 아타리 게임의 표준 스위트에 대한 벤치마크가 포함되어 있습니다.알고리즘은 AlphaZero와 유사한 접근방식을 사용합니다.AlphaZero의 체스나 장기에서의 퍼포먼스에 필적하고, 바둑에서의 퍼포먼스(세계 신기록 수립)를 향상시켜, 시각적으로 복잡한 영역인 57개의 아타리 게임(아케이드 학습 환경)의 스위트를 숙달해, 최첨단의 퍼포먼스를 향상시켰다.
MuZero는 규칙, 책 열기 또는 게임 종료 테이블베이스에 접근할 수 없는 셀프 플레이를 통해 훈련되었습니다.훈련된 알고리즘은 AlphaZero와 동일한 컨볼루션 및 잔류 알고리즘을 사용했지만 검색 [4]트리의 노드당 계산 단계가 20% 적었다.
역사
MuZero는 모델을 만드는 방법과 첫 번째 원칙부터 이해하는 방법을 스스로 발견하고 있습니다.
--
2019년 11월 19일, DeepMind 팀은 MuZero를 소개하는 프리프린트를 공개했다.
AlphaZero로부터의 파생
MZ(MuZero)는 AlphaZero(AZ) 알고리즘의 고성능 계획과 모델 프리 강화 학습 방식을 결합한 것입니다.이 조합으로 Go와 같은 고전적인 계획 체제에서의 보다 효율적인 훈련이 가능해지고, 또한 비주얼 비디오 게임과 같이 각 단계에서 훨씬 더 복잡한 입력이 필요한 영역을 처리할 수 있습니다.
MuZero는 하이퍼 파라미터 설정 규칙을 공유하며 AZ 코드에서 직접 파생되었습니다.접근법 간의 차이는 다음과 같다.[6]
- AZ의 계획 프로세스에서는 시뮬레이터를 사용합니다.시뮬레이터는 게임의 규칙을 알고 있다.그것은 명시적으로 프로그램되어야 한다.그런 다음 뉴럴 네트워크는 미래 위치의 정책과 가치를 예측합니다.게임 규칙에 대한 완전한 지식은 검색 트리의 상태 천이 모델링, 각 노드에서 이용 가능한 액션 및 트리의 분기 종료에 사용됩니다.MZ는 규칙에 액세스할 수 없으며 대신 뉴럴네트워크를 사용하여 규칙을 학습합니다.
- AZ는 게임용 단일 모델(보드 상태부터 예측까지)을 보유하고 있습니다.MZ에는 현재 상태(이사회 상태부터 내부 내장)의 표현, 상태 역학(이사회 상태의 표현이 어떻게 변화하는가) 및 미래 위치의 정책 및 가치 예측(이사회 상태의 표현에 주어진)을 위한 별도의 모델이 있다.
- MZ의 숨겨진 모델은 복잡할 수 있고 계산을 호스트할 수 있을 수 있습니다. MZ의 훈련된 인스턴스에서 숨겨진 모델의 세부 사항을 탐색하는 것이 향후 탐구의 주제입니다.
- MZ는 승자가 모든 것을 가져가는 2인 게임을 기대하지 않는다.이는 중간 보상의 연속성이 있는 단일 에이전트 환경을 포함한 표준 강화 학습 시나리오와 함께 작동하며, 임의의 규모와 시간 할인과 함께 작동한다.AZ는 이기거나, 비기거나, 질 수 있는 2인용 게임을 위해 설계되었습니다.
R2D2와의 비교
아타리 게임 스위트 플레이를 배우기 위한 이전 최첨단 기술은 R2D2, Recurrent Replay Distributed DQN이었다.[7]
MuZero는 모든 게임에서 R2D2의 평균 및 중간 성능을 능가했지만, 모든 게임에서 더 나은 성과를 거두지는 못했습니다.
트레이닝과 결과
MuZero는 훈련에 16개의 3세대 텐서 처리 장치(TPU)를 사용하고 보드 게임에는 1000개의 TPU를 사용했습니다.스텝당 800개의 시뮬레이션과 훈련용 8개의 TPU, 아타리 게임용 셀프 플레이용 32개의 TPU는 스텝당 50개의 시뮬레이션이 있습니다.
AlphaZero는 훈련용으로 64개의 2세대 TPU를, 셀프 플레이용으로 5000개의 1세대 TPU를 사용했습니다.TPU 설계가 개선되었기 때문에(3세대 칩은 2세대 칩보다 개별적으로 2배 강력하며, 팟 내 칩 간 대역폭 및 네트워킹이 더욱 향상됨) 이러한 교육 설정은 유사합니다.
R2D2는 5일간 2M 교육 단계를 통해 교육되었습니다.
초기 결과
MuZero는 약 100만 번의 훈련 단계를 거쳐 체스와 장기에서 알파제로의 성능을 따라 잡았다.50만 번의 훈련 끝에 AZ의 바둑 성적에 필적해 100만 단계나 뛰어넘었다.아타리 게임 스위트 전체에서 R2D2의 평균 및 중간 퍼포먼스와 50만 번의 트레이닝 스텝을 거쳐 100만 스텝을 넘어섰지만 스위트 내 6개 게임에서는 전혀 좋은 퍼포먼스를 발휘하지 못했다.
MuZero는 AlphaZero에 [8]비해 크게 발전했으며, 비지도 학습 기법에 [9][10]있어 일반화 가능한 진보로 간주되었다.이 작업은 작은 컴포넌트에서 시스템을 구성하는 방법에 대한 이해를 높이는 것으로 간주되었으며, 이는 순수한 기계 학습 [11]개발보다 시스템 수준의 개발로 간주되었습니다.
개발팀에 의해 의사 코드만 공개되었지만,[12] Werner Duvaud는 이를 기반으로 오픈 소스 구현을 제작했습니다.
MuZero는 모델 기반 [13]동작을 생성하는 방법 등 다른 작업에서 참조 구현으로 사용되어 왔습니다.
2021년 말, 보다 효율적인 MuZero의 변형인 EfficientZero가 제안되었습니다."실시간 게임 경험 [14]2시간만으로 Atari 100k 벤치마크에서 평균 인간 성능 194.3%, 중간 성능 109.0% 달성"
「 」를 참조해 주세요.
- 일반적인 게임 플레이
- Facebook의 일반 게임 플레이어인 ReBeL은 추가로 포커를 취급합니다.
- 비지도 학습
레퍼런스
- ^ Wiggers, Kyle (20 November 2019). "DeepMind's MuZero teaches itself how to win at Atari, chess, shogi, and Go". VentureBeat. Retrieved 22 July 2020.
- ^ Friedel, Frederic. "MuZero figures out chess, rules and all". ChessBase GmbH. Retrieved 22 July 2020.
- ^ Rodriguez, Jesus. "DeepMind Unveils MuZero, a New Agent that Mastered Chess, Shogi, Atari and Go Without Knowing the Rules". KDnuggets. Retrieved 22 July 2020.
- ^ Schrittwieser, Julian; Antonoglou, Ioannis; Hubert, Thomas; Simonyan, Karen; Sifre, Laurent; Schmitt, Simon; Guez, Arthur; Lockhart, Edward; Hassabis, Demis; Graepel, Thore; Lillicrap, Timothy (2020). "Mastering Atari, Go, chess and shogi by planning with a learned model". Nature. 588 (7839): 604–609. arXiv:1911.08265. Bibcode:2020Natur.588..604S. doi:10.1038/s41586-020-03051-4. PMID 33361790. S2CID 208158225.
- ^ "What AlphaGo Can Teach Us About How People Learn". Wired. ISSN 1059-1028. Retrieved 2020-12-25.
- ^ Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 December 2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI].
- ^ Kapturowski, Steven; Ostrovski, Georg; Quan, John; Munos, Remi; Dabney, Will. RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED REINFORCEMENT LEARNING. ICLR 2019 – via Open Review.
- ^ Shorten, Connor (2020-01-18). "The Evolution of AlphaGo to MuZero". Medium. Retrieved 2020-06-07.
- ^ "[AN #75]: Solving Atari and Go with learned game models, and thoughts from a MIRI employee - LessWrong 2.0". www.lesswrong.com. Retrieved 2020-06-07.
- ^ Wu, Jun. "Reinforcement Learning, Deep Learning's Partner". Forbes. Retrieved 2020-07-15.
- ^ "Machine Learning & Robotics: My (biased) 2019 State of the Field". cachestocaches.com. Retrieved 2020-07-15.
- ^ Duvaud, Werner (2020-07-15), werner-duvaud/muzero-general, retrieved 2020-07-15
- ^ van Seijen, Harm; Nekoei, Hadi; Racah, Evan; Chandar, Sarath (2020-07-06). "The LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in Reinforcement Learning". arXiv:2007.03158 [cs.stat].
- ^ Ye, Weirui; Liu, Shaohuai; Kurutach, Thanard; Abbeel, Pieter; Gao, Yang (2021-12-11). "Mastering Atari Games with Limited Data". arXiv:2111.00210 [cs.LG].