알파제로

AlphaZero

알파제로(AlphaZero)는 인공지능 연구 회사인 딥마인드가 체스, 장기, 바둑을 마스터하기 위해 개발한 컴퓨터 프로그램이다. 알고리즘은 AlphaGo Zero와 유사한 접근방식을 사용합니다.

2017년 12월 5일, DeepMind 팀은 알파제로를 소개하는 프리프린트를 공개했는데, 알파제로의 세계 챔피언 프로그램인 스톡피시, 엘모, 알파고 제로 3일 버전을 물리침으로써 이 세 게임에서 초인적인 수준의 플레이를 달성했습니다.각각의 경우 Google 프로그램이 [1]사용하도록 최적화된 사용자 정의 텐서 처리 장치(TPU)를 사용했습니다.AlphaZero는 5,000개의 1세대 TPU를 사용하여 게임을 생성하고 64개의 2세대 TPU를 사용하여 동시에 신경 네트워크를 훈련하는 셀프 플레이만으로 훈련되었으며, 이나 게임 종료 테이블에 액세스할 수 없었습니다.4시간의 훈련 후 DeepMind는 AlphaZero가 Stockfish 8보다 높은 Elo 등급으로 체스를 두고 있다고 추정했다. 9시간의 훈련 후, 알고리즘은 시간이 지배하는 100게임 토너먼트(28승, 0패, 72무)[1][2][3]에서 Stockfish 8을 이겼다.훈련받은 알고리즘은 4개의 TPU가 있는 단일 머신에서 재생되었습니다.

알파제로에 대한 딥마인드의 논문은 2018년 [4]12월 7일 사이언스지에 게재되었다.그러나 알파제로 프로그램 자체는 [5]대중들에게 공개되지 않았다.2019년 DeepMind는 게임의 [6]규칙이나 표현에 대한 지식 없이 아타리와 보드 게임을 플레이하는 알파제로의 작업을 일반화할 수 있는 새로운 알고리즘인 MuZero에 대한 새로운 논문을 발표했다.

알파고 제로와의 관계

AlphaZero(AZ)는 AlphaGo Zero(AGZ) 알고리즘의 보다 일반적인 변형으로 바둑뿐만 아니라 장기, 체스도 할 수 있습니다.AZ와 AGZ의 차이점은 다음과 같습니다.[1]

  • AZ에는 검색 하이퍼 파라미터 설정을 위한 하드코드 규칙이 있습니다.
  • 뉴럴 네트워크는 현재 지속적으로 업데이트되고 있습니다.
  • 바둑(체스와 달리)은 특정 반사 및 회전 하에서 대칭입니다. 알파고 제로는 이러한 대칭을 이용하도록 프로그램되었습니다.Alpha Zero는 그렇지 않다.
  • 체스는 바둑과 달리 무승부로 끝날 수 있기 때문에 알파제로에서는 무승부의 가능성을 고려합니다.

목어와 엘모

몬테카를로 트리 검색과 비교했을 때 알파제로의 검색은 체스에서 초당 8만, 장기에서 4만 개에 불과한데 비해 스톡피쉬는 7천만 개, 엘모는 3천500만 개다.알파제로(AlphaZero)는 가장 유망한 변동에 [1]훨씬 더 선택적으로 초점을 맞추기 위해 심층 신경망을 사용하여 더 적은 수의 평가를 보상합니다.

트레이닝

알파제로(AlphaZero)는 게임을 생성하기 위해 5,000개의 1세대 TPU를 사용하고 신경 네트워크를 훈련하기 위해 64개의 2세대 TPU를 사용하여 셀프 플레이만을 통해 훈련되었습니다.이와 동시에 훈련 중인 AlphaZero는 훈련 진행 상황을 파악하기 위해 1초당 짧은 게임으로 벤치마크(Stockfish, Elmo 또는 AlphaGo Zero)와 주기적으로 비교되었습니다.딥마인드는 스톡피시 4시간, 엘모 2시간, 알파고 제로 [1]8시간 정도 훈련한 결과 알파제로의 성능이 기준치를 넘어섰다고 판단했다.

예비 결과

결과

체스

알파제로가 스톡피시8(2016 TCEC 세계챔피언)을 상대로 벌인 체스 경기에서는 각 프로그램에 1분씩의 시간이 주어졌다.Stockfish는 64개의 스레드와 1GB의 [1]해시 크기를 할당받았는데, Stockfish의 Tord Romstad는 이 설정을 [7][note 1]차선책이라고 비판했습니다.알파제로 선수는 경기 전 총 9시간 동안 체스를 훈련받았다.경기 중 AlphaZero는 4개의 애플리케이션별 TPU를 가진 단일 머신에서 실행되었습니다.알파제로가 일반 선발에서 100경기 만에 화이트로 25승, 블랙으로 3승, 나머지 [8]72무로 비겼다.가장 인기 있는 12개의 인간 오프닝에서 시작된 스톡피쉬와의 100경기 연속(시간 또는 자원 제약)에서 알파제로가 290승, 886무,[1] 24패를 기록했다.

장기

알파제로 선수는 대회 전 총 2시간 동안 장기 훈련을 받았다.AlphaZero는 elmo와의 장기 100경기(World Computer Shogi Championship 27 summer tournal version, YaneuraOu 4.73 검색)에서 90승, 8패, [8]2무로 승리했다.체스 게임처럼 각 프로그램은 한 번에 1분이 주어졌고, 엘모에게는 64개의 스레드와 [1]1GB의 해시 크기가 주어졌다.

가세요

34시간의 바둑 독학과 알파고 제로와의 대결 끝에 알파제로가 60승을 거두고 [1][8]40패를 당했다.

분석.

딥마인드는 프리프린트에서 "체스 게임은 수십 년 동안 AI 연구의 정점을 상징했다.최첨단 프로그램은 수작업으로 만든 도메인 전문 지식과 정교한 도메인 적응을 활용하여 수백만 개의 위치를 검색하는 강력한 엔진을 기반으로 합니다.Alpha Zero는 일반적인 강화 학습 알고리즘입니다.원래는 바둑을 두기 위해 고안되었습니다.규칙 [1]이외에는 도메인 지식이 없기 때문에 몇 시간 안에 검색되는 위치 수가 천 배나 적습니다.체스 선수인 딥마인드의 데미스 하사비스는 알파제로의 플레이 스타일을 "외계인"이라고 불렀다.때로는 왕비와 비숍을 내세워 유리한 위치를 차지하도록 하는 것과 같은 직관에 반하는 희생을 함으로써 승리하기도 합니다."[9]다른 차원의 체스 같아요."

체스가 강한 상대에게 승리를 강요하는 것이 어렵다는 점을 감안하면 +28-0=72의 결과는 상당한 승리다.그러나 나카무라 히카루코모도 개발자인 래리 카우프만과 같은 일부 거장들은 프로그램이 오픈 데이터베이스에 접근할 수 있었다면 경기가 더 가까워졌을 것이라고 주장하며 알파제로의 승리를 평가절하했다.[10]Romstad는 Stockfish가 엄격하게 고정된 시간 이동에 최적화되지 않았으며 사용된 버전은 [7][11]1년 전의 것이라고 덧붙였다.

마찬가지로 일부 장기 관찰자들은 엘모 해시 크기가 너무 작거나 재기 설정 및 "EnteringKingRule" 설정(cf. sogi entering Entering King)이 부적절할 수 있으며 엘모는 새로운 프로그램에 [12][13]비해 이미 구식이라고 주장했다.

반응과 비판

신문들은 체스 훈련에 4시간 밖에 걸리지 않았다고 표제를 달았습니다: "그것은 아침과 [2][14]점심 사이의 시간보다 조금 더 짧은 시간 안에 이루어졌습니다."와이어드는 알파제로를 "최초의 멀티 스킬 AI 보드 게임 챔피언"[15]이라고 표현했다.AI 전문가 조안나 브라이슨은 구글의 "좋은 홍보 능력"이 구글을 도전자들에 대한 강력한 위치에 올려놓았다고 말했다.최고의 프로그래머를 고용하는 것만이 아닙니다.또한 AI 분야를 [8]검토하는 정부 및 규제 기관과 협상할 때 구글을 최대한 강하게 만드는 데 도움이 되기 때문에 매우 정치적인 것입니다."

인간 체스 거장들은 일반적으로 알파제로에 대한 흥분을 표현했다.덴마크의 거장 피터 하이네 닐슨은 알파제로의 연극을 우수한 외계 [8]종족에 비유했다.노르웨이 그랜드마스터 루드비그 해머는 알파제로의 플레이를 심오한 위치 [2]이해와 함께 "말도 안 되는 공격 체스"라고 특징지었다. 챔피언 개리 카스파로프는 "알파고 [10][16]이후에 예상했어야 했지만 그것은 놀라운 성과이다."라고 말했다.

그랜드마스터 나카무라 히카루는 "알파제로가 기본적으로 구글 슈퍼컴퓨터를 사용하고 있고 Stockfish는 그 하드웨어에서 동작하지 않고 Stockfish는 기본적으로 제 노트북에서 동작하고 있기 때문에 결과에 큰 신빙성을 둘 필요는 없습니다.비교 대상이 되는 매치를 하려면 슈퍼컴퓨터에서도 [7]Stockfish를 실행해야 합니다.

미국의 최고 통신 체스 선수인 Wolff Morrow 또한 알파제로가 모든 엔진이 동등한 하드웨어로 플레이하는 TCEC와 같은 공정한 경쟁에서 준결승에 진출하지 못할 것이라고 주장하면서 감명받지 못했다.모로우는 알파제로가 페트로프 디펜스 같은 무승부 오프닝 경기를 펼치면 알파제로를 이길 수 없을지 모르지만,[17] 통신 체스 게임에서도 알파제로가 그를 이길 수 없을 것이라고 말했다.

YaneuraOu의 저자 이소자키 모토히로는 알파제로가 종합적으로 엘모를 제쳤지만 장기에서 알파제로의 평가는 엘모보다 많아야 100200점 높은 수준에서 멈춘다고 지적했다.이 차이는 그다지 크지 않으며, elmo와 다른 장기 소프트웨어는 1~2년 [18]안에 따라잡을 수 있을 것입니다.

최종 결과

DeepMind는 2018년 12월에 [4]사이언스에 게재된 논문의 최종 버전에서 많은 비판을 다루었습니다.또한 AlphaZero는 슈퍼컴퓨터에서 동작하지 않고 5,000개의 텐서 프로세싱 유닛(TPU)을 사용하여 훈련받았지만 [19]경기에서는 4개의 TPU와 44개의 코어 CPU에서만 동작했다고 밝혔습니다.

체스

최종 결과, Stockfish 버전 8은 TCEC 슈퍼 파이널과 동일한 조건에서 실행되었습니다. 44개의 CPU 코어, Syzygy 엔드게임 테이블베이스 및 32GB 해시 크기입니다.두 엔진 모두 1분에 1번씩 움직이는 고정 시간 제어 대신 3시간+15초씩 주어졌다.1000게임에서 알파제로가 155승 6패 839무로 승리했다.DeepMind는 TCEC 오프닝 포지션을 사용하여 일련의 게임을 진행하였고, 알파제로 또한 설득력 있게 승리하였다.Stockfish는 [20]알파제로에 필적하기 위해 10대 1의 승산이 필요했다.

장기

스톡피시와 마찬가지로 엘모는 2017년 CSA 챔피언십과 같은 조건으로 달렸다.사용된 Elmo 버전은 YaneuraOu 2017 Early KPPT 4.79 64AVX2 TOUNDENT와 조합한 WCSC27로, Elmo는 Stockfish와 동일한 하드웨어로 동작했습니다: 44 CPU 코어, 32GB 해시 크기.AlphaZero는 센티(선발) 게임에서는 98.2%, 전체적으로는 91.2%를 이겼다.

반응과 비판

인간 할머니들은 일반적으로 스톡피시와의 [20]알파제로 경기에 깊은 인상을 받았다.전 세계 챔피언 개리 카스파로프는 알파제로의 스타일이 자신의 스타일처럼 개방적이고 역동적이기 때문에 경기를 보는 [21][22]것이 즐거웠다고 말했다.

컴퓨터 체스 커뮤니티에서는 Komodo 개발자인 Mark Lefler는 "매우 놀라운 성과"라고 평가하면서도 Stockfish가 2018년 1월(Stockfish 8 출시) 이후 많은 힘을 얻었기 때문에 데이터가 오래되었다고 지적했다.동료 개발자인 래리 카우프만은 알파제로가 TCEC(Top Chess Engine Championship) 조건에서 최신 버전의 스톡피시 10과의 경기에서 질 것이라고 말했다.Kaufman은 뉴럴 네트워크 기반 엔진의 유일한 장점은 GPU를 사용하는 것이므로 전력 소비(예: 두 엔진이 동일한 CPU와 GPU에 액세스할 수 있는 동등한 하드웨어 경쟁)를 고려하지 않는다면 GPU가 달성한 모든 것은 "공짜"라고 주장했다.이를 근거로 그는 가장 강력한 엔진은 뉴럴 네트워크와 표준 알파-베타 검색[23]갖춘 하이브리드 엔진일 가능성이 높다고 말했다.

AlphaZero는 컴퓨터 체스 커뮤니티에서 AlphaZero와 같은 기술을 사용하여 릴라 체스 제로를 개발하도록 영감을 주었다.릴라는 스톡피쉬와 여러 대회에서 경쟁했는데,[24] 스톡피쉬는 스톡피쉬와 거의 비슷한 힘을 보였다.

2019년 DeepMind는 [25][26]아타리 학습 환경에서 규칙을 사전에 프로그램하지 않고 뛰어난 체스, 장기, 바둑 및 게임을 할 수 있는 통합 시스템인 MuZero를 출시했다.

「 」를 참조해 주세요.

메모들

  1. ^ Stockfish 개발자 Tord Romstad는 다음과 같이 응답했습니다.

    시간 컨트롤과 Stockfish 파라미터 설정이 다소 이상하기 때문에 매치 결과 자체는 특별히 의미가 없습니다.게임은 1분/이동이라는 정해진 시간에 진행되었으며, 이는 Stockfish가 시간 관리 휴리스틱을 사용하지 않는다는 것을 의미합니다(Stockfish가 게임의 중요한 포인트를 식별하고 이동에 추가 시간을 사용할 시기를 결정하도록 하기 위해 많은 노력을 기울였습니다. 이동당 정해진 시간에 힘은 크게 저하됩니다).사용된 Stockfish 버전은 1년 전에 비해 훨씬 더 많은 검색 스레드로 재생되었으며 스레드 수에 비해 해시 테이블이 너무 작았습니다.좀 더 정상적인 [7]경기라면 무승부 비율이 훨씬 더 높았을 것이라고 생각한다.

레퍼런스

  1. ^ a b c d e f g h i j Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (December 5, 2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI].
  2. ^ a b c Knapton, Sarah; Watson, Leon (December 6, 2017). "Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours". Telegraph.co.uk. Retrieved December 6, 2017.
  3. ^ Vincent, James (December 6, 2017). "DeepMind's AI became a superhuman chess player in a few hours, just for fun". The Verge. Retrieved December 6, 2017.
  4. ^ a b Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (December 7, 2018). "A general reinforcement learning algorithm that masters chess, shogi, and go through self-play". Science. 362 (6419): 1140–1144. Bibcode:2018Sci...362.1140S. doi:10.1126/science.aar6404. PMID 30523106.
  5. ^ "Chess Terms: AlphaZero". Chess.com. Retrieved July 30, 2022.
  6. ^ Schrittwieser, Julian; Antonoglou, Ioannis; Hubert, Thomas; Simonyan, Karen; Sifre, Laurent; Schmitt, Simon; Guez, Arthur; Lockhart, Edward; Hassabis, Demis; Graepel, Thore; Lillicrap, Timothy (2020). "Mastering Atari, Go, chess and shogi by planning with a learned model". Nature. 588 (7839): 604–609. arXiv:1911.08265. Bibcode:2020Natur.588..604S. doi:10.1038/s41586-020-03051-4. PMID 33361790. S2CID 208158225.
  7. ^ a b c d "AlphaZero: Reactions From Top GMs, Stockfish Author". chess.com. December 8, 2017. Retrieved December 9, 2017.
  8. ^ a b c d e "'Superhuman' Google AI claims chess crown". BBC News. December 6, 2017. Retrieved December 7, 2017.
  9. ^ Knight, Will (December 8, 2017). "Alpha Zero's "Alien" Chess Shows the Power, and the Peculiarity, of AI". MIT Technology Review. Retrieved December 11, 2017.
  10. ^ a b "Google's AlphaZero Destroys Stockfish In 100-Game Match". Chess.com. Retrieved December 7, 2017.
  11. ^ 카티아나 콰치"DeepMind의 AlphaZero AI는 경쟁 체스 앱을 비레벨 플레이로 압도했습니다...등록부(2017년 12월 14일).
  12. ^ "Some concerns on the matching conditions between AlphaZero and Shogi engine". コンピュータ将棋 レーティング. "uuunuuun" (a blogger who rates free shogi engines). Retrieved December 9, 2017. (을 통해)
  13. ^ "DeepMind社がやねうら王に注目し始めたようです". The developer of YaneuraOu, a search component used by elmo. December 7, 2017. Retrieved December 9, 2017.
  14. ^ Badshah, Nadeem (December 7, 2017). "Google's DeepMind robot becomes world-beating chess grandmaster in four hours". The Times of London. Retrieved December 7, 2017.
  15. ^ "Alphabet's Latest AI Show Pony Has More Than One Trick". WIRED. December 6, 2017. Retrieved December 7, 2017.
  16. ^ Gibbs, Samuel (December 7, 2017). "AlphaZero AI beats champion chess program after teaching itself in four hours". The Guardian. Retrieved December 8, 2017.
  17. ^ "Talking modern correspondence chess". Chessbase. June 26, 2018. Retrieved July 11, 2018.
  18. ^ DeepMind 2017년 12월 7일
  19. ^ Science 논문에 제시된 바와 같이 TPU는 "아키텍처가 직접 비교할 수는 없지만 Titan V GPU와 추론 속도가 거의 유사하다"(참조 자료 24).
  20. ^ a b "AlphaZero Crushes Stockfish In New 1,000-Game Match". December 6, 2018.
  21. ^ Sean Ingle (December 11, 2018). "'Creative' AlphaZero leads way for chess computers and, maybe, science". The Guardian.
  22. ^ Albert Silver (December 7, 2018). "Inside the (deep) mind of AlphaZero". Chessbase.
  23. ^ "Komodo MCTS (Monte Carlo Tree Search) is the new star of TCEC". Chessdom. December 18, 2018.
  24. ^ TCEC릴라 체스 제로 참조.
  25. ^ "Could Artificial Intelligence Save Us From Itself?". Fortune. 2019. Retrieved February 29, 2020.
  26. ^ "DeepMind's MuZero teaches itself how to win at Atari, chess, shogi, and Go". VentureBeat. November 20, 2019. Retrieved February 29, 2020.

외부 링크