알파고 제로

AlphaGo Zero

알파고 제로는 딥마인드의 바둑 소프트웨어 알파고의 버전이다.알파고 팀은 2017년 10월 19일 네이처 저널에 인간 게임의 데이터를 사용하지 않고 만들어진 이전 [1]버전보다 강력한 버전인 알파고 제로를 소개하는 기사를 실었다.알파고 제로는 100대 0으로 승리하며 3일 만에 알파고 리의 강점을 넘어섰고 21일 만에 알파고 마스터 수준에 올랐으며 40일 [2]만에 구버전을 모두 넘어섰다.

인간 전문가로부터 파생된 데이터 세트 없이 인공지능(AI)을 훈련하는 은 전문가 데이터가 "대부분 비싸고, 신뢰할 수 없거나,[3] 단순히 사용할 수 없는" 것이기 때문에 초인적인 기술을 가진 AI의 개발에 상당한 영향을 미친다.DeepMind의 공동 설립자이자 CEO인 Demis Hassabis는 알파고 제로는 "인간의 [4]지식의 한계에 의해 더 이상 제약을 받지 않기 때문에" 매우 강력했다고 말했다.또한, AlphaGo Zero는 몬테카를로 트리 검색의 통합으로 인해 표준 강화 딥 러닝 모델(DQN 구현[5] 등)보다 더 나은 성능을 발휘했다.알파고에 관한 네이처에 실린 딥마인드 논문의 최초 저자 중 한 명인 데이비드 실버는 [6]인간으로부터 배울 필요가 없어짐으로써 인공지능 알고리즘을 일반화하는 것이 가능하다고 말했다.

구글은 나중에 바둑 외에도 체스와 쇼기를 수 있는 알파고 제로의 일반화된 버전인 알파제로를 개발했다.2017년 12월, 알파제로가 60대 40으로 알파고 제로 3일 버전을 이겼고, 8시간의 훈련으로 엘로 척도에서 알파고 리를 능가했다.알파제로는 또한 최고의 체스 프로그램(스톡피시)과 최고의 쇼기 프로그램(엘모)[7][8]을 물리쳤다.

트레이닝

AlphaGo Zero의 신경 네트워크는 TensorFlow를 사용하여 64명의 GPU 작업자와 19개의 CPU 매개변수 서버를 사용하여 훈련되었습니다.추론에 사용된 TPU는 4개뿐이었다.뉴럴 네트워크는 처음규칙을 벗어나는 것에 대해 아무것도 몰랐다.AlphaGo의 이전 버전과 달리, Zero는 특이한 바둑판 위치를 인식하기 위해 인간이 프로그래밍한 희귀한 가장자리 케이스를 가지고 있는 것이 아니라 보드의 돌만을 인식했다.AI는 자신의 움직임과 그 움직임이 게임의 [9]결과에 어떤 영향을 미칠지 예상할 수 있을 때까지 자신들과 경쟁하며 강화 학습에 참여했다.알파고 제로는 처음 3일 동안 490만 개의 게임을 연속해서 했다.[10]이전의 알파고가 같은 [11]수준에 도달하기 위해 수개월의 훈련이 필요했던 반면, 그것은 불과 며칠 만에 최고의 인간들을 이기는 데 필요한 기술을 발전시키는 것으로 보였다.

비교하기 위해, 연구원들은 또한 인간 게임인 알파고 마스터를 사용하여 알파고 제로 버전을 훈련시켰으며, 알파고 마스터는 더 빨리 배웠지만,[12] 장기적으로 보면 더 낮은 성능을 보인다는 것을 발견했다.DeepMind는 2017년 4월 네이처에 논문을 통해 최초 연구 결과를 제출했으며, 2017년 [1]10월에 발표되었습니다.

하드웨어 비용

2017년 4개의 TPU를 포함한 단일 AlphaGo Zero 시스템의 하드웨어 비용은 약 2,500만 [13]달러로 추산되었습니다.

적용들

Hassabis에 따르면 AlphaGo의 알고리즘은 단백질 접힘(AlphaFold 참조)[14]이나 정확한 화학반응 시뮬레이션과 같은 거대한 가능성을 통해 지능적인 검색을 필요로 하는 영역에 가장 유리할 수 있다.AlphaGo의 기술은 아마도 자동차 [15]운전법을 배우는 것과 같이 시뮬레이션이 어려운 영역에서는 덜 유용할 것이다.DeepMind는 이미 2017년 10월 단백질 폴딩에 알파고 제로 기술을 사용하기 위한 활발한 작업을 시작했으며 곧 새로운 [16][17]연구 결과를 발표할 것이라고 밝혔다.

접수처

알파고 제로는 획기적인 전작인 알파고와 비교해도 상당한 발전으로 평가되었다.앨런 인공지능 연구소의 오렌 에치오니는 알파고 제로(AlphaGo Zero)를 "매우 인상적인 기술적 결과"라고 평가했으며, 이는 "40일 동안 4개의 TPU에 대해 시스템을 훈련시킬 수 있는 능력"[9]이라고 말했다.가디언[15]셰필드 대학의 엘레니 바실라키와 카네기 멜론 대학의 톰 미첼을 인용, 각각 "인공지능의 큰 돌파구"라고 평가했다.시드니 대학의 마크 페세 교수는 알파고 제로를 "미지의 영역"[18]으로 이끄는 "기술적으로 큰 진보"라고 말했습니다.

뉴욕 대학의 심리학자 게리 마커스는 알파고는 우리가 알고 있는 모든 것에 대해 "프로그래머들이 바둑과 같은 문제를 내기 위해 기계를 어떻게 만드는지에 대한 암묵적인 지식"을 포함할 수 있으며 알파고의 기본 아키텍처가 바둑을 두는 것보다 훨씬 더 효과적이라는 것을 확신하기 전에 다른 영역에서 테스트를 받아야 할 것이라고 경고했다.이와는 대조적으로 DeepMind는 "이 접근방식이 다수의 도메인에 일반화될 수 있다고 확신한다"[10]고 말했다.

이 보도에 대해, 한국 바둑 전문가인 이세돌은 "이전 버전의 알파고는 완벽하지 않았고, 그래서 알파고 제로가 만들어졌다고 생각합니다."라고 말했다.알파고의 발전 가능성에 대해 이 대통령은 지켜봐야 할 것이지만 젊은 바둑 기사들에게도 영향을 미칠 것이라고 말했다.한국 바둑 대표팀을 지휘하는 목진석씨는 바둑 세계가 이미 이전 버전의 알파고의 플레이 스타일을 모방하고 새로운 아이디어를 만들어냈으며, 그는 알파고 제로에서 새로운 아이디어가 나오기를 희망한다고 말했다.목은 또한 현재 바둑계의 일반적인 추세가 알파고의 플레이 스타일에 의해 영향을 받고 있다고 덧붙였다."처음에는 이해하기 어려웠고 외계인과 경기하는 것처럼 느껴졌어요.하지만 많은 경험을 하면서 익숙해졌다"고 말했다."우리는 이제 알파고의 능력과 인간의 능력 사이의 차이를 논쟁하는 시점을 지났다.이제는 컴퓨터 간에도 마찬가지입니다."목 감독은 이미 국가대표 선수들과 함께 알파고 제로의 플레이 스타일에 대한 분석을 시작한 것으로 알려졌다.목 감독은 "몇 경기만 봤지만 알파고 제로가 전작보다 더 인간다운 경기를 한다는 인상을 받았다"고 말했다.[19]중국 바둑 전문가 커제 씨는 새로운 프로그램의 놀라운 성과에 대해 "순수하게 스스로 배우는 알파고가 가장 강력합니다.고가 가장 강하다.인간은 자기계발 [20]앞에서 불필요한 존재로 보인다.

이전 제품과의 비교

구성과 강도[21]
버전 하드웨어[22] 재생 Elo 등급 일치.
알파고 팬 176대의 GPU,[2] 분산형 3,420[1] 5:0 판후이와의 대결
알파고 리 48 TPU,[2] 분산형 3,739[1] 이세돌과의 4:1 대결
알파고 마스터 4대의 TPU,[2] 1대의 머신 4,858[1] 프로 선수와의 대결에서 60:0

바둑 서밋의 미래

알파고 제로(40일) 4대의 TPU,[2] 1대의 머신 5,190[1] AlphaGo Lee를 100:0으로 격파

89:11 AlphaGo Master와의 대결

알파제로 (34시간) 4대의 TPU, 1대의[7] 머신 4,190 (이스트)[7] 60:40과 3일간의 AlphaGo Zero 비교

알파제로

2017년 12월 5일, DeepMind 팀은 arXiv에서 프리프린트를 공개하여 일반화된 AlphaGo Zero의 접근법인 AlphaZero를 도입하였다. AlphaZero는 체스, 장기, 바둑에서 세계 챔피언 프로그램, 스톡피시, 엘모, 알파고 3일 버전을 각 [7]케이스에서 물리치고 24시간 이내에 초인 플레이를 달성하였다.

AlphaZero(AZ)는 AlphaGo Zero(AGZ) 알고리즘의 보다 일반적인 변형으로 바둑뿐만 아니라 장기, 체스도 할 수 있습니다.AZ와 AGZ의 차이점은 다음과 같습니다.[7]

  • AZ에는 검색 하이퍼 파라미터 설정을 위한 하드코드 규칙이 있습니다.
  • 뉴럴 네트워크는 현재 지속적으로 업데이트되고 있습니다.
  • 체스(Go와 달리)는 무승부로 끝날 수 있으므로 AZ는 동점 가능성을 고려할 수 있다.

알파고 신문의 아이디어를 바탕으로 한 오픈 소스 프로그램 릴라 제로도 이용할 수 있습니다.최신 버전의 AlphaGo에 의존하는 TPU 대신 GPU를 사용합니다.

레퍼런스

  1. ^ a b c d e f Silver, David; Schrittwieser, Julian; Simonyan, Karen; Antonoglou, Ioannis; Huang, Aja; Guez, Arthur; Hubert, Thomas; Baker, Lucas; Lai, Matthew; Bolton, Adrian; Chen, Yutian; Lillicrap, Timothy; Fan, Hui; Sifre, Laurent; Driessche, George van den; Graepel, Thore; Hassabis, Demis (19 October 2017). "Mastering the game of Go without human knowledge" (PDF). Nature. 550 (7676): 354–359. Bibcode:2017Natur.550..354S. doi:10.1038/nature24270. ISSN 0028-0836. PMID 29052630. S2CID 205261034.closed access
  2. ^ a b c d e Hassabis, Demis; Siver, David (18 October 2017). "AlphaGo Zero: Learning from scratch". DeepMind official website. Retrieved 19 October 2017.
  3. ^ "Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone". Yahoo! Finance. 19 October 2017. Retrieved 19 October 2017.
  4. ^ Knapton, Sarah (18 October 2017). "AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days". The Telegraph. Retrieved 19 October 2017.
  5. ^ mnj12 (7 July 2021), mnj12/chessDeepLearning, retrieved 7 July 2021
  6. ^ "DeepMind AlphaGo Zero learns on its own without meatbag intervention". ZDNet. 19 October 2017. Retrieved 20 October 2017.
  7. ^ a b c d e Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 December 2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI].
  8. ^ Knapton, Sarah; Watson, Leon (6 December 2017). "Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours". The Telegraph.
  9. ^ a b Greenemeier, Larry. "AI versus AI: Self-Taught AlphaGo Zero Vanquishes Its Predecessor". Scientific American. Retrieved 20 October 2017.
  10. ^ a b "Computer Learns To Play Go At Superhuman Levels 'Without Human Knowledge'". NPR. 18 October 2017. Retrieved 20 October 2017.
  11. ^ "Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone". Fortune. 19 October 2017. Retrieved 20 October 2017.
  12. ^ "This computer program can beat humans at Go—with no human instruction". Science AAAS. 18 October 2017. Retrieved 20 October 2017.
  13. ^ Gibney, Elizabeth (18 October 2017). "Self-taught AI is best yet at strategy game Go". Nature News. doi:10.1038/nature.2017.22858. Retrieved 10 May 2020.
  14. ^ "The latest AI can work things out without being taught". The Economist. Retrieved 20 October 2017.
  15. ^ a b Sample, Ian (18 October 2017). "'It's able to create knowledge itself': Google unveils AI that learns on its own". The Guardian. Retrieved 20 October 2017.
  16. ^ "'It's able to create knowledge itself': Google unveils AI that learns on its own". The Guardian. 18 October 2017. Retrieved 26 December 2017.
  17. ^ Knapton, Sarah (18 October 2017). "AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days". The Telegraph. Retrieved 26 December 2017.
  18. ^ "How Google's new AI can teach itself to beat you at the most complex games". Australian Broadcasting Corporation. 19 October 2017. Retrieved 20 October 2017.
  19. ^ "Go Players Excited About 'More Humanlike' AlphaGo Zero". Korea Bizwire. 19 October 2017. Retrieved 21 October 2017.
  20. ^ "New version of AlphaGo can master Weiqi without human help". China News Service. 19 October 2017. Retrieved 21 October 2017.
  21. ^ "【柯洁战败解密】AlphaGo Master最新架构和算法,谷歌云与TPU拆解" (in Chinese). Sohu. 24 May 2017. Retrieved 1 June 2017.
  22. ^ 훈련 중에 사용하는 하드웨어가 훨씬 더 강력할 수 있습니다.

외부 링크 및 추가 정보