셀프 플레이(강화 학습 기법)

Self-play (reinforcement learning technique)

셀프 플레이는 강화 학습 에이전트의 성능을 향상시키는 기술입니다.직관적으로 에이전트는 "자신과의 대결"을 통해 성능을 향상시키는 방법을 학습합니다.

정의와 동기 부여

다중 에이전트 강화 학습 실험에서, 연구자들은 하나 이상의 에이전트와 협력하거나 경쟁하여 주어진 과제에서 학습 에이전트의 성과를 최적화하려고 한다.이러한 에이전트는 시행착오를 통해 학습합니다.연구자는 학습 알고리즘이 여러 다른 에이전트의 역할을 하도록 선택할 수 있습니다.이 기술은 정상적으로 실행되면 두 가지 이점이 있습니다.

  1. 이를 통해 다른 에이전트의 액션을 쉽게 판별할 수 있으므로 의미 있는 문제가 발생합니다.
  2. 서로 다른 에이전트의 관점을 학습에 사용할 수 있으므로 정책을 개선하는 데 사용할 수 있는 경험의 양을 2배 이상 늘립니다.

사용.

셀프 플레이는 AlphaZero 프로그램에 의해 체스, 장기, [1]바둑에서 성능을 향상시키기 위해 사용된다.

셀프 플레이는 또한 키케로 AI 시스템이 외교 게임에서 인간을 능가하도록 훈련하는 데 사용됩니다.이 기술은 Deep Nash 시스템을 훈련시켜 Stratego [2][3]게임을 하는 데도 사용됩니다.

다른 분야와의 연계

자기 놀이는 인간이 "빈 슬레이트"[4]에서 지식을 얻는 방법을 설명하는 인식론적 개념인 타뷸라 라사와 비교되어 왔다.

추가 정보

  • DiGiovanni, Anthony; Zell, Ethan; et al. (2021). "Survey of Self-Play in Reinforcement Learning". arXiv:2107.02850.

레퍼런스

  1. ^ Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 December 2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI].
  2. ^ Snyder, Alison (2022-12-01). "Two new AI systems beat humans at complex games". Axios. Retrieved 2022-12-29.
  3. ^ Erich_Grunewald. "Notes on Meta's Diplomacy-Playing AI". {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  4. ^ Laterre, Alexandre (2018). "Ranked Reward: Enabling Self-Play Reinforcement Learning for Combinatorial Optimization". arXiv:1712.01815.