멀티 에이전트 강화 학습
Multi-agent reinforcement learning| 시리즈의 일부 |
| 기계 학습 및 데이터 마이닝 |
|---|
다중 에이전트 강화 학습(MARL)은 강화 학습의 하위 분야입니다.공유 [1]환경에서 공존하고 있는 여러 학습 에이전트의 동작을 중점적으로 연구합니다.각 에이전트는 자신의 보상에 의해 동기 부여되어 자신의 이익을 증진하기 위한 행동을 합니다.일부 환경에서는 이러한 이익이 다른 에이전트의 이익에 반하여 복잡한 그룹 역학이 발생합니다.
멀티에이전트 강화 학습은 게임 이론, 특히 반복 게임, 멀티에이전트 시스템과 밀접하게 관련되어 있습니다.이 연구는 보상을 극대화하는 이상적인 알고리즘을 찾는 것과 보다 사회학적 개념의 집합을 결합한다.단일 에이전트 강화 학습 연구는 한 에이전트에 대해 가장 많은 점수를 얻는 알고리즘을 찾는 것과 관련이 있지만, 다중 에이전트 강화 학습 연구는 협력,[2] 상호성,[3] 형평성,[4] 사회적 영향,[5] 언어[6] 및 [7]차별과 같은 사회적 지표를 평가하고 수량화합니다.
정의.
단일 에이전트 강화 학습과 유사하게, 다중 에이전트 강화 학습은 마르코프 의사결정 과정(MDP)의 한 형태로 모델링된다.예를들면,
- 일련의 환경은 S S로 됩니다.
- I { ,. . , { = \ { 1 , . , ...} { displaystyle i= \ { , ... }의 1 세트의 .
- a (s , ) ( t+ s s s s , t ) ( ( , s , s ' ) = \ ( _ { } \ s t _、 { } ) 공동 a displaystyle {\ {a에 따라 {\s'}이(가) 표시됩니다
- ( s, ){ { {} { \ } )는에서 { s} 로 한 직후의 공동 보상이며, { arrow { } 。
장기와 바둑과 같은 완벽한 정보를 가진 환경에서는 민주당이 충분히 관찰할 수 있을 것이다.불완전한 정보가 있는 설정, 특히 자가운전 자동차와 같은 실제 애플리케이션에서 각 에이전트는 현재 상태에 대한 정보의 일부만 있는 관찰에 액세스합니다.부분 관측 가능한 설정에서 코어 모델은 일반 케이스에서는 부분 관측 가능한 확률 게임, 협동 케이스에서는 분산형 POMDP이다.
협력과 경쟁
여러 에이전트가 공유 환경에서 작업하는 경우 이해관계가 조정되거나 잘못 조정될 수 있습니다.MARL을 사용하면 다음과 같은 모든 정렬과 이러한 정렬이 에이전트의 동작에 어떻게 영향을 미치는지 확인할 수 있습니다.
- 순수한 경쟁 환경에서는 에이전트의 보상은 정반대이기 때문에 서로 경쟁합니다.
- 순수한 협력 설정은 또 다른 극단으로, 에이전트가 똑같은 보상을 받기 때문에 서로 장난을 친다는 것입니다.
- 믹스섬 설정은 협동과 경쟁의 요소를 결합한 모든 게임을 망라합니다.
순수한 경쟁 환경
두 에이전트가 제로섬 게임을 할 때, 그들은 서로 순수한 경쟁을 한다.체스와 바둑과 같은 많은 전통적인 게임들이 이 범주에 속하며 스타크래프트와 같은 현대 게임들의 2인용 변형 게임들도 이 범주에 속합니다.각 에이전트는 다른 에이전트를 희생해야만 성공할 수 있기 때문에 많은 복잡성이 해소됩니다.어느 에이전트도 상대방에게 이익이 되는 행동을 하도록 장려되지 않기 때문에 의사소통이나 사회적 딜레마에 대한 전망은 없습니다.
Deep[8] Blue 및 AlphaGo 프로젝트는 순수한 경쟁 환경에서 에이전트의 성능을 최적화하는 방법을 시연합니다.
순수한 경쟁 환경에서도 제거되지 않는 복잡성 중 하나는 오토쿨리큘라입니다.셀프 플레이를 사용하여 에이전트 정책이 개선됨에 따라 여러 단계의 학습이 발생할 수 있습니다.
순수한 협업 설정
MARL은 동일한 관심사를 가진 개별 에이전트가 어떻게 통신하고 함께 작업할 수 있는지를 탐색하는 데 사용됩니다.Overcooked와 [9]같은 레크리에이션 협동 게임과 [10]로보틱스의 실제 시나리오에서 순수한 협동 설정을 탐색합니다.
순수한 협력 환경에서는 모든 에이전트가 동일한 보상을 받습니다. 이는 사회적 딜레마가 발생하지 않음을 의미합니다.
순수한 협력 설정에서는 종종 임의의 수의 조정 전략이 존재하며, 에이전트는 서로 조정할 때 특정 "컨벤션"으로 수렴됩니다.규약의 개념은 언어에서[11] 연구되어 왔으며 보다 일반적인 다중 에이전트 [12][13][14][15]협업 태스크에서도 언급되었다.
혼합 합계 설정
여러 에이전트가 관련된 대부분의 실제 시나리오에는 협력과 경쟁의 요소가 있습니다.예를 들어, 여러 대의 자율 주행 자동차가 각각의 경로를 계획할 때, 각 자동차는 분산되지만 배타적이지는 않은 관심을 가지고 있습니다.각 차량은 목적지에 도달하는 데 걸리는 시간을 최소화하고 있지만, 모든 차량은 [16]교통 충돌을 피한다는 공통의 이익을 가지고 있습니다.
혼합섬 설정은 의사소통과 사회적 딜레마를 야기할 수 있다.
사회적 딜레마
게임 이론에서와 같이, MARL의 연구의 대부분은 죄수의 [17]딜레마, 닭고기, [18]사슴 사냥과 같은 사회적 딜레마를 중심으로 진행됩니다.
게임이론 연구는 내쉬의 균형과 에이전트에 대한 이상적인 정책이 무엇인지에 초점을 맞출 수 있지만, MARL 연구는 에이전트가 시행착오 과정을 통해 이러한 이상적인 정책을 어떻게 학습할 것인지에 초점을 맞추고 있습니다.에이전트를 훈련시키기 위해 사용되는 강화 학습 알고리즘은 에이전트 자신의 보상을 극대화하고 있습니다. 에이전트의 요구와 그룹의 요구 간의 충돌은 활발한 [19]연구의 대상입니다.
에이전트 간의 협력을 유도하기 위해 다음과 같은 다양한 기술이 검토되었습니다.환경 [20]규칙 수정, 본질적인 [21]보상 추가 등
연속적인 사회적 딜레마
죄수의 딜레마, 치킨, 사슴 사냥과 같은 사회적 딜레마는 "매트릭스 게임"이다.각 에이전트는 2개의 가능한 액션 중에서1개의 액션만 취할 수 있으며, 각 에이전트가 수행한 액션에 따라 각 에이전트가 얻을 수 있는 보상을 설명하기 위해 간단한 2x2 매트릭스를 사용합니다.
인간과 다른 생물들에게 있어서 사회적 딜레마는 더 복잡한 경향이 있다.에이전트는 시간이 지남에 따라 여러 가지 액션을 수행하며, 협력과 탈선의 구별은 매트릭스 게임만큼 명확하지 않습니다.순차적 사회적 딜레마(SSD)의 개념은 이러한 복잡성을 모델링하기 위한 시도로[22] 2017년에 도입되었습니다.다양한 종류의 SSD를 정의하고 [23]SSD에서 활동하는 에이전트에서 협력적인 행동을 보여주는 연구가 진행 중입니다.
오토쿨리큘라
자동[24] 순환(복수: 자동 순환)은 다중 에이전트 실험에서 중요한 강화 학습 개념입니다.에이전트가 성능을 향상시키면 환경이 변경됩니다. 이 환경의 변경은 자신과 다른 에이전트에 영향을 미칩니다.피드백 루프는 각각 이전 단계에 따라 몇 가지 뚜렷한 학습 단계로 귀결됩니다.학습의 층이 쌓이는 것을 자동 과정이라고 한다.오토쿨리큘라는 특히 적대적인 [25]환경에서 두드러지는데, 각 에이전트 그룹은 반대 그룹의 현재 전략에 대항하기 위해 경쟁합니다.
숨바꼭질 게임은 적대적인 환경에서 발생하는 자동 순환의 접근 가능한 예입니다.이 실험에서, 한 팀의 사냥꾼들이 한 팀의 사냥꾼들과 경쟁하고 있다.한 팀이 새로운 전략을 배울 때마다 상대 팀은 최대한의 카운터를 주기 위해 전략을 조정한다.사냥꾼들이 대피소를 짓기 위해 상자를 사용하는 것을 배울 때, 그 대피소에 침입하기 위해 경사로 사용하는 것을 배우는 것으로 응답한다.호이더들은 경사로에 자물쇠를 채우는 것으로 응답해, 그것을 찾는 사람들이 이용할 수 없게 한다.그런 다음, 탐색자들은 "박스 서핑"으로 대응하고, 게임의 결함을 이용하여 대피소에 침투합니다.학습의 각 "수준"은 이전 수준을 전제로 하는 새로운 현상입니다.그 결과 각각 이전 버전에 따라 달라지는 일련의 동작이 발생합니다.
강화학습실험에서의오토큐리큘라는지구생명체의진화와인류문화의발전단계와비교됩니다.20억에서 30억년 전 광합성 생명체가 엄청난 양의 산소를 생산하기 시작하면서 대기 [26]중의 가스 균형을 변화시킨 진화의 주요 단계가 일어났다.진화의 다음 단계에서, 산소를 호흡하는 생명체가 진화했고, 결국 육지 포유류와 인간으로 이어졌다.이러한 후기 단계는 광합성 단계가 산소를 널리 사용할 수 있게 된 후에만 일어날 수 있었다.비슷하게,[27] 인간의 문화는 기원전 10,000년 경의 농업 혁명으로 얻은 자원과 통찰력이 없었다면 18세기의 산업 혁명을 겪지 못했을 것이다.
제한 사항
멀티에이전트 심층 강화 [28]학습에는 몇 가지 고유한 어려움이 있습니다.환경은 더 이상 정지되어 있지 않기 때문에 마르코프 속성을 위반할 수 있습니다.변화와 보상은 에이전트의 현재 상태에만 의존하지 않습니다.
소프트웨어
멀티 에이전트 강화 학습 환경에는 다음과 같은 다양한 도구와 프레임워크가 있습니다.
추가 정보
- Yang, Yaodong; Wang, Jun (2020). "An Overview of Multi-Agent Reinforcement Learning from Game Theoretical Perspective". arXiv:2011.00583 [cs.MA].
레퍼런스
- ^ Albrecht, Stefano; Stone, Peter (2017), "Multiagent Learning: Foundations and Recent Trends. Tutorial", IJCAI-17 conference (PDF)
- ^ Lowe, Ryan; Wu, Yi (2020). "Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments". arXiv:1706.02275v4 [cs.LG].
- ^ Baker, Bowen (2020). "Emergent Reciprocity and Team Formation from Randomized Uncertain Social Preferences". NeurIPS 2020 proceedings. arXiv:2011.05373.
- ^ Hughes, Edward; Leibo, Joel Z.; et al. (2018). "Inequity aversion improves cooperation in intertemporal social dilemmas". NeurIPS 2018 proceedings. arXiv:1803.08884.
- ^ Jaques, Natasha; Lazaridou, Angeliki; Hughes, Edward; et al. (2019). "Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning". Proceedings of the 35th International Conference on Machine Learning. arXiv:1810.08647.
- ^ Lazaridou, Angeliki (2017). "Multi-Agent Cooperation and The Emergence of (Natural) Language". ICLR 2017. arXiv:1612.07182.
- ^ Duéñez-Guzmán, Edgar; et al. (2021). "Statistical discrimination in learning agents". arXiv:2110.11404v1 [cs.LG].
- ^ Campbell, Murray; Hoane, A. Joseph, Jr.; Hsu, Feng-hsiung (2002). "Deep Blue". Artificial Intelligence. Elsevier. 134 (1–2): 57–83. doi:10.1016/S0004-3702(01)00129-1. ISSN 0004-3702.
- ^ Carroll, Micah; et al. (2019). "On the Utility of Learning about Humans for Human-AI Coordination". arXiv:1910.05789 [cs.LG].
- ^ Xie, Annie; Losey, Dylan; Tolsma, Ryan; Finn, Chelsea; Sadigh, Dorsa (November 2020). Learning Latent Representations to Influence Multi-Agent Interaction (PDF). CoRL.
- ^ Clark, Herbert; Wilkes-Gibbs, Deanna (February 1986). "Referring as a collaborative process". Cognition. 22 (1): 1–39. doi:10.1016/0010-0277(86)90010-7. PMID 3709088. S2CID 204981390.
- ^ Boutilier, Craig (17 March 1996). "Planning, learning and coordination in multiagent decision processes". Proceedings of the 6th Conference on Theoretical Aspects of Rationality and Knowledge: 195–210.
- ^ Stone, Peter; Kaminka, Gal A.; Kraus, Sarit; Rosenschein, Jeffrey S. (July 2010). Ad Hoc Autonomous Agent Teams: Collaboration without Pre-Coordination. AAAI 11.
- ^ Foerster, Jakob N.; Song, H. Francis; Hughes, Edward; Burch, Neil; Dunning, Iain; Whiteson, Shimon; Botvinick, Matthew M; Bowling, Michael H. Bayesian action decoder for deep multi-agent reinforcement learning. ICML 2019. arXiv:1811.01458.
- ^ Shih, Andy; Sawhney, Arjun; Kondic, Jovana; Ermon, Stefano; Sadigh, Dorsa. On the Critical Role of Conventions in Adaptive Human-AI Collaboration. ICLR 2021. arXiv:2104.02871.
- ^ Shalev-Shwartz, Shai; Shammah, Shaked; Shashua, Amnon (2016). "Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving". arXiv:1610.03295 [cs.AI].
- ^ Sandholm, Toumas W.; Crites, Robert H. (1996). "Multiagent reinforcement learning in the Iterated Prisoner's Dilemma". Biosystems. 37 (1–2): 147–166. doi:10.1016/0303-2647(95)01551-5. PMID 8924633.
- ^ Peysakhovich, Alexander; Lerer, Adam (2018). "Prosocial Learning Agents Solve Generalized Stag Hunts Better than Selfish Ones". AAMAS 2018. arXiv:1709.02865.
- ^ Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; et al. (2020). "Open Problems in Cooperative AI". NeurIPS 2020. arXiv:2012.08630.
- ^ Köster, Raphael; Hadfield-Menell, Dylan; Hadfield, Gillian K.; Leibo, Joel Z. "Silly rules improve the capacity of agents to learn stable enforcement and compliance behaviors". AAMAS 2020. arXiv:2001.09318.
- ^ Hughes, Edward; Leibo, Joel Z.; et al. (2018). "Inequity aversion improves cooperation in intertemporal social dilemmas". NeurIPS 2018 proceedings. arXiv:1803.08884.
- ^ Leibo, Joel Z.; Zambaldi, Vinicius; Lanctot, Marc; Marecki, Janusz; Graepel, Thore (2017). "Multi-agent Reinforcement Learning in Sequential Social Dilemmas". AAMAS 2017. arXiv:1702.03037.
- ^ Badjatiya, Pinkesh; Sarkar, Mausoom (2020). "Inducing Cooperative behaviour in Sequential-Social dilemmas through Multi-Agent Reinforcement Learning using Status-Quo Loss". arXiv:2001.05458 [cs.AI].
- ^ Leibo, Joel Z.; Hughes, Edward; et al. (2019). "Autocurricula and the Emergence of Innovation from Social Interaction: A Manifesto for Multi-Agent Intelligence Research". arXiv:1903.00742v2 [cs.AI].
- ^ Baker, Bowen; et al. (2020). "Emergent Tool Use From Multi-Agent Autocurricula". ICLR 2020. arXiv:1909.07528.
- ^ Kasting, James F; Siefert, Janet L (2002). "Life and the evolution of earth's atmosphere". Science. 296 (5570): 1066–1068. Bibcode:2002Sci...296.1066K. doi:10.1126/science.1071184. PMID 12004117. S2CID 37190778.
- ^ Clark, Gregory (2008). A farewell to alms: a brief economic history of the world. Princeton University Press. ISBN 978-0-691-14128-2.
- ^ Hernandez-Leal, Pablo; Kartal, Bilal; Taylor, Matthew E. (2019-11-01). "A survey and critique of multiagent deep reinforcement learning". Autonomous Agents and Multi-Agent Systems. 33 (6): 750–797. arXiv:1810.05587. doi:10.1007/s10458-019-09421-1. ISSN 1573-7454. S2CID 52981002.