상태-행동-보상-상태-행동
State–action–reward–state–action시리즈의 일부 |
기계 학습 및 데이터 마이닝 |
---|
![]() |
상태-행동-보상-상태-행동(SARSA)은 마르코프 의사결정 과정 정책을 학습하기 위한 알고리즘으로, 기계 학습의 강화 영역에 사용된다.Rummery와 Niranjan이 "Modified Connectist Q-Learning"(MCQ-L)이라는 이름의 기술 노트를[1] 통해 제안했습니다.리치 서튼이 제안한 SARSA라는 다른 이름은 [2]각주로만 언급되었다.
이 이름은 Q-값을 업데이트하는 주요 기능이 에이전트의 현재 상태 "S1", 에이전트가 선택한 작업 "A1", 에이전트가 이 작업을 선택한 데 대해 받는 보상 "R", 에이전트가 해당 작업을 수행한 후 시작하는 상태 "S2", 마지막으로 에이전트가 새 상태에서 선택한 다음 작업 "A2"에 따라 다르다는 사실을 나타냅니다.5배수(stt, at, rt+1, st+1, a)의 약자는 SARSA이다.[3] 일부 저자는 보상이 공식적으로 할당된 단계에 따라 약간 다른 규칙을 사용하여 5배수(st, at, rt+1, st+1, at+1)를 쓴다.기사의 나머지 부분은 이전의 관례를 사용한다.
알고리즘.
SARSA 에이전트는 환경과 상호 작용하여 수행된 액션을 기반으로 정책을 업데이트하므로 이를 정책 학습 알고리즘이라고 합니다.상태 액션의 Q 값은 학습 속도 알파에 의해 조정된 오류에 의해 업데이트됩니다.Q 값은 상태 s에서 조치 a를 취하기 위해 다음 단계에서 받을 수 있는 가능한 보상과 다음 상태-조치 관찰에서 받을 할인된 미래 보상을 나타낸다.
Watkin의 Q-learning은 사용 가능한 조치의 최대 보상을 기반으로 최적의 상태-행동 값 Q {\ Q의 추정치를 업데이트합니다.SARSA는 스스로 따르는 정책을 취하는 것과 관련된 Q값을 학습하는 반면, Watkin의 Q-learning은 탐사/착취 정책을 따르면서 최적의 정책을 취하는 것과 관련된 Q값을 학습합니다.
왓킨의 Q-러닝의 최적화는 SARSA에 [4]적용될 수 있다.
하이퍼파라미터
학습률(알파)
학습률은 새로 취득한 정보가 오래된 정보보다 어느 정도 우선하는지를 결정합니다.계수가 0인 경우 에이전트는 아무것도 학습하지 않으며, 계수 1인 경우 에이전트는 최신 정보만 고려합니다.
할인율(감마)
할인율은 미래 보상의 중요성을 결정한다.할인율이 0인 경우, 예를 들어 현재의 보수만을 고려하는 것으로써, 에이전트는 「기회적」, 즉 「근시안적」이 됩니다.한편, 1에 가까워지면, 장기적인 고액의 보수를 얻으려고 노력하게 됩니다.할인율이 1을 충족하거나 초과할 경우 Q Q 이 분산될 수 있습니다.
초기 조건(Q(s0, a0))
SARSA는 반복 알고리즘이기 때문에 첫 번째 업데이트가 발생하기 전에 암묵적으로 초기 상태를 가정합니다."낙관적인 초기 조건"[6]이라고도 하는 낮은(무한) 초기 값은 탐색을 촉진할 수 있습니다. 즉, 어떤 작업이 수행되든 업데이트 규칙에 따라 다른 대안보다 높은 값이 지정되므로 선택 확률이 높아집니다.2013년에는 첫 번째 rr을 사용하여 초기 조건을 재설정할 수 있다고 제안되었다.이 아이디어에 따르면 첫 번째 조치를 취했을 때 보상을 사용하여Q(\ Q의 값을 설정합니다.이것에 의해, 확정적인 보상이 있는 경우, 즉시 학습할 수 있습니다.이 RIC(Reset-of-Initial-Conditions) 접근법은 반복적인 바이너리 선택 [7]실험에서의 인간의 행동과 일치하는 것으로 보입니다.
「 」를 참조해 주세요.
레퍼런스
- ^ Rummery & Niranjan(1994)의 "Connectist Systems를 사용한 온라인 Q-Learning"
- ^ Jeevanandam, Nivash (2021-09-13). "Underrated But Fascinating ML Concepts #5 – CST, PBWM, SARSA, & Sammon Mapping". Analytics India Magazine. Retrieved 2021-12-05.
- ^ 강화 학습:개요 리처드 S.서튼과 앤드류 G. 바토 (6.4장)
- ^ Wiering, Marco; Schmidhuber, Jürgen (1998-10-01). "Fast Online Q(λ)" (PDF). Machine Learning. 33 (1): 105–115. doi:10.1023/A:1007562800292. ISSN 0885-6125. S2CID 8358530.
- ^ https://www.lesswrong.com/posts/GqxuDtZvfgL2bEQ5v/arguments-against-myopic-training (2021-09-29)
- ^ "2.7 Optimistic Initial Values". incompleteideas.net. Retrieved 2018-02-28.
- ^ Shteingart, H; Neiman, T; Loewenstein, Y (May 2013). "The Role of First Impression in Operant Learning" (PDF). J Exp Psychol Gen. 142 (2): 476–88. doi:10.1037/a0029550. PMID 22924882.