산악차 문제
Mountain car problem강화학습의 표준 시험 영역인 마운틴카는 동력 부족 차량이 가파른 언덕을 올라가야 하는 문제다.중력이 차의 엔진보다 강하기 때문에, 전속력으로 가속해도, 자동차는 가파른 경사면을 단순히 가속할 수 없다.이 차는 계곡에 위치해 있고, 차가 가장 오른쪽 언덕 꼭대기에 있는 골대에 도달하기 전에 반대쪽 언덕을 운전함으로써 잠재 에너지를 활용하는 법을 배워야 한다.도메인은 다양한 강화 학습 논문에서 테스트 베드로 사용되었습니다.
서론
산악 자동차 문제는 매우 간단하지만, 위치 및 속도라는 두 가지 연속 변수에 대해 학습하기 위해 강화 학습 에이전트가 필요하기 때문에 일반적으로 적용됩니다.차량의 모든 상태(위치 및 속도)에 대해 에이전트는 좌회전, 우회전 또는 엔진을 전혀 사용하지 않을 수 있습니다.문제의 표준 버전에서는 에이전트가 목표에 도달하지 못할 때마다 부정적인 보상을 받습니다.에이전트에게는 첫 번째 성공이 있을 때까지 목표에 대한 정보가 없습니다.
역사
산악차 문제는 앤드류 무어의 박사학위 논문(1990)[1]에서 처음 나타났다.그것은 나중에 Singh and Sutton's Enforcement Setting 논문에서 적격성 [2]추적과 함께 더 엄격하게 정의되었다.이 문제는 Sutton과 Barto가 그들의 책인 "강화 학습:서론([3]1998).수년간 보상 기능, 종료 조건 및/또는 시작 상태를 수정하는 버전과 같은 많은 버전의 문제가 사용되었습니다.
산악차를 해결하는 기술
Q-러닝 및 이산 상태를 이산 액션에 매핑하기 위한 유사한 기술은 문제의 연속적인 상태 공간을 처리할 수 있도록 확장해야 합니다.접근방식은 종종 상태 공간의 이산화 또는 함수 근사의 두 가지 범주 중 하나로 분류된다.
이산화
이 접근법에서는 각 연속 변수를 여러 이산 상태로 버킷함으로써 두 연속 상태 변수가 이산 상태로 푸시됩니다.이 접근방식은 적절하게 조정된 파라미터로 동작하지만 단점은 어떤 상태에서 수집된 정보가 다른 상태를 평가하는 데 사용되지 않는다는 것입니다.타일 코딩은 이산화를 개선하기 위해 사용할 수 있으며 서로 오프셋된 버킷 세트에 연속 변수를 매핑하는 것을 포함합니다.트레이닝의 각 스텝은 오프셋 그리드가 합산되면 정보가 [4]확산되기 때문에 가치함수 근사치에 더 큰 영향을 미칩니다.
함수 근사
함수 근사도 산악차를 푸는 다른 방법이다.미리 일련의 기본 함수를 선택하거나 자동차 주행 시 생성함으로써 에이전트는 각 상태의 값 함수를 근사할 수 있다.이산화를 통해 생성된 값 함수의 단계적 버전과 달리, 함수 근사는 산악 자동차 [5]영역의 진정한 매끄러운 함수를 더 깨끗하게 추정할 수 있습니다.
적격성 트레이스
문제의 흥미로운 측면은 실제 보상의 지연이다.에이전트는 성공적으로 완료될 때까지 목표에 대해 학습할 수 없습니다.각 시도에 대한 순진한 접근 방식을 고려할 때, 이 자동차는 목표의 보상을 약간만 백업할 수 있습니다.이것은 각 개별 상태가 한 번만 백업되고 문제를 학습하는 데 더 많은 에피소드가 필요하기 때문에 단순한 이산화의 문제입니다.이 문제는 자격 추적 메커니즘을 통해 완화될 수 있습니다. 이 메커니즘은 이전 주에 주어졌던 보상을 자동으로 백업하여 학습 속도를 획기적으로 향상시킵니다.적격성 추적은 시간적 차이 학습 방법에서 몬테카를로 [6]방법까지의 가교로 볼 수 있다.
기술적 세부사항
산악차 문제는 여러 번 반복되었다.이 섹션에서는 Sutton(2008)[7]의 잘 정의된 표준 버전에 초점을 맞춘다.
상태 변수
2차원 연속 상태 공간.
행동들
1차원 이산 동작 공간.
보상
모든 시간 단계에 대해:
업데이트 기능
모든 시간 단계에 대해:
시작 조건
선택적으로, 많은 구현은 더 나은 일반 학습을 보여주기 위해 두 매개변수에 무작위성을 포함합니다.
종료 조건
다음과 같은 경우에 시뮬레이션을 종료합니다.
바리에이션
산악차는 표준 모델과는 다른 여러 가지 버전이 있습니다.다양한 변수에는 문제의 상수(중력 및 경사가 변경됨)가 포함되지만 이에 한정되지 않으므로 특정 정책에 대한 특정 조정은 무의미해지고 보상 함수를 변경하여 에이전트의 학습 능력에 다른 방식으로 영향을 줍니다.예를 들어, 목표와의 거리가 같도록 보상을 변경하거나, 어디에서나 보상을 0으로 변경하고 목표에 1로 변경하는 것입니다.또한 4D 연속 상태 [8]공간이 있는 3D 산악차를 사용할 수 있습니다.
레퍼런스
- ^ [무어 1990] AMoore, Efficient Memory-Based Learning for Robot Control, 박사논문, 케임브리지 대학교, 1990년 11월
- ^ [Singh and Sutton, 1996] S.P. 싱과 R.S. Sutton(1996) 자격 트레이스를 대체하는 강화 학습.머신 러닝 22(1/2/3):123-158.
- ^ [Sutton and Barto, 1998] 강화 학습:개요리처드 S.서튼과 앤드류 G. 바토.Bradford Book.MIT 프레스 캠브리지, 매사추세츠 런던, 1998년 영국
- ^ "Archived copy". Archived from the original on 28 April 2012. Retrieved 14 December 2011.
{{cite web}}: CS1 maint: 제목으로 아카이브된 복사(링크) - ^ "Archived copy". Archived from the original on 30 April 2012. Retrieved 14 December 2011.
{{cite web}}: CS1 maint: 제목으로 아카이브된 복사(링크) - ^ Sutton, Richard S.; Barto, Andrew G.; Bach, Francis (13 November 2018). "7. Eligibility Traces". Reinforcement Learning: An Introduction (Second ed.). A Bradford Book. ISBN 9780262039246.
- ^ [Sutton, 2008] 마운틴카 소프트웨어Richard s.서튼.http://www.cs.ualberta.ca/~sutton/MountainCar/MountainCar.html 2009년 10월 12일 Wayback Machine에서 아카이브 완료
- ^ "Archived copy". Archived from the original on 26 April 2012. Retrieved 14 December 2011.
{{cite web}}: CS1 maint: 제목으로 아카이브된 복사(링크)
실장
추가 정보
- "Mountain Car with Sparse Coarse Coding". 1996: 1038–1044. CiteSeerX 10.1.1.51.4764.
{{cite journal}}:Cite 저널 요구 사항journal=(도움말) - 자격증 트레이스를 교환한 산악용 차량
- "More discussion on Continuous State Spaces". 2000: 903–910. CiteSeerX 10.1.1.97.9314.
{{cite journal}}:Cite 저널 요구 사항journal=(도움말) - 산악용 자동차를 사용한 가우스 프로세스