부분적으로 관측 가능한 마르코프 결정 과정

Partially observable Markov decision process

부분적으로 관측 가능한 마르코프 결정 프로세스(POMDP)마르코프 결정 프로세스(MDP)의 일반화이다.POMDP는 시스템 다이내믹스가 MDP에 의해 결정된다고 가정되는 에이전트 결정 프로세스를 모델링하지만 에이전트는 직접 기본 상태를 관찰할 수 없습니다.대신 센서 모델(기본 상태가 주어진 다른 관찰의 확률 분포)과 기본 MDP를 유지해야 한다. 기본 상태를 행동에 매핑하는 MDP의 정책 기능과 달리, POMDP의 정책은 관찰(또는 신념 상태)의 이력에서 행동으로 매핑하는 것이다.

POMDP 프레임워크는 다양한 실제 순차적 의사결정 프로세스를 모델링하기에 충분히 일반적이다.애플리케이션에는 로봇 내비게이션 문제, 기계 유지보수 및 일반적으로 불확실한 계획 수립이 포함됩니다.불완전한 정보를 가진 마르코프 의사결정 과정의 일반적인 프레임워크는 이산 상태 공간의 경우 1965년 카를 요한 오스트롬에 의해 설명되었으며, POMDP라는 약어가 만들어진 운영 연구 커뮤니티에서 더욱 연구되었다.그것은 나중에 Leslie P. KaelblingMichael [2]L. Littman의해 인공지능자동 계획의 문제에 적응되었다.

POMDP에 대한 정확한 해결책은 세계 각국에서 가능한 각각의 믿음에 대한 최적의 조치를 산출합니다.최적의 액션은 무한대에 걸쳐 에이전트의 예상 보상을 최대화(또는 비용을 최소화)합니다.최적의 작업 시퀀스는 에이전트 환경과 상호 작용하기 위한 최적의 정책이라고 합니다.

정의.

형식적 정의

이산 시간 POMDP는 에이전트와 에이전트 환경 간의 관계를 모델링합니다.정식적으로는 POMDP는 7개의 R, ,) , \입니다.

  • S 일련의 상태입니다.
  • A는일련의 액션입니다.
  • {\ T 상태 간의 조건부 전이 확률 집합입니다.
  • A \ 보상 함수이다.
  • \ \ Omega}는 일련의 관측치입니다.
  • O 조건부 관찰 확률 집합입니다.
  • [0, ]{ \ display \[ 0 , ]는 할인 입니다.

각 시간대에 환경은 S s S입니다.에이전트는 A a A을 수행합니다.그러면 환경이 T의 확률로 s s 이행합니다. o display 、 \ i i i i i i i on i i on i on i on i i i( \ s , ( \ }} ( O( ) ) 。보류 중).마지막으로 에이전트는 R , r(\ 받습니다.그 후 프로세스는 반복됩니다.목표는 에이전트가 예상되는 미래의 할인 보상을 최대화하는 각 시간 단계에서의 액션을 선택하는 것입니다 [ t { \ left [ \ _ { t= 0 \ } \ ^ {} _ r _ r _ right} \ tstyleftyle t r _ r .할인율{\(\은 거리가 먼 보상보다 즉각적인 보상을 얼마나 선호하는지를 결정합니다. 0 { \ }인 경우 담당자는 예상되는 즉각적인 보상을 가장 많이 얻을 수 있는 작업만 고려합니다. 1 { displaystyle \ 화살표 경우 담당자는 예상되는 미래 보상의 합계를 최대화하는 데 관심을 기울입니다.

논의

에이전트는 환경 상태를 직접 관찰하지 않으므로 실제 환경 상태가 불확실한 상태에서 결정해야 합니다.그러나 환경과 상호작용하여 관찰을 수신함으로써 에이전트는 현재 상태의 확률 분포를 업데이트함으로써 실제 상태에 대한 믿음을 업데이트할 수 있습니다.이 속성의 결과로 최적의 동작에는 에이전트의 현재 상태 추정치를 개선하여 미래에 더 나은 결정을 내릴 수 있도록 하기 위해 순수하게 수행되는 (정보 수집) 액션이 포함될 수 있습니다.

위의 정의를 마르코프 결정 과정의 정의와 비교하는 것은 유익하다.에이전트는 항상 환경의 현재 상태를 확실하게 알기 때문에 MDP에는 관찰 세트가 포함되지 않습니다.또는 관찰 세트를 상태 세트와 동일하게 설정하고 관찰 조건부 확률을 정의하여 참 상태에 대응하는 관찰을 결정적으로 선택함으로써 MDP를 POMDP로 재구성할 수 있다.

신념 갱신

액션을 하고한 후 담당자는 환경 상태에 대한 믿음을 갱신해야 합니다.국가가 마르코프이기 때문에 (추정에 의해) 국가 위에 믿음을 유지하는 것은 이전의 믿음 상태, 취한 행동, 그리고 현재의 관찰에 대한 지식만을 필요로 한다.이 연산은 b ( b, ,o) { b' = \ , ,o )} 로 됩니다.다음에서는 이 신뢰 갱신의 계산방법을 설명합니다.

s s에 도달한 후 에이전트는 O s a )의 확률 O(\(\b)를 합니다 S S에 대한 확률 분포가 됩니다.b (){ b( b ( s ) a 、 {\ a {\o

여기서 / ( b , =/ \ o\b , )}는 Pr b , ) S sa )의 입니다

신념민주당

마르코프 신념 상태는 POMDP를 모든 신념이 상태인 마르코프 결정 과정으로 공식화할 수 있도록 한다.따라서 ("원래" POMDP가 유한한 수의 상태를 갖는 경우에도) ( Sdisplaystyle 의)[2] 에 대한 무한한 확률 분포가 존재하기 때문에결과인 믿음 MDP는 연속적인 상태 공간에서 정의된다.

정식적으로는 MDP는 A, ")로 정의됩니다.{ display style (, r \gamma ) } 。

  • B)는 POMDP 주(州)에 대한 신념의 집합이다.
  • A는 원래 POMDP와 동일한 유한한 동작 입니다.
  • \displaystyle)는신념 상태 전이 함수입니다.
  • A \신념 상태에 대한 보상 함수이다.
  • \gamma은 오리지널 POMDP의\gamma와 동일한 입니다.

\ rr 원본 POMDP에서 파생되어야 합니다

( , b ( , b )는 이전 섹션에서 도출된 값입니다.

신념 MDP 보상 함수( r는 신념 상태 분포에 대한 POMDP 보상 함수에서 예상되는 보상이다.

( , ) ( ) ( , ){ r ( , a ) = \ _ { \ S ,a )}

에이전트는 항상 신념, 나아가 신념 MDP의 상태를 알고 있기 때문에 신념 MDP는 더 이상 부분적으로 관찰할 수 없다.

정책 및 가치 함수

「발신」의 POMDP(각각의 동작이 1개의 상태로부터만 이용 가능)와는 달리, 대응하는 신념의 MDP에서는, 모든 신념 상태가 모든 행동을 허가합니다.이는 항상 (거의) 어떤 상태에 있다고 믿을 가능성이 있기 때문입니다.와 같이 }는 신념b({a\ 대해 동작 a【 】(를 지정합니다.

여기서 목표는 무한대에 걸쳐 예상되는 총 할인 보상을 최대화하는 것으로 가정한다.R{\ R 비용을 정의할 때 는 예상 비용을 최소화하는 것입니다.

에서 시작하는 정책 {\\ 예상 보상은 다음과 같이 정의됩니다.

< \ < 최적의 정책 displaydisplay displaydisplay ( \ style \ { * } )는 장기적인 보상을 최적화하여 얻을 수 있습니다.

서 b 0 초기 신념입니다.

의 정책은 각 신념 상태에 대해 가장 높은 기대 보상값을 산출하며, 최적값 V V로 요약됩니다.이 값 함수는 벨만 최적성 방정식의 해법입니다.

유한 수평 POMDP의 경우 최적 값 함수는 분할 선형 및 [3]볼록형이다.그것은 유한한 벡터 집합으로 표현될 수 있다.무한-수평 공식에서 유한 벡터 집합은 형태가 볼록한 상태로 임의로 V{\ {\ V 할 수 있다.값 반복은 프로그래밍 업데이트를 적용하여 {\ - optimal value 함수로 수렴될 때까지 값을 점진적으로 개선하고, 그 공간별 선형성과 [4]볼록성을 유지합니다.값을 개선함으로써 정책은 암묵적으로 개선됩니다.정책 반복이라고 하는 또 다른 동적 프로그래밍 기법은 정책을 명시적으로 표현하고 개선합니다.[5][6]

대략적인 POMDP 솔루션

실제로, POMDP는 정확하게 해결하기 어려운 계산적인 경우가 많기 때문에, 컴퓨터 과학자들은 POMDP의 [7]솔루션에 가까운 방법을 개발했습니다.

그리드 기반 알고리즘은[8] 하나의 대략적인 솔루션 기술로 구성됩니다.이 접근법에서, 가치 함수는 믿음 공간의 점 집합에 대해 계산되며, 보간은 그리드 점 집합에 없는 다른 믿음 상태에 대해 취할 최적의 조치를 결정하기 위해 사용된다.보다 최근의 연구는 샘플링 기법, 일반화 기법 및 문제 구조의 활용을 이용하며, POMDP 해결을 수백만 개의 [9][10]상태를 가진 큰 영역으로 확장했다.예를 들어, 적응 그리드와 점 기반 방법은 무작위 도달 가능한 믿음 지점을 표본으로 하여 믿음 [11][12]공간의 관련 영역으로 계획을 제한한다.PCA를 사용한 치수 축소도 [13]검토되고 있습니다.

POMDP 이론

POMDP에서의 계획은 일반적으로 결정할 수 없다.그러나 일부 설정은 결정 가능한 것으로 확인되었습니다(아래 표 2 in,[14] 재현 참조).다른 목적이 고려되었다.Büchi의 목표는 Büchi automata에 의해 정의됩니다.도달 가능성은 Büchi 조건의 한 예이다(예를 들어, 모든 로봇이 집에 있는 양호한 상태에 도달하는 것).coBüchi 목표는 주어진 Büchi 조건을 충족하지 않는 추적에 대응한다(예를 들어 일부 로봇이 사망한 나쁜 상태에 도달하지 않음).패리티 목표는 패리티 게임을 통해 정의됩니다.패리티 목표를 통해 10시간마다 양호한 상태에 도달하는 복잡한 목표를 정의할 수 있습니다.목표는 다음과 같이 충족될 수 있습니다.

  • 거의 확률적으로, 즉 목표를 충족할 확률은 1이다.
  • 양수, 즉 목표를 충족할 확률이 0보다 엄격히 크다.
  • 즉, 목표를 충족할 확률이 주어진 임계값보다 크다는 것입니다.

또한 에이전트가 유한 상태 머신인 유한 메모리 케이스와 에이전트가 무한 메모리를 갖는 일반적인 케이스도 고려합니다.

목적 거의 확실(무한 메모리) 거의 확실(확실한 메모리) 긍정(mem 포함) 플러스(확실한 메모리) 정량적(mem 포함) 정량적(유한 메모리)
부치 EXPTIME 완료 EXPTIME 완료 판별할 수 없다 EXPTIME 완료[14] 판별할 수 없다 판별할 수 없다
코뷔치 판별할 수 없다 EXPTIME 완료[14] EXPTIME 완료 EXPTIME 완료 판별할 수 없다 판별할 수 없다
패리티 판별할 수 없다 EXPTIME 완료[14] 판별할 수 없다 EXPTIME 완료[14] 판별할 수 없다 판별할 수 없다

적용들

POMDP는 많은 종류의 실제 문제를 모델링하기 위해 사용할 수 있습니다.주목할 만한 적용 분야로는 허혈성 심장병 [15]환자 관리에 POMDP를 사용하는 것, [9][10]치매 환자를 위한 보조 기술, 심각한 위험에 처한 수마트라[16] 호랑이의 보존, 항공기 충돌 [17]회피 등이 있다.

레퍼런스

  1. ^ Åström, K.J. (1965). "Optimal control of Markov processes with incomplete state information". Journal of Mathematical Analysis and Applications. 10: 174–205. doi:10.1016/0022-247X(65)90154-X.
  2. ^ a b Kaelbling, L.P., Littman, M.L., Cassandra, A.R. (1998). "Planning and acting in partially observable stochastic domains". Artificial Intelligence. 101 (1–2): 99–134. doi:10.1016/S0004-3702(98)00023-X.{{cite journal}}: CS1 maint: 여러 이름: 작성자 목록(링크)
  3. ^ Sondik, E.J. (1971). The optimal control of partially observable Markov processes (PhD thesis). Stanford University. Archived from the original on October 17, 2019.
  4. ^ Smallwood, R.D., Sondik, E.J. (1973). "The optimal control of partially observable Markov decision processes over a finite horizon". Operations Research. 21 (5): 1071–88. doi:10.1287/opre.21.5.1071.{{cite journal}}: CS1 maint: 여러 이름: 작성자 목록(링크)
  5. ^ Sondik, E.J. (1978). "The optimal control of partially observable Markov processes over the infinite horizon: discounted cost". Operations Research. 26 (2): 282–304. doi:10.1287/opre.26.2.282.
  6. ^ Hansen, E. (1998). "Solving POMDPs by searching in policy space". Proceedings of the Fourteenth International Conference on Uncertainty In Artificial Intelligence (UAI-98). arXiv:1301.7380.
  7. ^ Hauskrecht, M. (2000). "Value function approximations for partially observable Markov decision processes". Journal of Artificial Intelligence Research. 13: 33–94. doi:10.1613/jair.678.
  8. ^ Lovejoy, W. (1991). "Computationally feasible bounds for partially observed Markov decision processes". Operations Research. 39: 162–175. doi:10.1287/opre.39.1.162.
  9. ^ a b Jesse Hoey; Axel von Bertoldi; Pascal Poupart; Alex Mihailidis (2007). "Assisting Persons with Dementia during Handwashing Using a Partially Observable Markov Decision Process". Proc. International Conference on Computer Vision Systems (ICVS). doi:10.2390/biecoll-icvs2007-89.
  10. ^ a b Jesse Hoey; Pascal Poupart; Axel von Bertoldi; Tammy Craig; Craig Boutilier; Alex Mihailidis. (2010). "Automated Handwashing Assistance For Persons With Dementia Using Video and a Partially Observable Markov Decision Process". Computer Vision and Image Understanding (CVIU). 114 (5): 503–519. CiteSeerX 10.1.1.160.8351. doi:10.1016/j.cviu.2009.06.008.
  11. ^ Pineau, J., Gordon, G., Thrun, S. (August 2003). "Point-based value iteration: An anytime algorithm for POMDPs" (PDF). International Joint Conference on Artificial Intelligence (IJCAI). Acapulco, Mexico. pp. 1025–32.{{cite conference}}: CS1 maint: 여러 이름: 작성자 목록(링크)
  12. ^ Hauskrecht, M. (1997). "Incremental methods for computing bounds in partially observable Markov decision processes". Proceedings of the 14th National Conference on Artificial Intelligence (AAAI). Providence, RI. pp. 734–739. CiteSeerX 10.1.1.85.8303.
  13. ^ Roy, Nicholas; Gordon, Geoffrey (2003). "Exponential Family PCA for Belief Compression in POMDPs" (PDF). Advances in Neural Information Processing Systems.
  14. ^ a b c d e Chatterjee, Krishnendu; Chmelík, Martin; Tracol, Mathieu (2016-08-01). "What is decidable about partially observable Markov decision processes with ω-regular objectives". Journal of Computer and System Sciences. 82 (5): 878–911. doi:10.1016/j.jcss.2016.02.009. ISSN 0022-0000.
  15. ^ Hauskrecht, M. , Fraser, H. (2000). "Planning treatment of ischemic heart disease with partially observable Markov decision processes". Artificial Intelligence in Medicine. 18 (3): 221–244. doi:10.1016/S0933-3657(99)00042-1. PMID 10675716.{{cite journal}}: CS1 maint: 여러 이름: 작성자 목록(링크)
  16. ^ Chadès, I., McDonald-Madden, E., McCarthy, M.A., Wintle, B., Linkie, M., Possingham, H.P. (16 September 2008). "When to stop managing or surveying cryptic threatened species". Proc. Natl. Acad. Sci. U.S.A. 105 (37): 13936–40. Bibcode:2008PNAS..10513936C. doi:10.1073/pnas.0805265105. PMC 2544557. PMID 18779594.{{cite journal}}: CS1 maint: 여러 이름: 작성자 목록(링크)
  17. ^ Kochenderfer, Mykel J. (2015). "Optimized Airborne Collision Avoidance". Decision Making Under Uncertainty. The MIT Press.

외부 링크