기틴 지수

Gittins 지수는 특정한 성질을 가진 주어진 확률적 과정을 통해 달성될 수 있는 보상의 척도로서, 즉 프로세스는 궁극적인 종료 상태를 가지고 있으며 각 중간 상태에서 옵션으로 진화한다.주어진 상태에서 종료할 때 달성되는 보상은 실제 종료 상태에서 최종 터미널 상태에 이르는 모든 상태와 관련된 확률론적 기대 보상의 합이다.지표가 진짜 스칼라다.

용어.

이 이론을 설명하기 위해 발전하는 분야로부터 두 가지 예를 들 수 있다. 예를 들어, 풍력 발전 기술과 파동 발전이다.만약 우리가 두 기술이 모두 아이디어로 제안되었을 때 두 기술을 제공받는다면, 우리는 아직 우리의 판단에 근거할 자료가 없기 때문에 장기적으로 어떤 기술이 더 좋을지 말할 수 없다.^[1]긴 부유식 발전기를 만들어 바다로 견인하고 필요한 케이블을 설치하는 것보다 풍력 터빈을 많이 설치하는 것이 더 쉬워 보여서 파동 발전이 너무 문제가 있다고 말하기 쉽다.

만약 우리가 개발 초기에 판단 전화를 한다면 우리는 하나의 기술이 선반 위에 올려져 있고 다른 기술은 개발되어 운용될 것이라고 비난할 수 있을 것이다.만약 우리가 두 가지 기술을 모두 개발한다면 우리는 매 3개월과 같이 정해진 시간 간격으로 각 기술의 진척도를 비교함으로써 각각의 기술에 대한 판단을 내릴 수 있을 것이다.우리가 다음 단계에서 투자에 대해 내리는 결정은 그 결과에 기초할 것이다.^[1]

1979년의 논문에서 Bandid Processs and Dynamic Assignment Indexes John C. 기틴스는 이와 같은 문제에 대한 해결책을 제시한다.그는 '스케줄링 문제'와 '다중팔도적 문제^[2]'의 두 가지 기본 기능을 취하며 이러한 문제들이 동적 할당 지수를 이용해 어떻게 해결될 수 있는지를 보여준다.그는 먼저 '스케줄링 문제'를 들고, 예를 들어 매 시간 또는 하루 한 시간씩 일을 끝내야 하는 기계로 이를 줄인다.기계는 기간 내 마감 여부를 기준으로 보상가치가 부여되며, 작업별 완료여부의 확률가 계산된다.문제는 "기대된 총 보상액을 극대화하기 위해 각 단계에서 다음에 어떤 일을 처리할지를 결정하는 것"^[1]이다.그리고 나서 그는 "무장을 한 도적" 레버를 당길 때마다 성공적인 당김을 위한 보상 기능이 할당되고, 당김에 실패한 것에 대한 보상은 제로인 "다중무장 도적 문제"로 넘어간다.성공의 순서는 베르누이 과정을 이루고 있으며 알 수 없는 성공 확률을 가지고 있다.여러 개의 "밴드"가 있으며, 성공적인 당김의 분포가 계산되어 각 기계마다 다르다.Gittins는 여기서 문제가 "무한한 일련의 당김으로부터 예상되는 총 예상 보상을 최대화하기 위해 각 단계에서 다음에 어떤 팔을 당길지 결정하는 것"^[1]이라고 말한다.

Gittins는 "위에서 설명한 두 문제 모두 일련의 의사결정을 수반하며, 각 문제는 이전 문제보다 더 많은 정보에 기초하고 있으며, 이 두 문제 모두 동적 할당 지수에 의해 다루어질 수 있다"^[2]고 말한다.

정의

응용 수학에서 "기틴 지수"는 보상 함수와 종료 확률을 가진 확률적 과정의 상태와 연관된 실제 스칼라 값이다.그것은 향후 종료될 확률에서 그 상태에서 진화하는 과정에 의해 달성될 수 있는 보상의 척도다.현재 가장 높은 Gittins 지수를 가진 확률적 과정을 언제든지 선택하는 것으로 구성되는 Gittins 지수에 의해 유도된 "지수 정책"은 동적 할당과 같은 일부 정지 문제의 해결책이다. 즉, 의사결정자는 제한된 노력을 다수의 컴팩트에 분산시켜 총 보상을 극대화해야 한다.에팅 프로젝트, 각각 확률적인 보상을 반환한다.프로젝트가 서로 독립되어 한 번에 한 프로젝트만 진화할 수 있다면, 문제는 다연장 도적(일종의 확률적 스케줄링 문제)이라고 하며 기틴 지수 정책이 최적이다.여러 프로젝트가 진화할 수 있다면 문제를 레스티스 도적이라 부르고 기틴 지수 정책은 좋은 휴리스틱스라고 알려져 있지만 일반적으로 최적의 해결책은 존재하지 않는다.사실, 일반적으로 이 문제는 NP-완전이며 실현 가능한 해결책을 찾을 수 없다는 것이 일반적으로 받아들여지고 있다.

역사

최적의 제동 정책에 대해 임상 실험의 맥락에서 의문은 1940년대에서 1960년대 작가 몇은 Gittins과 그의 동료는Markovian 틀에서의 1970년대가 되어서 단순한 모델 최적 지수 policies,[3]에 분석했다 영업을 해 왔다는 일반적인 경우 최적의 해결책이다. 는단일 프로젝트의 역학관계의 함수로서 각 프로젝트의 모든 상태에 대해 원칙적으로 "인덱스 할당지수"^[2]^[4]를 계산할 수 있는 인덱스 정책기틴스와 병행하여 마틴 웨이츠만은 경제학 문헌에서도 같은 결과를 확립했다.^[5]

기틴스의 정석 논문 직후 피터 위틀은^[6] 이 지수가 은퇴 과정이라고 불리는 문제의 동적 프로그래밍 공식에서 라그랑주 곱셈으로 나타난다는 것을 증명했고, 같은 지수가 레스티스 도적단이라는 보다 일반적인 설정에서 좋은 휴리스틱이 될 것이라고 추측했다.어떻게 실제로 마르코프 체인에 대한 지수는 처음 Varaiya와 그의 collaborators[7]이 가장 큰 사람들은 보편적인 LP는 국가의 지수를 계산하기는 calcula를 사용할 필요 없이 사용되는 것이 가능하다는[8]가장 작은 이유로 첸과 Katehakis로 지수를 계산한 알고리즘으로 해결됐다는 계산할 문제이다.tion인덱스 값이 높은 모든 상태의 경우LCM 칼렌버그는 마르코프 체인의 모든 상태에 대한 지수를 계산하기 위한 파라메트릭 LP 구현을 제공했다^[9].또한, Katehakis와 Cenmott는^[10] 이 지수가 마르코프 체인에 구축되고 Restart in State로 알려진 마르코프 의사결정 프로세스의 예상 보상이며, 정책 반복 알고리즘 또는 값 반복 알고리즘으로 그 문제를 정확히 해결함으로써 계산될 수 있음을 입증했다.또한 이 접근방식은 모든 더 큰 지수를 계산할 필요 없이 하나의 특정 상태에 대한 지수를 계산할 수 있는 이점이 있으며 더 일반적인 상태 공간 조건에서 유효하다.모든 지수의 계산을 위한 더 빠른 알고리즘은 2004년 소닌에^[11] 의해 마르코프 체인의 최적 정지를 위한 제거 알고리즘의 결과로 얻어졌다.이 알고리즘에서 프로세스의 종료 확률은 고정 인자가 되기 보다는 현재 상태에 따라 달라질 수 있다.더 빠른 알고리즘은 2007년 파라메트릭 심플렉스 구조를 이용하여 피벗 스텝의 계산 노력을 줄여 가우스 제거 알고리즘과 동일한 복잡성을 달성함으로써 니뇨-모라에 의해 제안되었다.코완, W와 Katehakis 그 문제에 잠재적으로non-Markovian, 무수한 상태 공간 보상 프로세스와, 체계 하의에는 할인 요인과 달라지시간, 또는 각 산적의 활성화의 기간이나 유니폼 대신 가능성이 있는 stoch에 따라 정해지지 않을 수도 있불균등할 수 있는 해결책을 제공하(2014년)[13].ast다른 도적단으로의 변경이 허용되기 전 IC 활성화 기간이 솔루션은 일반화된 상태 내 재시작 지수를 기반으로 한다.

수학적 정의

동적 할당 지수

Gittins 등의 고전적 정의는 다음과 같다.

\nu (i)=\sup _{\tau >0}{\frac {\left\langle \sum _{t=0}^{\tau -1}\beta ^{t}R[Z(t)]\right\rangle _{Z(0)=i}}{\left\langle \sum _{t=0}^{\tau -1}\beta ^{t}\right\rangle _{Z(0)=i}}}

어디 Z(⋅){Z(\cdot)\displaystyle}은 통계적 과정, R){R(나는)\displaystyle}은 유틸리티(또한 보상 요구했다)나는,β<>{\displaystyle 나는}이 불연속 상태로 관련 1{\displaystyle \beta<1} 있을 확률이 통계적 과정, 그리고⋅⟩ c{\displa ⟨가 종료되지 않는다.ystyle $\langle \cdot \rangle _{c}$ 은 $\langle\cdot\rangle_c$ (는) c:가 주어진 조건부 기대 연산자다.

\langle X\rangle _{c}\doteq \sum _{x\in \chi }xP\{X=x c\}}}}

$【\displaystyle \chi$ 】이(가 $)$ X의 도메인인 경우 $\chi$ .

퇴직공정제식

Whittle이 제공하는 은퇴 프로세스 측면에서 동적 프로그래밍 공식은 다음과 같다.

ww(i)=\inf\{k:v(i,k)=k\}

여기서 $v(i,k)$ ( i $v(i,k)$ , $v(i,k)$ ) $v(i,k)$ 은 $v(i,k)$ (는) 값 함수임

v(i,k)=\sup _{\tau >0}\left\langle \sum _{t=0}^{t=0}^{t=0}^{t}R[Z(t)]+\beta ^}k\right\rangele _{Z(0)=i}}}

위와 같은 표기법으로그것을 지탱하고 있다.

\displaystyle \nu(i)=(1-\property )w(i).}

상태 내 재시동 공식화

$Z(\cdot )$ $Z(\cdot )$ ) $Z(\cdot )$ 이(가) 보상이 있는 마르코프 체인이라면 $Z(\cdot )$ , 케이트하키스와 임컷(1987)의 해석은 하나의 임의 $상태$ i ${\displaystyle$ i $}$ 에서 다시 시작하는 작용을 모든 상태에 연관시켜 마르코프 의사결정 $M_{i}$ M $M_{i}$ ${\$ 을 구성한다 $M_{i}$

해당 상태 $i$ $i$ 의 Gittins Index는 $M_{i}$ 해당 $상태$ i{\ $displaystyle i}$ 에서 계속하거나 다시 시작할 수 있는 경우 M i $M_{i}$ ${\$ 에서 달성할 수 있는 가장 높은 총 보상이다 $i$

h(i)=\sup _{\pi }\left\langle \sum _{t=0}^{\tau -1}\1}\beta ^{t}R[Z^{\pi }(t)]\right\Z(0)=i}}}}}}}}}}}}}}}

여기서 $\pi$ $\pi$ 은(는) $M_{i}$ ${\$ 에 대한 정책을 나타내며 $\pi$ $M_{i}$ 이 정책을 유지한다.

h(i)=w(i)

(

h(i)=w(i)

)

h(i)=w(i)

=

h(i)=w(i)

( i

h(i)=w(i)

)

{\displaystyle h(i)=w(i

일반화지수

생존 확률 $\beta (i)$ ( $\beta (i)$ i $\beta (i)$ ) $\beta (i)$ 이( $가$ ) 상태 i $i$ 에 따라 $\beta (i)$ 달라진다면 $i$ 소닌(2008)에 의해 도입된 일반화는 기틴 지수 $\alpha (i)$ ( i $\alpha (i)$ ) $\alpha (i)$ 을 $\alpha(i)$ 종료 확률당 최대 할인된 총 보상으로 정의한다.

\alpha(i)=\sup _{\tau >0}{\frac {R^{\tau }(i)}{Q^{\tau }(i)}}

어디에

R^{\tau }}(i)=\left\langle \sum _{t=0}^{\tau -1}R[Z(t)]\rigle _{Z(0)=i}}}

Q^{\tau }}=\좌측\langle 1-\prod _{t=0}^{\tau -1}\beta [Z(t)]\rigle _{Z(0)=i}}}

If $\beta ^{t}$ is replaced by $\prod _{j=0}^{t-1}\beta [Z(j)]$ in the definitions of $\nu (i)$ , $w(i)$ and $h(i)$ , then it holds that

[\displaystyle \property(i)=h(i)=w(i)}

\displaystyle \i)\neq k\nu(i),\forall k}

이 관찰로 소닌은 $\nu (i)$ $\alpha (i)$ ) $\alpha(i)$ 이 $\alpha(i)$ ( $)$ 아닌 α $\nu (i)$ i $\nu (i)$ ) {\ $displaystyle \nu(i)}$ 이(가) 기틴 지수의 "진정한 의미"라는 $\nu (i)$ 결론을 내리게 된다.

큐잉 이론

대기열 이론에서 Gittins 색인은 예를 들어 M/G/1 대기열에서 최적의 작업 스케줄링을 결정하는 데 사용된다.Gittins 인덱스 스케줄에 따른 작업의 평균 완료 시간은 SOAP 접근방식을 사용하여 결정할 수 있다.^[14]대기열의 역학관계는 본질적으로 마코비안이며, 확률성은 도착과 서비스 프로세스에 기인한다는 점에 유의한다.이는 학습문학에서 대부분의 작품들이 소음 용어를 통해 확률적으로 설명되는 것과 대조적이다.

분수 문제

기존의 기틴 지수는 보상의 발생을 최적화하는 정책을 유도하지만, 공통적인 문제 설정은 발생된 보상의 비율을 최적화하는 것으로 구성된다.예를 들어, 시스템이 시간 경과에 따른 데이터로 구성되는 대역폭을 최대화하거나, 시간 경과에 따른 에너지로 구성되는 전력 소비를 최소화하는 경우를 들 수 있다.

이러한 종류의 문제는 세미 마코프 보상 프로세스의 최적화와는 다르다. 왜냐하면 후자는 단지 더 높은 보상을 받기 위해 불균형한 체류 시간을 가진 주를 선택할 수 있기 때문이다.대신 선형-추상 마르코프 보상 최적화 문제의 등급에 해당한다.

그러나 그러한 비율 최적화의 해로운 측면은 일단 어떤 상태에서 달성된 비율이 높으면 최적화는 종료 확률이 높기 때문에 낮은 비율로 이어지는 상태를 선택할 수 있다는 것이다. 따라서 공정이 비율이 현저히 떨어지기 전에 종료될 가능성이 높다.그러한 조기 종료를 방지하기 위한 문제 설정은 최적화를 각 상태가 보는 미래 비율의 최대화로 정의하는 것으로 구성된다.인덱스는 이 문제에 대해 존재하는 것으로 추측되며, 기존 상태 재시동 또는 상태 제거 알고리즘에 대한 단순한 변화로 계산될 수 있으며, 실제로 잘 작동하도록 평가된다.^[15]

메모들

^ ^a ^b ^c ^d Cowan, Robin (July 1991). "Tortoises and Hares: Choice among technologies of unknown merit". The Economic Journal. 101 (407): 801–814. doi:10.2307/2233856. JSTOR 2233856.
^ ^a ^b ^c Gittins, J. C. (1979). "Bandit Processes and Dynamic Allocation Indices". Journal of the Royal Statistical Society. Series B (Methodological). 41 (2): 148–177. doi:10.1111/j.2517-6161.1979.tb01068.x. JSTOR 2985029.
^ Mitten L (1960). "An Analytic Solution to the Least Cost Testing Sequence Problem". Journal of Industrial Engineering. 11 (1): 17.
^ Gittins, J. C.; Jones, D. M. (1979). "A Dynamic Allocation Index for the Discounted Multiarmed Bandit Problem". Biometrika. 66 (3): 561–565. doi:10.2307/2335176. JSTOR 2335176.
^ Weitzman, Martin L. (1979). "Optimal Search for the Best Alternative". Econometrica. 47 (3): 641–654. doi:10.2307/1910412. hdl:1721.1/31303. JSTOR 1910412.
^ Whittle, Peter (1980). "Multi-armed Bandits and the Gittins Index". Journal of the Royal Statistical Society, Series B. 42 (2): 143–149.
^ Varaiya, P.; Walrand, J.; Buyukkoc, C. (May 1985). "Extensions of the multiarmed bandit problem: The discounted case". IEEE Transactions on Automatic Control. 30 (5): 426–439. doi:10.1109/TAC.1985.1103989.
^ Chen Y.R., Katehakis M.N. (1986). "Linear programming for finite state multi-armed bandit problems". Math. Oper. Res. 11 (1): 180–183. doi:10.1287/moor.11.1.180.
^ Kallenberg L.C.M. (1986). "A Note on MN Katehakis' and Y.-R. Chen's Computation of the Gittins Index". Math. Oper. Res. 11 (1): 184–186. doi:10.1287/moor.11.1.184.
^ Katehakis M., Veinott A. (1987). "The multi-armed bandit problem: decomposition and computation". Math. Oper. Res. 12 (2): 262–268. doi:10.1287/moor.12.2.262.
^ Sonin I (2008). "A generalized Gittins index for a Markov chain and its recursive calculation". Statistics and Probability Letters. 78 (12): 1526–1533. doi:10.1016/j.spl.2008.01.049.
^ Ni , Mora J (2007). "A (2/3)^n Fast-Pivoting Algorithm for the Gittins Index and Optimal Stopping of a Markov Chain". INFORMS Journal on Computing. 19 (4): 596–606. CiteSeerX 10.1.1.77.5127. doi:10.1287/ijoc.1060.0206.
^ Cowan, Wesley; Katehakis, Michael N. (January 2015). "Multi-armed bandits under general depreciation and commitment". Probability in the Engineering and Informational Sciences. 29 (1): 51–76. doi:10.1017/S0269964814000217.
^ Scully, Ziv and Harchol-Balter, Mor and Scheller-Wolf, Alan (2018). "SOAP: One Clean Analysis of All Age-Based Scheduling Policies". Proceedings of the ACM on Measurement and Analysis of Computing Systems. ACM. 2 (1): 16. doi:10.1145/3179419. S2CID 216145213.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
^ Di Gregorio, Lorenzo and Frascolla, Valerio (October 1, 2019). Handover Optimality in Heterogeneous Networks. 5G World Forum. arXiv:1908.09991v2.{{cite conference}}: CS1 maint : 복수이름 : 작성자 목록(링크)

참조

Scully, Ziv and Harchol-Balter, Mor and Scheller-Wolf, Alan (2018). "SOAP: One Clean Analysis of All Age-Based Scheduling Policies". Proceedings of the ACM on Measurement and Analysis of Computing Systems. ACM. 2 (1): 16. doi:10.1145/3179419. S2CID 216145213.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
Berry, Donald A. and Fristedt, Bert (1985). Bandit problems: Sequential allocation of experiments. Monographs on Statistics and Applied Probability. London: Chapman & Hall. ISBN 978-0-412-24810-8.{{cite book}}: CS1 maint : 복수이름 : 작성자 목록(링크)
Gittins, J.C. (1989). Multi-armed bandit allocation indices. Wiley-Interscience Series in Systems and Optimization. foreword by Peter Whittle. Chichester: John Wiley & Sons, Ltd. ISBN 978-0-471-92059-5.
Weber, R.R. (November 1992). "On the Gittins index for multiarmed bandits". The Annals of Applied Probability. 2 (4): 1024–1033. doi:10.1214/aoap/1177005588. JSTOR 2959678.
Katehakis, M. and A. F. Veinott, Jr. (1987). "The multi-armed bandit problem: decomposition and computation". Mathematics of Operations Research. 12 (2): 262–268. doi:10.1287/moor.12.2.262. JSTOR 3689689.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
Cowan, W. and M.N. Katehakis (2014). "Multi-armed Bandits under General Depreciation and Commitment". Probability in the Engineering and Informational Sciences. 29: 51–76. doi:10.1017/S0269964814000217.

외부 링크

[1] Matlab/Octave 인덱스 계산 알고리즘 구현
Cowan, Robin (1991). "Tortoises and Hares: Choice Among Technologies of Unknown Merit". The Economic Journal. 101 (407): 801–814. doi:10.2307/2233856. JSTOR 2233856.

[Co1-1] Cowan, Robin (July 1991). "Tortoises and Hares: Choice among technologies of unknown merit". The Economic Journal. 101 (407): 801–814. doi:10.2307/2233856. JSTOR 2233856.

[Git1-2] Gittins, J. C. (1979). "Bandit Processes and Dynamic Allocation Indices". Journal of the Royal Statistical Society. Series B (Methodological). 41 (2): 148–177. doi:10.1111/j.2517-6161.1979.tb01068.x. JSTOR 2985029.

[3] Mitten L (1960). "An Analytic Solution to the Least Cost Testing Sequence Problem". Journal of Industrial Engineering. 11 (1): 17.

[4] Gittins, J. C.; Jones, D. M. (1979). "A Dynamic Allocation Index for the Discounted Multiarmed Bandit Problem". Biometrika. 66 (3): 561–565. doi:10.2307/2335176. JSTOR 2335176.

[5] Weitzman, Martin L. (1979). "Optimal Search for the Best Alternative". Econometrica. 47 (3): 641–654. doi:10.2307/1910412. hdl:1721.1/31303. JSTOR 1910412.

[6] Whittle, Peter (1980). "Multi-armed Bandits and the Gittins Index". Journal of the Royal Statistical Society, Series B. 42 (2): 143–149.

[7] Varaiya, P.; Walrand, J.; Buyukkoc, C. (May 1985). "Extensions of the multiarmed bandit problem: The discounted case". IEEE Transactions on Automatic Control. 30 (5): 426–439. doi:10.1109/TAC.1985.1103989.

[8] Chen Y.R., Katehakis M.N. (1986). "Linear programming for finite state multi-armed bandit problems". Math. Oper. Res. 11 (1): 180–183. doi:10.1287/moor.11.1.180.

[9] Kallenberg L.C.M. (1986). "A Note on MN Katehakis' and Y.-R. Chen's Computation of the Gittins Index". Math. Oper. Res. 11 (1): 184–186. doi:10.1287/moor.11.1.184.

[10] Katehakis M., Veinott A. (1987). "The multi-armed bandit problem: decomposition and computation". Math. Oper. Res. 12 (2): 262–268. doi:10.1287/moor.12.2.262.

[11] Sonin I (2008). "A generalized Gittins index for a Markov chain and its recursive calculation". Statistics and Probability Letters. 78 (12): 1526–1533. doi:10.1016/j.spl.2008.01.049.

[12] Ni , Mora J (2007). "A (2/3)^n Fast-Pivoting Algorithm for the Gittins Index and Optimal Stopping of a Markov Chain". INFORMS Journal on Computing. 19 (4): 596–606. CiteSeerX 10.1.1.77.5127. doi:10.1287/ijoc.1060.0206.

[13] Cowan, Wesley; Katehakis, Michael N. (January 2015). "Multi-armed bandits under general depreciation and commitment". Probability in the Engineering and Informational Sciences. 29 (1): 51–76. doi:10.1017/S0269964814000217.

[14] Scully, Ziv and Harchol-Balter, Mor and Scheller-Wolf, Alan (2018). "SOAP: One Clean Analysis of All Age-Based Scheduling Policies". Proceedings of the ACM on Measurement and Analysis of Computing Systems. ACM. 2 (1): 16. doi:10.1145/3179419. S2CID 216145213.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)

[15] Di Gregorio, Lorenzo and Frascolla, Valerio (October 1, 2019). Handover Optimality in Heterogeneous Networks. 5G World Forum. arXiv:1908.09991v2.{{cite conference}}: CS1 maint : 복수이름 : 작성자 목록(링크)

[1]

[2]

[4]

[5]

[6]

[9]

[10]

[11]

[14]

[15]

Search