톰슨 샘플링

Thompson sampling

톰슨 샘플링,[1][2] 윌리엄 R의 이름을 따서 명명되었다. 톰슨(Thompson)은 다연장 도적 문제에서 탐사와 폭발의 딜레마를 해결하는 행동을 선택하는데 있어서 휴리스틱스다. 무작위로 그려진 신념에 대해 기대되는 보상을 최대화하는 행동을 선택하는 것으로 구성된다.

설명

Consider a set of contexts , a set of actions , and rewards in . In each round, the player obtains a context , plays an action 을(를) 교정하고 컨텍스트와 실행된 작업에 따라 다른 배포에 따라 보상 ∈ R {를) 받는다. 누적 보상액을 최대화하는 등의 행동을 하는 것이 선수의 목표다.

톰슨 샘플링의 요소는 다음과 같다.

  1. 우도 함수 r , ,x)
  2. 매개 변수 set }의 집합 r r
  3. 이러한 파라미터에 대한 이전 분포 ) P
  4. 과거 관측치 ={( x; ; ;
  5. a posterior distribution , where is the likelihood function.

톰슨 샘플링은 예상 보상을 최대화할 확률에 따라 ∈ ∈{ { ^ ^ ^ { {{\}\{\의 동작을 재생하는 것으로 구성된다. 즉, 는 확률로 선택된다.

서 I 는) 지시 함수다.

실제로 이 규칙은 표본 추출에 의해 구현된다. In each round, parameters are sampled from the posterior , and an action chosen that maximizes 즉 샘플링된 매개 변수, 작업 및 현재 컨텍스트에 주어진 기대 보상. 개념적으로 이것은 플레이어가 후분포에 따라 각 라운드에서 무작위로 자신의 신념을 인스턴스화한 다음 그에 따라 최적으로 행동한다는 것을 의미한다. 대부분의 실제 적용에서 모델에 대한 후방 분포를 유지하고 샘플링하는 것은 계산상 부담이 된다. 이와 같이 톰슨 샘플링은 근사 샘플링 기법과 연계하여 사용하는 경우가 많다.[2]

역사

톰슨 샘플링은 원래 톰슨에 의해 1933년에 설명되었다.[1] 이후 다연장 도적 문제의 맥락에서 독자적으로 수없이 재발견되었다.[3][4][5][6][7][8] 도적 사건에 대한 첫 번째 합치 증거가 1997년에 나타났다.[3] 마르코프 의사결정 과정에 첫 적용은 2000년이었다.[5] 관련 접근법(베이지안 제어 규칙 참조)은 2010년에 발표되었다.[4] 2010년에는 톰슨 샘플링이 즉각적으로 자가 교정된다는 사실도 밝혀졌다.[8] 문맥 도적들의 점증적 융합 결과가 2011년에 발표되었다.[6] 톰슨 샘플링은 웹사이트 설계와 온라인 광고에서 A/B 테스트를 포함한 많은 온라인 학습 문제에서 널리 사용되어 왔고 [9]분산형 의사결정에서 학습을 가속화해왔다.[10] 전통적인 MAB의 변종인 도적과 결투하기 위해 쌍방향 비교의 형태로 피드백을 제공하는 D-TS(Double Thompson Sampling)

다른 접근법과의 관계

확률 일치

확률 매칭은 계급 멤버십 예측이 계급 기준율에 비례하는 의사결정 전략이다. 따라서 훈련에서 긍정적인 예가 60% 관찰되고 부정적인 예가 40% 관찰되는 경우, 확률 매칭 전략을 사용하는 관찰자는 (표시가 없는 예에 대해) 60%의 경우에 "긍정적"의 클래스 라벨을, 40%의 경우에 "부정적"의 클래스 라벨을 예측한다.

베이지안 제어 규칙

임의의 동적 환경 및 인과 구조에 대한 톰슨 샘플링의 일반화는, 베이지안 제어 규칙으로 알려져 있으며, 작용과 관찰로 적응 코딩 문제에 대한 최적의 해결책인 것으로 나타났다.[4] 이 공식에서, 작용제는 일련의 행동에 대한 혼합물로서 개념화된다. 대리인은 환경과 상호작용하면서 인과적 특성을 학습하고 환경의 행동을 가장 잘 예측하여 행동에 대한 상대적 엔트로피를 최소화하는 행동을 채택한다. 만약 이러한 행동들이 최대 기대 효용 원리에 따라 선택되었다면, 베이시안 제어 규칙의 점근거동은 완벽하게 합리적인 작용제의 점근거동과 일치한다.

설정은 다음과 같다. ,, ,T {\2},\ ,를 두십시오은(는) 에이전트에서 T 까지실행한 작업이며, 1, 2, o_{}, o_{},{{}를 두십시오.은(는) 에이전트에서 T T}까지 수집한 관측치임 에이전트는 다음 T + {\1}을(를) 실행한다.[4]

여기서 "hat"-notation 이(가) 인과 개입이라는 사실을 나타내며, 일반적인 관찰이 아니다. 에이전트가 동작에 대해 { {\을(를) 신뢰하는 경우 베이시안 제어 규칙은

여기서 ^ : , : T) P은(는) 동작 : T 에 대한 후방 분포로 관찰 :

실제로 베이지안 제어는 후분포 로부터 displaystyle ^{\을(를하는 데 해당된다{\{1 여기서 후방 분포는 관측치 1, , T o_{}, o_{}, o_{}, o_{}, ldots.을(를) 무시하고 의 (경고) 1,… , 를) 샘플링한 다음 동작 분포 + : T : )에서 + { }}}1:}}}}}}}}:{1:}}}}}

UCB(상위 신뢰 바인딩) 알고리즘

톰슨 표본 추출과 신뢰 상한 알고리즘은 그들의 이론적 보장의 기초가 되는 근본적인 속성을 공유한다. 대략적으로 말하면, 두 알고리즘 모두 최적이 될 수 있고 이러한 의미에서 "최적"인 활동에 탐색적 노력을 할당한다. 이 속성을 활용하면 UCB 알고리즘에 대해 설정된 후회 한계를 톰슨 샘플링에[12] 대한 베이지안 후회 한계로 변환하거나 이러한 알고리즘과 많은 종류의 문제에 대한 후회 분석을 통합할 수 있다.[13]

참조

  1. ^ a b 톰슨, 윌리엄 R. " 표본의 증거로 볼 때 하나의 알 수 없는 확률이 다른 것을 초과할 가능성" 바이오메트리카, 25(3–4):285–294, 1933.
  2. ^ a b 다니엘 J. 루소, 벤자민 반 로이, 압바스 카제루니, 이안 오스밴드, 정웬(2018), "톰슨 샘플링에 관한 튜토리얼", 기계학습의 기초와 동향: 제11권 1페이지-96호. https://web.stanford.edu/~bvr/pubs/TS_Tutorial.pdf
  3. ^ a b 제이 와이어트 강화에서 배우는 탐구추론. 에든버러 대학교 인공지능학과 박사학위 논문. 1997년 3월.
  4. ^ a b c d P. A. 오르테가와 D. A. 브라운. "학습과 연기에 대한 최소한의 상대적 엔트로피 원리", 인공지능 연구 저널, 38, 페이지 475–511, 2010.
  5. ^ a b M. J. A. 스트레이츠. "A Bayesian Framework for Emergency Learning", 2000년 6월 29일–7월 2일, 캘리포니아 스탠포드 대학교 기계학습에 관한 제17차 국제회의의 진행 과정 http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.140.1701
  6. ^ a b B. C. 5월, B. C. N. Korda, A. 리, 그리고 D. S. 레슬리. "문맥-반디트 문제에서 최적의 베이시안 샘플링" 기술 보고서, Statistics Group, 2011년 브리스톨 대학교 수학학부.
  7. ^ 채플레, 올리비에, 리홍 리. "톰슨 샘플링의 경험적 평가" 신경 정보 처리 시스템의 발전. 2011. http://papers.nips.cc/paper/4321-an-empirical-evaluation-of-thompson-sampling
  8. ^ a b O.C. 그란모. "베이지안 학습 자동화를 이용한 두 팔의 베르누이 도적 문제 해결", 국제 지능형 컴퓨팅 사이버네틱스 저널 3(2), 2010, 207-234.
  9. ^ 이언 클라크 "비례 A/B 테스트", 2011년 9월 22일, http://blog.locut.us/2011/09/22/proportionate-ab-testing/
  10. ^ Granmo, O. C.; Glimsdal, S. (2012). "Accelerated Bayesian learning for decentralized two-armed bandit based decision making with applications to the Goore Game". Applied Intelligence. 38 (4): 479–488. doi:10.1007/s10489-012-0346-z. hdl:11250/137969.
  11. ^ Wu, Huasen; Liu, Xin; Srikant, R (2016), Double Thompson Sampling for Dueling Bandits, arXiv:1604.07101, Bibcode:2016arXiv160407101W
  12. ^ Daniel J. Ruso와 Benjamin Van Roy(2014), "후방 샘플링을 통한 최적화 학습", Mathical of Operation Research, Vol. 39, 4, 페이지 1221-1243, 2014. https://pubsonline.informs.org/doi/abs/10.1287/moor.2014.0650
  13. ^ Daniel J. Ruso와 Benjamin Van Roy (2013), "Eluder Dimension and the sample Complexity of Prepective Discovery" , Advance in Neural Information Processing Systems 26, 페이지 2256-2264. https://proceedings.neurips.cc/paper/2013/file/41bfd20a38bb1b0bec75acf0845530a7-Paper.pdf