체르노프 바운드
Chernoff bound확률 이론에서, Chernoff 바운드는 독립 랜덤 변수의 합계의 꼬리 분포에 기하급수적으로 감소하는 한계를 제공한다.처음 등장한 논문의 저자인 허먼 체르노프의 이름을 따서 명명되었음에도 불구하고 그 결과는 허먼 루빈 때문이다.[1][2]마코프의 불평등이나 꼬리 썩는 힘-법률의 한계만을 산출하는 체비셰프의 불평등과 같이 알려진 1, 2모멘트에 근거한 꼬리 한계보다 더 날카로운 한계다.그러나 체비셰프의 불평등은 쌍으로 독립할 것을 요구하지는 않지만, 체비셰프의 불평등도 마르코프의 불평등도 체비셰프의 불평등도 요구하지 않는 조건인 체르노프 구속은 변수들이 독립적일 것을 요구한다.
(역사적으로 이전의) 번스타인의 불평등과 회프딩의 불평등과 관련이 있다.
일반 바운드
무작위 변수 X에 대한 일반적인 체르노프는 마르코프의 불평등을 e에tX 적용함으로써 얻어진다.이것은 X의 모멘트 생성 기능에 대한 한계를 제공한다.모든 0에 대해
이 제한은 모든 에 대해 적용되므로 다음이 있다
셰르노프 바운드는 때로 위의 불평등을 언급하는데,[3] 세르게이 번스타인이 관련 번스타인의 불평등을 입증하기 위해 처음 적용한 것이다.[citation needed]호프딩의 불평등, 베넷의 불평등, 맥디아미드의 불평등을 입증하는 데도 쓰인다.
이러한 불평등은 일반적으로 하위 가우스 분포,[4] 하위 감마 분포 및 독립 랜덤 변수의 합계를 포함한 다양한 종류의 분포에 적용될 수 있다.[3]Chernoff 경계는 일반적으로 이 (가) 독립 베르누이 랜덤 변수의 합인 경우를 가리킨다.[5][6]
X가 n개의 독립 랜덤 변수 X1, ..., X의n 합일 때, X의 모멘트 생성 함수는 개별 모멘트 생성 함수의 산물이다.
-
(1)
랜덤 변수 -X에 대해 동일한 분석을 수행하면 다른 방향에서 동일한 바인딩을 얻을 수 있다.
특정 Chernoff 경계는 무작위 변수 X / X_{}의 특정 인스턴스에 대한 생성 함수 Ee - t i right를 계산하여 얻는다베르누이 랜덤 변수에 대한 다음 섹션의 한계는 확률 p가 1인 베르누이 랜덤 변수 에 대해 이 값을 사용하여 도출된다.
체르노프 경계는 원래의 첨가제 형태(절대 오차에 대한 경계를 제공하는 형태)나 보다 실용적인 곱셈형(평균에 대한 오차의 경계를 이루는 형태) 등 여러 가지 맛을 만날 수 있다.
승법형식(상대오류)
승법 체르노프 바운드.X1, ..., X가n {0, 1}의 값을 갖는 독립 랜덤 변수라고 가정합시다.X는 그 합계를 나타내고 μ = E[X]는 합계의 기대값을 나타내도록 한다.그러면 어떤 Δ > 0에 대해서도,
유사한 증거 전략을 사용하여 다음을 입증할 수 있다.
위의 공식은 실제로 다루기 어려운 경우가 많기 때문에 다음과 같은 느슨하지만 보다 편리한 한계가[7] 자주 사용되는데, 이는 로그 불평등 목록에서 2 (+ ) (1에서 나타난다.
가법(절대 오차)
다음의 정리는 와실리 회프딩에[8] 기인하여 체르노프–이라고 한다.괭이질 정리.
- 체르노프–괭이질 정리.X1, ..., X가n {0, 1}의 값을 갖는 i.i.d. 랜덤 변수라고 가정해 보십시오.p = E[X1]와 ε > 0으로 한다.
- 어디에
- 버누이 분포 랜덤 변수들 사이의 Kullback-Leibler 차이점이며, 변수 x와 y가 각각 있다.만약 p.mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output.sfrac.tion,.mw-parser-output.sfrac .tion{디스플레이:inline-block, vertical-align:-0.5em, font-size:85%;text-align:센터}.mw-parser-output.sfrac.num,.mw-parser-output.sfrac .den{디스플레이:블록, line-height:1em, 마진:00.1em}.mw-parser-output.sfrac .den{border-top:1px 고체}.mw-par ≥.Ser-output .sr-only{국경:0;클립:rect(0,0,0,0), 높이:1px, 마진:-1px, 오버 플로: 숨어 있었다. 패딩:0;위치:절대, 너비:1px}1/2을 뜻하는, 그러면 D(p+ε ∥ p)≥ ε 22p(p1−){\displaystyle D(p+\varepsilon\parallel p)\geq{\tfrac{\varepsilon ^{2}}{2p(1-p)}}}.
보다 단순한 바운드는 D(p + 2 p) ≥ 2ε을2 이용하여 정리를 이완시킴으로써 따르게 되는데, 이는 D(p + ε p)의 볼록함에서 따르며, 이 사실은 다음과 같다.
이 결과는 회프딩의 불평등을 보여주는 특별한 사례다.때로는 한계도 있다.
p < 1/8에 대해 더 강한 것도 사용된다.
독립 경계 랜덤 변수의 합계
체르노프 한계는 분포에 관계 없이 독립적이고 경계된 랜덤 변수의 일반적인 합에도 적용될 수 있다; 이것은 호핑의 불평등이라고 알려져 있다.그 증거는 다른 Chernoff 경계와 유사한 접근방식을 따르지만, 순간 생성 기능을 구속하기 위해 Hooffding의 보조마크를 적용한다(Hooffding의 불평등 참조).
- 호핑의 불평등.X1, ..., X가n [a,b]의 값을 갖는 독립 랜덤 변수라고 가정합시다.X는 그 합계를 나타내고 μ = E[X]는 합계의 기대값을 나타내도록 한다.그러면 어떤 Δ > 0에 대해서도,
적용들
Chernoff 경계는 희박한 네트워크에서 세트 밸런싱과 패킷 라우팅에 매우 유용한 응용 프로그램을 가지고 있다.
세트 밸런싱 문제는 통계실험을 설계하는 동안 발생한다.전형적으로 통계실험을 설계하는 동안 실험에 참여한 각 참가자의 특징을 고려하여, 우리는 참가자들을 두 개의 분리된 그룹으로 나누는 방법을 알아야 한다. 그래서 각각의 특징은 두 그룹 사이에 가능한 한 대략적인 균형을 이루도록 말이다.[9]
또한 Chernoff 경계는 희박한 네트워크에서 패킷을 라우팅하는 동안 네트워크 정체를 감소시키는 순열 라우팅 문제에 대한 엄격한 경계를 얻기 위해 사용된다.[9]
Chernoff 경계는 학습 알고리즘이 아마도 대략적으로 정확하다는 것을 증명하기 위해 컴퓨터 학습 이론에 사용된다. 즉, 알고리즘이 충분히 큰 훈련 데이터 집합에서 작은 오류를 가지고 있을 가능성이 높다.[10]
Chernoff 경계는 무작위화(Randomization)와 함께 그것의 섭동 공간을 탐색함으로써 응용 프로그램/알고리즘의 "로봇성 수준"을 평가하는 데 효과적으로 사용될 수 있다.[11]체르노프(Chernoff)의 구속을 사용하면 강하면서도 대부분 비현실적인 작은 섭동 가설( 섭동 크기는 작다)을 버릴 수 있다.건전성 수준은 차례로 특정 알고리즘 선택, 하드웨어 구현 또는 구조적 매개변수가 불확실성의 영향을 받는 솔루션의 적합성을 검증하거나 거부하는 데 사용될 수 있다.
단순하고 일반적인 Chernoff 경계는 무작위화된 알고리즘의 "부스트"를 위한 것이다.만약 하나 확률 p을과 원하는 대답은 추측하는데 알고리즘, 1/2가 있다면, 사람들은 알고리즘 n를 가동하여 더 높은 성공률을 얻을 수 있는=log(1/δ)2p/(p1/2−)2{\displaystyle n=\log(1/\delta)2p(p-1/2)^{2}}번 있고 이 추측을 출력은 algo의n/2점 이상으로 출력이다.리thm. (비둘기홀 원리에 의한 그러한 추측이 하나 이상 있을 수 없다.)이러한 알고리즘 런이 독립적이라고 가정할 때, 추측의 n/2 이상이 정확할 확률은 확률 p를 가진 1인 독립 베르누이 랜덤 변수k X의 합이 n/2보다 클 확률과 같다.이는 승법 체르노프 바운드(싱클레어 등급 노트에서 13.3 corolary 13.3, μ = np)를 통해 최소 {\ 1-로 나타낼 수 있다.[12]:
행렬 바운드
루돌프 알스웨데와 안드레아스 윈터는 매트릭스 값 랜덤 변수에 대한 체르노프를 소개했다.[13]다음의 불평등 버전은 트로프의 작품에서 찾을 수 있다.[14]
,..., 독립적으로 행렬하는 확률 변수 M1자 그러한 Mi∈ Cd1×d2{\displaystyle M_{나는}\in \mathbb{C}^{d_{1}\times d_{2}}}와 E[M나는]초기 조향 순간 0([M_{나는}]=0} 할게. 우리에게 의미에 의해‖ M‖{\lVert M\rVert\displaystyle} 것은 규범의 틀 M{년.출신의. 만약 {{ {\이(가) i { 1 , 에 대해 거의 확실하게 유지된다면, t\}.
유의할 점은 0으로부터의 편차가 높은 확률의 ε에 의해 경계된다고 결론짓기 위해서는 + d 의 로그에 비례하는 샘플 t 을(를 여러 개 선택해야 한다는 것이다 d 1 + 2 일반적으로 min( , ))의 의존도를 선택할 필요가 있다.은(는) 불가피하다. 예를 들어 차원 d 의 대각선 임의 기호 행렬t 독립 표본의 합계에 대한 연산자 규범은 길이 t의 d 독립 무작위 보행 사이의 최대 편차다.일정한 확률로 최대 편차에 고정된 경계를 달성하기 위해서는 이 시나리오에서 t가 d와 함께 로그적으로 커져야 함을 쉽게 알 수 있다.[15]
치수에 대한 의존성을 피하기 위해 M의 순위가 낮다고 가정하면 다음과 같은 정리를 얻을 수 있다.
치수에 의존하지 않는 정리
0 < ε < 1과 M은 확실히 [M ≤ ≤ ≤ {\ 1및 M \\ \을 가진 임의 대칭 실제 행렬이 되게 하라.M의 지지에 있는 각 원소는 최대 r등급이 있다고 가정한다.세트
이(가) 거의 확실히 유지되면
여기서 M1, ..., M은t M의 신분증 사본이다.
완전히 무작위적이지 않은 행렬이 있는 정리
가그, 리, 송, 스리바스타바는 확장기에서 무작위적인 산책을 통해 샘플링한 매트릭스 값 랜덤 변수의 합계에 대한 체르노프 타입의 바운드를 입증했고, 위그더슨과 샤오에 의한 추측을 확인했다.
Kyung과 Song은 무작위 스패닝 나무의 라플라시안 매트릭스 합계에 대한 Chernoff 타입을 증명했다.
샘플링 변형
체르노프의 구속의 다음과 같은 변종은 모집단의 다수가 표본에서 소수가 될 확률을 구속하는 데 사용될 수 있으며, 그 반대의 경우도 마찬가지일 수 있다.[18]
일반 모집단 A와 하위 모집단 B⊆A가 있다고 가정하자.하위 모집단의 상대적 크기(B / A )를 r로 표시한다.
k 크기의 정수 k와 랜덤 표본 S⊂A를 선택한다고 가정합시다.표본(B∩S / S )의 하위 모집단의 상대적 크기를 r로S 표시한다.
그런 다음, 모든 분수에 대해 [0,1]:
특히, B가 A에서 다수인 경우(즉, r > 0.5) d = 1 - 1 / (2S r)를 취함으로써 B가 S에서 다수인 상태를 유지할 확률을 구속할 수 있다.[19]
이 바운드는 물론 전혀 빡빡하지 않다.예를 들어, r=0.5일 때 우리는 사소한 구속 프로브 > 0을 얻는다.
교정쇄
승법형식
승법 체르노프 바운드의 조건에 따라 X1, ..., X를n 독립된 베르누이 랜덤 변수가 되게 하며, 합은 X이며 각각 1과 같은 확률 p를i 갖는다.베르누이 변수의 경우:
So, using (1) with for any and where ,
단순히 t = log(1 + Δ)를 Δ > 0에 대해 t > 0으로 설정하면, 대체하여 찾을 수 있다.
이것은 원하는 결과를 증명한다.
체르노프–호피딩 정리(가법적 형태)
q = p + ε으로 한다.a = nq in (1)을 이용하여 다음을 얻는다.
이제 Pr(Xi = 1) = p, Pr(Xi = 0) = 1 - p라는 것을 알고,
따라서 우리는 미적분학을 사용하여 최소값을 쉽게 계산할 수 있다.
방정식을 0으로 설정하고 풀면
하도록
그러므로,
q = p + ε > p로서, t > 0을 보므로, 우리의 바운드는 t에 만족한다.t를 위해 해결한 후에, 우리는 위의 방정식에 다시 꽂아 그것을 찾을 수 있다.
우리는 이제 우리가 원하는 결과를 얻었다.
대칭 사례에 대한 증거를 완성하기 위해 우리는 무작위 변수i Y = 1 - X를i 정의하고 동일한 증거를 적용하여 바운드에 연결하기만 하면 된다.
참고 항목
참조
- ^ Chernoff, Herman (1952). "A Measure of Asymptotic Efficiency for Tests of a Hypothesis Based on the sum of Observations". The Annals of Mathematical Statistics. 23 (4): 493–507. doi:10.1214/aoms/1177729330. ISSN 0003-4851. JSTOR 2236576.
- ^ Chernoff, Herman (2014). "A career in statistics" (PDF). In Lin, Xihong; Genest, Christian; Banks, David L.; Molenberghs, Geert; Scott, David W.; Wang, Jane-Ling (eds.). Past, Present, and Future of Statistics. CRC Press. p. 35. ISBN 9781482204964.
- ^ a b Boucheron, Stéphane (2013). Concentration Inequalities: a Nonasymptotic Theory of Independence. Gábor Lugosi, Pascal Massart. Oxford: Oxford University Press. p. 21. ISBN 978-0-19-953525-5. OCLC 837517674.
- ^ Wainwright, M. (January 22, 2015). "Basic tail and concentration bounds" (PDF). Archived (PDF) from the original on 2016-05-08.
- ^ Vershynin, Roman (2018). High-dimensional probability : an introduction with applications in data science. Cambridge, United Kingdom. p. 19. ISBN 978-1-108-41519-4. OCLC 1029247498.
- ^ Tropp, Joel A. (2015-05-26). "An Introduction to Matrix Concentration Inequalities". Foundations and Trends in Machine Learning. 8 (1–2): 60. arXiv:1501.01571. doi:10.1561/2200000048. ISSN 1935-8237. S2CID 5679583.
- ^ Mitzenmacher, Michael; Upfal, Eli (2005). Probability and Computing: Randomized Algorithms and Probabilistic Analysis. Cambridge University Press. ISBN 978-0-521-83540-4.
- ^ Hoeffding, W. (1963). "Probability Inequalities for Sums of Bounded Random Variables" (PDF). Journal of the American Statistical Association. 58 (301): 13–30. doi:10.2307/2282952. JSTOR 2282952.
- ^ a b 문제에 대한 자세한 내용은 이 책 섹션을 참조하십시오.
- ^ Kearns, M.; Vazirani, U. (1994). An Introduction to Computational Learning Theory. MIT Press. Chapter 9 (Appendix), pages 190–192. ISBN 0-262-11193-4.
- ^ Alippi, C. (2014). "Randomized Algorithms". Intelligence for Embedded Systems. Springer. ISBN 978-3-319-05278-6.
- ^ Sinclair, Alistair (Fall 2011). "Class notes for the course "Randomness and Computation"" (PDF). Archived from the original (PDF) on 31 October 2014. Retrieved 30 October 2014.
- ^ Ahlswede, R.; Winter, A. (2003). "Strong Converse for Identification via Quantum Channels". IEEE Transactions on Information Theory. 48 (3): 569–579. arXiv:quant-ph/0012127. doi:10.1109/18.985947. S2CID 523176.
- ^ Tropp, J. (2010). "User-friendly tail bounds for sums of random matrices". Foundations of Computational Mathematics. 12 (4): 389–434. arXiv:1004.4389. doi:10.1007/s10208-011-9099-z. S2CID 17735965.
- ^ Magen, A.; Zouzias, A. (2011). "Low Rank Matrix-Valued Chernoff Bounds and Approximate Matrix Multiplication". arXiv:1005.2724 [cs.DM].
- ^ Garg, Ankit; Lee, Yin Tat; Song, Zhao; Srivastava, Nikhil (2018). A Matrix Expander Chernoff Bound. STOC '18 Proceedings of the fifty annual ACM symposium on Theory of Computing. arXiv:1704.03864.
- ^ Kyng, Rasmus; Song, Zhao (2018). A Matrix Chernoff Bound for Strongly Rayleigh Distributions and Spectral Sparsifiers from a few Random Spanning Trees. FOCS '18 IEEE Symposium on Foundations of Computer Science. arXiv:1810.08345.
- ^ Goldberg, A. V.; Hartline, J. D. (2001). "Competitive Auctions for Multiple Digital Goods". Algorithms — ESA 2001. Lecture Notes in Computer Science. Vol. 2161. p. 416. CiteSeerX 10.1.1.8.5115. doi:10.1007/3-540-44676-1_35. ISBN 978-3-540-42493-2.; 보조정리 6.1
- ^ k가 변경될 때 r의 함수로 바운드가 표시되고 r이 변경될 때 k의 함수로 바운드가 표시되는 그래프를 참조하십시오.
추가 읽기
- Chernoff, H. (1952). "A Measure of Asymptotic Efficiency for Tests of a Hypothesis Based on the sum of Observations". Annals of Mathematical Statistics. 23 (4): 493–507. doi:10.1214/aoms/1177729330. JSTOR 2236576. MR 0057518. Zbl 0048.11804.
- Chernoff, H. (1981). "A Note on an Inequality Involving the Normal Distribution". Annals of Probability. 9 (3): 533–535. doi:10.1214/aop/1176994428. JSTOR 2243541. MR 0614640. Zbl 0457.60014.
- Hagerup, T.; Rüb, C. (1990). "A guided tour of Chernoff bounds". Information Processing Letters. 33 (6): 305. doi:10.1016/0020-0190(90)90214-I.
- Nielsen, F. (2011). "An Information-Geometric Characterization of Chernoff Information". IEEE Signal Processing Letters. 20 (3): 269–272. arXiv:1102.2684. doi:10.1109/LSP.2013.2243726. S2CID 15034953.