베르누이 과정
Bernoulli process![]() |
통계에 대한 시리즈 일부 |
확률론 |
---|
![]() |
확률과 통계에서 베르누이 과정(Jacob Bernouli의 이름을 따서 명명)은 이항 난수 변수의 유한 또는 무한 시퀀스여서, 표준적으로 0과 1이라는 두 가지 값만 취하는 이산 시간 확률 과정이다. 성분 베르누이 변수 X는i 동일하게 분포하고 독립적이다. 사실 베르누이 과정은 반복적으로 반복되는 동전 던지기인데 아마도 불공평한 동전을 가지고 있을 것이다. 시퀀스의 모든 변수 X는i 베르누이 실험이나 실험과 연관되어 있다. 그들은 모두 같은 베르누이 분포를 가지고 있다. 베르누이 과정에 대해 말할 수 있는 많은 것은 또한 두 가지 이상의 결과(예: 육면체 주사위 과정)로 일반화될 수 있다; 이러한 일반화는 베르누이 계획으로 알려져 있다.
베르누이 재판의 제한된 샘플만 볼 때 그 과정을 결정하는 문제를 동전의 공정성 여부를 확인하는 문제로 부를 수도 있다.
정의
베르누이 공정은 독립 랜덤 변수 X1, X2, X3, X, ...의 유한 또는 무한 시퀀스로서 다음과 같다.
- 각 i에 대해 X의i 값은 0 또는 1이다.
- i의 모든 값에 대해i X = 1의 확률 p는 동일하다.
다시 말해 베르누이 과정은 똑같이 분산된 베르누이 재판의 연속이다.
재판의 독립은 그 과정이 기억력이 없다는 것을 의미한다. 확률 p가 알려져 있는 경우, 과거의 결과는 미래 결과에 대한 정보를 제공하지 않는다. (그러나 p를 알 수 없다면 과거는 p에 대한 추론을 통해 간접적으로 미래에 대해 알려준다.)
만약 그 과정이 무한하다면, 어떤 점에서든 미래의 재판은 전체 과정과 동일한 베르누이 과정, 즉 새로 시작하는 속성을 구성한다.
해석
각 X의i 가능한 두 값을 흔히 "성공"과 "실패"라고 부른다. 따라서 숫자 0 또는 1로 표현될 때, 결과는 ith "trial"의 성공 횟수라고 불릴 수 있다.
그 값에 대한 다른 두 가지 일반적인 해석은 참 또는 거짓이며 예 또는 아니오이다. 두 값의 어떤 해석에서도 개별 변수 X는i 변수 p를 가진 베르누이 시험이라고 할 수 있다.
많은 애플리케이션에서, 지수 i가 증가함에 따라 시험 사이에 시간이 경과한다. 사실상, X1, X2, ...의i 시련은 1, 2, ..., i, ....에서 일어난다. 그러나 그러한 시간의 흐름과 "과거"와 "미래"에 대한 관련 개념은 필요하지 않다. 가장 일반적으로, 공정의 X와i X는j {1, 2, ..., n}, 유한 사례 또는 {1, 2, 3, ...}, 무한 사례에 의해 지수화된 랜덤 변수 집합에서 단지 두 개일 뿐이다.
흔히 "성공"과 "실패"라고 불리는 두 가지 가능한 결과만을 가진 하나의 실험은 보통 1과 0으로 인코딩되며, 베르누이 분포로 모델링될 수 있다.[1] 베르눌리스 옆에 있는 몇 가지 랜덤 변수와 확률 분포는 베르눌리 공정에서 도출될 수 있다.
- 이항 분포가 B(n, p)인 첫 번째 n번의 시행에서 성공한 횟수
- 음의 이항 분포 NB(r, p)를 갖는 r 성공에 필요한 실패 횟수
- 음이항 분포의 특별한 경우인 기하 분포 NB(1, p)를 갖는 하나의 성공을 얻기 위해 필요한 실패 횟수
음의 이항 변수는 무작위 대기 시간으로 해석될 수 있다.
형식 정의
베르누이 과정은 머리나 꼬리의 값을 취할 수 있는 무작위 변수의 독립적 실현의 무작위 시퀀스로 확률 공간의 언어로 공식화할 수 있다. 개별 값의 상태 공간은 ={ . 2로 표시된다.
보렐 대수
Consider the countably infinite direct product of copies of . It is common to examine either the one-sided set or the two-sided set . 이 공간에는 제품 위상이라고 불리는 자연 위상이 있다. 이 위상에서의 세트는 코인 플립의 유한 순서, 즉 H와 T의 유한 길이 문자열(H는 헤드를, T는 꼬리를 나타냄)이며 나머지 (무한히 긴) 순서는 "상관 없음"으로 간주한다. 이러한 유한 시퀀스 세트를 제품 토폴로지에서 실린더 세트라고 한다. 그러한 모든 문자열의 집합은 시그마 대수학, 특히 보렐 대수학을 형성한다. 이 대수학은 일반적으로(, ) 로 기록되며, 서 B 의 원소는 코인 플립의 유한 길이 시퀀스(실린더 세트)이다.
베르누이 척도
If the chances of flipping heads or tails are given by the probabilities , then one can define a natural measure on the product space, given by (or by 양면 공정을 위해. 즉, 이산 랜덤 변수 X가 모수 p를 갖는 베르누이 분포를 갖는 경우(여기서 0 ≤ p has 1), 확률 질량 함수는 다음과 같다.
- X( )= ( = )= 및 ( )= P(= 0)= -
우리는 이 분포를 Ber(p)로 나타낸다.[1]
실린더 세트 즉, 코인 플립 결과의 특정 순서 [ , ,Ω 2, {1},\가 1,, n1에 의해 관측될 확률은 주어진다
여기서 k는 시퀀스에 H가 나타나는 횟수, n-k는 시퀀스에 T가 나타나는 횟수다. 위의 명언에는 몇 가지 다른 종류가 있다; 흔한 것은 글을 쓰는 것이다.
여기서 각 는 iverson 괄호 에서 x= [i = ]{\_{를 갖는 이진수 랜덤 변수로서 , = H 을 한다. = 인 H 0 이 확률 은 흔히 베르누이 측정이라고 불린다.[2]
플립의 특정, 무한히 긴 시퀀스의 확률은 정확히 이라는 점에 유의하십시오. 는 0 < ≤ p < 1 { p <{\}에 n → 즉, 주어진 무한 시퀀스가 0임을 의미하기 때문이다 그럼에도 불구하고, 사람들은 여전히 어떤 종류의 동전 던지기들이 다른 종류들보다 훨씬 더 가능성이 높다고 말할 수 있는데, 이것은 무증상 장비화 특성에 의해 주어진다.
공식 정의를 내리기 위해 베르누이 과정은 위에서 정의한 확률 3중, B, 에 의해 주어진다
대수의 법칙, 이항 분포 및 중심 한계 정리
1로 표시된 H {\ H과 으로 표시된 을(를) 사용한 표준 프로세스를 가정해 봅시다 대수의 법칙에 따르면, 평균적으로 의 = 은는) 거의 확실히 기대값에 근접할 것이다. 즉, 이 한계를 충족하지 못하는 이벤트는 0 확률을 가진다. 1로 대표되는 것으로 가정하는 플립 헤드의 기대값은 에 의해 주어진다 실제로, 1은 다음과 같다.
베르누이 과정을 구성하는 베르누이 실험의 무한 시퀀스 중 주어진 임의 변수 에 대해.
사람들은 종종 동전 던지기 순서에 따라 H를 얼마나 자주 관찰할지 알고 싶어한다. 이것은 단순히 계산에 의해 주어진다: n 연속적인 동전 던지기, 즉 가능한 모든 길이 n 문자열들의 집합이 주어질 때, H의 발생을 포함하는 그러한 문자열의 숫자 N(k,n)은 이항계수에 의해 주어진다.
만약 머리가 뒤집힐 확률을 p에 의해 주어진다면, 길이가 n이고 k 헤드가 있는 줄을 볼 확률은
서 = i= 이렇게 정의된 확률 측정치를 이항 분포라고 한다.
위의 공식에서 알 수 있듯이 n=1일 경우 이항 분포가 베르누이 분포로 바뀐다. 그래서 우리는 n이 1과 같을 때 베르누이 분포가 정확히 이항 분포의 특별한 경우라는 것을 알 수 있다.
특히 관심 있는 것은 충분히 긴 코인 플립 시퀀스, 즉 n→∞ }에 대한 의 값 문제인데, 이 경우 스털링의 요인 근사치를 이용하여 글을 쓸 수도 있다.
이것을 P(k,n)에 대한 표현에 삽입하면 정규 분포를 얻는다. 이것이 중심 한계 정리의 내용이며, 가장 간단한 예다.
대수의 법칙과 중앙 한계 정리(central limit organization)의 결합은 흥미롭고 어쩌면 놀라운 결과, 즉 무증상 장비화 속성(steptotic placement properties)으로 이어진다. 비공식적으로, 많은 동전 플립에 대해 H를 정확하게 관찰할 것이며, 이는 가우스파의 정점에 정확히 부합한다는 것을 한 가지 메모를 붙인다. 무증상 장비 특성에는 이 봉우리가 무한히 날카롭다고 본질적으로 명시되어 있으며, 양쪽에 무한 낙차가 있다. 즉, 베르누이 과정에서 발생하는 H와 T의 모든 가능한 긴 문자열 집합을 고려할 때, 이 집합은 확률 1로 발생하는 문자열과 확률 0으로 발생하는 문자열의 두 가지로 구분된다. 이 분할은 콜모고로프 0-1 법칙으로 알려져 있다.
이 세트의 크기는 또한 흥미롭고 분명하게 결정될 수 있다: 그것의 로그는 정확히 베르누이 과정의 엔트로피이다. 다시 한 번, 길이 n의 모든 문자열 집합을 고려한다. 이 세트의 크기는 2 이 중 특정 부분집합만 있을 가능성이 있으며, 이 세트의 는 H 2}용 H스털링의 근사치를 사용하여 P(k,n)의 표현에 넣어 봉우리의 위치와 너비를 해결한 다음 으로 n→ 을(를) 취함으로써 알 수 있다.
이 값은 베르누이 과정의 베르누이 엔트로피다. 여기서 H는 엔트로피를 의미하며, 머리를 나타내는 동일한 기호 H와 혼동하지 마십시오.
존 폰 노이만은 베르누이 과정에 대해 흥미로운 질문을 던졌다: 주어진 과정이 다른 과정에게 이형성이라는 의미에서 다른 과정에게 이형성이 있다는 것이 가능할까? 그 문제는 오랫동안 분석을 거부했지만, 마침내 완전히 Ornstein 이소모르프주의 정리로 풀렸다. 이 돌파구는 베르누이 과정이 독특하고 보편적이라는 이해를 낳았다; 어떤 의미에서 그것은 가능한 가장 무작위적인 단일 과정이다; 어떤 의미에서는 베르누이 과정보다 '더' 무작위적인 것은 없다. (이 비공식적인 진술에 주의해야 하지만, 확실히, 혼합되고 있는 시스템은 어떤 의미에서는 '더 강하다.'는 단지 에고다이컬에 불과하지만 섞이지 않는 베르누이 과정보다. 그러나 이러한 프로세스는 독립된 랜덤 변수로 구성되지 않는다. 실제로 많은 순수 결정론적 비랜덤 시스템이 혼합될 수 있다.
다이너믹 시스템
베르누이 과정은 또한 여러 가지 다른 방법 중 하나로, 에고다이컬 시스템의 예로서, 특히 측정-보존형 다이내믹 시스템의 예로서 역동적인 시스템으로 이해될 수 있다. 한 가지 방법은 교대 공간으로서, 다른 하나는 주행 기록계로서이다. 이것들은 아래에서 검토한다.
베르누이 교대
베르누이 공정을 통해 역동적인 시스템을 만드는 한 가지 방법은 교대공간으로 하는 것이다. 시프트 오퍼레이터가 부여한 제품 공간 = =2mathb에 자연적 번역 대칭이 있다.
위에서 정의한 베르누이 측정치는 번역불가변함입니다. 즉, 실린더 세트 {\{\을(를) 고려할 때 다음 중 하나가
따라서 베르누이 측정은 하르 측정값이다. 제품 공간에 대한 불변 측정값이다.
확률 측정 : → R P 대신 일부 임의 함수 : B→ 을(으)로 푸시포워드 한다
defined by is again some function Thus, the map induces another map 모든 함수 → . 즉, f: → R 에 대한 정의가 주어진다
The map is a linear operator, as (obviously) one has and 함수 g 및 상수 이 선형 연산자를 전송 연산자 또는 Ruelle-Frobenius-Perron 연산자라고 한다. 이 연산자는 고유특성과 해당 고유값의 집합인 스펙트럼을 가진다. 가장 큰 고유값은 프로베니우스-페론 고유값이며, 이 경우 1이다. 관련 고유 벡터는 불변 측정값이다. 이 경우 베르누이 측정값이다. 즉, ( )= .
L 을(를) 다항식(다항식)에 작용하도록 제한한다면, 고유특성은 (귀하게) 베르누이 다항식(Bernouli polynial)이다![3][4] 이 이름 짓기의 우연은 아마도 베르누이에게는 알려지지 않았을 것이다.
2x mod 1 지도
위의 내용은 좀 더 정밀하게 만들 수 있다. 2진수 b , 의 무한 문자열 지정
결과 은 (는) 간격 y 1.[\ 0 y\ T {\ T은 단위 간격에 동형성을 유도하며, T라고도 한다. Since one can easily see that 이 지도를 다이오드 변환이라고 하는데, 비트 = Z 의 두 배 무한 순서에 대해서는 유도 동형성이 베이커의 지도라고 한다.
y 의 함수의 공간을 생각해 보십시오 f( y) 을 (를) 보면 다음과 같은 것을 쉽게 찾을 수 있다.
연산자 의 동작을 다항식 함수로 제한하면 다음과 같이 주어진 이산 스펙트럼이 있음을 알게 된다.
여기서 는 베르누이 다항식이다. 실제로 베르누이 다항식들은 그 정체성에 복종한다.
캔터 세트
총액에 유의하십시오.
통념상 칸토어 기능을 부여한다. 이 때문에 {, N 을(를) 캔터 세트라고 부르기도 한다.
주행 기록계
역동적인 시스템을 만드는 또 다른 방법은 주행 기록계를 정의하는 것이다. 비공식적으로, 이것이 정확히 어떤 소리냐면, 첫 번째 위치에 "하나만 추가"하면 되고, 주행 기록계가 굴러갈 때 운반 비트를 사용하여 주행 기록계를 "굴러 넘어뜨리게" 하면 된다. 이것은 무한 문자열 집합에 베이스 투 더하기일 뿐이다. 덧셈은 그룹(수학)을 형성하고, 베르누이 과정에는 이미 위상이 주어졌기 때문에, 위에서는 위상학 집단의 간단한 예를 제공한다.
이 경우 변환 은(는)
은 p= / } ("공정한 동전")의 특수한 경우에 대해서만 베르누이 측정치를 불변하게 한다. 그렇지 않으면 그렇지 않다. 따라서 은 이 경우 역동적인 시스템을 보존하는 조치일 뿐, 그렇지 않으면 보수적인 시스템에 불과하다.
베르누이 수열
베르누이 수열이라는 용어는 흔히 베르누이 과정의 실현을 가리키는 말로 비공식적으로 사용된다. 그러나 이 용어는 다음과 같이 완전히 다른 형식적 정의를 가지고 있다.
베르누이 공정이 단일 랜덤 변수로 공식적으로 정의된다고 가정해 보십시오(이전 섹션 참조). 동전 던지기의 무한 시퀀스 x마다 정수 순서가 있다.
베르누이 과정과 관련된 베르누이 수열이라고[verification needed] 불린다. 예를 들어, 만약 x가 동전 던지기 순서를 나타낸다면, 관련 베르누이 수열은 동전 던지기 결과가 앞면이 되는 자연적인 숫자나 시점의 목록이다.
그렇게 정의된 베르누이 Z ^{ 또한 인덱스 집합의 랜덤 서브셋이며, N
거의 모든 베르누이 시퀀스 는 에르고딕적인 시퀀스다 .[verification needed]
무작위 추출
어떤 베르누이 공정에서든, 실제로 균일한 무작위성을 추출하는 최초의 무작위 추출기인 폰 노이만 추출기에 의해 p = 1/2로 베르누이 공정을 도출할 수 있다.
기본 폰 노이만 추출기
관측된 프로세스를 0과 1 또는 비트의 시퀀스로 나타내며, (11)(00)(10)과 같은 연속 비트의 비 겹치지 않는 쌍으로 스트림을 입력하는 그룹이다. 그리고 각 쌍에 대해,
- 비트가 같으면 폐기한다.
- 비트가 같지 않으면 첫 번째 비트를 출력하십시오.
이 표는 계산을 요약한 것이다.
입력하다 | 생산량 |
---|---|
00 | 폐기하다 |
01 | 0 |
10 | 1 |
11 | 폐기하다 |
예를 들어, 8비트 10011011의 입력 스트림은 (10)(01)(10)(11)로 쌍으로 그룹화된다. 그런 다음 위의 표에 따라 이러한 쌍을 절차의 출력 (1)(0)(1)(1)(=101)으로 변환한다.
출력 스트림에서 0과 1은 동일하게 발생가능하며, 10과 01은 동일하게 원본에서 발생가능하며, 둘 다 확률 p(1-p) = (1-p)p를 가진다. 이 균일한 무작위성의 추출은 입력 시험이 독립적일 필요가 없으며, 단지 상관관계가 없을 뿐이다. 보다 일반적으로, 그것은 모든 교환 가능한 비트 순서에 대해 작동한다: 유한한 재배열인 모든 순서는 동등하게 가능성이 있다.
폰 노이만 추출기는 0 또는 1개의 출력 비트를 생산하기 위해 2개의 입력 비트를 사용하므로 출력은 최소 2의 인수로 입력보다 짧다. 평균적으로 계산하면 입력 쌍의 비율 p2 + (1 - p)2가 0 또는 1에 가까울 때 1에 가깝고, 원래의 프로세스에 대해 p = 1/2일 때 1/4로 최소화된다(이 경우 출력 스트림이 평균 입력 스트림의 길이가 1/4이다).
Von Neumann(일반) 주 작동 유사점:
(비트1 ≠ 비트2) { 출력(비트1) }
반복 폰 노이만 추출기
입력 스트림에 존재하는 효율의 감소 또는 무작위성의 낭비는 입력 데이터에 대한 알고리즘을 반복함으로써 완화될 수 있다. 이 방법으로 출력은 "임의적으로 엔트로피 바운드에 가깝게" 만들어질 수 있다.[5]
고급 다단계 전략(AMLS)으로도 알려진 폰 노이만 알고리즘의 반복 버전은 1992년 유발 페레스에 의해 도입되었다.[6][5] 폐기/비폐기 순서와 폐기된 페어의 값(00의 경우 0, 11의 경우 1)의 두 가지 소스에서 "파괴된 무작위성"을 재활용하면서 재귀적으로 작동한다. 직관적으로, 그것은 이미 생성된 시퀀스를 고려할 때, 두 소스 모두 여전히 교환 가능한 비트 시퀀스라는 사실에 의존하며, 따라서 다른 한 라운드의 추출에 적합하다. 그러한 추가 시퀀스의 생성은 이용 가능한 모든 엔트로피를 추출하기 위해 무한히 반복될 수 있지만, 무한대의 계산 자원이 필요하며, 따라서 반복 횟수는 일반적으로 낮은 값으로 고정된다. 이 값은 사전에 고정되거나 런타임에 계산된다.
보다 구체적으로 말하면 입력 시퀀스에서 알고리즘은 입력 비트를 쌍으로 소비하여 두 개의 새로운 시퀀스와 함께 출력을 생성한다.
입력하다 | 생산량 | 새 시퀀스 1 | 새 시퀀스 2 |
---|---|---|---|
00 | 없는 | 0 | 0 |
01 | 0 | 1 | 없는 |
10 | 1 | 1 | 없는 |
11 | 없는 | 0 | 1 |
(입력 길이가 홀수일 경우 마지막 비트는 완전히 폐기된다.) 그리고 나서 알고리즘은 입력이 비어 있을 때까지 두 개의 새로운 시퀀스에 각각 반복적으로 적용된다.
예: 위의 입력 스트림인 10011011은 다음과 같이 처리된다.
스텝 넘버 | 입력하다 | 생산량 | 새 시퀀스 1 | 새 시퀀스 2 |
---|---|---|---|---|
0 | (10)(01)(10)(11) | (1)(0)(1)() | (1)(1)(1)(0) | ()()()(1) |
1 | (11)(10) | ()(1) | (0)(1) | (1)() |
1.1 | (01) | (0) | (1) | () |
1.1.1 | 1 | 없는 | 없는 | 없는 |
1.2 | 1 | 없는 | 없는 | 없는 |
2 | 1 | 없는 | 없는 | 없는 |
1 on 단계부터 입력은 이 프로세스에서 계속 진행할 마지막 단계의 새로운 시퀀스1이 된다. 따라서 출력은 (101)(1)()()()() (=10110)이므로, 위의 기본 알고리즘을 통해 3비트가 아닌, 입력 5비트의 8비트에서 출력이 생성되었다. 라운드당 정확히 2비트의 일정한 출력(클래식 VN의 변수 0~1비트와 비교)도 타이밍 공격에 내성이 있는 상시 구현을 가능하게 한다.
Von Neumann-Peres(복제) 주 작동 유사 코드:
(비트1 ≠ 비트2) { 출력(1, 시퀀스1) 출력(비트1) } 또는 { 출력(0, 시퀀스1) 출력(비트1, 시퀀스2) }
시퀀스2 채널은 처리량이 많지 않으며, 레벨 수가 유한한 하드웨어 구현은 더 많은 시퀀스1 레벨을 처리하는 대가로 초기에 폐기함으로써 이익을 얻을 수 있다는 관측에 근거하여 2016년에 또 다른 트위크가 발표되었다.[7]
참조
- ^ a b Dekking, F. M.; Kraaikamp, C.; Lopuhaä, H. P.; Meester, L. E. (2005). A modern introduction to probability and statistics. pp. 45–46. ISBN 9781852338961.
- ^ Klenke, Achim (2006). Probability Theory. Springer-Verlag. ISBN 978-1-84800-047-6.
- ^ Pierre Guffard, "r-adic 1차원 지도와 오일러 합계 공식", Journal of Physics A, 25 (글자) L483-L485 (1992)
- ^ Dean J. Driebe, 완전히 혼란스러운 지도와 단절된 시간의 대칭성, (1999) Kluwer Academic Publishers, 네덜란드 ISBN 0-7923-5564-4
- ^ a b Peres, Yuval (March 1992). "Iterating Von Neumann's Procedure for Extracting Random Bits" (PDF). The Annals of Statistics. 20 (1): 590–597. doi:10.1214/aos/1176348543. Archived from the original (PDF) on 18 May 2013. Retrieved 30 May 2013.
- ^ "Tossing a Biased Coin" (PDF). eecs.harvard.edu. Retrieved 2018-07-28.
- ^ Rožić, Vladimir; Yang, Bohan; Dehaene, Wim; Verbauwhede, Ingrid (3–5 May 2016). Iterating Von Neumann's post-processing under hardware constraints (PDF). 2016 IEEE International Symposium on Hardware Oriented Security and Trust (HOST). Maclean, VA, USA. doi:10.1109/HST.2016.7495553.
추가 읽기
- Carl W. Helstrom, 엔지니어를 위한 확률 및 확률적 프로세스, (1984) 맥밀란 출판사, 뉴욕 ISBN 0-02-3560-1.