왕위 계승 규칙
Rule of succession확률론에서 계승 법칙은 18세기에 피에르 시몬 라플레이스가 일출문제를 다루는 과정에서 도입한 공식이다.[1]특히 관측치가 거의 없을 때 또는 (최종) 표본 데이터에서 전혀 발생하지 않는 사건의 기저 확률을 추정하기 위해 이 공식을 여전히 사용한다.
승계규칙명세서
만약 우리가 알고 있는 실험을 반복한다면, 성공 또는 실패를 초래하고, 독립적으로 n번, 그리고 성공과 n - s의 실패를 초래할 수 있다면, 다음 반복이 성공할 확률은 얼마인가?
좀 더 추상적으로:만약1 X, ..., X가n+1 각각 0 또는 1의 값을 가정할 수 있는 조건부 독립 랜덤 변수라면, 만약 우리가 그것들에 대해 더 이상 아는 것이 없다면,
해석
우리는 성공과 실패가 모두 가능한 실험을 보고 있다는 사전 지식을 가지고 있기 때문에, 우리의 추정치는 실험을 시작하기 전에 한 번의 성공과 한 번의 실패를 확실히 관찰한 것 같다.어떤 의미에서 s + 1의 성공으로 n + 2 관측치(가명 산)를 만들었다.비록 이것이 가장 단순하고 가장 합리적인 가정으로 보일 수도 있지만, 그것은 또한 사실일 수도 있지만, 그것은 여전히 증거를 필요로 한다.실제로, 가능성당 1개의 유사점수가 이항 결과를 일반화하는 한 가지 방법이지만 예상치 못한 결과를 가져온다고 가정하는 것은 아래 모든 가능성에 대한 일반화를 참조하십시오.
그럼에도 불구하고 처음부터 성공과 실패가 모두 가능하다는 것을 몰랐다면 그때 할당을 해야 했을 것이다.
그러나 그 타당성에 대한 분석은 아래의 수학 세부사항을 참조한다.특히 = 또는 = s인 경우에는 유효하지 않다
관측치의 수가 증가하면 과 P이(가) 점점 더 비슷해지는데, 이는 직관적으로 우리가 데이터를 많이 가질수록 이전 정보에 중요성이 덜 부여되어야 한다는 것이다.
일출 문제에 대한 과거 적용
라플레이스는 지난 5000년 동안 태양이 매일 상승했다는 점을 감안할 때 내일 태양이 떠오를 확률을 계산하기 위해 승계 규칙을 이용했다.하나는 약 5000 × 365.25의 매우 큰 인자를 얻는데, 이것은 내일 떠오르는 태양에 유리한 약 1,826,200 대 1의 확률을 준다.
그러나, 아래의 수학적인 세부사항에서 알 수 있듯이, 승계의 법칙을 이용하는 기본적인 가정은, 태양이 내일 뜰 것인가 안 뜰 것인가 하는 문제에 대해서는 어느 쪽도 할 수 있다는 것 외에는 사전 지식이 없다는 것이 될 것이다.이것은 일광욕의 경우가 아니다.
라플레이스는 이것을 잘 알고 있었고, 그는 일출의 예를 마무리짓기 위해 다음과 같이 썼다. "그러나 이 숫자는 현상의 총체성 속에서 낮과 계절을 조절하는 원리를 보고, 현재 그 어떤 것도 그 진로를 막을 수 없다는 것을 깨닫는 그에게 훨씬 더 크다."[2]그러나 라플레이스는 이 계산에 대해 조롱을 받았다; 그의 반대자들은[who?] 그 문장에 주의를 기울이지 않거나, 그것의 중요성을 이해하지 못했다.[2]
1940년대에 루돌프 카르납은 확률에 근거한 귀납적 추론 이론을 조사하여, 라플레이스의 계승 통치에 대한 대안으로 고려하는 확인의 정도를 개발했다.[3][4]또한 새로운 유도 수수께끼#Carnap을 참조하십시오.
수학상세
비율 p는 그것의 실제 값에 대한 불확실성을 설명하기 위해 균일한 분포를 할당한다.(이 비율은 무작위가 아니라 불확실하다.우리는 우리의 불확실성을 표현하기 위해 확률 분포를 p에 할당하고, 무작위성을 p에 귀속시키지 않는다.그러나 이것은 수학적으로 p를 임의의 것으로 취급하는 것과 같은 양이다.)
ith 시험에서 "성공"을 관찰할 경우 X를i 1로 하고, 그렇지 않을 경우 0으로 하며, 각 시험에서 성공 확률이 p로 한다.따라서 각 X는 0 또는 1이고, 각 X는 베르누이 분포를 가진다.이러한 Xs가 주어진 p에 조건부로 독립적이라고 가정하자.
데이터 Xi, i = 1, ..., n이 주어진 p의 조건부 확률 분포를 찾기 위해 Bayes의 정리를 사용할 수 있다. p의 "사전"(즉, 한계) 확률 척도에 대해 개방 간격(0,1)에 걸쳐 균일한 분포를 할당했다.
관측치 아래에 주어진 p의 가능성에 대해 우리는 우도 함수를 사용한다.
여기서1 s = x + ...+ x는n "성공자"의 수이고 n은 시행 횟수(실제 관측된 데이터가 랜덤 변수와 소문자 x를 나타내기 위해 자본 X를 사용함)이다.모든 것을 종합하면, 우리는 후방을 계산할 수 있다.
정상화된 상수를 얻으려면
(이 양식의 통합에 대한 자세한 내용은 베타 함수를 참조하십시오.)
따라서 후방 확률밀도함수는 다음과 같다.
p는 어떤 실험에서든 성공 확률을 알려주고, 각각의 실험은 조건부로 독립적이기 때문에 다음 실험에서 성공할 조건부 확률은 p에 불과하다.p가 랜덤 변수인 것처럼 취급되고 있기 때문에, 총 확률의 법칙은 다음 실험에서 기대되는 성공 확률은 p의 기대값일 뿐이라는 것을 말해준다.p는 i = 1, ..., n에 대해 관측된 데이터i X를 조건으로 하기 때문에, 우리는 다음과 같다.
실험이 성공할 수 있는지 또는 실패할 수 있는지에 대한 질문에 대한 무지를 포함하여 p에 대한 완전한 무지를 표현하는 선행(불완전)으로 동일한 계산을 수행할 수 있다.이 부적절한 이전의 경우는 0 ≤ p ≤ 1과 0에 대한 1/(1 - p)이다.[5]이것을 가지고 위의 계산이 반복되면 우리는 알게 된다.
따라서, 사전에 완전한 무지를 명시함으로써, 성공의 확률은 관찰된 성공 빈도에 의해 좌우된다.그러나 이러한 결과를 초래한 후분포는 베타(s,n - s) 분포로, s = n 또는 s = 0(즉, s = 0 또는 s = n)일 때는 정규화 상수가 무한하다.이는 s = 0 또는 s = n일 때 다음 관측치가 성공할 확률을 계산하기 위해 이 형태의 후분포를 사용할 수 없다는 것을 의미한다.이것은 계승 규칙에 포함된 정보를 더 크게 조명한다: 만일 표본 추출이 무한정 지속된다면, 우리는 결국 적어도 하나의 성공과 표본의 실패를 관찰할 것이라는 이전의 가정을 표현한 것으로 생각할 수 있다.이전의 완전한 무지를 표현하는 것은 이러한 지식을 상정하지 않는다.
s = 0 또는 s = n을 처리할 수 있는 경우의 "완전한 무지" 사례를 평가하기 위해 먼저 H S) 로 표시된 초지하 분포로 돌아간다 이것이 Jaynes(2003)에서 취해진 접근법이다.이항 ( , ) 은 제한 양식으로 도출할 수 있으며 여기서 p= 이 고정된 방식으로 N →\ 을(를) 모집단에서 N 크기 의 성공 횟수로 생각할 수 있다
The equivalent prior to is , with a domain of . Working conditional to means that estimating is equivalent to estimating , 나서 이 추정치를 N 로 나눈 다음 의 후면을 다음과 같이 제공할 수 있다.
s = n 또는 s = 0이면 분자의 요인 중 하나가 분모에 있는 요인 중 하나와 정확히 일치한다는 것을 알 수 있다.s = 0의 경우를 예로 들면 다음과 같다.
항상 유한한 정규화 상수에 (후방의 범위에 특이점이 없고 항 수가 한정되어 있기 때문에) 추가하면 다음과 같은 결과를 얻을 수 있다.
p= 에 대한 후방 기대치는 다음과 같다.
큰 N에 대한 대략적인 분석 표현은 제품 용어에 대한 근사를 먼저 제시한다.
그 다음 분자의 합계를 적분으로 대체한다.
분모에 대해서도 같은 절차를 따르지만, 적분을 평가하기 어려워 공정이 좀 까다롭다.
여기서 ln은 이러한 근사치를 예상에 연결하는 자연 로그다.
계산 용이성을 위해 최종 답변에서 기준 10 로그가 사용된 경우.예를 들어 모집단의 크기가 10인k 경우 다음 표본의 성공 확률은 다음과 같다.
예를 들어, 인구가 수백억의 순서로 되어 있어서 k = 10, n = 10 결과를 관찰할 때, 모집단의 예상 비율은 약 0.43% 입니다.모집단이 작아 n = 10, k = 5 (수천)이 되면 기대 비율은 약 0.86%로 상승한다.마찬가지로 관측치의 수가 작아 n = 5, k = 10이면 그 비율은 다시 약 0.86%로 상승한다.
이 확률은 양의 하한선이 없으며, N 또는 k의 크고 큰 선택에 대해 임의로 작게 만들 수 있다.이것은 확률이 표본 추출하는 모집단의 크기에 따라 달라진다는 것을 의미한다.무한 N의 한계(단순한 분석적 특성에 대해)를 통과할 때, 우리는 매우 중요한 정보의 한 조각을 "던지고" 있다.이러한 무지의 관계는 오직 성공이 관찰되지 않는 한 유지된다는 점에 유의한다.이는 한 번의 성공이 관찰되는 즉시 관찰된 주파수 규칙 = n로 다시 수정된다.s=n 케이스에 대한 해당 결과는 라벨을 바꾼 다음 1에서 확률을 빼서 찾아낸다.
다양한 가능성에 대한 일반화
이 절은 확률 이론에 주어진 경험적 접근법을 제시한다. 과학의 논리.[6]
계승의 법칙은 많은 다른 직관적 해석을 가지고 있으며, 어떤 직관을 사용하느냐에 따라 일반화가 다를 수 있다.따라서 여기서부터 진행하는 방법은 직관적으로 분별 있는 일반화를 도입하기보다는 매우 신중하게, 그리고 첫 번째 원칙에서 결과를 다시 도출하는 것이다.완전한 파생은 Jaynes의 책에서 찾을 수 있지만, 일단 해결책이 알려지면 대체 파생을 이해하는 것이 더 쉽다는 것을 인정한다.또 하나 강조해야 할 점은, 계승 규칙에 의해 기술된 지식의 선행 상태가 각각의 범주를 관찰할 수 있다는 추가 정보와 함께 가능성의 열거로서 주어진다는 점이다.이는 데이터를 수집하기 전에 각 범주를 한 번 관찰하는 것으로 동등하게 진술할 수 있다.이것이 사용된 지식임을 나타내기 위해 확률 할당에서 조건의 일부로 I를m 넣는다.
승계 규칙은 이항우도 설정과 균일한 사전분포에서 비롯된다.따라서 간단한 일반화는 이 두 분포의 다변량 확장일 뿐이다. 1) 초기 m 범주에 걸쳐 균일한 분포를 설정하는 것과 2) 다변량 분포를 우도함수로 사용하는 것(이항 분포의 다변량 일반화)이다.균일 분포는 모든 매개변수가 1인 디리클레 분포의 특별한 경우임을 알 수 있다(균일 분포가 2진수인 경우 베타(1,1)인 것처럼).디리클레 분포는 다항 분포의 이전의 결합체로서, 후분포 역시 다른 매개변수를 갖는 디리클레 분포라는 것을 의미한다.p는i 범주 i가 관측될 확률을 나타내며 n은i 범주 i(i = 1, ..., m)가 실제로 관측된 횟수를 나타낸다.확률 p1, ..., p의 관절m 후분포는 다음과 같이 주어진다.
일반적인 승계 규칙을 얻기 위해, 다음 관측에서 p를i 조건으로 한 범주 i를 관측할 확률은 p일i 뿐, 우리는 단지 그 기대를 요구한다.A가i 다음 관측치가 범주 i(i = 1, ..., m)에 있고 n = n + ...에1 있는 이벤트를 나타내는 경우+ n은m 관측치의 총 수입니다.그 결과 Dirichlet 분포의 속성을 사용하면 다음과 같다.
이 해결책은 원래 계승 규칙과 일치하는, 어떤 관측(즉, n = 0) 이전의 무관심의 원칙을 사용하여 할당될 확률을 감소시킨다.또한 여기에는 m = 2일 때 일반화해야 할 특수 사례로서 승계 규칙이 수록되어 있다.
명제나 사건 A는i 상호 배타적이기 때문에 m 카테고리를 2로 축소할 수 있다.성공 확률을 얻으려면 "성공i"에 해당하는 A 확률을 추가하기만 하면 된다.이 경우 c 범주는 "성공"으로, m-c 범주는 "실패"로 집계된다."성공"이라고 불린 관련 n개의i 값의 합을 나타내자.다음 재판에서 "성공"할 확률은 다음과 같다.
원래 계승의 규칙과는 다른 것이다.그러나 원래 계승의 규칙은 I에2 근거하는 반면 일반화는m I에 근거한다는 점에 주목한다.이것은 I에m 포함된 정보가 I에2 포함된 정보와 다르다는 것을 의미한다.이는 이러한 범주를 단 두 개로 축소할 때 우리가 알고 있는 세 개 이상의 결과에 대한 지식만이 관련 정보임을 나타낸다.이것은 이전 정보를 설명할 때의 미묘함과, 어떤 이전 정보를 사용하고 있는지를 명시하는 것이 왜 중요한지를 보여준다.
추가분석
좋은 모델은 필수적이다(즉, 정확성과 실용성의 좋은 절충).일출 문제에 대해 라플레이스를 비유하려면:태양 상승의 표본이 엄청나게 많지만, 단순히 반감기를 갖는 것과 같이 매일 상승할 확률을 어느 정도 가지고 있다고 가정하는 것보다 훨씬 더 좋은 태양 모델이 있다.
좋은 모델을 제시하면 사전 지식의 기대 신뢰성, 관찰 비용, 이용 가능한 시간과 자원, 그리고 요구되는 정확도에 따라 가능한 한 많은 관찰을 실행 가능한 것으로 만드는 것이 가장 좋다.
계승 규칙의 가장 어려운 측면 중 하나는 수학 공식이 아니라 다음과 같은 질문에 대답하는 것이다.승계의 규칙은 언제 적용되는가?일반화 부분에서는, 계산에 선행 정보m I를 추가함으로써 매우 명시적으로 주목하였다.따라서 어떤 현상에 대해 알려진 모든 것이 어떤 데이터를 관찰하기 전에 가능한 결과가 있다는 것을 알 때, 그 때에만 후계 규칙이 적용된다.만약 이것이 지식의 이전 상태를 정확하게 묘사하지 않는 문제에 계승 규칙이 적용된다면, 그것은 직관에 반하는 결과를 줄 수 있다.이는 후계자 규칙이 결함이 있기 때문이 아니라 다른 사전 정보를 바탕으로 다른 질문에 효과적으로 답하고 있기 때문이다.
원칙적으로(크롬웰의 법칙 참조), 어떤 가능성도 그 확률(또는 그 유사점)을 0으로 설정해서는 안 된다. 물리적 세계에서는 어떤 것도 엄격하게 불가능하다고 가정해서는 안 되기 때문이다(그럴 수도 있지만). (모든 관측과 현재의 이론과는 반대로)실제로 베이즈 규칙은 이전에 0 확률을 가지고 있다고 믿었던 관측을 전혀 고려하지 않고 있다. 그것은 여전히 불가능하다고 선언되어 있다.그러나, 고정된 일련의 가능성만을 고려하는 것이 허용 가능한 경로라는 점을 고려할 때, 그 결과는 고려 중인 집합에 대한 조건부라는 것을 기억하기만 하면 되며, 일부 "범용적" 집합에는 해당되지 않는다.사실 Larry Bretthorst는 가설 공간에 "다른 것"의 가능성을 포함시키는 것은 다른 가설의 상대적 확률과 아무런 차이가 없다는 것을 보여준다. 즉, 단순히 1보다 작은 값에 더하기 위해 그것들을 다시 계산하는 것이다.[7]"다른 것"이 지정될 때까지, 이 "다른 것"을 조건으로 하는 우도 함수는 확실하지 않다. 가 것 I}}}{\textI 따라서 "다른 것"에 대한 이전 확률의 업데이트는 보다 정확도가 발생할 수 없다.티끌 모아 태산 같은
그러나 사전 지식이 상대적 확률에 영향을 주어야 하는지 또는 실제 관찰과 비교한 사전 지식의 총 가중치에 영향을 주어야 하는지에 대해서는 때때로 논란의 여지가 있다.이것은 어떤 사전 지식을 고려하느냐에 따라 달라지기 때문에 명확한 오답이 없다.사실, 대안적인 사전 지식 상태는 "m 잠재적 범주를 지정했지만, 데이터를 관찰하기 전에 그 중 하나만 가능할 것이라고 확신한다.그러나, 나는 이것이 어떤 특정한 범주인지 모른다." 이것을 앞에서 기술하는 수학적인 방법은 모든 매개변수가−1 m과 동일한 디리클레 분포인데, 이것은 m 대신 분모에 1의 유사 분포를 제공하고, 각 범주에−1 m의 유사 분포를 추가한다.은 s+.+ 케이스에서 약간 다른 확률을 한다
이전 확률은 유의미한 효과를 낼 가능성이 있을 때에만 상당한 노력을 기울일 가치가 있다.관측치가 거의 없을 때, 특히 특정 지역에서 희귀 동물과 같은 일부 가능성의 관측치가 거의 없을 때, 그러한 관측치가 중요할 수 있다.또한 많은 관측치가 있을 때 중요한데, 이러한 관측치는 존경받는 카지노에서 룰렛 휠과 같이 반대되는 관측치가 많음에도 불구하고 이전 추정치에 큰 비중을 두어야 한다고 생각된다.후자의 경우 적어도 일부 가성산은 매우 클 필요가 있을 수 있다.그것들은 항상 작은 것은 아니며, 따라서 종종 가정되는 것처럼 실제 관찰에 의해 곧 더 커진다.그러나, 비록 최후의 수단일지라도, 일상적 목적을 위해서는, 사전 지식은 대개 필수적이다.따라서 대부분의 결정은 어느 정도 주관적이어야 한다(사용하는 분석가와 분석에 따라 달라짐).
참고 항목
참조
- ^ 라플라스, 피에르 시몬(1814).Essai 철학은 여분의 레즈확률이다.파리: 쿠르시어.
- ^ a b 제2부 Jaynes, E. T. & Bretthorst, G. L.(2003)의 섹션 18.6.확률 이론: 과학의 논리.케임브리지 대학 출판부. ISBN978-0-521-59271-0
- ^ Rudolf Carnap (1945). "On Inductive Logic" (PDF). Philosophy of Science. 12 (2): 72–97. doi:10.1086/286851.; 여기: p.86, 97
- ^ Rudolf Carnap (1947). "On the Application of Inductive Logic" (PDF). Philosophy and Phenomenological Research. 8: 133–148. doi:10.2307/2102920. JSTOR 2102920.; 여기: p.p.c.
- ^ http://www.stats.org.uk/priors/noninformative/Smith.pdf
- ^ Jaynes, E.T. (2003) 확률론: 영국 케임브리지의 과학논리학, 케임브리지 대학 출판부.
- ^ Bretthost, G. Larry (1988). Bayesian Spectrum Analysis and parameter estimation (PDF) (PhD thesis). p. 55.