프로빗
Probit![]() | 이 글은 대부분의 독자들이 이해하기에는 너무 기술적인 것일 수도 있다.(2013년 1월) (이 과 시기 |
확률 이론과 통계에서 프로빗 함수는 표준 정규 분포와 관련된 수량 함수다. 데이터 분석과 머신러닝, 특히 탐구 통계 그래픽과 이항 반응 변수의 전문 회귀 모델링에 응용이 있다.
수학적으로 프로빗은 표준 정규 분포의 누적분포함수의 역행으로, ( ) 로 표시되므로 프로빗은 다음과 같이 정의된다.
- .
주로 중심 한계 정리 때문에 표준 정규 분포는 확률 이론과 통계에서 근본적인 역할을 한다. 표준 정규 분포가 확률의 95%를 -1.96과 1.96 사이에 두고 0 주위에 대칭이라는 익숙한 사실을 고려하면 다음과 같다.
프로빗 함수는 '역행' 계산을 제공하여 지정된 누적 확률과 연관된 표준 정규 랜덤 변수의 값을 생성한다. 예를 계속하면,
- 0)=- 1=- ) { .
대체적으로.
- 그리고
개념개발
프로빗 함수의 아이디어는 체스터 잇트너 블리스가 1934년 사이언스지에 농약으로 죽은 해충의 비율과 같은 데이터를 어떻게 치료할 것인가에 관한 기고문을 통해 발표되었다.[1] 블리스는 살해된 비율을 현대적 정의와 선형적으로 관련이 있는 "확률 단위"(또는 "프로빗")로 변환할 것을 제안했다(그는 임의로 0.0001의 경우 0, 0.9999의 경우 1과 같다고 정의했다). 그는 다른 연구자들이 그들의 킬 퍼센트를 그의 프로빗으로 변환하도록 돕기 위한 표를 포함시켰고, 그들은 복용량의 로그에 대해 음모를 꾸밀 수 있고, 따라서 좀 더 직선을 얻을 수 있기를 희망했다. 이와 같은 이른바 프로빗 모델은 독성학 분야뿐 아니라 다른 분야에서도 여전히 중요하다. 특정 대상의 허용오차가 관심 반응에 충분한 선량인 경우, 시험 대상자 사이의 허용오차의 대수 정규 분포로 반응 변동을 합리화할 수 있는 경우 이 접근방식은 특히 정당화된다.
블리스가 도입한 방법은 D. J. 피니의 독성학적 응용에 관한 중요한 텍스트인 프로빗 분석(Probit Analysis)에서 추진되었다.[2][3] Finney에 의해 제시된 값은 5의 값을 추가하여 여기서 정의한 프로비트에서 도출할 수 있다. 이러한 구분은 콜레트(p. 55)에 의해 요약된다.[4] "프로빗의 원래 정의는 주로 부정적인 검증으로 작업할 필요가 없도록 하기 위한 것이었다. 이 정의는 여전히 일부에서 사용되고 있지만, 프로빗 분석이라고 하는 것에 대한 주요 통계 소프트웨어 패키지에서는 5를 추가하지 않고 검증이 정의된다." 전자 컴퓨팅의 광범위한 가용성에 앞서 프로빗 기능 장착을 위한 수치 최적화를 포함한 프로빗 방법론이 도입되었다는 점을 유념해야 한다. 테이블을 사용할 때는 프로빗이 균일하게 양성인 것이 편리했다. 일반적인 적용 영역에는 긍정적인 검증이 필요하지 않다.
정규성에서 분포의 편차 진단
프로빗 함수는 중요한 유형의 회귀에 대한 근거를 제공하는 것 외에도 Q–Q 플로팅 방법에 따라 정규성으로부터의 편차를 진단하기 위한 통계 분석에 유용하다. 데이터 집합이 실제로 정규 분포의 표본인 경우, 프로빗 점수에 대한 값의 그림은 대략 선형일 것이다. 비대칭, 무거운 꼬리, 양면성과 같은 정규성으로부터의 특정 편차는 선형성으로부터의 특정 편차의 검출에 기초하여 진단할 수 있다. Q–Q 그림은 분포 계열(정규 분포뿐만 아니라)과의 비교를 위해 사용될 수 있지만, 정규성 가정은 종종 분석의 시작점이 되기 때문에 정규 Q–Q 그림은 비교적 표준적인 탐색적 데이터 분석 절차다.
연산
정규 분포 CDF와 그 역분포는 닫힌 형태로는 사용할 수 없으며, 계산은 숫자 절차를 신중하게 사용해야 한다. 그러나 이 기능은 통계 및 확률 모델링을 위한 소프트웨어와 스프레드시트에서 광범위하게 사용할 수 있다. 예를 들어 Microsoft Excel에서 probit 함수는 norm.s.inv(p)로 사용할 수 있다. 역오차함수의 수치적 구현이 가능한 컴퓨팅 환경에서는 프로빗 함수를 다음과 같이 얻을 수 있다.
예를 들어 'erfinv' 기능을 사용할 수 있는 MATLAB가 있다. Mathematica 언어는 'InverseErf'를 구현한다. 다른 환경은 R 프로그래밍 언어의 다음 세션에서 나타낸 것과 같이 프로빗 기능을 직접 구현한다.
> qnorm(0.025) [1] -1.959964 > 노름판을 짓다(-1.96) [1] 0.02499790
역오차함수의 계산에 대한 자세한 내용은 [1]에서 확인할 수 있다. 위추라는 소수점 16자리까지 프로빗 함수를 계산하기 위한 빠른 알고리즘을 제공한다. 이 알고리즘은 R에서 정규 분포에 대한 랜덤 변수를 생성하기 위해 사용된다.[5]
프로빗 함수의 일반 미분 방정식
또 다른 계산 수단은 스타인브레처와 쇼 방법에 따라 프로빗에 대한 비선형 통상 미분 방정식(ODE)을 형성하는 것에 기초한다.[6] 프로빗 함수를 ) 으로 축소하여 ODE는
여기서 ( ) 은 w의 확률밀도함수다.
가우스인의 경우:
다시 차별화:
중앙(중간) 조건으로
이 방정식은 고전적인 파워 시리즈 접근법을 포함한 몇 가지 방법으로 해결할 수 있다. 이로부터, 역오차함수에 대한 스타인브레처의 시리즈 접근법에 근거해 임의의 높은 정확도의 해법이 개발될 수 있다. 파워 시리즈 솔루션은
여기서 계수 는 비선형 재발을 만족한다.
d = 의 k+ 1/ k→ 1 1}을를) k →
로짓

프로빗 함수(및 프로빗 모델)와 밀접한 관계가 있는 로짓 함수와 로짓 모델이다. 로지스틱 함수의 역은 다음과 같다.
프로빗 모델과 유사하게, 우리는 그러한 양이 예측 변수 집합과 선형적으로 연관되어 로짓 모델, 특히 로지스틱 회귀 모델의 기초, 범주형 반응 데이터에 대한 회귀 분석의 가장 보편적인 형태를 초래한다고 가정할 수 있다. 현행 통계 실무에서 프로빗 및 로짓 회귀 모형은 일반화된 선형 모형의 사례로 취급되는 경우가 많다.
참고 항목
- 탐지 오류 트레이드오프 그래프(DET 그래프, ROC의 대안)
- 로지스틱 회귀 분석(로짓 모형)
- 로짓
- 프로빗 모델
- 다항 프로빗
- Q–Q 그림
- 연속함수
- 단조함수
- 퀀텀 함수
- 지그모이드 함수
- 체스터 블리스가 개발한 랭킷 분석
- 리딧 스코어링
참조
- ^ Bliss CI. (1934). "The method of probits". Science. 79 (2037): 38–39. Bibcode:1934Sci....79...38B. doi:10.1126/science.79.2037.38. JSTOR 1659792. PMID 17813446.
- ^ Finney, D.J. (1947년), Probit Analysis. (1판) 영국 케임브리지 주 케임브리지 대학 출판부.
- ^ Finney, D.J. (1971). Probit Analysis (3rd ed.). Cambridge University Press, Cambridge, UK. ISBN 0-521-08041-X. OCLC 174198382.
- ^ Collett, D. (1991). Modelling Binary Data. Chapman and Hall / CRC.
- ^ Wichura, M.J. (1988). "Algorithm AS241: The Percentage Points of the Normal Distribution". Applied Statistics. Blackwell Publishing. 37 (3): 477–484. doi:10.2307/2347330. JSTOR 2347330.
- ^ Steinbrecher, G., Shaw, W.T. (2008). "Quantile mechanics". European Journal of Applied Mathematics. 19 (2): 87–112. doi:10.1017/S0956792508007341.CS1 maint: 여러 이름: 작성자 목록(링크)