우도 함수

Likelihood function

우도 함수(흔히 우도라고 함)는 관측 데이터의 결합 확률을 선택한 통계 [1]모형의 모수의 함수로 나타냅니다.따라서 파라메타 공간의 각 특정 파라메타 값(\ 대해 우도 p p 관측 X X에 확률적 예측을 할당한다. 이는 본질적으로 샘플링 밀도의 이므로 일반적으로 다음과 같이 된다.는 데이터 생성 프로세스와 관찰된 샘플을 생성한 결측 데이터 메커니즘을 모두 시뮬레이션합니다.

그 parameters,[를]이 될 가능성은 함수( 아닌 확률 밀도 함수지만)로 지정되는 동안 샘플이 추출되를 강조하기 위해, 그것은 종종 나는({\displaystyle{{나는\mathcal}}(\theta\mid X)}는 개연성의 원리에 따르면 쓴 것이다, 모든 정보가 샘플에 대해 θ{\dis을 제공한다.pla(는) 우도 [2]함수로 표현됩니다.최대우도 추정에서 주어진 샘플을 관찰할 확률을 최대화하는 값, (X) { \{ } = \ { } _ { \\ } { \ ( \ } )h 샘플이 추출되었다.한편 베이지안 통계에서 우도 함수는 샘플 정보가 Bayes 규칙[3]통해 파라미터의 후방 확률인 p p X을 미치는 도관 역할을 한다.

정의.

우도 함수는 일반적으로 이산형연속형 확률 분포에 대해 다르게 정의됩니다.아래 설명과 같이 일반적인 정의도 가능합니다.

이산 확률 분포

X X 파라미터 에 따라 p(\ p 갖는 이산 랜덤 변수라고 .그 다음 함수

{ style \ 의 함수로 간주되는 것은 랜덤 X X}의 결과 x{ x}의 우도 함수입니다. 파라미터 값 { style \ 의 "{ Xx { displaystylex}의 확률은 다음과 같습니다.P(X = x )) 또는 P(X = x; θ)로 표기합니다.파라미터의 참값이 \일 때 특정 x\x"가 관찰될 확률과 같습니다은 파라미터 "\ 에 대한 확률 밀도가 kelihood ( ) \ displaystyle { L} ( \ \ x )는p( x )x) ( \ p ( \ \x ) 와 혼동하지 마십시오.이는 데이터 x 확률입니다.

사건(데이터 없음)이 없을 경우 확률은 [citation needed]1이며, 따라서 사소하지 않은 사건도 확률이 낮습니다.

그림 1우도 함수( 2 {\는 HH를 관찰한 결과 (동전의 공정성에 대한 사전 지식 없이) 코인 착지 헤드업(head-up)의 확률에 대한 것입니다.
그림 2우도 함수( H ( - H는 HHT를 관찰한 결과, (동전의 공정성에 대한 사전 지식 없이) 코인 착지 헤드업(head-up)의 확률을 나타냅니다.

코인 플립의 단순한 통계 모델을 고려합니다. 단일 p {\의 공정함을 나타내는 H파라미터는 동전을 던졌을 때 앞면이 나올 확률("H")입니다.p H(는) 0.0~1.0 범위의 모든 값을 사용할 수 있습니다.공정한 코인 p 0. { \ }5

공정한 동전을 두 번 던지고 다음 데이터를 관찰한다고 상상해 보십시오. 두 번의 토스("HH")에 두 번의 헤드가 들어갑니다.연속되는 동전 던지기마다 아이디라고 가정하면 HH를 관찰할 확률은

따라서 관측된 데이터 HH를 고려할 때 모델 매개변수 {\ 0.5는 0.25입니다.수학적으로, 이것은 다음과 같이 쓰여진다.

은 p H .5{\p_{\text{\의 확률과 같지 않습니다.5은, 관측치 HH가 주어졌을 때, 0.25이다. (이를 위해, 우리는 Bayes의 정리를 적용할 수 있는데, 이것은 후방 확률이 이전 확률의 우도에 비례한다는 것을 의미한다.)

동전이 공정한 동전이 아니라 p .3text})이라고 가정합니다.3 그러면 두 개의 헤드가 나올 확률은

이런 이유로

일반적으로 의 각 값에 대해 {\text{ 그에 상응하는 우도를 계산할 수 있습니다.이러한 계산 결과는 그림 1에 나와 있습니다.

그림 1에서 [0, 1] 간격에 대한 우도의 적분은 1/3입니다.이는 확률의 중요한 측면을 보여줍니다. 확률과는 달리 가능성은 1로 통합(또는 합산)할 필요가 없습니다.

연속 확률 분포

XX})를 절대 연속 확률 분포에 따른 랜덤 변수로 . 밀도 fx x의 함수)는 파라미터({에 의존합니다.그 다음 함수

{ style \의 함수로 간주됩니다(X{ X의 결과x { x 경우 { displaystyle }의 우도 함수).파라미터 \ x(\ x 농도 함수는 f라고 하는 경우가 있습니다우도함수 ( x { } ( \x 는 f( x ){ ( \ \mid x )와 혼동해서는 안 됩니다.이것은, 관측 결과의 밀도 x(\ 와 같습니다eta x x에 대한 확률 밀도와 같습니다.즉, 우도 함수는 파라미터 에 대한 밀도가 아닙니다.간단히 L x)\ {L}(\{L \mid x 가설 테스트(변화 가능성 찾기)입니다.f x x ) { \mid x 정의된 일련의 파라미터가 주어진 메시는 추론(특정 결과가 주어진 가능한 파라미터를 찾는 것)이다.

일반적으로

측정이론 확률 이론에서 밀도 함수는 공통 지배 측정에 [4]상대적인 확률 분포의 라돈-니코딤 도함수로 정의된다.우도 함수는 가능한 [5]결과가 아니라 모수의 함수(아마도 벡터)로 해석되는 밀도입니다.이 값은 이산형, 절대 연속형, 혼합물 등 모든 분포를 포함하는 모든 통계 모형에 우도 함수를 제공합니다.(예를 들어, 동일한 지배적 측정과 관련하여 라돈-니코딤 유도체인 경우에만 매개변수 추정에 대해 유사할 것이다.)

이산 확률에 대한 위의 우도에 대한 논의는 계수 측도를 사용하는 특수한 경우로, 모든 결과의 확률 밀도를 단일 결과의 확률과 동일하게 한다.

모수화된 모형의 우도 함수

많은 응용 프로그램 중에서 여기서는 이론적으로나 실질적으로 중요한 것이 하나라고 생각합니다.모수화확률 밀도 함수 패밀리(또는 이산 분포의 경우 확률 질량 함수)가 주어집니다.

{ 파라미터이며 우도함수는 다음과 같습니다.

쓰인

서 x x 실험의 관측 결과입니다.즉, f f된 x x 함수로 볼 확률밀도 함수이며 x(\x 고정된{ \ 함수로 볼 때 가능성이 높은 함수이다.

이는 관측된 표본이 주어진 경우 이러한 모수가 올바른 모수일 확률과 다릅니다.관측된 증거가 주어진 가설의 가능성을 가설의 확률로 해석하는 것은 일반적인 오류이며, 잠재적으로 치명적인 결과를 초래할 수 있습니다.에 대한 예는 검사의 오류를 참고하세요.

기하학적 관점에서 f { f 변수의 함수로 간주하면 확률 분포의 패밀리는 x 축에 평행한 곡선의 패밀리로 볼 수 있으며, 우도 함수 패밀리는 {}에 평행한 직교 곡선이다.\ - 축

지속적인 배포 가능성

위의 우도 함수를 지정할 때 확률 밀도를 사용하는 것은 다음과 같이 정당화됩니다.}관찰)j{\displaystyle x_{j}을 감안할 때, h의 간격[)j,)j+h]{\displaystyle[x_{j},x_{j}+h]},;0{\displaystyle h>0}일정한, L({\displaystyle{{나는\mathcal}}(\theta \mid x\in[x_{j},x_{j}+h])}에 의해서 주어진다의 가능성도 커진다. Obser그것을 이해하다

_{\}{\}{h { \ [h

는 긍정적이고일정하기 때문입니다.왜냐면

f ( ) f)는 확률밀도함수이며, 다음과 같습니다.

{\ _\theta

미적분의 첫 번째 기본정리는 다음을 제공한다.

그리고나서

그러므로,

x j에서 확률 밀도를 최대화하는 것은 특정 j의 가능성을 최대화하는 것이다.

혼합 연속-이산 분포의 가능성

상기의 내용은 이산 컴포넌트와 연속 컴포넌트를 모두 포함하는 분포를 고려할 수 있도록 간단한 방법으로 확장할 수 있습니다.분포가 다수의 k \ p { } \ a f ( x\ \ )로 구성되어 있다고 가정합니다.여기서 p { 의 합계는 항상 f{ f 적분에1이 됩니다.이산확률질량 중 하나에 대응하는 관측치와 밀도성분에 대응하는 관측치를 구별할 수 있다고 가정하면 연속성분으로부터의 관측우도함수는 위와 같이 취급할 수 있다.이산 성분의 관측치의 경우 이산 성분의 관측치에 대한 우도 함수는 다음과 같습니다.

서 k{\ k x {\x에 해당하는 이산 확률 질량의 지수이다. 왜냐하면 x{\x}에서 확률 질량(또는 확률)을 최대화하는 것은 특정 관측치의 가능성을 최대화하는 것과 같기 때문이다.

우도 함수가 비례하지 않는 기여(밀도와 확률 질량)를 포함하는 방식으로 정의될 수 있다는 사실은 우도 함수가 비례 상수까지 정의되는 방식에서 발생하며, 여기서 이 "정수"는 x{\x에 따라 변할 수 있지만 위트는 아니다.h 파라미터 \ 입니다.

규칙성 조건

모수 추정의 맥락에서 우도 함수는 일반적으로 규칙성 조건으로 알려진 특정 조건을 따르는 것으로 가정한다.이러한 조건은 우도 함수와 관련된 다양한 증명에서 가정되며, 각 특정 애플리케이션에서 검증되어야 한다.최대우도 추정의 경우 우도 함수의 전역 최대값이 존재하는 것이 가장 중요합니다.극단값 정리에 따르면 최대우도 추정기가 [6]존재하는 콤팩트 파라미터 공간상에서 우도함수가 연속하는 것으로 충분하다.연속성 가정은 보통 충족되지만, 실제 매개변수 값의 경계를 알 수 없기 때문에 매개변수 공간에 대한 압축성 가정은 종종 충족되지 않습니다.이 경우 우도 함수의 오목함이 중요한 역할을 합니다.

좀 더 구체적으로, 우도 함수가 두 배 연속적으로 미분 가능한 경우k -차원 파라미터 공간 { style \ R, \ displaystyle , \{ R } { } \ , , , , , , , , , , , , , , , , , , , , , , , , \ display style 서브셋으로 간주됩니다(부분행렬의 경우

( )[ 2 L ,], j , 1 , j \ \{ } ( \ ) \ left [ , { \ { L } { , \ , \ , \ \_ ta { , \ _ ta _ ta }\,{\style \ \left{{ _{i},\theta _{i^{\n},\n}의 구배율 style style style[ L] ]

그리고 만약

즉, 우도 함수는 매개변수 공간의 δ, \ \Theta δ \,\Theta 접근하며, \displaystyle \,}가 무한대의 점을 포함할 수 있다.Mékelaeinen 은 비공식적으로 산길 [7]특성에 호소하면서 모르스 이론을 사용하여 이 결과를 증명한다.Mascarenhas는 산악 패스 [8]정리를 사용하여 그들의 증거를 다시 진술한다.

최대우도추정기의 일관성과 점근정규성의 증명에서 특정우도함수의 기초를 형성하는 확률밀도에 관한 추가 가정이 이루어진다.이 조건들은 [9]Chanda에 의해 처음 확립되었다.특히 거의 x\x 및 모든 , \대해

모든 ,, { 대해 Taylor 확장이 존재하는지 확인합니다.둘째, 거의 x x 모든 대해 다음과 같이 해야 합니다.

H(\ H "- s ( ) M < 。\ \ _ }^{\infty {z\infty;\ 도함수의 이러한 경계성은 적분 부호에서 미분을 허용하기 위해 필요하다.마지막으로, 정보 매트릭스는

( ) \ style { ( \ ) \ 유한합니다.이렇게 하면 점수가 유한하게 [10]분산됩니다.

상기 조건은 충분하지만 필수는 아닙니다.즉, 이러한 규칙성 조건을 충족하지 않는 모형은 위에서 언급한 속성의 최대우도 추정기를 가질 수도 있고 그렇지 않을 수도 있습니다.또한 독립적으로 또는 동일하지 않게 분포된 관측치의 경우 추가 특성을 가정해야 할 수 있다.

베이지안 통계에서, 거의 동일한 규칙성 조건이 우도 함수에 부과되어 [11][12]후방 확률의 점근적 정규성을 증명하고, 따라서 큰 [13]표본에서 후방 라플라스 근사치를 정당화한다.

우도비 및 상대우도

우도비

우도비는 지정된 두 우도의 비율로, 종종 다음과 같이 쓰여집니다.

우도비는 우도 통계량의 중심입니다. 즉, (증거로 간주되는) 데이터가 하나의 모수 값을 지원하는 정도와 다른 모수 값을 지원하는 정도는 우도비로 측정됩니다.

빈도론적인 추론에서 우도비는 검정 통계량, 이른바 우도 비율 검정의 기초가 됩니다.Neyman-Pearson 보조개념에 따르면, 이것은 주어진 유의성 수준에서 두 개의 단순한 가설을 비교하는 가장 강력한 검정이다.다른 수많은 테스트는 우도비 테스트 또는 그 [14]근사치로 볼 수 있다.검정 통계량으로 간주되는 로그 우도비의 점근 분포는 Wilks의 정리에 의해 주어집니다.

우도비는 베이지안 추론에서도 중요한데, 베이지안 추론에서는 베이지안 인수로 알려져 있으며 베이지안 규칙에 사용된다.확률의 측면에서 보면, B(디스플레이 B에서 A과 A( 라는 두 가지 대안의 후방 확률은 우선 확률에 확률비를 곱한 것이라고 Bayes의 규칙은 명시되어 있다.방정식으로서:

우도비는 AIC 기반 통계량에서 직접 사용되지 않습니다.대신 모형의 상대적 우도(아래 참조)가 사용됩니다.

상대우도함수

우도 함수의 실제 값은 표본에 따라 달라지므로 표준화된 측도를 사용하는 것이 편리할 수 있습니다.파라미터최대우도 추정치가 라고 가정합니다.다른 의 상대적인 신뢰성은 의 가능성과 비교함으로써 확인할 수 있습니다.θ의 상대 우도는 다음[15][16][17][18][19] 같이 정의된다.

따라서 상대 우도는 L 을 가진 우도비(위에서 설명)입니다.이는 최대 1을 가질 가능성을 표준화하는 것에 해당합니다.

우도 영역

우도 영역은 상대우도가 소정의 임계값 이상인 모든 θ 값의 집합입니다.퍼센티지의 관점에서 δ에 대한 p% 우도 영역은 다음과[15][17][20] 같이 정의된다.

θ가 단일 실제 파라미터일 경우 p% 우도 영역은 일반적으로 실제 값의 간격을 구성합니다.영역이 구간을 구성하는 경우 우도 [15][17][21]구간이라고 합니다.

우도 구간 및 보다 일반적으로 우도 영역은 우도 통계의 구간 추정에 사용됩니다. 빈도 통계의 신뢰 구간과 베이지안 통계의 신뢰 구간과 유사합니다.우도 구간은 포함 확률(자주파) 또는 사후 확률(베이지안파)이 아니라 상대 우도 측면에서 직접 해석됩니다.

모형이 지정된 경우 우도 구간을 신뢰 구간과 비교할 수 있습니다.θ가 단일 실제 파라미터일 경우 특정 조건 하에서 θ에 대한 14.65% 우도 구간(약 1:7 우도)은 95% 신뢰 구간(19/20 커버리지 확률)[15][20]과 동일합니다.로그 우도 사용에 적합한 약간 다른 공식(Wilks의 정리 참조)에서 검정 통계량은 로그 우도의 두 배이며 검정 통계량의 확률 분포는 두 모델 간의 자유도(df) 차이와 동일한 카이 제곱 분포이다.e, e우도−2 구간은 0.954 신뢰 구간과 동일하며 df의 차이를 1)[20][21]로 가정합니다.

불필요한 매개 변수를 제거하는 가능성

많은 경우, 가능성은 둘 이상의 매개변수의 함수이지만, 관심은 오직 하나 또는 많아야 몇 개의 매개변수의 추정에 집중되며, 나머지는 방해 매개변수로 간주된다.그러한 불필요한 매개변수를 제거하기 위해 몇 가지 대안적 접근법이 개발되었으며, 따라서 우도는 관심 매개변수(또는 매개변수)의 함수로 작성될 수 있다. 주요 접근법은 프로파일, 조건부 및 한계 [22][23]우도이다.이러한 접근법은 고차원 우도 표면을 그래프를 허용하기 위해 관심 있는 한 두 개의 매개 변수로 줄여야 하는 경우에도 유용합니다.

프로파일 우도

불필요한 파라미터를 관심 파라미터의 함수로 표현하고 그것을 [24][25]우도함수로 대체함으로써 파라미터의 서브셋에 대한 우도함수를 집중시킴으로써 치수를 줄일 수 있다.일반적으로 1: 2로 분할할 수 있는 우도함수 \}} :\} )에 따라 달라집니다. 1)hat 명시적으로 결정할 수 있으며, 집중은 원래의 최대화 [26]문제의 계산 부담을 줄여줍니다.

예를 들어, 정규 분포 오차를 갖는 선형 회귀, +u {\ \{y} =\{X\display 에서 계수 벡터는 [ 1 : ] \ \style : \} 설계분할할 수 있습니다 ](\[\} \ ) 。 최대화하면 \ \ _})mathbf {X_1 - T) =(\mathbf {X}) {\f}s} =(\})의 최적값 )가 된다. -_{ 이 결과를 사용하여 1displaystyle _ 최대우도 추정기를 다음과 같이 도출할 수 있습니다.

T - T ({_{X} }\{\ch-Waugh-Lovell 정리

그래픽으로 볼 때 농도 절차는 우도 함수를 최대화하는 방해 2 _ 값의 능선을 따라 우도 표면을 슬라이스하는 것과 같기 때문에, 1 _ r에 대한 우도 함수의 등축 프로파일을 생성한다.이 순서는 프로파일우도라고도 합니다.[27][28]프로파일 우도는 그래프화뿐만 아니라 전체 [29][30]우도에서 계산된 점근 표준 오차를 기반으로 하는 신뢰 구간보다 종종 작은 표본 특성을 갖는 신뢰 구간을 계산하는 데도 사용할 수 있습니다.

조건부 우도

때때로 불필요한 파라미터에 대한 충분한 통계정보를 찾을 수 있으며, 이 통계정보를 바탕으로 하면 불필요한 [31]파라미터에 의존하지 않는 가능성이 발생합니다.

한 가지 예는 2×2 표에서 발생하며, 여기서 4개의 주변 총계를 모두 조건화하면 비중심 하이퍼기하 분포에 기초한 조건부 우도로 이어진다.이러한 형태의 컨디셔닝은 Fisher의 정확한 테스트의 기초이기도 합니다.

한계우도

데이터에 포함된 정보의 일부만을 기반으로 하는 우도(예를 들어 수치보다는 순위 집합을 사용하는 경우)를 고려하여 불필요한 파라미터를 제거할 수 있습니다.또 다른 예는 선형 혼합 모형에서 발생하는데, 이 모형에서는 고정 효과를 적합시킨 후에만 잔차에 대한 우도를 고려하면 분산 성분의 잔차 최대우도 추정으로 이어집니다.

부분우도

부분우도란 전체우도의 적응으로 파라미터의 일부(해당 파라미터)만 [32]발생하도록 하는 것입니다.이는 비례 위험 모델의 핵심 구성요소이다. 즉, 위험 함수에 대한 제한을 사용하면 시간에 따른 위험의 형태를 포함하지 않는다.

가능성 있는 제품

둘 이상의 독립된 사건이 주어진 경우, 우도는 각 개별 사건의 우도의 산물이다.

이것은 확률에 대한 독립성의 정의에서 따른다. 즉, 모델이 주어진 두 개의 독립적 사건이 발생할 확률은 확률의 산물이다.

사건이 독립 관측치 또는 대체 표본 추출과 같이 독립적이고 동일한 분포의 랜덤 변수로부터 발생한 경우 특히 중요합니다.이러한 상황에서 우도 함수는 개별 우도 함수의 곱으로 인자를 변환합니다.

빈 제품의 값 1은 사건 발생이 없는 경우 우도에 해당하는 값 1입니다. 데이터 앞에 있는 경우 우도는 항상 1입니다.이것은 베이지안 통계의 균일한 이전과 유사하지만, 우도론 통계에서는 우도가 통합되지 않기 때문에 부적절한 사전이 아니다.

로그 우도

로그 우도 함수는 우도 함수의 로그 변환으로, 대문자 L L 대조하기 위해 종종 소문자 l 또는\ell로 표시됩니다.로그는 함수를 엄격하게 증가시키므로 우도를 최대화하는 것은 로그 우도를 최대화하는 것과 같습니다.그러나 특히 대부분의 일반적인 확률 분포(특히 지수 계열)는 대수적으로 [33][34]오목하고 목적 함수의 오목함최대화에 중요한 역할을 하기 때문에, 실제 목적 함수는 최대우도 추정에서 로그우도 함수로 작업하는 것이 더 편리하다.

각 사건의 독립성이 주어지면 교차점의 전체 로그 우도는 개별 사건의 로그 우도 합계와 같습니다.이는 전체 로그 확률이 개별 사건의 로그 확률의 합이라는 사실과 유사합니다.로그 우도 추가 프로세스는 이러한 수학적 편의성 외에도 직관적인 해석을 가지고 있으며, 이는 종종 데이터에서 "지원"으로 표현된다.최대우도 추정에 대한 로그 우도를 사용하여 모수를 추정하는 경우 각 데이터 점을 전체 로그 우도에 추가하여 사용합니다.데이터는 추정된 매개변수를 뒷받침하는 증거로 볼 수 있으므로, 이 과정은 "독립적 증거 추가로부터의 지원"으로 해석될 수 있으며, 로그 우도는 "증거 가중치"이다.마이너스 로그 확률을 정보 내용 또는 놀라움으로 해석하는 경우, 주어진 사건이 주어진 모델의 지원(로그 우도)은 해당 모델이 주어진 사건의 서프라이즈를 부정적으로 평가합니다.모델이 주어진 사건이 놀랍지 않은 범위 내에서 모델이 지원됩니다.

우도비의 로그는 로그 우도의 차이와 같습니다.

사건이 없을 때 우도가 1인 경우와 마찬가지로, 사건이 없을 때 로그 우도는 0이며, 이는 빈 합계의 값에 해당합니다. 데이터가 없으면 어떤 모형도 지원되지 않습니다.

우도 방정식

로그우도함수가 스무스한 경우 파라미터에 대한 기울기(n () )displaydisplay ( _}\ _이 존재하며 미적분을 적용할 수 있습니다.미분 가능한 함수를 최대화하는 기본 방법은 정지점(도함수가 0인 점)을 찾는 것이다. 합계의 도함수는 단지 도함수의 합이지만, 곱의 도함수는 곱 규칙을 요구하기 때문에, 독립 사건의 로그 우도의 정지점을 f보다 계산하는 것이 더 쉽다.또는 독립 사건의 가능성.

점수 함수의 정지점에 의해 정의된 방정식은 최대우도 추정기의 추정 방정식 역할을 합니다.

그런 의미에서 최대우도 추정기는 s - : E {\^{ \Theta 에 의해 암묵적으로 정의됩니다.서 E \} ^{d} ^{ \Thto \Theta^} } } 。d-dimensional 유클리드 공간, \ 파라미터 공간입니다.역함수 정리를 사용하면, 열린 근방에서 s -({n}^{-이 0 \ {0})과^ n n -}}{11({f})에 정의되어 을 알 수 있다.텐트 {\({ 그 결과 시퀀스 ^ ^}({\\left \}}right\})가 합니다. s 0{\} {\} {\ } } {} } =mathot } {\mathot} {\ } } {\} } {0f\displaystylen}{}}[35]0}). 비슷한 결과는 [36][37]롤의 정리를 사용하여 얻을 수 있다.

Fisher 정보 {\theta에서 평가된 두 번째 도함수는 우도 표면의 [38]곡률을 결정하여 [39]추정의 정밀도를 나타낸다.

지수 패밀리

로그 우도는 공통 모수 확률 분포를 많이 포함하는 지수 분포 제품군에도 특히 유용합니다.지수군에 대한 확률 분포 함수(따라서 우도 함수)에는 지수와 관련된 요인의 곱이 포함되어 있습니다.이러한 함수의 로그는 곱의 합계이며, 원래의 함수보다 구별하기가 더 쉽다.

지수족이란 확률밀도함수가 다음과 같은 형태인 것을 말한다(일부 함수의 경우 내부곱의 경우 -(를) 쓴다.

각 항에는 [b]해석이 있지만 확률에서 우도로 전환하고 로그를 취하기만 하면 다음과 같은 합이 산출됩니다.

( ) { \ bold \ \ seta } ( { \ bold \ } ( 각각 좌표의 변화에 대응하므로 이들 좌표에서 지수군의 로그 우도는 간단한 공식에 의해 나타납니다.

즉, 지수 계열의 로그 우도는 자연 {\({})와 통계량에서 정규화 계수 분할 를 뺀 값이다.따라서 예를 들어, 최대우도 추정치는 충분한 통계량 T와 로그 분할 함수 A의 도함수를 취함으로써 계산할 수 있다.

예: 감마 분포

감마 분포는 αβ(\의 두 가지 매개변수를 갖는 지수족입니다.우도함수는 다음과 같습니다.

단일 x(\x)에 대해β(\ 최대우도 추정치를 찾는 것은 다소 어려워 보인다.로그는 다음과 같이 조작하기가 훨씬 간단합니다.

로그 우도를 최대화하기 위해 먼저β {\ 부분 도함수를 취한다.

x 1, x {\{1이 있는 경우, 합동 로그 우도는 개별 로그 우도의 합이 되고, 이 합계의 도함수는 개별 로그 우도의 도함수 합이 됩니다.

접합 로그 우도의 최대화 절차를 완료하기 위해 방정식을 0으로 설정하고β {\ 해결합니다.

β {\{\은 최대우도 추정치를 , x xi \{\} =1 textstyle {1} = _ {}^{ x {는 관측치의 표본 평균이다.

배경과 해석

이력 코멘트

"가능성"이라는 용어는 적어도 후기 중세 [40]영어부터 영어에서 사용되어 왔다.수학 통계학에서 특정한 기능을 언급하기 위한 공식적인 사용은 1921년과 1922년에 [43]발표된[42] 두 개의 연구 논문에서 로널드 [41]피셔에 의해 제안되었다.1921년 논문은 오늘날 "우도 구간"이라고 불리는 것을 소개했고, 1922년 논문은 "우도 최대 방법"이라는 용어를 도입했다.Fisher 인용:

[I]n 1922년, 나는 '가능성'이라는 용어를 제안했는데, 이는 [파라미터]와 관련하여 확률이 o와 관련이 있는 것과 유사한 [파라미터]의 가능한 값 중 합리적인 선택의 문제와 관련이 있는 것이다.f 우연의 게임에서 사건을 예측하는 것은……. 반면, 심리적 판단과 관련하여 가능성은 확률과 어느 정도 유사하지만, 두 개념은 완전히 다르다…."[44]

우도의 개념은 로널드 피셔 경이 언급한 확률과 혼동해서는 안 된다.

내가 이것을 강조하는 이유는 내가 항상 확률과 가능성 사이의 차이에 중점을 두었음에도 불구하고 여전히 가능성을 일종의 확률인 것처럼 취급하는 경향이 있기 때문이다.첫 번째 결과는 서로 다른 경우에 적합한 두 가지 이성적 믿음의 다른 척도가 있다는 것이다.모집단을 알면 표본에 대한 불완전한 지식이나 기대를 확률로 표현할 수 있습니다. 표본을 알면 모집단에 대한 불완전한 지식을 [45]가능성으로 표현할 수 있습니다.

피셔의 통계적 우도 발명은 [46]역확률이라고 불리는 초기 형태의 추론에 대한 반작용이었다.그가 "우도"라는 용어를 사용한 것은 수학 통계학에서 용어의 의미를 고정시켰다.

A. W. F. Edwards(1972)는 다른 가설에 대한 상대적인 지지를 나타내는 척도로 로그우도비를 사용하기 위한 자명한 근거를 확립했다.지지 함수는 우도 함수의 자연 로그입니다.두 용어 모두 계통유전학에서는 사용되지만 통계적 [47]근거의 주제에 대한 일반적인 취급에서는 채택되지 않았다.

서로 다른 기초 아래에서의 해석

통계학자들 사이에서는 통계의 근간이 무엇이어야 하는지에 대한 공감대가 형성되어 있지 않다.그 토대를 위해 제안된 네 가지 주요 패러다임이 있다: 빈도주의, 베이지안주의, 우도주의, AIC [48]기반이다.제안된 기초마다 우도에 대한 해석이 다릅니다.4가지 해석은 다음 항에서 설명합니다.

빈도론자의 해석

베이지안 해석

베이즈 추론에서 하겠지만 또 다른 변수다. 예를 들어 매개 변수 값 또는 통계적 모델(한계 가능성을 보)의 가능성,,로 지정된 데이터나 기타 evidence,[49][50][51][52]가능성 기능이 같은 실체 치른 명제나 확률 변수의 가능성에 관해 말할 수 있다.inte 추가(i) 매개변수가 주어진 데이터의 조건부 밀도(변수가 랜덤 변수이기 때문에) 및 (ii) 매개변수 값 또는 [49][50][51][52][53]모델에 대한 데이터에 의해 제공되는 정보의 측정 또는 양에 대한 해석.파라미터 공간 또는 모델 컬렉션에 확률 구조가 도입되기 때문에 파라미터 값 또는 통계 모델은 주어진 데이터에 대한 우도 값이 크면서도 확률이 낮거나 그 반대일 수 있습니다.[51][53]이것은 종종 의학적인 [54]맥락에서 일어난다.베이즈 법칙에 따라 조건부 밀도로 볼 때 우도에 매개변수의 이전 확률 밀도를 곱한 다음 정규화하여 사후 확률 [49][50][51][52][53]밀도를 제공할 수 있다.보다 일반적으로, X 스타일 Y)가 다른 Y( 스타일 Y에 주어질 확률은 X X[49][50][51][52][53]에 주어질 Y Y 확률에 비례합니다.

우도론적 해석

빈도론 통계학에서 우도함수는 모집단의 단일 표본을 요약하는 통계량이며, 그 계산값p 여러 매개 변수 선택에 따라 달라집니다1. 여기서 p는 이미 선택된 일부 통계 모델에서 매개 변수의 개수입니다.우도 값은 모수에 사용되는 선택에 대한 가치의 수치로 작용하며, 사용 가능한 데이터를 고려할 때 최대우도로 설정된 모수가 최선의 선택입니다.

우도의 구체적인 계산은 선택된 모델과 여러 매개 변수의 이 관측 표본이 추출된 모집단의 빈도 분포에 대한 정확한 근사치를 제공한다고 가정할 때 관측 표본이 할당될 확률이다.경험적으로, 좋은 매개변수 선택은 샘플이 실제로 발생할 수 있는 최대 사후 확률을 관찰하게 하는 매개변수라는 것이 타당하다.Wilks의 정리는 추정치의 모수 값에 의해 생성된 우도 로그와 모집단의 "참" 모수 값에 의해 생성된 우도 로그의 차이가 점근적으로 δ2 분포된다는 것을 보여줌으로써 발견적 규칙을 수량화한다.

각 독립 표본의 최대우도 추정치는 표본 추출 모집단을 설명하는 "참" 모수 집합에 대한 별도의 추정치입니다.많은 독립 표본의 연속 추정치는 그 중간에 숨겨진 모집단의 "참" 모수 값 집합과 함께 군집화된다.최대우도 로그와 인접 매개변수 집합의 우도 차이는 좌표가 매개변수1 그래프에 신뢰 영역을 그리는 데 사용될 수 있습니다. 영역p 최대우도 추정치를 둘러싸고 있으며, 해당 영역 내의 모든 점(모수 집합)은 일부 고정 값에 의해 로그우도 차이가 있습니다.값. Wilks의 정리에 의해 주어진 θ2 분포는 영역의 로그우도 차이를 모집단의 "참" 모수 집합이 내부에 있다는 "신뢰"로 변환한다.고정 로그 우도 차이를 선택하는 기술은 신뢰도를 허용 가능한 수준으로 높게 하면서 영역을 허용 가능한 작은 범위(추정치의 좁은 범위)로 유지하는 것입니다.

더 많은 데이터가 관측됨에 따라 독립적인 추정치를 작성하는 데 사용되는 대신 이전 표본과 결합하여 단일 결합된 표본을 만들 수 있으며 새로운 최대우도 추정치에 큰 표본을 사용할 수 있습니다.결합된 표본의 크기가 증가하면 신뢰도가 동일한 우도 영역의 크기가 줄어듭니다.결국 신뢰 영역의 크기가 거의 단일 점이거나 전체 모집단이 표본 추출되었습니다. 두 경우 모두 추정 모수 집합은 모집단 모수 집합과 기본적으로 동일합니다.

AIC 기반 해석

AIC 패러다임 하에서 가능성은 정보 [55][56][57]이론의 맥락에서 해석됩니다.

「 」를 참조해 주세요.

메모들

  1. ^ 흔히 공통어법에서 동의어로 사용되지만, "가능성"과 "확률"이라는 용어는 통계에서 뚜렷한 의미를 갖는다.확률은 표본의 속성, 특히 분포의 모수 값에 대해 특정 표본을 얻을 확률입니다. 우도는 모수 값의 속성입니다.Valavanis, Stefan (1959). "Probability and Likelihood". Econometrics : An Introduction to Maximum Likelihood Methods. New York: McGraw-Hill. pp. 24–28. OCLC 6257066.
  2. ^ 지수군 § 해석 참조

레퍼런스

  1. ^ Casella, George; Berger, Roger L. (2002). Statistical Inference (2nd ed.). Duxbury. p. 290. ISBN 0-534-24312-6.
  2. ^ Berger, James O.; Wolpert, Robert L. (1988). The Likelihood Principle. Hayward: Institute of Mathematical Statistics. p. 19. ISBN 0-940600-13-7.
  3. ^ Zellner, Arnold (1971). An Introduction to Bayesian Inference in Econometrics. New York: Wiley. pp. 13–14. ISBN 0-471-98165-6.
  4. ^ Billingsley, Patrick (1995). Probability and Measure (Third ed.). John Wiley & Sons. pp. 422–423.
  5. ^ Shao, Jun (2003). Mathematical Statistics (2nd ed.). Springer. §4.4.1.
  6. ^ Gouriéroux, Christian; Monfort, Alain (1995). Statistics and Econometric Models. New York: Cambridge University Press. p. 161. ISBN 0-521-40551-3.
  7. ^ Mäkeläinen, Timo; Schmidt, Klaus; Styan, George P.H. (1981). "On the existence and uniqueness of the maximum likelihood estimate of a vector-valued parameter in fixed-size samples". Annals of Statistics. 9 (4): 758–767. doi:10.1214/aos/1176345516. JSTOR 2240844.
  8. ^ Mascarenhas, W.F. (2011). "A mountain pass lemma and its implications regarding the uniqueness of constrained minimizers". Optimization. 60 (8–9): 1121–1159. doi:10.1080/02331934.2010.527973. S2CID 15896597.
  9. ^ Chanda, K.C. (1954). "A note on the consistency and maxima of the roots of likelihood equations". Biometrika. 41 (1–2): 56–61. doi:10.2307/2333005. JSTOR 2333005.
  10. ^ Greenberg, Edward; Webster, Charles E., Jr. (1983). Advanced Econometrics: A Bridge to the Literature. New York, NY: John Wiley & Sons. pp. 24–25. ISBN 0-471-09077-8.
  11. ^ Heyde, C. C.; Johnstone, I. M. (1979). "On Asymptotic Posterior Normality for Stochastic Processes". Journal of the Royal Statistical Society. Series B (Methodological). 41 (2): 184–189. doi:10.1111/j.2517-6161.1979.tb01071.x.
  12. ^ Chen, Chan-Fu (1985). "On Asymptotic Normality of Limiting Density Functions with Bayesian Implications". Journal of the Royal Statistical Society. Series B (Methodological). 47 (3): 540–546. doi:10.1111/j.2517-6161.1985.tb01384.x.
  13. ^ Kass, Robert E.; Tierney, Luke; Kadane, Joseph B. (1990). "The Validity of Posterior Expansions Based on Laplace's Method". In Geisser, S.; Hodges, J. S.; Press, S. J.; Zellner, A. (eds.). Bayesian and Likelihood Methods in Statistics and Econometrics. Elsevier. pp. 473–488. ISBN 0-444-88376-2.
  14. ^ Buse, A. (1982). "The Likelihood Ratio, Wald, and Lagrange Multiplier Tests: An Expository Note". The American Statistician. 36 (3a): 153–157. doi:10.1080/00031305.1982.10482817.
  15. ^ a b c d Kalbfleisch, J. G. (1985), Probability and Statistical Inference, Springer (제9.3절).
  16. ^ Azzalini, A. (1996), Statistical Inference—Based on the likelihood, Chapman & Hall, ISBN 9780412606502 (제1.4.2절).
  17. ^ a b c Sprott, D. A. (2000), 과학에서의 통계적 추론, 스프링거(제2장).
  18. ^ 데이비슨, A. C. (2008), 통계 모델, 케임브리지 대학 출판부(§ 4.1.2).
  19. ^ Held, L.; Sabanés Bové, D. S. (2014), Applied Statistical Inference—Likelihood and Bayes, Springer (제2.1절).
  20. ^ a b c 를 클릭합니다Rossi, R. J. (2018), Mathematical Statistics, Wiley, p. 267.
  21. ^ a b 를 클릭합니다Hudson, D. J. (1971), "Interval estimation from the likelihood function", Journal of the Royal Statistical Society, Series B, 33 (2): 256–262.
  22. ^ Pawitan, Yudi (2001). In All Likelihood: Statistical Modelling and Inference Using Likelihood. Oxford University Press.
  23. ^ Wen Hsiang Wei. "Generalized Linear Model - course notes". Taichung, Taiwan: Tunghai University. pp. Chapter 5. Retrieved 2017-10-01.
  24. ^ Amemiya, Takeshi (1985). "Concentrated Likelihood Function". Advanced Econometrics. Cambridge: Harvard University Press. pp. 125–127. ISBN 978-0-674-00560-0.
  25. ^ Davidson, Russell; MacKinnon, James G. (1993). "Concentrating the Loglikelihood Function". Estimation and Inference in Econometrics. New York: Oxford University Press. pp. 267–269. ISBN 978-0-19-506011-9.
  26. ^ Gourieroux, Christian; Monfort, Alain (1995). "Concentrated Likelihood Function". Statistics and Econometric Models. New York: Cambridge University Press. pp. 170–175. ISBN 978-0-521-40551-5.
  27. ^ Pickles, Andrew (1985). An Introduction to Likelihood Analysis. Norwich: W. H. Hutchins & Sons. pp. 21–24. ISBN 0-86094-190-6.
  28. ^ Bolker, Benjamin M. (2008). Ecological Models and Data in R. Princeton University Press. pp. 187–189. ISBN 978-0-691-12522-0.
  29. ^ Aitkin, Murray (1982). "Direct Likelihood Inference". GLIM 82: Proceedings of the International Conference on Generalised Linear Models. Springer. pp. 76–86. ISBN 0-387-90777-7.
  30. ^ Venzon, D. J.; Moolgavkar, S. H. (1988). "A Method for Computing Profile-Likelihood-Based Confidence Intervals". Journal of the Royal Statistical Society. Series C (Applied Statistics). 37 (1): 87–94. doi:10.2307/2347496. JSTOR 2347496.
  31. ^ Kalbfleisch, J. D.; Sprott, D. A. (1973). "Marginal and Conditional Likelihoods". Sankhyā: The Indian Journal of Statistics. Series A. 35 (3): 311–328. JSTOR 25049882.
  32. ^ Cox, D. R. (1975). "Partial likelihood". Biometrika. 62 (2): 269–276. doi:10.1093/biomet/62.2.269. MR 0400509.
  33. ^ Kass, Robert E.; Vos, Paul W. (1997). Geometrical Foundations of Asymptotic Inference. New York: John Wiley & Sons. p. 14. ISBN 0-471-82668-5.
  34. ^ Papadopoulos, Alecos (September 25, 2013). "Why we always put log() before the joint pdf when we use MLE (Maximum likelihood Estimation)?". Stack Exchange.
  35. ^ Foutz, Robert V. (1977). "On the Unique Consistent Solution to the Likelihood Equations". Journal of the American Statistical Association. 72 (357): 147–148. doi:10.1080/01621459.1977.10479926.
  36. ^ Tarone, Robert E.; Gruenhage, Gary (1975). "A Note on the Uniqueness of Roots of the Likelihood Equations for Vector-Valued Parameters". Journal of the American Statistical Association. 70 (352): 903–904. doi:10.1080/01621459.1975.10480321.
  37. ^ Rai, Kamta; Van Ryzin, John (1982). "A Note on a Multivariate Version of Rolle's Theorem and Uniqueness of Maximum Likelihood Roots". Communications in Statistics. Theory and Methods. 11 (13): 1505–1510. doi:10.1080/03610928208828325.
  38. ^ Rao, B. Raja (1960). "A formula for the curvature of the likelihood surface of a sample drawn from a distribution admitting sufficient statistics". Biometrika. 47 (1–2): 203–207. doi:10.1093/biomet/47.1-2.203.
  39. ^ Ward, Michael D.; Ahlquist, John S. (2018). Maximum Likelihood for Social Science : Strategies for Analysis. Cambridge University Press. pp. 25–27.
  40. ^ "가능성", 쇼터 옥스퍼드 영어사전(2007).
  41. ^ Hald, A. (1999). "On the history of maximum likelihood in relation to inverse probability and least squares". Statistical Science. 14 (2): 214–222. doi:10.1214/ss/1009212248. JSTOR 2676741.
  42. ^ Fisher, R.A. (1921). "On the "probable error" of a coefficient of correlation deduced from a small sample". Metron. 1: 3–32.
  43. ^ Fisher, R.A. (1922). "On the mathematical foundations of theoretical statistics". Philosophical Transactions of the Royal Society A. 222 (594–604): 309–368. Bibcode:1922RSPTA.222..309F. doi:10.1098/rsta.1922.0009. JFM 48.1280.02. JSTOR 91208.
  44. ^ Klemens, Ben (2008). Modeling with Data: Tools and Techniques for Scientific Computing. Princeton University Press. p. 329.
  45. ^ Fisher, Ronald (1930). "Inverse Probability". Mathematical Proceedings of the Cambridge Philosophical Society. 26 (4): 528–535. Bibcode:1930PCPS...26..528F. doi:10.1017/S0305004100016297.
  46. ^ Fienberg, Stephen E (1997). "Introduction to R.A. Fisher on inverse probability and likelihood". Statistical Science. 12 (3): 161. doi:10.1214/ss/1030037905.
  47. ^ Royall, R. (1997). Statistical Evidence. Chapman & Hall.
  48. ^ Bandyopadhyay, P. S.; Forster, M. R., eds. (2011). Philosophy of Statistics. North-Holland Publishing.
  49. ^ a b c d I. J. Good: 확률과 증거의 가중치(Griffin 1950), § 6.1
  50. ^ a b c d H. Jeffreys:확률론 (제3판, 옥스퍼드 대학 출판부 1983), § 1.22
  51. ^ a b c d e E. T. Jaynes: 확률론: 과학의 논리 (Cambridge University Press 2003),© 4.1
  52. ^ a b c d D. V. 린들리:베이지안 관점에서의 확률과 통계 입문. 파트 1: 확률 (Cambridge University Press 1980), 1 1.6
  53. ^ a b c d A. 겔만, J. B. 칼린, H. S. 스턴, D. B. 던슨, A.Veetari, D. B. Rubin: 베이지안 데이터 분석 (제3판, Chapman & Hall/CRC 2014), 1 1 . 3
  54. ^ Sox, H. C.; Higgins, M. C.; Owens, D. K. (2013), Medical Decision Making (2nd ed.), Wiley, chapters 3–4, doi:10.1002/9781118341544, ISBN 9781118341544
  55. ^ Akaike, H. (1985). "Prediction and entropy". In Atkinson, A. C.; Fienberg, S. E. (eds.). A Celebration of Statistics. Springer. pp. 1–24.
  56. ^ Sakamoto, Y.; Ishiguro, M.; Kitagawa, G. (1986). Akaike Information Criterion Statistics. D. Reidel. Part I.
  57. ^ Burnham, K. P.; Anderson, D. R. (2002). Model Selection and Multimodel Inference: A practical information-theoretic approach (2nd ed.). Springer-Verlag. chap. 7.

추가 정보

외부 링크