통계 모형

통계 모델은 표본 데이터(및 더 큰 모집단의 유사한 데이터) 생성에 관한 일련의 통계적 가정을 구체화하는 수학적 모델이다.통계 모델은 종종 상당히 이상적인 형태로 데이터 생성 ^[1]프로세스를 나타냅니다.

통계 모형은 일반적으로 하나 이상의 랜덤 변수와 다른 비랜덤 변수 간의 수학적 관계로 지정됩니다.이와 같이, 통계 모델은 "이론의 공식적인 표현"이다(헤르만 아데르는 케네스 볼렌을 ^[2]인용한다.

모든 통계 가설 검정과 모든 통계 추정치는 통계 모델을 통해 도출된다.보다 일반적으로, 통계 모델은 통계 추론의 기초의 일부이다.

서론

비공식적으로 통계모델은 특정 속성을 가진 통계적 가정(또는 통계적 가정 세트)으로 생각할 수 있다. 즉, 가정은 우리가 어떤 사건의 확률을 계산할 수 있게 한다.예를 들어, 일반적인 6면체 주사위 한 쌍을 생각해 보세요.우리는 주사위에 대한 두 가지 다른 통계적 가정을 연구할 것이다.

첫 번째 통계적 가정은 다음과 같습니다.각 주사위마다 각 얼굴(1, 2, 3, 4, 5, 6)이 나타날 확률은 다음과 같습니다. 1/6. 이 가정으로부터, 양쪽의 주사위가 나올 확률을 계산할 수 있다: 1/6 × 1/6 = 1/36. 일반적으로 (1과 2) 또는 (3과 3) 또는 (5와 6)와 같은 사건의 확률을 계산할 수 있습니다.

대안 통계적 가정은 다음과 같다. 각 주사위마다 얼굴 5가 나타날 확률은 1/8이다(다이스에 가중치가 부여되기 때문에).그 가정으로부터, 우리는 두 주사위가 모두 5/8 × 1/8 = 1/64로 나올 확률을 계산할 수 있다. 그러나 다른 얼굴의 확률을 알 수 없기 때문에 우리는 다른 중요하지 않은 사건의 확률을 계산할 수 없다.

첫 번째 통계적 가정은 통계적 모델을 구성합니다. 왜냐하면 가정만으로 모든 사건의 확률을 계산할 수 있기 때문입니다.대안 통계적 가정은 통계 모델을 구성하지 않는다. 왜냐하면 가정만으로는 모든 사건의 확률을 계산할 수 없기 때문이다.

위의 예에서는 첫 번째 가정을 통해 사건의 확률을 계산하는 것이 쉽습니다.그러나 다른 예로는 계산이 어렵거나 비실용적일 수 있습니다(예를 들어 수백만 년의 연산이 필요할 수 있습니다).통계적 모델을 구성하는 가정은 그러한 어려움을 수용할 수 있다. 계산을 하는 것은 실용적일 필요가 없으며 이론적으로만 가능하다.

형식적 정의

수학적 용어로 통계 모델은 일반적으로 쌍( $S,{\mathcal {P}}$ $S,{\mathcal {P}}$ { $displaystyle$ S, {\ $mathcal$ ${\mathcal {P}}$ { $P})$ 으로 간주됩니다. $S$ 서S(\ $displaystyle$ S $)$ 는 $S$ 가능한 관측치 집합, 즉 표본 공간, $(\displaystyle$ { $P})$ 는 ${\mathcal {P}}$ S(\ $displaystyle$ S $S$ ^[3]의 확률 분포 집합입니다.

이 정의의 배후에 있는 직관은 다음과 같다.관측된 데이터를 생성하는 공정에 의해 유도되는 "참" 확률 분포가 있다고 가정합니다.실제 분포에 적절히 가까운 분포를 포함하는 분포 집합을 나타내기 위해 P $(\$ 를 ${\mathcal {P}}$ ${\mathcal {P}}$ 합니다.

P ${\mathcal {P}}$ {\ $style$ {\ $mathcal {P}}}$ 에 ${\mathcal {P}}$ 실제 분포가 포함되어 있을 ${\mathcal {P}}$ 는 없으며, 실제로는 거의 없습니다.실제로 Burnham & Anderson이 말했듯이, "모델은 현실의 단순화 또는 근사치이므로 모든 ^[4]현실을 반영하지는 않을 것이다."라는 말이 있습니다.

${\mathcal {P}}$ P $(\$ 는 ${\mathcal {P}}$ 거의 항상 ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ 됩니다 ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ P ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ { ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ : ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ θ θ θ $}$ { $displaystyle$ { P } = \ { P _ { \ $Theta }$ : \ $theta \$ } 。세트 $\Theta$ { $displaystyle$ \ $Theta }$ 는 $\Theta$ 모델의 파라미터를 정의합니다.파라미터화는 일반적으로 개별적인 모수값을 갖는 것이 필요하다. 즉, P $P_{\theta _{1}}=P_{\theta _{2}}\Rightarrow \theta _{1}=\theta _{2}$ 1 $P_{\theta _{1}}=P_{\theta _{2}}\Rightarrow \theta _{1}=\theta _{2}$ $P_{\theta _{1}}=P_{\theta _{2}}\Rightarrow \theta _{1}=\theta _{2}$ $P_{\theta _{1}}=P_{\theta _{2}}\Rightarrow \theta _{1}=\theta _{2}$ 2 $P_{\theta _{1}}=P_{\theta _{2}}\Rightarrow \theta _{1}=\theta _{2}$ 1 $P_{\theta _{1}}=P_{\theta _{2}}\Rightarrow \theta _{1}=\theta _{2}$ $P_{\theta _{1}}=P_{\theta _{2}}\Rightarrow \theta _{1}=\theta _{2}$ 2 { $displaystyle P_{\theta$ _ ${1$ } = $P_{\theta$ _ ${2}}\rightarrow \theta _{$ 1}=\ta $P_{\theta _{1}}=P_{\theta _{2}}\Rightarrow \theta _{1}=\theta _{2}$ _ ${2$ }}}와 같이 $P_{\theta _{1}}=P_{\theta _{2}}\Rightarrow \theta _{1}=\theta _{2}$ 보유해야 한다.요건을 충족하는 파라미터화는 식별할 ^[3]수 있다고 한다.

예

인구에 아이들의 나이가 균일하게 분포되어 있는 인구가 있다고 가정해 봅시다.아이의 키는 나이와 확률적으로 관련될 것이다. 예를 들어, 우리가 아이가 7세라는 것을 알고 있을 때, 이것은 아이의 키가 1.5미터가 될 가능성에 영향을 미친다.이 관계를 선형 회귀 모형으로 공식화할 수 있습니다.키_i₀ = b₀ + 베이글₁_i + ,입니다_i.여기서 b는 가로채기₁, b는 나이를 곱하여 키를 예측하고 ,는_i 오차항, i는 아이를 식별합니다.이는 키가 연령별로 예측되지만 오류가 있음을 의미합니다.

허용 가능한 모형은 모든 데이터 점과 일치해야 합니다.따라서 직선(높이 = b₀ + 베이글₁_i)은_i 모든 데이터 점에 정확히 적합하지 않는 한, 즉 모든 데이터 점이 선 위에 완벽하게 놓여 있지 않는 한 데이터 모형에 대한 방정식이 될 수 없습니다.모형이 모든 데이터 점과 일치하도록 오차항 θ가_i 방정식에 포함되어야 합니다.

통계적 추론을 하기 위해서는 먼저 θ에_i 대한 확률 분포를 가정해야 한다.예를 들어, distrib_i 분포가 i.i.d라고 가정할 수 있습니다.가우스, 평균이 0인 경우이 경우 모델에는 b, b₁ 및 가우스 분포의 분산이라는₀ 세 가지 모수가 있습니다.

$S,{\mathcal {P}}$ ( $S,{\mathcal {P}}$ , P $S,{\mathcal {P}}$ \ $displaystyle$ S , {\ $mathcal {P}}$ )은 다음과 같습니다.모델의 샘플 공간 $(\displaystyle$ S $S$ 는 가능한 모든 쌍(나이, 키)으로 구성됩니다.θ{\theta\displaystyle}, P){Pθ:θ ∈ Θ}의 모든 가능한 값의 만약 Θ{\Theta\displaystyle}집합 θ{\theta\displaystyle})(b0, b1, σ2)의 각 가능한 가치를&P({\displaystyle P_{\theta}에 의해 분배 의미}. S{S\displaystyle}에 대한 분포를 결정한다. ${\displaystyle {P}=\{P_{\theta}}:\theta\in\$ theta ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ (파라미터화는 식별할 수 있으며 확인도 용이합니다.)

이 예에서는 (1)S를 $지정$ 하고 (2)를 P $(\$ ${P$ 와 관련된 $S$ 몇 가지 가정을 함으로써 모델이 결정됩니다. 이 높이는 연령의 선형 함수로 근사할 수 있으며 근사치의 오차는 i.id로 분산된다는 두 가지 가정이 있습니다.가우스전제조건은 필요한 대로 ${\mathcal {P}}$ P $(\displaystyle\mathcal$ { $P$ 를 ${\mathcal {P}}$ 에 충분합니다.

일반적인 의견

통계 모형은 수학 모형 중 특별한 종류이다.통계모델을 다른 수학모델과 구별하는 것은 통계모델이 비결정론적이라는 것이다.따라서 수학 방정식을 통해 지정된 통계 모델에서 일부 변수는 특정 값을 가지지 않고 확률 분포를 가진다. 즉, 일부 변수는 확률적이다.어린이 키가 있는 위의 예에서, θ는 확률 변수이다. 확률 변수가 없다면, 모델은 결정론적일 것이다.

통계 모형은 모형화할 데이터 생성 프로세스가 결정론적인 경우에도 종종 사용됩니다.예를 들어, 동전 던지기는 원칙적으로 결정론적 과정이지만, 일반적으로 확률론적(베르누이 과정을 통해)으로 모델링된다.

주어진 데이터 생성 프로세스를 나타내는 적절한 통계 모델을 선택하는 것은 때때로 매우 어려우며, 프로세스와 관련 통계 분석 모두에 대한 지식이 필요할 수 있다.이와 관련, 통계학자 데이비드 콕스 경은 "주제적 문제에서 통계적 모델로의 변환이 어떻게 이루어지는지가 종종 분석에서 가장 중요한 부분"^[5]이라고 말했다.

코니시&키타가와에 ^[6]의하면, 통계 모델에는 세 가지 목적이 있다.

예측
정보의 추출
확률 구조 설명

이 세 가지 목적은 기본적으로 Friendly & Meyer가 제시한 세 가지 목적과 동일합니다.예측, 추정, ^[7]설명입니다.세 가지 목적은 연역적 추리, 귀납적 추리, 귀납적 추리 등 세 가지 논리적 추리와 일치합니다.

모델의 치수

통계 모델 ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ , $S,{\mathcal {P}}$ ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ { ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ S $,$ {\ $mathcal$ ${P$ $S,{\mathcal {P}}$ 이 있고 P ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ { $P}$ = { $P_$ {\ $theta$ } :\ $theta$ \} ) ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ = { $P_{\theta$ } ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ 。이 모델은 $\Theta$ \Theta $\Theta$ $}$ 의 치수가 유한할 경우 파라메트릭이라고 합니다.표기법에서는 ${\$ R $\Theta \subseteq \mathbb {R} ^{k}$ \ $displaystyle$ \ $Theta$ \ $subseteq$ \ $mathbb { R$ } ^ { $k$ } ( $여기$ 서 k는 양의 $\mathbb {R}$ 이며, R $\$ 은 $\Theta \subseteq \mathbb {R} ^{k}$ $\mathbb {R}$ 실수를 나타내며, 원칙적으로 다른 집합을 사용할 수 있습니다).여기서 $k$ 는 모형의 차원이라고 합니다.

예를 들어, 데이터가 일변량 가우스 분포에서 발생한다고 가정하면, 다음과 같이 가정합니다.

}

P_{\mu ,\sigma }(x)\equiv {\sqrt {2\pi }}\sigma }}\exp \left(-{\frac {(x-\mu)^{2}}}{2\sigma ^{2}}\right):

\mu \in \mathbb {R} ,\sigma

>

0\right

이 예에서는 치수 $k$ 는 2와 같습니다.

또 다른 예로 데이터가 i.i.d.와의 직선에 따라 분포되어 있다고 가정하는 점( $x$ , $y$ )으로 구성되어 있다고 가정합니다.가우스 잔차(평균이 0인 경우): 어린이 키에 대한 예에서 사용한 것과 동일한 통계 모델로 이어진다.통계 모형의 차원은 선의 절편, 선의 기울기, 잔차 분포의 분산 등 3입니다(기하학에서 직선의 차원은 1입니다).

공식적으로는 $(\displaystyle \theta$ \ $in \Theta$ })은 $\theta \in \Theta$ 치수 k를 갖는 단일 파라미터이지만 k개의 개별 파라미터로 $구성$ 되는 경우도 있습니다.예를 들어, 일변량 가우스 분포의 경우, $\theta$ { $displaystyle \theta }$ 는 $\theta$ 공식적으로 치수 2의 단일 모수이지만, 때로는 2개의 개별 모수(평균 및 표준 편차)로 구성되는 것으로 간주됩니다.

파라미터 세트 $\Theta$ (\ $displaystyle \Theta$ })가 $\Theta$ 무한 차원인 경우 통계 모델은 비모수입니다.통계 모델은 유한 차원 및 무한 차원 매개변수를 모두 갖는 경우 반파라메트릭이다. $형식적$ 으로 k가 $\Theta$ (\ $displaystyle \Theta)$ 의 차원이고 $\Theta$ n이 샘플 수인 경우, 반파라메트릭 및 비모수 모델 $k\rightarrow \infty$ k $k\rightarrow \infty$ ${\$ $n\rightarrow \infty$ n $n\rightarrow \infty$ → 0 $k/n\rightarrow 0$ {\ k $/$ $infty$ 。 $k/n\rightarrow 0$ k / $k/n\rightarrow 0$ 0 $row$ \ $displaystyle$ k $\$ $rightarrow$ $\infty$ } \ infty $k/n\rightarrow 0$ $k\rightarrow \infty$ 。 $ghtarrow \infty$ $n\rightarrow \infty$ 그러면 모델은 반파라메트릭입니다.그렇지 않으면 모델은 비모수입니다.

파라메트릭 모델은 단연코 가장 일반적으로 사용되는 통계 모델이다.반파라메트릭 및 비모수 모델에 대해 데이비드 콕스 경은 "이러한 모델들은 전형적으로 구조와 분포 형태에 대한 더 적은 가정을 포함하지만, 대개 독립성에 대한 강한 가정을 포함한다"^[8]고 말했다.

중첩된 모델

첫 번째 모형의 모수에 제약 조건을 적용하여 첫 번째 모형이 두 번째 모형으로 변환될 수 있는 경우 두 개의 통계 모형이 내포됩니다.예를 들어, 모든 가우스 분포 집합에는 0-평균 가우스 분포 집합이 포함되며, 이 집합에는 0-평균 분포를 얻기 위해 모든 가우스 분포 집합의 평균을 제한합니다.두 번째 예시로, 2차 모형은

y = b 0 + bx 1 + bx 22 + ,, ~ ~ 𝒩 2 (0, ))

포함, 내포된 선형 모형

y = b 0 + bx 1 + ,, ~ ~ ((02, ))

: $파라미터 2$ b를 0으로 제한합니다.

두 가지 예에서 첫 번째 모델은 두 번째 모델보다 더 높은 차원을 가집니다(첫 번째 예에서는 0-평균 모델은 차원 1).그런 경우가 종종 있지만 항상 있는 것은 아니다.다른 예로 차원 2를 갖는 양의 평균 가우스 분포 집합은 모든 가우스 분포 집합 내에 중첩됩니다.

모델 비교

통계적 모델을 비교하는 것은 통계적 추론의 많은 부분에서 기본이다.실제로, Konishi & Kitagawa(2008, 페이지 75)는 다음과 같이 말한다. "통계적 추론의 문제의 대부분은 통계적 모델링과 관련된 문제라고 볼 수 있다.그것들은 일반적으로 여러 통계 모델의 비교로 공식화된다."

모델을² 비교하는 일반적인 기준에는 R, Bayes 인자, Akaike 정보 기준 및 우도비 검정과 그 일반화, 상대 우도가 포함된다.

「」를 참조해 주세요.

메모들

^ Cox 2006, 페이지 178
^ 2008년도, 페이지 280
^ ^a ^b 매컬러 2002
^ Burnham & Anderson 2002, 1 1.2.5
^ Cox 2006, 197페이지
^ 코니시 & 기타가와 2008, 11 . 1
^ 프렌들리 & 마이어 2016, 11.6파운드
^ Cox 2006, 페이지 2

레퍼런스

를 클릭합니다Adèr, H. J. (2008), "Modelling", in Adèr, H. J.; Mellenbergh, G. J. (eds.), Advising on Research Methods: A consultant's companion, Huizen, The Netherlands: Johannes van Kessel Publishing, pp. 271–304.
를 클릭합니다Burnham, K. P.; Anderson, D. R. (2002), Model Selection and Multimodel Inference (2nd ed.), Springer-Verlag.
를 클릭합니다Cox, D. R. (2006), Principles of Statistical Inference, Cambridge University Press.
를 클릭합니다Friendly, M.; Meyer, D. (2016), Discrete Data Analysis with R, Chapman & Hall.
를 클릭합니다Konishi, S.; Kitagawa, G. (2008), Information Criteria and Statistical Modeling, Springer.
를 클릭합니다McCullagh, P. (2002), "What is a statistical model?" (PDF), Annals of Statistics, 30 (5): 1225–1310, doi:10.1214/aos/1035844977.

추가 정보

Davison, A. C. (2008), 케임브리지 대학 출판부 통계 모델
Drton, M.; Sullivant, S. (2007), "Algebraic statistical models" (PDF), Statistica Sinica, 17: 1273–1297
Freedman, D. A. (2009), 케임브리지 대학 출판부 통계 모델
Helland, I. S. (2010), 과학적 모델 및 방법의 통합 기반을 향한 단계, 세계 과학
Chroese, D. P.; Chan, J. C. (2014), 통계 모델링 및 계산, 스프링거
Shmueli, G. (2010), "To explain or to predict?", Statistical Science, 25 (3): 289–310, arXiv:1101.0891, doi:10.1214/10-STS330

[1] Cox 2006, 페이지 178

[2] 2008년도, 페이지 280

[McCullagh-3] 매컬러 2002

[4] Burnham & Anderson 2002, 1 1.2.5

[5] Cox 2006, 197페이지

[6] 코니시 & 기타가와 2008, 11 . 1

[7] 프렌들리 & 마이어 2016, 11.6파운드

[8] Cox 2006, 페이지 2

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Search

통계 모형

네임스페이스

더

목차

서론

형식적 정의

예

일반적인 의견

모델의 치수

중첩된 모델

모델 비교

「」를 참조해 주세요.

메모들

레퍼런스

추가 정보

Search

통계 모형

서론

형식적 정의

예

일반적인 의견

모델의 치수

중첩된 모델

모델 비교

「 」를 참조해 주세요.

메모들

레퍼런스

추가 정보

「」를 참조해 주세요.