통계개념
통계 에서 다변량 랜덤 변수 의 공분산 행렬 을 알 수 없지만 추정 해야 하는 경우도 있다.그런 다음 공분산 행렬 의 추정은 다변량 분포의 표본을 기초로 실제 공분산 행렬의 근사치를 구하는 문제를 다룬다. 관측치가 완료된 단순 사례는 표본 공분산 행렬 을 사용하여 처리할 수 있다. 표본 공분산 행렬(SCM)은 공분산 행렬의 공간을 R 에서p ×p 외측 볼록 원뿔 로 보는 경우 공분산 행렬의 불편 하고 효율적인 추정기 이지만, 양-확정 행렬 의 내적 형상 을 사용하여 측정한 SCM은 편향 되고 비효율적인 추정기다.[1] 또한 랜덤 변수가 정규 분포 를 갖는 경우 표본 공분산 행렬은 Wishart 분포 를 가지며, 이 분포의 크기가 약간 다른 버전이 최대우도 추정치 가 된다. 누락된 데이터 를 포함하는 사례에는 더 깊은 고려가 필요하다.또 다른 문제는 표본 공분산 행렬이 매우 민감하게 반응하는 특이치 에 대한 강건성 이다.[2] [3] [4]
다변량 데이터의 통계 분석에는 변수가 서로 연관되어 변화하는 방식에 대한 탐색적 연구가 수반되는 경우가 많으며, 이는 변수의 공분산 행렬을 포함하는 명시적 통계적 모델이 뒤따를 수 있다. 따라서 관측 데이터에서 직접 공분산 행렬의 추정은 다음과 같은 두 가지 역할을 한다.
상호간 연구에 사용할 수 있는 초기 추정치를 제공한다. 모형 검사에 사용할 수 있는 표본 추정치 제공. 공분산 행렬의 추정은 주성분 분석 및 인자 분석 의 초기 단계에서 필요하며, 데이터 집합의 종속 변수 를 랜덤 표본의 결과로서 독립 변수 와 함께 처리하는 회귀 분석 버전에도 관여한다.
일반 컨텍스트에서의 추정 (p×p ) 공분산 행렬 의 불편 추정기인 p-차원 랜덤 벡터 X1 ∈ R(pp ×1 ×1 열 벡터)의 x,..., x 로n 구성된 표본 이 주어진다.
Σ = E [ ( X − E [ X ] ) ( X − E [ X ] ) T ] {\displaystyle \operatorname {\Sigma } =\operatorname {E}[X]\right]\left(X-\operatorname {E}[X]\right)^{\mathrm {T}\right]} 표본 공분산 행렬 이다.
Q = 1 n − 1 ∑ i = 1 n ( x i − x ¯ ) ( x i − x ¯ ) T , {\displaystyle \mathbf{Q} ={1 \over{n-1}\sum _{i}-{\overline{x})(x_{i}-{\overline{x}})^{\mathrm {T}}},} 여기서 x i {\ displaystyle x_{i} 는 p-차원 랜덤 벡터의 i번째 관측치 및 벡터
x ¯ = 1 n ∑ i = 1 n x i {\displaystyle {\overline{x}}={1 \over{n}\sum _{i=1}^{n}x_{i}}}} 표본 평균 이다.이는 이론적 평균과 공분류가 존재한다는 전제하에 랜덤 변수 X 의 분포와 무관하게 사실이다. n 이 아닌 n - 1 인자의 이유는 표본 분산 및 표본 공분산 추정치에 나타나는 동일한 인자의 이유와 본질적으로 동일하며, 이는 평균이 알려져 있지 않고 표본 평균으로 대체된다는 사실과 관련이 있다(베셀의 보정 참조).
랜덤 변수 X 의 분포가 특정 분포 계열 내에 있는 것으로 알려진 경우, 그 가정에 기초하여 다른 추정치를 도출할 수 있다.잘 알려진 예는 랜덤 변수 X 가 정규 분포 를 따르는 경우: 이 경우 공분산 행렬의 최대우 도 추정기 는 편향되지 않은 추정치와 약간 다르며, 다음과 같이 주어진다.
Q n = 1 n ∑ i = 1 n ( x i − x ¯ ) ( x i − x ¯ ) T . {\displaystyle \mathbf{Q_{n}} ={1\overn}\sum _{i=1}^{n}(x_{i}-{\overline{x})^{x_{\overline{x}}}^{\mathrm {T}}}}}}} 이 결과의 도출은 다음과 같다. 분명히, 편향되지 않은 추정기와 최대우도 추정기의 차이는 큰 n 에 대해 감소한다.
일반적인 경우 공분산 행렬의 편향되지 않은 추정치는 관측된 데이터 집합의 데이터 벡터가 모두 완성되었을 때 허용 가능한 추정치를 제공한다. 즉, 공분산 행렬에는 결측 요소 가 없다. 공분산 행렬을 추정하는 한 가지 방법은 각 분산 또는 쌍방향 공분산의 추정을 별도로 처리하고 두 변수 모두에 유효한 값이 있는 모든 관측치를 사용하는 것이다. 결측 데이터가 랜덤하게 결측되었다고 가정하면 공분산 행렬에 대한 추정치가 편향되지 않게 된다. 그러나 추정된 공분산 행렬이 양의 반확실성이라고 보장되지 않기 때문에 많은 적용의 경우 이 추정치를 수용할 수 없을 수 있다. 이는 절대값이 1보다 큰 추정 상관 계수 및/또는 비반복 공분산 행렬을 가질 수 있다.
광각 정지 신호 쌍의 교차 공분산 을 추정할 때 누락된 샘플이 랜덤할 필요 는 없다(예: 임의 인자에 의한 하위 샘플링이 유효하다).[citation needed ]
다변량 정규 분포의 최대 우도 추정 무작위 벡터 X ∈ R p (p ×1 "기둥 벡터")은 σ ∈가 p × p 양의 유한 행렬 이고 X 의 확률밀도 함수 가 X인 경우 정확하게 비정렬 공분산 행렬 σ과 함께 다변량 정규 분포를 가진다.
f ( x ) = ( 2 π ) − p 2 퇴장시키다 ( Σ ) − 1 2 생략하다 ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) {\displaystyle f(x)=(2\pi )^{-{\frac {p}{2}}}\,\det(\Sigma )^{-{\frac {1}{2}}}\exp \left(-{1 \over 2}(x-\mu )^{\mathrm {T} }\Sigma ^{-1}(x-\mu )\right)} 여기서 μ μ R 은p ×1 X 의 기대값 이다. 공분산 행렬 σ은 한 차원에서의 분산 이 무엇인지에 대한 다차원 아날로그다.
( 2 π ) − p 2 퇴장시키다 ( Σ ) − 1 2 {\displaystyle (2\pi )^{-{\frac {p}{2}}\\det(\Sigma )^{-{\frac {1}{2}}: 밀도 f ( x ) {\displaystyle f(x)} 을 (를) 정규화하여 1과 통합한다.
이제 1 X, ..., X 가n 독립적 이며 위의 분포에서 동일한 분포를 갖는다고 가정합시다.이 표본 의 관측값 x 1 , ..., x 에n 근거하여 σ을 추정하고자 한다.
첫 번째 단계 우도 함수는 다음과 같다.
L ( μ , Σ ) = ( 2 π ) − n p 2 ∏ i = 1 n 퇴장시키다 ( Σ ) − 1 2 생략하다 ( − 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) ) {\displaystyle {\mathcal {L}}(\mu ,\Sigma )=(2\pi )^{-{\frac {np}{2}}}\,\prod _{i=1}^{n}\det(\Sigma )^{-{\frac {1}{2}}}\exp \left(-{\frac {1}{2}}(x_{i}-\mu )^{\mathrm {T} }\Sigma ^{-1}(x_{i}-\mu )\right)} 평균 벡터 μ 의 최대 우도 추정치는 "샘플 평균 " 벡터:
x ¯ = x 1 + ⋯ + x n n . {\displaystyle {\overline{x}={\frac {x_{1}+\cdots +x_{n}}. } 자세한 내용은 정규 분포에 대한 기사의 추정 섹션 을 참조하십시오. 여기서의 공정은 유사하다.
추정치 x \{\ displaystyle{\bar{ x}}는 σ에 의존하지 않기 때문에 우도함수 에서 μ 로 대체하면 된다.
L ( x ¯ , Σ ) ∝ 퇴장시키다 ( Σ ) − n 2 생략하다 ( − 1 2 ∑ i = 1 n ( x i − x ¯ ) T Σ − 1 ( x i − x ¯ ) ) , {\displaystyle {\mathcal {L}}({\overline {x}},\Sigma )\propto \det(\Sigma )^{-{\frac {n}{2}}}\exp \left(-{1 \over 2}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{\mathrm {T} }\Sigma ^{-1}(x_{i}-{\overline {x}})\right),} 그런 다음 데이터의 가능성을 최대화하는 σ의 값을 구하십시오(실제로 로그 L {\ displaystyle {\mathcal{L}).
1 × 1 행렬의 추적 Now we come to the first surprising step: regard the scalar ( x i − x ¯ ) T Σ − 1 ( x i − x ¯ ) {\displaystyle (x_{i}-{\overline {x}})^{\mathrm {T} }\Sigma ^{-1}(x_{i}-{\overline {x}})} as the trace of a 1×1 matrix. 이를 통해 A 와 B 가 매트릭스 형태일 때마다 ID tr(AB ) = tr(BA )를 사용할 수 있어 두 제품 모두 존재한다. 우리는 얻는다.
L ( x ¯ , Σ ) ∝ 퇴장시키다 ( Σ ) − n 2 생략하다 ( − 1 2 ∑ i = 1 n ( ( x i − x ¯ ) T Σ − 1 ( x i − x ¯ ) ) ) = 퇴장시키다 ( Σ ) − n 2 생략하다 ( − 1 2 ∑ i = 1 n tr ( ( x i − x ¯ ) ( x i − x ¯ ) T Σ − 1 ) ) = 퇴장시키다 ( Σ ) − n 2 생략하다 ( − 1 2 tr ( ∑ i = 1 n ( x i − x ¯ ) ( x i − x ¯ ) T Σ − 1 ) ) = 퇴장시키다 ( Σ ) − n 2 생략하다 ( − 1 2 tr ( S Σ − 1 ) ) {\displaystyle {\begin{aligned}{\mathcal {L}}({\overline {x}},\Sigma )&\propto \det(\Sigma )^{-{\frac {n}{2}}}\exp \left(-{1 \over 2}\sum _{i=1}^{n}\left(\left(x_{i}-{\overline {x}}\right)^{\mathrm {T} }\Sigma ^{-1}\left(x_{i}-{\overline {x}}\right)\right)\right) \\&=\det(\Sigma )^{-{\frac {n}{2}}}\exp \left(-{1 \over 2}\sum _{i=1}^{n}\operatorname {tr} \left(\left(x_{i}-{\overline {x}}\right)\left(x_{i}-{\overline {x}}\right)^{\mathrm {T} }\Sigma ^{-1}\right)\right) \\&=\det(\Sigma )^{-{\frac {n}{2}}}\exp \left(-{1 \over 2}\operatorname {tr} \left(\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)\left(x_{i}-{\overline {x}}\right)^{\mathrm {T} }\Sigma ^{-1}\right)\right) \\&=\det(\Sigma )^{-{\frac {n}{2}}}\exp \left(-{1\over 2}\operatorname {tr} \left(S\S\Sigma ^{-1}\right)\end{igned}}}}}}} 어디에
S = ∑ i = 1 n ( x i − x ¯ ) ( x i − x ¯ ) T ∈ R p × p . {\displaystyle S=\sum _{i=1}^{n}(x_{i}-{\overline{x})^(x_{i}-{\overline{x})^{\mathrm {T}\in \mathbf {R} ^{p\time p}. } S {\displaystyle S} 을 (를) 산점 행렬 이라고 부르기 도 하며 , p {\displaystyle p }로 구성된 데이터의 부분 집합이 존재한다면 (우리가 가정할) 양적으로 확실하다.
스펙트럼 정리 사용 그것은 선형대수 의 스펙트럼 정리 에서 양-적정 대칭행렬 S 가 고유한 양의-적정 대칭 제곱근 S 를1/2 갖는다는 것을 따른다.우리는 다시 추적의 "순환 속성" 을 사용하여 글을 쓸 수 있다.
퇴장시키다 ( Σ ) − n 2 생략하다 ( − 1 2 tr ( S 1 2 Σ − 1 S 1 2 ) ) . {\displaystyle \det(\Sigma )^{-{\frac {n}{2}}:}\exp \left(-{1\over 2}\operatorname {tr} \l) \lef(S^{1}{1}Sigma^{1}S^{1}{1}{2}}\rigma)\오른쪽). } Let B = S 1/2 σ −1 S 1/2 .그러면 위의 표현이 된다.
퇴장시키다 ( S ) − n 2 퇴장시키다 ( B ) n 2 생략하다 ( − 1 2 tr ( B ) ) . {\displaystyle \det(S)^{-{\frac {n}{2}}\det(B)^{\frac {n}{n}}}}}} exp \좌(-{1 \2}이상 \operatorname {tr}(B)\우) } 양-확정성 행렬 B는 대각선으로 할 수 있으며, 그 다음 B 의 가치를 최대화하는 문제를 찾을 수 있다.
퇴장시키다 ( B ) n 2 생략하다 ( − 1 2 tr ( B ) ) {\displaystyle \det(B)^{\frac {n}{2}}\exp \left(-{1 \over 2}\operatorname {tr}(B)\오른쪽)} 제곱 행렬의 추적은 고유값의 합("추적값 및 고유값 ")과 같기 때문에 방정식은 최대화하는 고유값 λ1 , ..., λ을p 찾는 문제로 감소한다.
λ i n 2 생략하다 ( − λ i 2 ) . {\displaystyle \i}^{{i}^{\frac {n}{2}}\exp \leftleft{\fract}{\fractda _{i}2}}\오른쪽). } 이것은 단지 미적분학 문제일 뿐이고 우리는 모든 i에 대해 λi = n 을 얻는다. 따라서 Q 가 고유 벡터의 행렬이라고 가정하고
B = Q ( n I p ) Q − 1 = n I p {\displaystyle B=Q(nI_{p}) Q^{-1}=nI_{p}}} 즉 , p×p ID 매트릭스의 n배 .
마무리 단계 마침내 우리는 알게 되었다.
Σ = S 1 2 B − 1 S 1 2 = S 1 2 ( 1 n I p ) S 1 2 = S n , {\displaystyle \Sigma =S^{\frac {1}{2}}B^{-1}S^{1}{1}{1}:{2}}=S^{\frac {1}{1}{1}:{\frac}{1}{n}}}}} I_{p}\오른쪽) S^{\frac{1}{2}}={\frac {S}{n}},} 즉, p ×p "공분산 행렬"
S n = 1 n ∑ i = 1 n ( X i − X ¯ ) ( X i − X ¯ ) T {\displaystyle {S \over n}={1 \over n}\sum _{i}-{\overline{X})(X_{i}-{\overline{X})^{\mathrm{T}}}}}}}}}}} "인구분포 공분산 행렬"의 최대 우도 추정자 Ⅱ. 이 시점에서 우리는 "추정보다는 추정자"로 생각하고 있기 때문에, 즉, 알고 있으면 확률분포를 얻을 수 있는 임의의 것으로 생각하기 때문에 소문자 x보다는 자본 X를 사용하고 있다. 랜덤 행렬 S 는 자유도가 n - 1인 위시아트 분포 를 가질 수 있다.[5] 즉,
∑ i = 1 n ( X i − X ¯ ) ( X i − X ¯ ) T ∼ W p ( Σ , n − 1 ) . {\displaystyle \sum \{i=1}^{n}(X_{i}-{\overline{X})^{X_{\overline{X})^{\mathrm {T}}}\sim W_{p}(\Sigma ,n-1). } 대체 파생 최대우도 추정기의 대안적 도출은 행렬 미적분학 공식을 통해 수행할 수 있다(역행렬 의 결정요소의 차이 와 차이 참조). 또한 평균의 최대우도 추정치에 대해 앞에서 언급한 사실을 검증한다. 추적 트릭을 사용하여 로그 양식에 가능성을 다시 쓰십시오.
ln L ( μ , Σ ) = 경시하다 − n 2 ln 퇴장시키다 ( Σ ) − 1 2 tr [ Σ − 1 ∑ i = 1 n ( x i − μ ) ( x i − μ ) T ] . {\displaystyle \ln {\mathcal {L}}(\mu ,\Sigma )=\operatorname {const} -{n \over 2}\ln \det(\Sigma )-{1 \over 2}\operatorname {tr} \left[\Sigma ^{-1}\sum _{i=1}^{n}(x_{i}-\mu )(x_{i}-\mu )^{\mathrm {T} }\right]. } 이 로그 우도의 차이는
d ln L ( μ , Σ ) = − n 2 tr [ Σ − 1 { d Σ } ] − 1 2 tr [ − Σ − 1 { d Σ } Σ − 1 ∑ i = 1 n ( x i − μ ) ( x i − μ ) T − 2 Σ − 1 ∑ i = 1 n ( x i − μ ) { d μ } T ] . {\displaystyle d\ln {\mathcal {L}}(\mu ,\Sigma )=-{\frac {n}{2}}\operatorname {tr} \left[\Sigma ^{-1}\left\{d\Sigma \right\}\right]-{1 \over 2}\operatorname {tr} \left[-\Sigma ^{-1}\{d\Sigma \}\Sigma ^{-1}\sum _{i=1}^{n}(x_{i}-\mu )(x_{i}-\mu )^{\mathrm {T} }-2\Sigma ^{-1}\sum _{i=1}^{n}(x_{i}-\mu )\{d\mu \}^{\mathrm {T} }\right]. } 그것은 자연스럽게 평균 추정과 관련된 부분, 그리고 분산 추정과 관련된 부분으로 나뉜다. 최대 d ln L (μ , σ ) = 0 {\displaystyle d\ln {\mathcal {L}(\mu ,\Sigma )=0 } 에 대한 첫 번째 순서 조건 은 d μ {\displaystyle d\mu} 과 d σ {\displaystystyledSigma} 을 곱한 항이 0이면 충족된다 .(최대우 도 추정치) ) {\displaystyle \Sigma } 이 (가) 비송수적이라고 가정하면, 평균 벡터 추정치에 대한 첫 번째 순서 조건은 다음과 같다.
∑ i = 1 n ( x i − μ ) = 0 , {\displaystyle \sum _{i=1}^{n}(x_{i}-\mu )=0,} 최대우도 추정기로 이어지는 경우
μ ^ = X ¯ = 1 n ∑ i = 1 n X i . {\displaystyle {\widehat{\mu }}={\bar {X}={1\over n}\sum _{i=1}^{n}X_{i}. } 이를 통해 우리는 단순화할 수 있다.
∑ i = 1 n ( x i − μ ) ( x i − μ ) T = ∑ i = 1 n ( x i − x ¯ ) ( x i − x ¯ ) T = S {\displaystyle \sum _{i=1}^{n}(x_{i}-\mu )(x_{i}-\mu )^{\mathrm {T} }=\sum _{i=1}^{n}(x_{i}-{\bar {x}})(x_{i}-{\bar {x}})^{\mathrm {T} }=S} 상술한 바와 같이 그러면 d ln n L {\ displaystyle d\Sigma } 의 d σ {\ displaystyle d\ln L} 을(를) 포함하는 용어를 다음과 같이 조합할 수 있다 .
− 1 2 tr ( Σ − 1 { d Σ } [ n I p − Σ − 1 S ] ) . {\displaystyle -{1 \over 2}\operatorname {tr} \left(\Sigma ^{-1}\left\{d\Sigma \right\}\left[n] I_{p}-\Sigma ^{-1}S\right]\right). } 첫 번째 순서 조건 d ln L ( μ , σ ) = 0 {\displaystyle d\ln {\mathcal {{L}}(\mu ,\Sigma )=0} 은 대괄호 안의 항이 (매트릭스 값) 0일 때 유지된다 .후자를 σ {\displaystyle \Sigma } 만큼 미리 멀티플렉싱하고 n {\displaystyle n} 로 나누면 다음이 제공됨
Σ ^ = 1 n S , {\displaystyle {\widehat {\\Sigma }}={1 \over n}S,} 물론 앞서 주어진 표준적 파생과 일치한다.
Dwyer는 위에 나타난 것과 같은 두 용어로 분해하는 것은 "필요하지 않은" 것이며 두 개의 작업 라인으로 추정치를 도출한다고 지적한다. 이러한 파생 추정기가 우도 함수에 대한 고유한 전역 최대화자임을 보여주는 것은 사소한 일이 아닐 수 있다는 점에 유의하십시오.
고유 공분산 행렬 추정 내재적 기대 공분산 R 이 있는 p-차원 0-평균 가우스 랜덤 변수 X 의 n개 의 독립 관측치 x 1 ,..., x 의n 표본 이 주어진 경우, R 의 최대우 도 추정기 는 다음과 같다.
R ^ = 1 n ∑ i = 1 n x i x i T . {\displaystyle {\hat {\mathbf {R}}}}}={1\over n}\sum _{i=1}^{n}x_{i}^{\mathrm {T}}}}}} The parameter R {\displaystyle R} belongs to the set of positive-definite matrices , which is a Riemannian manifold , not a vector space , hence the usual vector-space notions of expectation , i.e. " E [ R ^ ] {\displaystyle \mathrm {E} [{\hat {\mathbf {R} }}]} ", and estimator bias must be generalized to manifolds to make sense 공분산 행렬 추정 문제. 이는 다지관 값 점 R {\ displaystyle {\hatsbf {R}}에 대한 다지관 값 추정기 R ^ {\ displaystyle R} 의 기대를 다음과 같이 정의하여 수행할 수 있다.
E R [ R ^ ] = d e f 생략하다 R E [ 생략하다 R − 1 R ^ ] {\displaystyle \mathrm {E} _{\mathbf {R} }[{\hat {\mathbf {R} }}]\ {\stackrel {\mathrm {def} }{=}}\ \exp _{\mathbf {R} }\mathrm {E} \left[\exp _{\mathbf {R} }^{-1}{\hat {\mathbf {R} }}\right]} 어디에
생략하다 R ( R ^ ) = R 1 2 생략하다 ( R − 1 2 R ^ R − 1 2 ) R 1 2 {\displaystyle \exp _{\mathbf {R} }({\hat {\mathbf {R} }})=\mathbf {R} ^{\frac {1}{2}}\exp \left(\mathbf {R} ^{-{\frac {1}{2}}}{\hat {\mathbf {R} }}\mathbf {R} ^{-{\frac {1}{2}}}\right)\mathbf {R} ^{\frac {1}{2}}} 생략하다 R − 1 ( R ^ ) = R 1 2 ( 통나무를 하다 R − 1 2 R ^ R − 1 2 ) R 1 2 {\displaystyle \exp _{\mathbf {R} }^{-1}({\hat {\mathbf {R} }})=\mathbf {R} ^{\frac {1}{2}}\left(\log \mathbf {R} ^{-{\frac {1}{2}}}{\hat {\mathbf {R} }}\mathbf {R} ^{-{\frac {1}{2}}}\right)\mathbf {R} ^{\frac {1}{2}}} 지수 지도 와 역 지수 지도는 각각 "exp"와 "log"는 일반 행렬 지수 및 행렬 로그 이며, E[·]는 벡터 공간에 정의된 일반 기대 연산자, 이 경우 다지관의 접선 공간 이다.[1]
표본 공분산 행렬의 치우침 SCM 추정기 R ^ {\ displaystyle {\hat {\mathbf {R}}}} 의 고유 바이어스 벡터 필드 는 다음과 같이 정의된다 .
B ( R ^ ) = 생략하다 R − 1 E R [ R ^ ] = E [ 생략하다 R − 1 R ^ ] {\displaystyle \mathbf {B} ({\hat {\mathbf {R} }})=\exp _{\mathbf {R} }^{-1}\mathrm {E} _{\mathbf {R} }\left[{\hat {\mathbf {R} }}\right]=\mathrm {E} \left[\exp _{\mathbf {R} }^{-1}{\hat {\mathbf {R} }}\right]} 그런 다음 고유 추정기 치우침은 exp R B ( R ^ ) {\displaystyle \exp _{\mathbf {R}}\mathbf {B}({\hattbf {R}}}}}) 에 의해 주어진다.
복잡한 가우스 랜덤 변수의 경우 이 바이어스 벡터 필드는 동일한 것으로[1] 표시될 수 있다.
B ( R ^ ) = − β ( p , n ) R {\displaystyle \mathbf {B}({\hattbf {R}}}}})=-\beta(p,n)\mathbf {R}}} 어디에
β ( p , n ) = 1 p ( p 통나무를 하다 n + p − ψ ( n − p + 1 ) + ( n − p + 1 ) ψ ( n − p + 2 ) + ψ ( n + 1 ) − ( n + 1 ) ψ ( n + 2 ) ) {\displaystyle \cHB(p,n)={\frac {1}{p}\왼쪽(p\log n+p-\cHB(n-p+1)+(n-p+1)+(n-p+1)++++(n+1)+(n+1)\cHB(n+2)\오른쪽)} 그리고 ψ(·)는 디감마 함수 다. 표본 공분산 행렬의 내적 치우침이 동일함
생략하다 R B ( R ^ ) = e − β ( p , n ) R {\displaystyle \exp _{\mathbf {R}}\mathbf {B}({\hatbf {R}}}})=e^{-\beta(p,n)}\mathbf {R}}}}}}} 그리고 SCM은 점증적 으로 n → ∞으로 편향되지 않는다.
마찬가지로 표본 공분산 행렬의 본질적 비효율성 은 양확정 행렬 공간의 리만 곡률 에 따라 달라진다.
수축추정 표본 크기 n 이 작고 고려된 변수 p 의 수가 크면 공분산 및 상관관계의 위의 경험적 추정자는 매우 불안정하다. 특히, 평균 오차 제곱의 관점에서 최대우도 추정치에 따라 상당히 개선된 추정기를 제공할 수 있다. 더욱이 n < p ( 관측치의 수가 랜덤 변수의 수보다 적다)의 경우 공분산 행렬의 경험적 추정치는 단수 가 된다. 즉, 정밀 행렬 을 계산하기 위해 반전될 수 없다.
그 대안으로 공분산 행렬의 추정을 개선하기 위한 많은 방법이 제시되었다. 이 모든 접근법은 수축의 개념에 의존한다. 이는 베이지안 방법 과 불이익을 주는 최대우도법 에 내포되어 있으며 스타인 유형 축소 접근방식 에 명시되어 있다.
공분산 행렬의 수축 추정기의 간단한 버전은 Ledoit-Wolf 수축 추정기로 표현된다.[7] [8] [9] [10] 어떤 이는 예를 들어 대각 행렬과 같이 적절한 선택된 표적(B {\displaystyle B} )과 경험적 추정기(A {\displaystyle A }) 의 볼록한 조합 을 고려한다. 이후 축소된 추정기의 예상 정확도를 최대화하기 위해 혼합 매개변수(Δ {\displaystyle \delta } )를 선택한다. 교차 검증 또는 수축 강도의 분석적 추정치를 사용하여 이 작업을 수행할 수 있다. 결과 정규화된 추정기(Δ A + ( 1 - Δ ) B {\displaystyle \delta A+(1-\delta )B }) 는 작은 표본에 대한 최대우도 추정기를 능가하는 것으로 나타날 수 있다. 큰 표본의 경우 수축 강도가 0으로 감소하므로 이 경우 수축 추정기는 경험적 추정기와 동일하다. 효율성 증대와 별도로 축소 추정치는 항상 확실하고 양호한 상태라는 추가적인 이점을 갖는다.
다양한 축소 대상이 제안되었다.
평균 표본 분산 에 따라 크기가 조정되는 ID 행렬 단일 인덱스 모델 표본 분산이 보존되지만 모든 쌍별 상관 계수 가 서로 동일한 것으로 가정되는 등분산 모형 모든 분산이 동일하고 모든 공분산(분산과 동일하지 는 않지만 )이 서로 동일한 2-분산 행렬 다른 모든 곳에서 대각선과 0의 표본 분산을 포함하는 대각 행렬 아이덴티 [8] 수축 추정기는 여러 대상을 동시에 이용하는 다중 대상 수축 추정기로 일반화할 수 있다.[11] 공분산 수축 추정기를 계산하기 위한 소프트웨어는 R (패키지 corpor [12] 및 ShrepCovMat [13] ), Python (라이브러리 scikit-learn ) 및 MATLAB 에서 사용할 수 있다.[14]
참고 항목 참조 ^ a b c Smith, Steven Thomas (May 2005). "Covariance, Subspace, and Intrinsic Cramér–Rao Bounds" . IEEE Trans. Signal Process . 53 (5): 1610–1630. doi :10.1109/TSP.2005.845428 . S2CID 2751194 . ^ 강력한 통계 , Peter J. Huber , Wiley, 1981년(종이백, 2004년) ^ "Modern approgramme with S," William N. 베너블스 , 브라이언 D. 리플리 , 스프링거, 2002, ISBN 0-387-95457-0 , ISBN 978-0-387-95457-8 , 336페이지 ^ Devlin, Susan J. ; Gnanadesikan, R.; Kettenring, J. R. (1975). "Robust Estimation and Outlier Detection with Correlation Coefficients". Biometrika . 62 (3): 531–545. doi :10.1093/biomet/62.3.531 . ^ K.V. 마디아 , J.T. 켄트 , J.M. 비비 (1979) 다변량 분석 , 학술 언론 . ^ Dwyer, Paul S. (June 1967). "Some applications of matrix derivatives in multivariate analysis". Journal of the American Statistical Association . 62 (318): 607–625. doi :10.2307/2283988 . JSTOR 2283988 . ^ O. Ledoit와 M. Wolf(2004a) "Wayback Machine 에 보관 된 2014-12-05년 대차원 공분산 행렬에 대한 적절한 조건의 추정기 " 88 (2): 365-411. ^ a b A. 툴루미스(2015) "비모수 스타인형 수축 공분산 행렬 고차원 설정 " 계산통계 & 데이터 분석 83 : 251—261 ^ O. Ledoit와 M. Wolf(2003) "포르토폴리오 선택 적용으로 주식 수익의 공분산 행렬 추정 개선 2014-12-05 Wayback Machine 에 보관 " Journal of Experiment Finance 10 (5) : 603—621. ^ O. Ledoit와 M. Wolf (2004b) "여보, 나는 웨이백 기계 에 보관 된 2014-12-05 샘플 공분산 행렬을 축소 했다." 포트폴리오 관리 30 (4) 저널: 110-119. ^ T. 랜스위키와 M. Aladjem(2014) "공분산 행렬에 대한 다중 목표 축소 추정 ", IEEE 신호 처리 거래 , 볼륨: 62, 이슈 24, 페이지: 6380-6390. ^ corpcor: Efficient Estimation of Covariance and (Partial) Correlation , CRAN ^ ShrinkCovMat: Shrinkage Covariance Matrix Estimators , CRAN ^ 축소 대상에 대한 MATLAB 코드: 축척된 ID , 단일 인덱스 모델 , 상수 상관 모델 , 2-모수 행렬 및 대각 행렬 .