공분산

Covariance
두 랜덤 변수 XY의 공분산 부호

확률 이론통계에서 공분산은 두 랜덤 변수의 관절 변동성에 대한 척도다.[1] 한 변수의 더 큰 값이 다른 변수의 더 큰 값과 주로 일치하고 더 작은 값(즉, 변수는 비슷한 동작을 보이는 경향이 있음)[2]을 같은 값으로 유지하는 경우 공분산은 양수다. 반대의 경우, 한 변수의 큰 값이 다른 변수의 작은 값과 주로 일치할 때, 즉 변수가 반대되는 행동을 보이는 경향이 있을 때, 공분산은 음수가 된다. 따라서 공분산의 부호는 변수들 사이의 선형 관계에서 경향을 보여준다. 공분산의 크기는 정규화되지 않아 변수의 크기에 따라 해석하기가 쉽지 않다. 그러나 공분산의 정규화된 버전상관 계수는 선형 관계의 강도를 크기별로 보여준다.

(1) 공동 확률 분포의 속성으로 볼 수 있는 모집단 매개변수인 두 랜덤 변수의 공분산과 (2) 표본 공분산 사이에 구별해야 하며, 표본 공분산은 표본의 설명자 역할을 하는 것 외에 모집단 매개변수의 추정값으로도 작용한다.

정의

유한한 두 번째 모멘트를 갖는 두 개의 공동 분포된 실제 값 변수 X X 의 경우 공분산은 개별 기대값에서 편차의 곱의 기대값(또는 평균)으로 정의된다.[3][4]: p. 119

(Eq.1)

여기서 [ 은(는) 의 예상 값이며 X의 평균이라고도 한다 공분산 또한 때때로 XY {\{X로 표시된다. 또는 , Y) 분산과 유사하게 기대치의 선형성 특성을 사용하면 제품의 기대값에서 기대값의 산출물을 뺀 값으로 단순화할 수 있다.

그러나 이 방정식은 치명적인 취소에 취약하다(아래 수치 계산 섹션 참조).

공분산 (, 측정 단위 배이다 이와 반대로 공분산에 의존하는 상관 계수치수 없는 선형 의존도 측정이다. (사실상 상관 계수는 공분산의 정규화된 버전으로 간단히 이해할 수 있다.)

복합 랜덤 변수에 대한 정의

복합 랜덤 변수 , W Z(가) 다음과[4]: p. 119 같이 정의됨

정의에서 두 번째 인자의 복잡한 결합에 주목한다.

관련 의사 공분산도 정의할 수 있다.

이산 랜덤 변수

If the (real) random variable pair can take on the values for , with equal probabilities , then the covariance can be equivalently written in terms [ [Y 의 평균을 다음과 같이 한다.

또한[5] 다음과 같이 수단에 직접 언급하지 않고 동등하게 표현할 수 있다.

More generally, if there are possible realizations of , namely but with possibly unequal probabilities for , then the covariance is

공분산 예제의 기하학적 해석. 각 큐보드는 점의 경계 상자(x, y, f(x, y))이며 XY의 의미(마젠타 점)이다. 공분산이란 붉은 큐보이드의 부피에서 푸른 큐보이드를 뺀 것을 합한 것이다.

예를 들어 X가{X\displaystyle}, Y{Y\displaystyle}는 6개 중심 세포들이 불연속 합동 확률은 6가상적인 깨달음{\displaystyle f(x, y)}(), y)다면 주는 다음 결합 확률 질량 function,[6]다(), y)∈ S){(5,8),(6,8),(7,8),(5,9),(.6 ),( , ) S ( (5 ( ( :

x
5 6 7
y 8 0 0.4 0.1 0.5
9 0.3 0 0.2 0.5
0.3 0.4 0.3 1

은(는) 세 값(5, 6 및 7)을, Y 은(는) 두 값(8 및 9)을 차지할 수 있다. Their means are and . Then,

특성.

자신과의 공분산

분산은 두 변수가 동일한 공분산의 특별한 경우(즉, 한 변수가 항상 다른 변수와 동일한 값을 갖는 경우):[4]: p. 121

선형 조합의 공분산

Y Y (가) 실제 값 랜덤 변수이고, d이(가) 실제 값 상수라면 다음 사실은 공분산 정의의 결과물이다.

,… , n 1},\}, a,… , .

호프딩 공분산 정체성

두 랜덤 변수 , 사이의 공분산을 계산하는 데 유용한 ID는 Hoofding의 공분산 ID:[7]

여기서 ( , Y)( x, ) ( , ) x는 랜덤 벡터,Y ) {\ (X () )의 합동 누적분포함수량)이다(가) 여백이다.

무관성과 독립성

공분산이 0인 랜덤 변수를 비관계 변수라고 한다.[4]: p. 121 마찬가지로, 주 대각선 바깥의 모든 항목에서 공분산 행렬이 0인 랜덤 벡터의 성분도 무관하다고 한다.

이(가) 독립 랜덤 변수 경우 이들의 공분산은 0이다.[4]: p. 123 [8] 이것은 독립된 상태에서,

그러나 그 반대는 일반적으로 사실이 아니다. 예를 들어, (를[- , 1]{\[-에 균일하게 시키고Y = {\Y= 분명히 Y Y은 독립적이지 않다.

이 경우 ( X {\의 관계는 비선형인 반면 상관관계와 공분산은 두 랜덤 변수 사이의 선형 의존성을 측정하는 척도다. 이 예는 두 개의 랜덤 변수가 상관관계가 없는 경우 일반적으로 두 변수가 독립적이라는 것을 의미하지 않는다는 것을 보여준다. 그러나 두 변수가 공동으로 정규 분포를 따르는 경우(단순히 개별적으로 정규 분포를 따르는 것은 아님) 비관련성은 독립성을 의미한다.

내부 제품과의 관계

공분산의 특성 중 많은 부분은 내부 제품의 특성과 유사한 특성을 만족하는 것을 관찰함으로써 우아하게 추출할 수 있다.

  1. bilinear: for constants and and random variables ,
  2. 대칭: , )= , )
  3. positive semi-definite: for all random variables , and implies that is constant almost surely.

실제로 이러한 속성은 공분산이 유한한 두 번째 모멘트를 가진 랜덤 변수의 하위 공간을 취하고 상수로 차이를 보이는 두 개의 변수를 식별하여 얻은벡터 공간에 걸쳐 내부 제품을 정의한다는 것을 의미한다. (이 식별은 위의 양의 반정의 정의를 양의 정의로 바꾼다.) 그 지수 벡터 공간은 유한한 두 번째 모멘트와 평균 0을 가진 랜덤 변수의 하위 공간에 대해 이형적이다. 그 하위 공간에서 공분산은 정확히 표본 공간의 실제 값 함수의 L 내측2 산출물이다.

그 결과, 분산이 유한한 랜덤 변수의 경우 불평등이 발생한다.

카우치-슈워즈 불평등을 통해 보유한다.

: ( )= 0 이면 사소한 것으로 유지된다. 그렇지 않으면 랜덤 변수를 그대로 두십시오.

그러면 우리는

표본 공분산 계산

The sample covariances among variables based on observations of each, drawn from an otherwise unobserved population, are given by the matrix w출품작에 기입하다.

즉, 변수 변수 사이의 공분산 추정치 입니다

표본 평균과 표본 공분산 행렬은 랜덤 벡터 평균 및 공분산 행렬에 대한 편향되지 않은 추정치로서 벡터는 요소 = 1 , , , , , , , . K) ,\, K랜덤 변수 중 하나이다. 표본 공분산 행렬이 이(가) 아닌 에 N- 1 {\ \을(를) 갖는 이유는 본질적으로 모집단 평균 )을(를) 알 수 없고 표본 평균 ×로 대체하기 때문이다{ 모집단 평균 ( X) 이 알려진 경우 다음과 유사한 불편 추정치가 제공된다.

.

일반화

실제 랜덤 벡터의 자동 공분산 행렬

X)[X1X2쭉 펼쳐져 Xm]T{\displaystyle \mathbf{X}={\begin{bmatrix}X_{1}& 벡터, X_{2}&\dots}}나{m\displaystyle}공동으로 한정된 두번째 순간들과 함께 확률 변수의, 그것의 auto-covariance 행렬(또한 variance–covaria는 X_{m}\end{bmatrix}}^{\mathrm{T}&.nce 매트릭스예요r simply the covariance matrix) (also denoted by or ) is defined as[9]: p.335

Let be a random vector with covariance matrix Σ, and let A be a matrix that can act on on the left. The covariance matrix of the matrix-vector product A X is:

This is a direct result of the linearity of expectation and is useful when applying a linear transformation, such as a whitening transformation, to a vector.

Cross-covariance matrix of real random vectors

랜덤 벡터 m 및 Y R { {\mathb {Y} {n m × {\ 교차 공분산 행렬이 동일하다[9]: p.336 .

(Eq.2)

여기서 (는) (또는 행렬) Y 전치물이다

, j) -th 요소는 공분산 (Xi, ){\과 같다. between the i-th scalar component of and the j-th scalar component of . In particular, is the transpose of

수치 연산

When , the equation 은(는) E [ Y]{\]일 경우 치명적인 취소 가능성이 있음 [ E [ Y ]은(는) 정확하게 계산되지 않으므로 이전에 데이터가 중앙에 배치되지 않았을 때는 컴퓨터 프로그램에서 피해야 한다.[10] 이 경우 수치적으로 안정된 알고리즘이 선호되어야 한다.[11]

평.

공분산은 때로 두 랜덤 변수 사이의 "선형 의존도"의 척도로 불린다. 그것은 선형대수의 맥락에서와 같은 것을 의미하지 않는다(선형 의존도 참조). 공분산이 정규화되면 Pearson 상관 계수를 얻게 되는데, 이 계수는 변수들 간의 관계를 설명하는 가능한 최상의 선형 함수에 적합도를 제공한다. 이러한 의미에서 공분산은 의존의 선형 측정기이다.

적용들

유전학과 분자생물학에서

공분산은 생물학에서 중요한 척도다. DNA의 특정 염기서열은 종들 중에서 다른 것들보다 더 많이 보존되어 있기 때문에 단백질이나 RNA 구조물의 이차 구조와 3차 구조를 연구하기 위해 염기서열은 밀접하게 연관된 종에서 비교된다. 비코딩 RNA(마이크로RNA 등)에서 시퀀스 변화가 발견되거나 전혀 변화가 없는 경우, RNA 루프와 같은 공통 구조 모티브에 시퀀스가 필요한 것으로 파악된다. 유전학에서 공분산은 유전적 관계 매트릭스(GRM, 일명 친족 매트릭스)의 연산을 위한 기초가 되어, 가까운 친척이 없는 표본으로부터 모집단 구조에 대한 추론뿐만 아니라 복잡한 형질의 유전성 추정에 대한 추론도 가능하게 한다.

진화론자연선택론에서 프라이스 방정식은 시간이 지남에 따라 유전적 형질이 어떻게 변하는지 설명한다. 그 방정식은 진화와 자연선택에 대한 수학적 설명을 제공하기 위해 특성과 건강 사이의 공분산을 사용한다. 그것은 유전자 전달과 자연 선택이 각 신세대 인구 내에서 유전자의 비율에 미치는 영향을 이해하는 방법을 제공한다.[12][13] 가격 방정식은 조지 R에 의해 도출되었다. W.D.를 재분배하기 위한 가격. 해밀턴친족 선택에 관한 연구. 가격 방정식의 예는 다양한 진화 사례에 대해 구성되었다.

금융경제학에서는

코바리케스는 금융경제학, 특히 현대 포트폴리오 이론과 자본자산 가격결정 모델에서 핵심적인 역할을 한다. 다양한 자산의 수익률 중 공분류는 특정 가정 하에서 투자자가 (규범적 분석에서) 보유해야 하거나 (긍정적 분석에서) 보유하기로 예측한 서로 다른 자산의 상대적 금액을 결정하는 데 사용된다.

기상학 및 해양학 데이터 동화

공분산 행렬은 데이터 동화라는 절차인 기상 예측 모델을 실행하는 데 필요한 초기 조건을 추정하는 데 중요하다. '예측 오차 공분산 행렬'은 일반적으로 평균 상태 주위의 섭동 사이에 구성된다(기후학 또는 앙상블 평균). '관찰 오차 공분산 행렬'은 결합된 관측 오차(대각선 위)와 측정 사이의 상관 오차(대각선 위)의 크기를 나타내기 위해 구성된다. 이는 Kalman 필터링에 광범위하게 적용되고 시간 변동 시스템에 대한 더 일반적인 상태 추정의 한 예다.

미생물학에서

에디 공분산 기법은 평균값에서 수직 풍속의 순간 편차와 가스 농도의 순간 편차 사이의 공분산이 수직 난류 유속을 계산하는 기초가 되는 핵심 대기 측정 기법이다.

신호 처리 중

공분산 행렬은 신호의 스펙트럼 가변성을 포착하는 데 사용된다.[14]

통계 및 이미지 처리에서

공분산 행렬은 주성분 분석에서 데이터 사전 처리에서 피쳐 치수성을 줄이기 위해 사용된다.

참고 항목

참조

  1. ^ Rice, John (2007). Mathematical Statistics and Data Analysis. Belmont, CA: Brooks/Cole Cengage Learning. p. 138. ISBN 978-0534-39942-9.
  2. ^ Weisstein, Eric W. "Covariance". MathWorld.
  3. ^ 옥스포드 통계사전, 2002년 옥스포드 대학 출판부, 페이지 104.
  4. ^ a b c d e Park,Kun Il (2018). Fundamentals of Probability and Stochastic Processes with Applications to Communications. Springer. ISBN 978-3-319-68074-3.
  5. ^ Yuli Zhang, Huaiyu Wu, Lei Cheng (June 2012). Some new deformation formulas about variance and covariance. Proceedings of 4th International Conference on Modelling, Identification and Control(ICMIC2012). pp. 987–992.CS1 maint: 작성자 매개변수 사용(링크)
  6. ^ "Covariance of X and Y STAT 414/415". The Pennsylvania State University. Archived from the original on August 17, 2017. Retrieved August 4, 2019.
  7. ^ Papoulis (1991). Probability, Random Variables and Stochastic Processes. McGraw-Hill.
  8. ^ Siegrist, Kyle. "Covariance and Correlation". University of Alabama in Huntsville. Retrieved August 4, 2019.
  9. ^ a b Gubner, John A. (2006). Probability and Random Processes for Electrical and Computer Engineers. Cambridge University Press. ISBN 978-0-521-86470-1.
  10. ^ 도널드 크누스(1998년). 컴퓨터 프로그래밍기술, 제2권: 세미머셜 알고리즘, 제3권, 232페이지. 보스턴: 애디슨 웨슬리
  11. ^ Schubert, Erich; Gertz, Michael (2018). "Numerically stable parallel computation of (co-)variance". Proceedings of the 30th International Conference on Scientific and Statistical Database Management – SSDBM '18. Bozen-Bolzano, Italy: ACM Press: 1–12. doi:10.1145/3221269.3223036. ISBN 9781450365055. S2CID 49665540.
  12. ^ Price, George (1970). "Selection and covariance". Nature. 227 (5257): 520–521. doi:10.1038/227520a0. PMID 5428476. S2CID 4264723.
  13. ^ Harman, Oren (2020). "When science mirrors life: on the origins of the Price equation". Phil. Trans. R. Soc. B. 375 (1797): 1–7. doi:10.1098/rstb.2019.0352. PMC 7133509. PMID 32146891. Retrieved 2020-05-15.
  14. ^ Sahidullah, Md.; Kinnunen, Tomi (March 2016). "Local spectral variability features for speaker verification". Digital Signal Processing. 50: 1–11. doi:10.1016/j.dsp.2015.10.011.