이 글은 랜덤 변수가 비슷하게 변화하는 정도에 관한 것이다. 다른 용도는 공분산(동음이의)을 참조하십시오.
확률 이론과 통계에서 공분산은 두 랜덤 변수의 관절 변동성에 대한 척도다.[1] 한 변수의 더 큰 값이 다른 변수의 더 큰 값과 주로 일치하고 더 작은 값(즉, 변수는 비슷한 동작을 보이는 경향이 있음)[2]을 같은 값으로 유지하는 경우 공분산은 양수다. 반대의 경우, 한 변수의 큰 값이 다른 변수의 작은 값과 주로 일치할 때, 즉 변수가 반대되는 행동을 보이는 경향이 있을 때, 공분산은 음수가 된다. 따라서 공분산의 부호는 변수들 사이의 선형 관계에서 경향을 보여준다. 공분산의 크기는 정규화되지 않아 변수의 크기에 따라 해석하기가 쉽지 않다. 그러나 공분산의 정규화된 버전인 상관 계수는 선형 관계의 강도를 크기별로 보여준다.
(1) 공동 확률 분포의 속성으로 볼 수 있는 모집단매개변수인 두 랜덤 변수의 공분산과 (2) 표본 공분산 사이에 구별해야 하며, 표본 공분산은 표본의 설명자 역할을 하는 것 외에 모집단 매개변수의 추정값으로도 작용한다.
If the (real) random variable pair can take on the values for , with equal probabilities , then the covariance can be equivalently written in terms [ 및 [Y 의 평균을 다음과 같이 한다.
More generally, if there are possible realizations of , namely but with possibly unequal probabilities for , then the covariance is
예
공분산 예제의 기하학적 해석. 각 큐보드는 점의 경계 상자(x, y, f(x, y))이며 X와 Y의 의미(마젠타 점)이다. 공분산이란 붉은 큐보이드의 부피에서 푸른 큐보이드를 뺀 것을 합한 것이다.
예를 들어 X가{X\displaystyle}, Y{Y\displaystyle}는 6개 중심 세포들이 불연속 합동 확률은 6가상적인 깨달음{\displaystyle f(x, y)}(), y)다면 주는 다음 결합 확률 질량 function,[6]다(), y)∈ S){(5,8),(6,8),(7,8),(5,9),(.6),( , ) S ( (5 ( ( :
x
5
6
7
y
8
0
0.4
0.1
0.5
9
0.3
0
0.2
0.5
0.3
0.4
0.3
1
은(는) 세 값(5, 6 및 7)을, Y 은(는) 두 값(8 및 9)을 차지할 수 있다. Their means are and . Then,
특성.
자신과의 공분산
분산은 두 변수가 동일한 공분산의 특별한 경우(즉, 한 변수가 항상 다른 변수와 동일한 값을 갖는 경우):[4]: p. 121
선형 조합의 공분산
Y Y및 이(가) 실제 값 랜덤 변수이고, d이(가) 실제 값 상수라면 다음 사실은 공분산 정의의 결과물이다.
,… , n 1},\}, a,… , .
호프딩 공분산 정체성
두 랜덤 변수 , 사이의 공분산을 계산하는 데 유용한 ID는 Hoofding의 공분산 ID:[7]
여기서 ( , Y)( x, ) ( , ) x는 랜덤 벡터,Y ) {\ (X() )의 합동 누적분포함수량)이다이(가) 여백이다.
공분산이 0인 랜덤 변수를 비관계 변수라고 한다.[4]: p. 121 마찬가지로, 주 대각선 바깥의 모든 항목에서 공분산 행렬이 0인 랜덤 벡터의 성분도 무관하다고 한다.
및이(가) 독립 랜덤 변수인 경우 이들의 공분산은 0이다.[4]: p. 123 [8] 이것은 독립된 상태에서,
그러나 그 반대는 일반적으로 사실이 아니다. 예를 들어, 을(를[- , 1]{\[-에 균일하게 시키고Y = {\Y= 분명히 와 Y Y은 독립적이지 않다.
이 경우 과( X {\의 관계는 비선형인 반면 상관관계와 공분산은 두 랜덤 변수 사이의 선형 의존성을 측정하는 척도다. 이 예는 두 개의 랜덤 변수가 상관관계가 없는 경우 일반적으로 두 변수가 독립적이라는 것을 의미하지 않는다는 것을 보여준다. 그러나 두 변수가 공동으로 정규 분포를 따르는 경우(단순히 개별적으로 정규 분포를 따르는 것은 아님) 비관련성은 독립성을 의미한다.
내부 제품과의 관계
공분산의 특성 중 많은 부분은 내부 제품의 특성과 유사한 특성을 만족하는 것을 관찰함으로써 우아하게 추출할 수 있다.
bilinear: for constants and and random variables ,
실제로 이러한 속성은 공분산이 유한한 두 번째 모멘트를 가진 랜덤 변수의 하위 공간을 취하고 상수로 차이를 보이는 두 개의 변수를 식별하여 얻은 몫 벡터 공간에 걸쳐 내부 제품을 정의한다는 것을 의미한다. (이 식별은 위의 양의 반정의 정의를 양의 정의로 바꾼다.) 그 지수 벡터 공간은 유한한 두 번째 모멘트와 평균 0을 가진 랜덤 변수의 하위 공간에 대해 이형적이다. 그 하위 공간에서 공분산은 정확히 표본 공간의 실제 값 함수의 L 내측2 산출물이다.
The sample covariances among variables based on observations of each, drawn from an otherwise unobserved population, are given by the matrix w출품작에 기입하다.
즉, 변수 과 변수 사이의 공분산 추정치 입니다
표본 평균과 표본 공분산 행렬은 랜덤벡터의 평균 및 공분산 행렬에 대한 편향되지 않은 추정치로서 벡터는 요소 = 1 , , , , , , , . K) ,\, K랜덤 변수 중 하나이다. 표본 공분산 행렬이 이(가) 아닌에 N- 1 {\ \을(를) 갖는 이유는 본질적으로 모집단 평균 )을(를) 알 수 없고 표본 평균 ×로 대체하기 때문이다{ 모집단 평균 ( X) 이 알려진 경우 다음과 유사한 불편 추정치가 제공된다.
X)[X1X2쭉 펼쳐져 Xm]T{\displaystyle \mathbf{X}={\begin{bmatrix}X_{1}& 벡터, X_{2}&\dots}}나{m\displaystyle}공동으로 한정된 두번째 순간들과 함께 확률 변수의, 그것의 auto-covariance 행렬(또한 variance–covaria는 X_{m}\end{bmatrix}}^{\mathrm{T}&.nce 매트릭스예요r simply the covariance matrix) (also denoted by or ) is defined as[9]: p.335
Let be a random vector with covariance matrix Σ, and let A be a matrix that can act on on the left. The covariance matrix of the matrix-vector product A X is:
When , the equation 은(는) E [ Y]{\]일 경우 치명적인 취소 가능성이 있음 및[ E [ Y ]은(는) 정확하게 계산되지 않으므로 이전에 데이터가 중앙에 배치되지 않았을 때는 컴퓨터 프로그램에서 피해야 한다.[10] 이 경우 수치적으로 안정된 알고리즘이 선호되어야 한다.[11]
평.
공분산은 때로 두 랜덤 변수 사이의 "선형 의존도"의 척도로 불린다. 그것은 선형대수의 맥락에서와 같은 것을 의미하지 않는다(선형 의존도 참조). 공분산이 정규화되면 Pearson 상관 계수를 얻게 되는데, 이 계수는 변수들 간의 관계를 설명하는 가능한 최상의 선형 함수에 적합도를 제공한다. 이러한 의미에서 공분산은 의존의 선형 측정기이다.
적용들
유전학과 분자생물학에서
공분산은 생물학에서 중요한 척도다. DNA의 특정 염기서열은 종들 중에서 다른 것들보다 더 많이 보존되어 있기 때문에 단백질이나 RNA 구조물의 이차 구조와 3차 구조를 연구하기 위해 염기서열은 밀접하게 연관된 종에서 비교된다. 비코딩 RNA(마이크로RNA 등)에서 시퀀스 변화가 발견되거나 전혀 변화가 없는 경우, RNA 루프와 같은 공통 구조 모티브에 시퀀스가 필요한 것으로 파악된다. 유전학에서 공분산은 유전적 관계 매트릭스(GRM, 일명 친족 매트릭스)의 연산을 위한 기초가 되어, 가까운 친척이 없는 표본으로부터 모집단 구조에 대한 추론뿐만 아니라 복잡한 형질의 유전성 추정에 대한 추론도 가능하게 한다.
진화론과 자연선택론에서 프라이스 방정식은 시간이 지남에 따라 유전적 형질이 어떻게 변하는지 설명한다. 그 방정식은 진화와 자연선택에 대한 수학적 설명을 제공하기 위해 특성과 건강 사이의 공분산을 사용한다. 그것은 유전자 전달과 자연 선택이 각 신세대 인구 내에서 유전자의 비율에 미치는 영향을 이해하는 방법을 제공한다.[12][13] 가격 방정식은 조지 R에 의해 도출되었다.W.D.를 재분배하기 위한 가격. 해밀턴의 친족 선택에 관한 연구. 가격 방정식의 예는 다양한 진화 사례에 대해 구성되었다.
금융경제학에서는
코바리케스는 금융경제학, 특히현대 포트폴리오 이론과 자본자산가격결정모델에서 핵심적인 역할을 한다. 다양한 자산의 수익률 중 공분류는 특정 가정 하에서 투자자가 (규범적 분석에서) 보유해야 하거나 (긍정적 분석에서) 보유하기로 예측한 서로 다른 자산의 상대적 금액을 결정하는 데 사용된다.
기상학 및 해양학 데이터 동화
공분산 행렬은 데이터 동화라는 절차인 기상 예측 모델을 실행하는 데 필요한 초기 조건을 추정하는 데 중요하다. '예측 오차 공분산 행렬'은 일반적으로 평균 상태 주위의 섭동 사이에 구성된다(기후학 또는 앙상블 평균). '관찰 오차 공분산 행렬'은 결합된 관측 오차(대각선 위)와 측정 사이의 상관 오차(대각선 위)의 크기를 나타내기 위해 구성된다. 이는 Kalman 필터링에 광범위하게 적용되고 시간 변동 시스템에 대한 더 일반적인 상태 추정의 한 예다.
미생물학에서
에디 공분산 기법은 평균값에서 수직 풍속의 순간 편차와 가스 농도의 순간 편차 사이의 공분산이 수직 난류 유속을 계산하는 기초가 되는 핵심 대기 측정 기법이다.
^ abcdePark,Kun Il (2018). Fundamentals of Probability and Stochastic Processes with Applications to Communications. Springer. ISBN978-3-319-68074-3.
^Yuli Zhang, Huaiyu Wu, Lei Cheng (June 2012). Some new deformation formulas about variance and covariance. Proceedings of 4th International Conference on Modelling, Identification and Control(ICMIC2012). pp. 987–992.CS1 maint: 작성자 매개변수 사용(링크)