표본 평균 및 공분산

Sample mean and covariance

표본 평균(또는 "해적 평균")과 표본 공분산은 하나 이상의 랜덤 변수에 대한 데이터 표본으로부터 계산된 통계량이다.

표본 평균은 더 많은 수의 모집단에서 추출한 숫자의 표본평균 값(또는 평균 값)이며, 여기서 "집중"은 수집 여부에 관계없이 사람 수가 아니라 관련 데이터 전체를 나타낸다. 포춘지 선정 500대 기업 중 40개 기업의 매출 견본은 500대 기업의 매출인 인구를 보는 대신 편의를 위해 사용할 수도 있다. 표본 평균은 전체 모집단의 평균 값인 모집단 평균에 대한 추정치로 사용되며, 표본이 크고 대표적일 경우 추정치가 모집단 평균에 가까울 가능성이 더 높다. 표본 평균의 신뢰성은 표준 오차를 사용하여 추정되며, 표준 오차는 표본의 분산을 사용하여 계산된다. 표본이 랜덤하면 표본 크기와 함께 표준 오차가 떨어지고 표본 크기가 증가함에 따라 표본 평균의 분포가 정규 분포에 접근한다.

"샘플 평균"이라는 용어는 통계학자가 표본의 몇 가지 변수 값(예: Fortune 500대 기업 표본의 매출, 수익, 직원)을 보고 있을 때 평균값의 벡터를 가리키는 데에도 사용될 수 있다. 이 경우 각 변수에 대한 표본 분산뿐만 아니라 각 변수 쌍 간의 관계도 보여주는 표본 분산-공분산 행렬(또는 단순 공분산 행렬)이 있다. 이것은 3개의 변수를 고려할 때 3×3 행렬이 될 것이다. 표본 공분산은 추정기로 표본 평균의 신뢰도를 판단하는 데 유용하며 모집단 공분산 행렬의 추정으로도 유용하다.

계산 용이성 및 기타 바람직한 특성 때문에 표본 평균과 표본 공분산은 표본 내 값 분포위치분포를 나타내며 모집단의 값을 추정하기 위해 통계에 널리 사용된다.

표본 평균 정의

표본 평균은 표본 내 변수 값의 평균으로, 이 값의 합을 값 수로 나눈 값이다. 수학적 표기법을 사용하여 변수 X에 대한 N개의 관측치 표본을 모집단에서 추출한 경우 표본 평균은 다음과 같다.

Under this definition, if the sample (1, 4, 1) is taken from the population (1,1,3,4,0,2,1,0), then the sample mean is , as compared to the population mean of 표본이 랜덤하더라도 완벽히 대표되는 경우는 드물고, 표본이 모두 같은 모집단에서 추출한 것이라 하더라도 다른 표본의 평균이 있을 것이다. 예를 들어 표본(2, 1, 0)의 평균은 1이다.

통계학자가 K 변수에 관심이 있는 경우, 각 관측치가 K 변수에 대한 값을 갖는 경우, 전체 표본 평균은 개별 변수에 대한 K 표본 평균으로 구성된다. 을 j 랜덤th 변수(j=1,...,K)에 대해 독립적으로th 그린 관측치(i=1,...,N)로 한다. 이러한 관측치는 각각 K 항목이 있는 N 열 벡터로 배열할 수 있으며, K×1 열 벡터는 i i=1,...,N)로 표시되는 모든 변수의 i번째 관측치를 제공한다.

표본 평균 벡터 는) 열 벡터로서, j번째 원소 x 은(는) jth 변수의 N 관측치의 평균 값이다.

따라서 표본 평균 벡터는 각 변수에 대한 관측치의 평균을 포함하며, 기록된다.

표본 공분산 정의

표본 공분산 행렬은 K-by-K 행렬 =[ {\]이다

여기서 는 데이터에 기초하는 모집단의 kth 변수와 jth 변수 사이의 공분산을 추정하는 것이다. 관측 벡터 측면에서 표본 공분산은

또는 관측 벡터를 행렬의 열로 배열하여 다음 작업을 수행하도록 하십시오.

=[ x … x ,

K 행과 N 열의 행렬이다. 여기서 표본 공분산 행렬은 다음과 같이 계산할 수 있다.

,

여기서 1 1의 N better이다. If the observations are arranged as rows instead of columns, so is now a 1×K row vector and is an N×K matrix whose column j is the vector of N observations on variable j, then applying transposes in the appropr이스트플레이스가 생기다.

랜덤 벡터에 대한 공분산 행렬과 마찬가지로 표본 공분산 행렬은 양의 반확실성이다. 이를 증명하려면 매트릭스 대해 A A (는) 양의 반확정형이라는 점에 유의하십시오. 또한 공분산 행렬은 x -x"의 x 벡터의 순위가 K인 경우에만 양수로 확정된다.

불편함

표본 평균 및 표본 공분산 행렬은 랜덤 X 평균공분산 행렬불편 추정치로서, 행 벡터jth = 1, ..., K)는 랜덤 변수 중 하나이다.[1] 표본 공분산 행렬은 Besel의 수정으로 인해 이(가) 아닌 분모에 - 1 이(가) 있다. 간단히 말해서 표본 공분산은 각 관측치와 표본 평균의 차이에 의존하지만 표본 평균은 모든 관측치에 대해 정의되기 때문에 각 관측치와 약간 상관관계가 있다. 모집단 평균 ( ) )이(가) 알려진 경우 유사한 불편 추정치

모집단 평균 사용 분모에 이(가) 있음. 는 확률과 통계에서 랜덤 변수(대소문자)와 랜덤 변수(대소문자)의 실현을 구별하는 것이 필수적인 이유를 보여주는 예다.

공분산최대우추정치

가우스 분포 사례의 경우 분모에도 N이 있다.N의 경우 1/N 대 1/(N - 1)의 비율이 1에 근접하므로 최대우도 추정치는 표본이 클 때 치우치지 않은 추정치와 거의 일치한다.

표본 평균 분포

각 랜덤 변수에 대해 표본 평균은 모집단 평균의 좋은 추정치로, 여기서 "좋은" 추정기는 효율적이고 편견이 없는 것으로 정의된다. 물론 동일한 분포에서 추출한 다른 표본은 서로 다른 표본 평균을 제공하고 따라서 실제 평균에 대한 다른 추정치를 제공하므로 추정치는 모집단 평균의 참 값이 아닐 것이다. 따라서 표본 평균은 상수가 아닌 랜덤 변수로서, 결과적으로 자체 분포를 가진다. N관찰을jth 확률 변수에 다양한 샘플의 경우 견본 평균 유통 자체가 천하은 사람들에게 못된 E(Xj){E(X_{j})\displaystyle}과 가변성 σ j2/N{\displaystyle \sigma_{j}^{2}/N에} 같은지 어디σ j2{\displaystyle \sigma_{j}^{2}}는 인구 수를 V입니다.a홍조

모집단의 산술 평균 또는 모집단 평균은 종종 μ로 표시된다.[2] 표본 평균 모집단에서 추출한 값 표본의 산술 평균)는 모집단 평균의 기대값이 모집단 평균(즉, 치우치지 않은 추정기)과 같기 때문에 모집단 평균의 추정치를 잘 만든다. 표본 평균은 모집단의 어떤 구성원을 표본으로 추출하느냐에 따라 계산된 값이 랜덤하게 달라지고 결과적으로 자체 분포를 가지기 때문에 상수가 아닌 랜덤 변수다. n개독립 관측치 랜덤 표본의 경우 표본 평균의 기대값은 다음과 같다.

표본 평균의 분산은

표본이 독립적이지는 않지만 상관관계가 있는 경우 유사복제 문제를 피하기 위해 각별한 주의를 기울여야 한다.

모집단이 정규 분포를 따르는 경우 표본 평균은 다음과 같이 정규 분포를 따른다.

모집단이 정규 분포를 따르지 않는 경우, 그럼에도 불구하고 표본 평균은 n이 크고 σ2/n < +∞)가 크면 근사적으로 정규 분포를 따른다. 이것은 중앙 한계 정리의 결과물이다.

가중표본

가중치 샘플에서 각 x {\{\ K 랜덤 변수에 대한 단일 관측치 집합)에 w geq 0가중치가 정규화된다고 가정한다.

(만약 그렇지 않다면, 가중치를 합계로 나눈다.) 그런 다음 가중 평균 x 가) 제공됨

공분산 행렬 의 요소 는) 다음과 같다.

모든 가중치가 w = / N 가중 평균과 공분산은 위에서 언급한 (편향된) 표본 평균과 공분산으로 감소한다.

비판

표본 평균과 표본 공분산은 강력한 통계량이 아니며 특이치에 민감하다는 것을 의미한다. 특히 실제 애플리케이션에서는 강건성이 바람직한 특성인 경우가 많으므로, 특히 위치의 표본 중위수 [4]및 분산에 대한 사분위간 범위(IQR)와 같은 계량형 기반 통계와 같은 강력한 대안이 바람직할 수 있다. 다른 대안으로는 트리밍 평균윈소라이징 평균에서와 같이 트리밍 및 윈소라이징이 있다.

참고 항목

참조

  1. ^ Richard Arnold Johnson; Dean W. Wichern (2007). Applied Multivariate Statistical Analysis. Pearson Prentice Hall. ISBN 978-0-13-187715-3. Retrieved 10 August 2012.
  2. ^ Underhill, L.G.; Bradfield d. (1998) Introstat, Juta, Company Ltd. ISBN 0-7021-3838-X 페이지 181
  3. ^ 마크 갈라시, 짐 데이비스, 제임스 테일러, 브라이언 고우, 제라드 융만, 마이클 부스, 파브리스 로시. GNU 과학 라이브러리 - 참조 매뉴얼, 버전 2.6, 2021. 횡단 통계량: 가중 표본
  4. ^ 2006년 세계 문제 센터: 표본 평균, 바트 코스코