표준편차
Standard deviation통계학에서 표준 편차는 값 집합의 변동 또는 분산의 양을 측정하는 것입니다.[1]표준 편차가 작으면 값이 집합의 평균(기대 값이라고도 함)에 가까운 경향이 있음을 나타내고, 표준 편차가 높으면 값이 더 넓은 범위에 퍼져 있음을 나타냅니다.
표준 편차는 SD로 축약될 수 있으며, 수학 텍스트 및 방정식에서 소문자 그리스 문자 σ(sigma), 모집단 표준 편차의 경우 라틴 문자, 표본 표준 편차의 경우 가장 일반적으로 표본 표준 편차의 경우 라틴 문자로 표시됩니다.
랜덤 변수, 표본, 통계 모집단, 데이터 집합 또는 확률 분포의 표준 편차는 분산의 제곱근입니다.실제로는 평균 절대 편차보다 강건하지는 않지만 대수적으로 단순합니다.[2][3]표준 편차의 유용한 특성은 분산과 달리 데이터와 동일한 단위로 표시된다는 것입니다.
모집단이나 표본의 표준 편차와 통계량의 표준 오차(예: 표본 평균의 표준 오차)는 상당히 다르지만 관련이 있습니다.표본 평균의 표준 오차는 모집단에서 무한 반복 표본을 추출하고 각 표본에 대한 평균을 계산하면 발견되는 평균 집합의 표준 편차입니다.평균의 표준 오차는 모집단 표준 편차를 표본 크기의 제곱근으로 나눈 값과 같으며 표본 표준 편차를 표본 크기의 제곱근으로 나눈 값으로 추정됩니다.예를 들어, 여론조사의 표준 오차(여론조사의 오차 한계로 보고됨)는 동일한 여론조사를 여러 번 수행할 경우 추정된 평균의 예상 표준 편차입니다.따라서 표준 오차는 추정치의 표준 편차를 추정하며, 추정치 자체는 모집단에서 추출한 특정 표본에 따라 추정치가 얼마나 달라지는지를 측정합니다.
과학에서는 데이터의 표준 편차(요약 통계량)와 추정치의 표준 오차(소견의 잠재적 오차 측도)를 모두 보고하는 것이 일반적입니다.관례적으로 귀무 예상에서 벗어난 두 개 이상의 표준 오류만 "통계적으로 유의한" 것으로 간주되며, 이는 실제로 무작위 표본 추출 오류로 인한 잘못된 결론에 대한 보호 조치입니다.
모집단의 데이터 표본만 사용할 수 있는 경우 표본 또는 표본 표준 편차의 용어 표준 편차는 위에 언급된 양을 해당 데이터에 적용하거나 모집단 표준 편차(전체 모집단의 표준 편차)의 편향되지 않은 추정치인 수정된 양을 나타낼 수 있습니다.
기본 예시
8명 학생의 성적에 대한 모집단 표준 편차
특정 학급의 전체 관심 모집단이 8명이라고 가정합니다.유한한 숫자 집합의 경우, 모집단 표준 편차는 평균값에서 차감된 값의 제곱 편차의 평균 제곱근을 취하여 구합니다.8명의 학생(즉, 통계 모집단)으로 구성된 학급의 표시는 다음 8개의 값입니다.
이 8개의 데이터 점의 평균(평균)은 5입니다.
먼저 평균에서 각 데이터 점의 편차를 계산하고 각 데이터 점의 결과를 제곱합니다.
분산은 다음 값들의 평균입니다.
모집단 표준 편차는 분산의 제곱근과 같습니다.
이 공식은 우리가 시작한 8개의 값이 완전한 모집단을 형성하는 경우에만 유효합니다.대신 값이 어떤 큰 부모 집단으로부터 추출된 임의의 표본일 경우(예를 들어, 그들은 무작위로 그리고 독립적으로 200만 명의 학급에서 선택된 8명의 학생들이었다), 하나는 마지막 공식의 분모에서 8 (n)이 아닌 7 (n - 1)로 나누어지고 결과는 = / ≈ s = {\ 2 이 경우 원래 공식의 결과를 표본 표준 편차라고 하고 대신 s 로 합니다. 을(를) n n이(가) 아닌 n- 1 로 것은 더 큰 상위 모집단의 분산에 대한 편견 없는 추정을 제공합니다.이것은 베셀의 수정으로 알려져 있습니다.[4][5]대략적으로, 표본 분산에 대한 공식은 표본 평균에서 관측치의 계산 차이에 의존하고 표본 평균 자체는 관측치에 가능한 한 가깝게 구성되므로 n으로 나누는 것만으로도 변동성이 과소평가됩니다.
성인 남성의 평균 키 표준 편차
관심 모집단이 근사적으로 정규 분포인 경우 표준 편차는 특정 값 위 또는 아래의 관측치 비율에 대한 정보를 제공합니다.예를 들어, 미국 성인 남성의 평균 신장은 약 70인치이며 표준 편차는 약 3인치입니다.이는 대부분의 남성(정규 분포 가정 시 약 68%)이 평균(67–73인치)에서 3인치 이내의 높이(표준 편차 1개)를 가지고 있고, 거의 모든 남성(약 95%)이 평균(64–76인치)에서 6인치 이내의 높이(표준 편차 2개)를 가지고 있음을 의미합니다.표준 편차가 0이면 모든 남성의 키는 정확히 70인치가 됩니다.만약 표준 편차가 20인치라면, 남성들은 일반적으로 약 50-90인치의 범위로 훨씬 더 다양한 키를 가지고 있을 것입니다.세 가지 표준 편차는 연구 중인 표본 모집단의 99.73%를 차지하며, 분포가 정규 분포 또는 종 모양이라고 가정합니다(자세한 내용은 68–95–99.7 규칙 또는 경험적 규칙 참조).
모집단 값의 정의
μ를 밀도 (x)를 갖는 랜덤 변수 X의 기대 값(평균)이라 하자:
단어를 사용하면 표준 편차는 X의 분산의 제곱근입니다.
확률 분포의 표준 편차는 해당 분포를 갖는 확률 변수의 표준 편차와 동일합니다.
모든 확률 변수에 표준 편차가 있는 것은 아닙니다.분포에 무한대로 나가는 지방 꼬리가 있는 경우 적분이 수렴되지 않기 때문에 표준 편차가 존재하지 않을 수 있습니다.정규 분포는 꼬리가 무한대로 나가지만 꼬리가 충분히 빨리 줄어들기 때문에 평균과 표준 편차가 존재합니다.모수 가∈ 2인 파레토 분포에는 평균이 있지만 표준 편차는 없습니다(느리게 말하면 표준 편차는 무한합니다).코시 분포에는 평균도 표준 편차도 없습니다.
이산확률변수
X가 각각의 값이 같은 확률을 가지는 유한한 데이터 집합 , , , , , , 에서 임의의 값을 취하는 경우, 표준편차는
또는, 합산 표기법을 사용함으로써,
만약, 동일한 확률을 가지는 대신, 값들이 다른 확률을 가지는 경우, 확률을 가지는 경우, 확률을 가지는 경우, ..., 확률을 가지는 경우.이 경우 표준 편차는
연속임의변수
확률밀도함수()x를 갖는 연속 실값 랜덤변수 X의 표준편차는
그리고 여기서 적분은 확률 변수 X의 가능한 값들의 집합에 걸쳐 범위 x에 대해 취한 정적분입니다.
모수 분포 계열의 경우 표준 편차를 모수로 표현할 수 있습니다.예를 들어 모수 μ와 모수가 있는 로그 정규 분포의 경우 표준 편차는
견적
모집단의 모든 구성원이 표본으로 추출되는 경우(예: 표준화 검정) 전체 모집단의 표준 편차를 찾을 수 있습니다.이를 수행할 수 없는 경우에는 모집단에서 추출한 임의 표본을 검사하고 표본의 통계량을 계산하여 표준 편차 σ을 추정합니다. 이 표본은 모집단 표준 편차의 추정치로 사용됩니다.이러한 통계량을 추정기(estimator)라고 하며, 추정기(또는 추정기의 값, 즉 추정치)를 표본 표준 편차(sample standard deviation)라고 하며 s로 표시합니다(수정자가 있을 수 있음).
표본 평균이 많은 바람직한 속성(편향되지 않은, 효율적인, 최대 가능성)을 가진 단순 추정기인 모집단 평균을 추정하는 경우와 달리, 이 모든 속성을 가진 표준 편차에 대한 단일 추정기는 없으며 표준 편차의 편향되지 않은 추정은 기술적으로 매우 관련된 문제입니다.대부분의 경우 아래에 정의된 보정 표본 표준 편차(N - 1 사용)를 사용하여 표준 편차를 추정하며, 이를 한정자 없이 "표본 표준 편차"라고 합니다.그러나 다른 추정치는 다른 측면에서 더 낫습니다. 보정되지 않은 추정치(N 사용)는 평균 제곱 오차를 더 낮게 산출하는 반면 N - 1.5(정규 분포의 경우)를 사용하면 치우침이 거의 제거됩니다.
보정되지 않은 표본 표준 편차
표본의 크기를 모집단 크기로 사용하여 모집단 표준 편차(유한 모집단의) 공식을 표본에 적용할 수 있습니다(표본을 추출하는 실제 모집단 크기가 훨씬 클 수 있음).s로N 표시되는 이 추정치는 보정되지 않은 표본 표준 편차 또는 때로는 표본의 표준 편차(전체 모집단으로 간주됨)로 알려져 있으며 다음과 같이 정의됩니다.[6]
여기서{ x x 는 표본 항목의 관측치 값이고, ¯{\은 표본 크기를 나타냅니다. 이것은 표본 분산의 제곱근입니다.표본 평균에 대한 제곱 편차의 평균입니다.
이 추정치는 일관된 추정치(표본 수가 무한대로 갈수록 모집단 값에 확률로 수렴)이며, 모집단이 정규 분포일 때 최대 우도 추정치입니다.[7]그러나 추정치가 일반적으로 너무 낮기 때문에 이는 편향된 추정치입니다.표본 크기가 커질수록 편향이 감소하여 1/N로 감소하므로 표본 크기가 작거나 중간인 경우 가장 중요합니다. > N >의 경우 편향이 1% 미만입니다.따라서 매우 큰 표본 크기의 경우 수정되지 않은 표본 표준 편차를 일반적으로 허용할 수 있습니다.이 추정치의 평균 제곱 오차는 보정된 표본 표준 편차보다 균일하게 작습니다.
보정된 시료 표준편차
편향 표본 분산(모집단 분산의 하향 편향 추정치인 표본의 두 번째 중심 모멘트)을 사용하여 모집단의 표준 편차 추정치를 계산하면 결과는
여기서 제곱근을 취하는 것은 젠슨의 부등식에 의해, 제곱근이 오목 함수이기 때문에 더 많은 하향 편향을 도입합니다.분산의 치우침은 쉽게 수정되지만 제곱근의 치우침은 수정하기가 더 어렵고 문제의 분포에 따라 달라집니다.
분산에 대한 편향 추정치는 Bessel의 보정을 적용하여 제공되며, 편향되지 않은 표본 분산을2 산출하기 위해 N 대신 N - 1을 사용합니다.
분산이 존재하고 표본 값이 교체와 함께 독립적으로 그려지는 경우 이 추정치는 편향되지 않습니다.N - 1은 평균에서 벗어난 벡터의 자유도 수에 해당합니다 ( 1- ¯ x - ¯
제곱근을 취하는 것은 (제곱근이 기대와 함께 통근하지 않는 비선형 함수이기 때문에, 즉 E [ ]≠ [ ]{\E{\ s로 표시되는 수정된 표본 표준 편차를 산출합니다:
위에서 설명한 바와 같이 s는2 모집단 분산에 대한 편향 추정치이지만 s는 여전히 모집단 표준 편차에 대한 편향 추정치이지만 보정되지 않은 표본 표준 편차에 비해 편향성이 현저히 낮습니다.이 추정기는 일반적으로 사용되며 일반적으로 "표본 표준 편차"로 간단히 알려져 있습니다.치우침은 작은 표본(N이 10보다 작음)의 경우 여전히 클 수 있습니다.표본 크기가 커지면 치우침의 양이 줄어듭니다.더 많은 정보를 얻으면 과(와) -1{\의 차이가 작아집니다.
편향되지 않은 표본 표준 편차
표준 편차에 대한 편향되지 않은 추정의 경우 평균 및 분산과 달리 모든 분포에 걸쳐 적용되는 공식이 없습니다.대신 s가 기저로 사용되며, 편향되지 않은 추정치를 생성하기 위해 보정 계수에 의해 축척됩니다.정규 분포의 경우, 편향되지 않은 추정치는 /에 의해 주어지며,c4 여기서 보정 계수(N에 의존함)는 감마 함수로 주어지며 다음과 같습니다.
이는 표본 표준 편차의 표본 분포가 (척도화된) 카이 분포를 따르고, 보정 계수가 카이 분포의 평균이기 때문에 발생합니다.
근사치는 -1을 -1.5로 대체하여 다음을 산출할 수 있습니다.
이 근사치의 오차는 (1/로서) 2차 붕괴되며, 가장 작은 표본이나 가장 높은 정밀도를 제외한 모든 표본에 적합합니다. = 3의 경우 바이어스는 1.3%이고 = 9의 경우 바이어스는 이미 0.1% 미만입니다.
더 정확한 근사치는 - 1.5 위의 - 1.5 + 1/8(N - 1)로 대체하는 것입니다.[8]
다른 분포의 경우 정확한 공식은 분포에 따라 달라지지만 경험칙은 근사치의 추가적인 개선을 사용하는 것입니다.
여기서 는 모집단 초과 첨도를 나타냅니다.초과 첨도는 특정 분포에 대해 미리 알 수 있거나 데이터로부터 추정될 수 있습니다.[9]
표본 표준 편차의 신뢰 구간
분포를 표본으로 추출하여 얻은 표준 편차는 수학적인 이유(여기서는 신뢰 구간으로 설명함)와 측정의 실제적인 이유(측정 오차)로 인해 그 자체가 절대적으로 정확하지 않습니다.수학적 효과는 신뢰 구간이나 CI로 설명할 수 있습니다.
표본이 클수록 신뢰 구간이 좁아지는 방법을 보여주기 위해 다음 예제를 고려합니다.= 2의 작은 모집단에는 표준 편차를 추정할 수 있는 자유도가 하나뿐입니다.결과적으로 SD의 95% CI는 0.45 × SD에서 31.9 × SD까지 실행됩니다. 요인은 다음과 같습니다.
여기서 는 k 자유도를 갖는 카이제곱 분포의 p번째 분위수이고, 1은 신뢰 수준입니다.이는 다음과 같습니다.
= 1, = 0.000982 및 = 5.024인 경우.이 두 숫자의 제곱근의 역수는 위에 주어진 인자 0.45와 31.9를 제공합니다.
= 10의 모집단이 클수록 표준 편차를 추정할 수 있는 9개의 자유도가 있습니다.위와 같은 계산은 이 경우 0.69 × SD에서 1.83 × SD로 실행되는 95% CI를 제공합니다.따라서 표본 모집단이 10개인 경우에도 실제 SD는 표본 추출된 SD보다 거의 2배 더 높을 수 있습니다.표본 모집단 = 100의 경우 이 값은 0.88 × SD에서 1.16 × SD로 감소합니다.샘플링된 SD가 실제 SD와 가깝다는 것을 좀 더 확실하게 하기 위해서는 많은 포인트를 샘플링해야 합니다.
이러한 공식을 사용하여 표준 정규 이론에서 최소 제곱 적합에서 잔차의 분산에 대한 신뢰 구간을 구할 수 있습니다. 여기서 k는 이제 오차 자유도의 수가 됩니다.
표준 편차에 대한 한계
값 R의 범위에 걸쳐 있는 4개 이상의 데이터 집합의 경우 표준 편차의 상한은 = 0.6입니다.정규 곡선 아래의 면적의 95%가 평균의 양쪽에 약 2개의 표준 편차가 있다는 휴리스틱 결과에 따라, 95% 확률로 값 R의 총 범위는 ≈ /4가 되도록 4개의 표준 편차를 나타냅니다.이 소위 범위 규칙은 가능한 값의 범위가 표준 편차보다 추정하기 쉽기 때문에 표본 크기 추정에 유용합니다.≈ /()가 N의 다른 값과 비정규 분포에 사용 가능한 것과 같은 범위의 다른 분할자().
항등식 및 수학적 성질
표준 편차는 위치 변화에 따라 불변하며 랜덤 변수의 척도와 직접적으로 축척됩니다.따라서 상수 c 및 랜덤 변수 X 및 Y의 경우:
두 랜덤 변수의 합에 대한 표준 편차는 개별 표준 편차와 두 변수 간의 공분산과 관련이 있을 수 있습니다.
여기서 =σ name \,=\,\sigma ^{ 및 name 은 각각 분산 및 공분산을 나타냅니다.
제곱 편차의 합 계산은 데이터에서 직접 계산된 모멘트와 관련될 수 있습니다.다음 공식에서 문자 E는 기대 값, 즉 평균을 의미하는 것으로 해석됩니다.
표본 표준 편차는 다음과 같이 계산할 수 있습니다.
모든 점에서 동일한 확률을 갖는 유한한 모집단의 경우, 다음과 같습니다.
즉, 표준 편차는 값의 제곱 평균과 평균 값의 제곱 평균 사이의 차이의 제곱근과 같다는 것을 의미합니다.
증명은 분산에 대한 계산식을 참조하고 표본 표준 편차에 대한 유사한 결과를 참조하십시오.
해석 및 적용
표준 편차가 크면 데이터 점이 평균에서 멀리 퍼질 수 있음을 나타내고 표준 편차가 작으면 데이터 점이 평균을 중심으로 가깝게 군집되어 있음을 나타냅니다.
예를 들어 세 모집단 {0, 0, 14, 14} {0, 6, 8, 14} 및 {6, 6, 8, 8}의 평균은 각각 7입니다.그들의 표준 편차는 각각 7, 5, 1입니다.세 번째 모집단의 값이 모두 7에 가깝기 때문에 다른 두 모집단보다 표준 편차가 훨씬 작습니다.이러한 표준 편차는 데이터 점 자체와 같은 단위를 갖습니다.예를 들어 데이터 집합 {0, 6, 8, 14}이(가) 4남매 모집단의 연도별 연령을 나타내는 경우 표준 편차는 5년입니다.또 다른 예로 {1000, 1006, 1008, 1014} 모집단은 4명의 선수가 이동한 거리를 미터 단위로 나타낼 수 있습니다.평균은 1007미터이고, 표준편차는 5미터입니다.
표준 편차는 불확실성의 측도 역할을 할 수 있습니다.예를 들어 물리학에서는 반복 측정 그룹의 보고된 표준 편차가 측정의 정밀도를 제공합니다.측정값이 이론적 예측과 일치하는지 여부를 결정할 때 측정값의 표준 편차는 매우 중요합니다. 측정값의 평균이 예측값에서 너무 멀리 떨어져 있으면(표준 편차로 측정된 거리로), 테스트 대상 이론을 수정해야 할 수도 있습니다.예측값이 정확하고 표준 편차가 적절하게 정량화된 경우 발생할 것으로 합리적으로 예상되는 값의 범위를 벗어났기 때문에 이는 타당합니다.예측 구간 참조.
표준 편차는 일반적인 값이 평균에서 얼마나 멀리 떨어져 있는지 측정하지만 다른 측도를 사용할 수 있습니다.예를 들어, 평균 절대 편차는 표준 편차에 포함된 평균 제곱 거리와 비교하여 평균 거리를 보다 직접적으로 측정하는 것으로 간주될 수 있습니다.
응용 예
값 집합의 표준 편차를 이해하는 실질적인 값은 평균(평균)으로부터 얼마나 많은 변동이 있는지 파악하는 데 있습니다.
실험, 산업 및 가설 검정
표준 편차는 모형을 검정하기 위해 실제 데이터를 모형과 비교하는 데 자주 사용됩니다.예를 들어, 산업용 애플리케이션에서 생산 라인에서 나오는 제품의 무게는 법적으로 요구되는 값을 준수해야 할 수도 있습니다.제품의 일부 분율을 측정하면 평균 중량을 알 수 있으며, 이는 항상 장기 평균과 약간 다를 것입니다.표준 편차를 사용하면 평균 가중치가 시간의 매우 높은 백분율(99.9% 이상) 내에 있을 것이라는 최소값과 최대값을 계산할 수 있습니다.범위를 벗어나면 생산 공정을 수정해야 할 수도 있습니다.이와 같은 통계적 검정은 검정 비용이 상대적으로 비싼 경우에 특히 중요합니다.예를 들어, 제품을 개봉하여 배수하고 무게를 측정해야 하는 경우, 그렇지 않으면 제품이 테스트에 의해 다 사용된 경우 등입니다.
실험 과학에서는 현실의 이론적 모델이 사용됩니다.입자 물리학은 일반적으로 발견의 선언을 위해 "5 시그마"의 표준을 사용합니다.5-시그마 수준은 350만 분의 1 확률로, 무작위 변동으로 결과가 나올 것입니다.힉스 보손과 일치하는 입자가 CERN의 두 개의 독립적인 실험에서 발견되었으며 [12]중력파의 첫 번째 관측을 선언하기에 이르렀다고 주장하기 위해서는 이러한 수준의 확실성이 요구되었습니다.[13]
날씨
간단한 예로, 내륙과 해안의 두 도시에 대한 하루 평균 최고 기온을 생각해 보십시오.내륙의 도시보다 해안 근처 도시의 일 최고 기온 범위가 작다는 것을 이해하는 것이 도움이 됩니다.따라서, 이 두 도시는 각각 동일한 평균 최고 기온을 가질 수 있지만, 해안 도시에 대한 일 최고 기온의 표준 편차는 특정한 날에 내륙 도시의 표준 편차보다 적을 것입니다.실제 최고 기온은 해안 도시보다 내륙 도시의 평균 최고 기온에서 더 멀리 떨어질 가능성이 높습니다.
자금
금융에서 표준편차는 특정 자산(주식, 채권, 부동산 등)의 가격변동과 관련된 위험 또는 자산 포트폴리오[14](능동적으로 운용되는 뮤추얼 펀드, 인덱스 뮤추얼 펀드, ETF)의 위험을 나타내는 척도로 자주 사용됩니다.리스크는 자산 및/또는 포트폴리오의 수익률 변동을 결정하고 투자자들에게 투자 결정에 대한 수학적 근거를 제공하기 때문에 투자 포트폴리오를 효율적으로 관리하는 방법을 결정하는 데 중요한 요소입니다(평균 분산 최적화라고 함).리스크의 기본적인 개념은 투자가 증가함에 따라 투자에 대한 기대 수익도 증가해야 한다는 것이며, 이를 리스크 프리미엄이라고 합니다.다시 말해, 투자자들은 투자가 더 높은 수준의 위험 또는 불확실성을 수반할 때 더 높은 수익을 기대해야 합니다.투자를 평가할 때, 투자자들은 기대 수익과 미래 수익의 불확실성을 모두 추정해야 합니다.표준 편차는 미래 수익의 불확실성에 대한 정량화된 추정치를 제공합니다.
예를 들어, 투자자가 두 종목 중 하나를 선택해야 한다고 가정합니다.지난 20년간 A주식은 평균 수익률이 10%로 표준편차 20%포인트(pp), B주식은 같은 기간 평균 수익률이 12%였지만 표준편차 30pp로 더 높았습니다.투자자는 위험과 수익률에 기초하여 주식 A가 더 안전한 선택이라고 결정할 수 있습니다. 왜냐하면 주식 B의 추가 수익률 2% 포인트는 추가 10pp 표준 편차(기대 수익률의 더 큰 위험 또는 불확실성)의 가치가 없기 때문입니다.같은 상황에서 B 주식은 A 주식보다 초기 투자액에 더 많이 미달할 가능성이 높고(그러나 초기 투자액을 초과할 가능성도 있다), 수익률도 평균 2% 정도만 더 낼 것으로 추정됩니다.이 예에서 주식 A는 약 10%, 즉 향후 수익의 약 3분의 2에 해당하는 20pp(30%에서 -10% 범위)를 플러스 또는 마이너스로 얻을 것으로 예상됩니다.미래에 더 극단적으로 발생할 수 있는 수익 또는 결과를 고려할 때 투자자는 평균 수익률에서 세 가지 표준 편차에 대한 결과를 포함하여 10% 플러스 또는 마이너스 60pp, 또는 70%에서 -50% 사이의 결과를 기대해야 합니다(가능 수익의 약 99.7%).
특정 기간 동안의 증권 수익률의 평균(또는 산술 평균)을 계산하면 자산의 기대 수익이 생성됩니다.각 기간에 대해 실제 수익률에서 기대 수익률을 빼면 평균에서 차이가 발생합니다.각 기간의 차이를 제곱하고 평균을 취하면 자산의 수익률에 대한 전반적인 분산이 나타납니다.분산이 클수록 보안에 더 큰 위험이 뒤따릅니다.이 분산의 제곱근을 구하면 해당 투자 도구의 표준 편차를 얻을 수 있습니다.
재무 시계열은 비정규 계열인 것으로 알려져 있는 반면, 위의 표준 편차와 같은 통계적 계산은 고정 계열에만 적용됩니다.위의 통계 도구를 비정규 영상 시리즈에 적용하기 위해서는 먼저 영상 시리즈를 고정 영상 시리즈로 변환해야 하며, 이제 작업할 근거가 유효한 통계 도구를 사용할 수 있습니다.
기하학적 해석
기하학적 통찰력과 명료화를 얻기 위해, 우리는 세 개의 값의 모집단, , , , 를 시작할 것입니다. 이것은 R의 한 점 = (, , )을 정의합니다.= {(, , ) : ∈ R} 행을 고려합니다.이것은 원점을 통과하는 "주 대각선"입니다.만약 우리의 주어진 세 값이 모두 같다면, 표준편차는 0이고 P는 L 위에 놓일 것입니다. 따라서 표준편차가 P에서 L까지의 거리와 관련이 있다고 가정하는 것은 무리가 아닙니다.그것은 정말 사실입니다.L에서 점 P로 직교 이동하려면 점에서 시작합니다.
좌표는 우리가 시작한 값의 평균입니다.
= ¯ ¯ ¯ M =\ {\x}}, x}}, {\bar {x의 파생 |
---|
이(가) 에 있으므로 ∈ 에 M,,ℓ M = (\,\ell입니다 L선은 M에서 P까지의 벡터와 직교해야 합니다.따라서: |
약간의 대수는 P와 M 사이의 거리(P와 L 선 사이의 직교 거리와 동일) ∑ i( - ¯) 는 벡터(, , )의 표준 편차와 같습니다.벡터의 차원 수(이 경우 3)의 제곱근을 곱합니다.
체비셰프 부등식
관측치가 평균에서 몇 개의 표준 편차 이상 떨어져 있는 경우는 거의 없습니다.Chebyshev의 부등식은 표준 편차가 정의된 모든 분포에 대해 평균의 표준 편차 수 내에 있는 데이터의 양이 다음 표에 주어진 양 이상임을 보장합니다.
평균으로부터의 거리 | 최소인구 |
---|---|
50% | |
75% | |
89% | |
94% | |
96% | |
97% | |
[15] | |
정규 분포된 데이터에 대한 규칙
중심 극한 정리는 많은 독립적이고 동일한 분포의 랜덤 변수들의 평균의 분포가 다음의 확률 밀도 함수를 갖는 유명한 종 모양의 정규 분포 쪽으로 경향이 있음을 나타냅니다.
여기서 μ는 랜덤 변수의 기대 값이고, σ는 분포의 표준 편차를 랜덤 변수의 수로 나눈 값과 같으며, n은 랜덤 변수의 개수입니다.따라서 표준 편차는 곡선의 폭을 조정하는 단순한 스케일링 변수이지만 정규화 상수에도 나타납니다.
데이터 분포가 거의 정규 분포인 경우 평균의 z 표준 편차 내에서 데이터 값의 비율은 다음과 같이 정의됩니다.
여기서 은는) 오류 함수입니다.숫자 x보다 작거나 같은 비율은 누적 분포 함수로 표시됩니다.[16]
데이터 분포가 거의 정규 분포라면 데이터 값의 약 68%가 평균의 한 표준 편차 내에 있고(수학적으로 ±, 여기서 μ는 산술 평균), 약 95%는 두 표준 편차(±μ2σ) 내에 있으며, 약 99.7%는 세 표준 편차(±μ3σ) 내에 있습니다.이를 68–95–99.7 규칙 또는 경험적 규칙이라고 합니다.
다양한 z 값의 경우 대칭 구간 안에 있을 것으로 예상되는 값의 백분율인 =(-, )은 다음과 같습니다.
자신감. 간격 | 안에서의 비율 | 없는 비율 | |
---|---|---|---|
백분율 | 백분율 | 분수 | |
0.318639σ | 25% | 75% | 3 / 4 |
0.674490σ | 50% | 50% | 1 / 2 |
0.977925σ | 66.6667% | 33.3333% | 1 / 3 |
0.994458σ | 68% | 32% | 1 / 3.125 |
1개 | 68.2689492% | 31.7310508% | 1 / 3.1514872 |
1.281552σ | 80% | 20% | 1 / 5 |
1.644854σ | 90% | 10% | 1 / 10 |
1.959964σ | 95% | 5% | 1 / 20 |
2개 | 95.4499736% | 4.5500264% | 1 / 21.977895 |
2.575829σ | 99% | 1% | 1 / 100 |
3개 | 99.7300204% | 0.2699796% | 1 / 370.398 |
3.290527σ | 99.9% | 0.1% | 1 / 1000 |
3.890592σ | 99.99% | 0.01% | 1 / 10000 |
4개의 | 99.993666% | 0.006334% | 1 / 15787 |
4.417173σ | 99.999% | 0.001% | 1 / 100000 |
4.5σ | 99.9993204653751% | 0.0006795346249% | 1 / 147159.5358 6.8 / 1000000 |
4.891638σ | 99.9999% | 0.0001% | 1 / 1000000 |
5개의 | 99.9999426697% | 0.0000573303% | 1 / 1744278 |
5.326724σ | 99.99999% | 0.00001% | 1 / 10000000 |
5.730729σ | 99.999999% | 0.000001% | 1 / 100000000 |
6σ | 99.9999998027% | 0.0000001973% | 1 / 506797346 |
6.109410σ | 99.9999999% | 0.0000001% | 1 / 1000000000 |
6.466951σ | 99.99999999% | 0.00000001% | 1 / 10000000000 |
6.806502σ | 99.999999999% | 0.000000001% | 1 / 100000000000 |
7개의 | 99.9999999997440% | 0.000000000256% | 1 / 390682215445 |
표준편차와 평균과의 관계
데이터 집합의 평균과 표준 편차는 일반적으로 함께 보고되는 기술 통계량입니다.특정한 의미에서 표준 편차는 데이터의 중심이 평균에 대해 측정된 경우 통계적 분산의 "자연스러운" 측도입니다.이는 평균의 표준 편차가 다른 점의 표준 편차보다 작기 때문입니다.정확한 문장은 다음과 같습니다. , , , 를 실수라고 가정하고 함수를 정의합니다.
미적분학을 사용하거나 제곱을 완성하면 ()r 평균에서 고유한 최소값을 가짐을 보여줄 수 있습니다.
변동성은 평균에 대한 표준 편차의 비율인 변동 계수로도 측정할 수 있습니다.이것은 차원이 없는 숫자입니다.
평균의 표준 편차
우리는 종종 우리가 얻은 평균의 정확도에 대한 정보를 원합니다.표본 평균의 표준 편차를 결정하면 이 값을 얻을 수 있습니다.표본의 값에 대한 통계적 독립성을 가정하면 평균의 표준 편차는 다음과 같이 분포의 표준 편차와 관련이 있습니다.
여기서 N은 평균을 추정하는 데 사용된 표본의 관측치 수입니다.이는 쉽게 증명할 수 있습니다(분산의 기본 속성 참조).
(통계적 독립성을 가정합니다.)
이런 이유로
결과:
평균의 표준 편차를 추정하려면 σ 전체 모집단의 표준 편차를 미리 알아야 합니다.그러나 대부분의 응용 프로그램에서는 이 매개 변수를 알 수 없습니다.예를 들어 실험실에서 이전에 알려지지 않은 양의 일련의 10개 측정을 수행하면 결과 표본 평균과 표본 표준 편차를 계산할 수 있지만 평균의 표준 편차를 계산할 수는 없습니다.그러나 표본으로부터 전체 모집단의 표준 편차를 추정할 수 있으므로 평균의 표준 오차에 대한 추정치를 얻을 수 있습니다.
속산법
다음 두 공식은 실행 중인(반복 업데이트되는) 표준 편차를 나타낼 수 있습니다.2개의 거듭제곱합 집합으로, n개의 x 값에 대해 계산되며, ..., 로 표시됩니다.
이러한 실행 합계의 결과에 따라 언제든지 N 값을 사용하여 실행 표준 편차의 현재 값을 계산할 수 있습니다.
여기서 N은 위에서 언급한 바와 같이 값 집합의 크기입니다(또는 로 간주될 수도 있습니다.
표본 표준 편차의 경우에도 마찬가지로,
컴퓨터 구현에서 두 합이 커지면 반올림 오차, 산술 오버플로, 산술 언더플로를 고려해야 합니다.아래 방법은 반올림 오차를 줄인 런 합계 방법을 계산합니다.[17]계산 중에 사전 데이터를 저장할 필요 없이 n개 표본의 분산을 계산하는 "원 패스" 알고리즘입니다.이 방법을 시계열에 적용하면 n이 일정한 너비의 슬라이딩 윈도우 계산이 아니라 각 새 샘플에 따라 커짐에 따라 n개의 데이터 포인트에 해당하는 표준 편차의 연속 값이 생성됩니다.
= 1의 경우, ...,
여기서 A는 평균값입니다.
참고: -1 = 0 또는 =이므로 = 0입니다.
표본 분산:
모집단 분산:
가중계산
값이 동일하지 않은 가중치로 가중치를 부여하면 검정력 합 s는1 각각 다음과 같이 계산됩니다.
그리고 표준 편차 방정식은 변하지 않습니다.s0 이제는 샘플 수 N이 아닌 가중치의 합입니다.
반올림 오차가 감소된 증분 방법도 적용할 수 있으며, 복잡성도 다소 증가합니다.
가중치의 런 합계는 1부터 n까지의 각 k에 대해 계산해야 합니다.
그리고 위에서 1/σ이 사용되는 자리는 /:Wn로 대체해야 합니다.
마지막 부문에서.
그리고.
아니면
여기서 n은 원소의 총 개수이고, n'은 가중치가 0이 아닌 원소의 개수입니다.
위의 공식은 가중치를 1과 같게 하면 위에 제시된 간단한 공식과 같아집니다.
역사
표준편차라는 용어는 1894년 칼 피어슨(Karl Pearson)이 강의에서 표준편차를 사용한 이후 처음으로 글에서 사용되었습니다.[18][19]이것은 같은 아이디어에 대한 이전의 대체 이름을 대체하기 위한 것이었습니다. 예를 들어, 가우스는 평균 오류를 사용했습니다.[20]
표준편차지수
표준 편차 지수(SDI)는 외부 품질 평가, 특히 의료 실험실에서 사용됩니다.계산은 다음과 같습니다.[21]
고차원
2차원에서 표준 편차는 표준 편차 타원으로 설명할 수 있습니다(다변량 정규 분포 § 기하학적 해석 참조).
참고 항목
- 68–95–99.7 규칙
- 정확도 및 정밀도
- 분산 계산을 위한 알고리즘
- Chebyshev의 부등식 위치 및 척도 모수에 대한 부등식
- 변동계수
- 누산
- 편차(통계)
- 거리 상관 관계 거리 표준 편차
- 에러바
- 기하 표준 편차
- Mahalanobis 거리 평균에 대한 표준 편차의 수를 일반화하는 방법
- 평균절대오차
- 통합 분산
- 불확정성 전파
- 백분위수
- 원시자료
- 감소된 카이 제곱 통계량
- 강건한 표준편차
- 평균 제곱근
- 표본크기
- 새뮤얼슨 부등식
- 식스 시그마
- 표준오차
- 표준점수
- 풍향 표준편차 산정을 위한 Yamartino 방법
참고문헌
- ^ Bland, J.M.; Altman, D.G. (1996). "Statistics notes: measurement error". BMJ. 312 (7047): 1654. doi:10.1136/bmj.312.7047.1654. PMC 2351401. PMID 8664723.
- ^ Gauss, Carl Friedrich (1816). "Bestimmung der Genauigkeit der Beobachtungen". Zeitschrift für Astronomie und Verwandte Wissenschaften. 1: 187–197.
- ^ Walker, Helen (1931). Studies in the History of the Statistical Method. Baltimore, MD: Williams & Wilkins Co. pp. 24–25.
- ^ Weisstein, Eric W. "Bessel's Correction". MathWorld.
- ^ "Standard Deviation Formulas". www.mathsisfun.com. Retrieved 21 August 2020.
- ^ Weisstein, Eric W. "Standard Deviation". mathworld.wolfram.com. Retrieved 21 August 2020.
- ^ "Consistent estimator". www.statlect.com. Retrieved 10 October 2022.
- ^ Gurland, John; Tripathi, Ram C. (1971), "A Simple Approximation for Unbiased Estimation of the Standard Deviation", The American Statistician, 25 (4): 30–32, doi:10.2307/2682923, JSTOR 2682923
- ^ "Standard Deviation Calculator". PureCalculators. 11 July 2021. Retrieved 14 September 2021.
- ^ Shiffler, Ronald E.; Harsha, Phillip D. (1980). "Upper and Lower Bounds for the Sample Standard Deviation". Teaching Statistics. 2 (3): 84–86. doi:10.1111/j.1467-9639.1980.tb00398.x.
- ^ Browne, Richard H. (2001). "Using the Sample Range as a Basis for Calculating Sample Size in Power Calculations". The American Statistician. 55 (4): 293–298. doi:10.1198/000313001753272420. JSTOR 2685690. S2CID 122328846.
- ^ "CERN experiments observe particle consistent with long-sought Higgs boson CERN press office". Press.web.cern.ch. 4 July 2012. Archived from the original on 25 March 2016. Retrieved 30 May 2015.
- ^ LIGO Scientific Collaboration, Virgo Collaboration (2016), "Observation of Gravitational Waves from a Binary Black Hole Merger", Physical Review Letters, 116 (6): 061102, arXiv:1602.03837, Bibcode:2016PhRvL.116f1102A, doi:10.1103/PhysRevLett.116.061102, PMID 26918975, S2CID 124959784
- ^ "What is Standard Deviation". Pristine. Retrieved 29 October 2011.
- ^ Ghahramani, Saeed (2000). Fundamentals of Probability (2nd ed.). New Jersey: Prentice Hall. p. 438. ISBN 9780130113290.
- ^ Eric W. Weisstein. "Distribution Function". MathWorld. Wolfram. Retrieved 30 September 2014.
- ^ Welford, B. P. (August 1962). "Note on a Method for Calculating Corrected Sums of Squares and Products". Technometrics. 4 (3): 419–420. CiteSeerX 10.1.1.302.7503. doi:10.1080/00401706.1962.10490022.
- ^ Dodge, Yadolah (2003). The Oxford Dictionary of Statistical Terms. Oxford University Press. ISBN 978-0-19-920613-1.
- ^ Pearson, Karl (1894). "On the dissection of asymmetrical frequency curves". Philosophical Transactions of the Royal Society A. 185: 71–110. Bibcode:1894RSPTA.185...71P. doi:10.1098/rsta.1894.0003.
- ^ Miller, Jeff. "Earliest Known Uses of Some of the Words of Mathematics".
- ^ Harr, Robert R. (2012). Medical laboratory science review. Philadelphia: F. A. Davis Co. p. 236. ISBN 978-0-8036-3796-2. OCLC 818846942.
외부 링크
- "Quadratic deviation", Encyclopedia of Mathematics, EMS Press, 2001 [1994]
- "표준 편차 계산기"