편차(통계)

Deviation (statistics)
랜덤 분포의 표준 편차 그림

편차수학과 통계학에서 관측된 변수 값과 다른 지정된 값, 흔히 해당 변수의 평균 사이의 차이를 정량화하는 척도로 사용됩니다. 표본 평균모집단 평균(또는 "참값")에 대한 편차를 각각 오차잔차라고 합니다. 편차의 부호는 차이의 방향을 나타냅니다. 관측값이 기준값을 초과하면 편차가 양수입니다. 편차의 절대값은 차이의 크기 또는 크기를 나타냅니다. 주어진 표본에서 표본 점만큼 편차가 많습니다. 요약 통계량표준 편차평균 절대 편차, 분산 측도 및 의 측도인 평균 부호 편차와 같은 편차 집합에서 유도할 수 있습니다.[1]

각 데이터 포인트의 편차는 개별 데이터 포인트에서 데이터 세트의 평균을 빼서 계산됩니다. 수학적으로, 데이터 집합에서 데이터 점 x의 편차 d는 다음과 같이 주어집니다.

이 계산은 평균에서 데이터 점의 "거리"를 나타내며 개별 값이 평균에서 얼마나 달라지는지에 대한 정보를 제공합니다. 양의 편차는 평균 위의 값을 나타내고 음의 편차는 평균 아래의 값을 나타냅니다.[1]

편차 제곱의 합은 데이터 집합의 산포 또는 산포를 측정하는 또 다른 척도인 분산 계산의 핵심 성분입니다. 분산은 제곱된 편차의 평균을 사용하여 계산됩니다. 편차는 통계 분석에서 데이터 포인트의 분포와 변동성을 이해하는 데 있어 기본적인 개념입니다.[1]

종류들

관측값과 관심 수량의 참값 사이의 차이인 편차(참값은 모집단 평균과 같은 기대값을 나타냄)가 오차입니다.[2]

서명된 편차

관측값과 관심 수량(예: 모집단 평균)의 참값 사이의 차이인 편차는 오차입니다.

관측값과 참값 추정치(예: 표본 평균) 사이의 차이인 편차는 잔차입니다. 이러한 개념은 측정 간격비율 수준의 데이터에 적용할 수 있습니다.[3]

부호 없음 또는 절대 편차

  • 통계의 절대 편차는 개별 데이터 점과 중앙값(일반적으로 데이터 집합의 평균 또는 중위수) 간의 전체 차이를 측정하는 메트릭입니다. 각 데이터 점과 중앙값 사이의 차이의 절대값을 취한 다음 이러한 절대값을 평균화하여 결정됩니다.[4] 공식은 다음과 같이 표현됩니다.

어디에

  • Di 절대 편차이고,
  • xi 데이터 요소입니다.
  • m(X)는 데이터 집합의 중심 경향성에 대한 선택된 측도이며, 때로는 평균(¯ {x}})이지만 대부분의 경우 중위수입니다.


통계량의 평균 절대 편차(AAD)는 중앙값(일반적으로 평균 또는 중위수) 주변의 데이터 점 집합의 산포 또는 산포를 측정하는 것입니다. 각 데이터 점과 선택한 중심 값 사이의 절대적인 차이의 평균을 취하여 계산됩니다. AAD는 데이터 집합의 중심값에서 벗어난 일반적인 크기를 측정하여 데이터의 전반적인 변동성에 대한 통찰력을 제공합니다.[5]

최소 절대 편차(LAD)는 선형 모형의 계수를 추정하기 위해 회귀 분석에 사용되는 통계적 방법입니다. 관측값과 예측값 사이의 수직 거리(잔차) 제곱의 합을 최소화하는 더 일반적인 최소 제곱법과 달리 LAD 방법은 절대 수직 거리의 합을 최소화합니다.

선형 회귀 분석의 경우, (x1,y1), (x2,y2), ...가 데이터 포인트이고, a와 b가 선형 모형에 대해 추정할 계수인 경우

합계를 최소화하여 최소 절대 편차 추정치(a 및 b)를 구합니다.

LAD 방법은 최소 제곱 방법에 비해 이상치에 대한 민감도가 낮기 때문에 치우치거나 꼬리가 무거운 잔차 분포가 있는 경우 강력한 회귀 기법입니다.[6]

요약통계

평균 부호 편차

편향되지 않은 추정치의 경우 관측되지 않은 모집단 모수 값의 전체 관측치 집합에 대한 부호화된 편차의 평균은 임의로 많은 표본에 대해 평균이 0입니다. 그러나, 표본 평균과 같은 중심 성향의 다른 측도로부터의 평균 부호 편차가 0일 필요는 없지만, 구성 방법에 따라 표본 평균값에서 부호가 있는 값의 평균 편차는 항상 0입니다.

평균 부호 편차는 중심점(일반적으로 평균)에서 값 집합의 평균 편차를 평가하는 데 사용되는 통계적 척도입니다. 각 데이터 포인트 사이의 부호화된 차이의 산술 평균과 데이터 세트의 평균을 취하여 계산됩니다.

"부호"라는 용어는 편차가 평균 위에 있는지 또는 아래에 있는지 여부를 의미하는 각각의 부호와 함께 고려된다는 것을 나타냅니다. 양의 편차(평균 위)와 음의 편차(평균 아래)가 계산에 포함됩니다. 평균 부호 편차는 평균에서 데이터 점의 평균 거리와 방향을 측정하여 데이터의 전체 추세와 분포에 대한 통찰력을 제공합니다.[7]

분산

편차 분포의 통계량은 통계적 분산의 측도로 사용됩니다.

표준 편차가 다른 분포는 데이터 점 사이의 분산 정도가 다양하게 반영됩니다. 정규 분포의 평균에서 첫 번째 표준 편차는 데이터의 약 68%를 포함합니다. 정규 분포의 평균에서 두 번째 표준 편차는 관측치의 약 95%를 포함하는 더 많은 데이터를 포함합니다.
  • 표준 편차는 데이터 세트의 확산 또는 분산에 대해 널리 사용되는 척도입니다. 데이터 세트의 평균에서 개별 데이터 포인트의 평균 변동 또는 편차의 양을 정량화합니다. 제곱 편차를 사용하며 바람직한 특성을 가지고 있습니다. 표준 편차는 극단값에 민감하여 강건하지 않습니다.[8]
  • 평균 절대 편차는 극단값의 영향을 덜 받는 데이터 집합의 산포를 측정하는 것입니다. 각 데이터 포인트와 평균 사이의 절대 차이를 구하고 이 절대 차이를 합산한 다음 관측치 수로 나누어 계산합니다. 이 메트릭은 표준 편차에 비해 변동성을 더 강력하게 추정합니다.[9]
  • 중앙값 절대 편차는 데이터 세트의 산포를 측정하기 위해 평균이 아닌 중앙값을 사용하는 강력한 통계량입니다. 각 데이터 점과 중위수 사이의 절대 차이를 찾은 다음 이러한 절대 차이의 중위수를 계산하여 계산합니다. 따라서 중위수 절대 편차가 이상치에 덜 민감하게 되어 표준 편차에 대한 강력한 대안을 제공합니다.[10]
  • 최대 절대 편차는 개별 데이터 포인트와 데이터 세트 평균 간의 최대 차이를 직접 측정하는 것입니다. 그러나 단일 극값에 의해 불균형적으로 영향을 받을 수 있기 때문에 매우 견고하지 않습니다. 이 메트릭은 이상치를 포함하는 데이터 세트를 처리할 때 신뢰할 수 있는 분산 측정을 제공하지 못할 수 있습니다.[9]

정규화

관측값과 일부 기준점 간의 차이를 측정하는 편차는 본질적으로 사용된 측정 척도에 해당하는 단위를 운반합니다. 예를 들어 길이를 측정하는 경우 편차는 미터나 피트와 같은 단위로 표시됩니다. 편차를 단위화하지 않고 다양한 데이터 세트 간의 비교를 용이하게 하기 위해 비차원화할 수 있습니다.

한 가지 일반적인 방법은 표준화에 사용되는 모집단 표준 편차 또는 학생화에 사용되는 표본 표준 편차(예: 학생화 잔차)를 사용하여 편차를 척도(통계적 분산)로 나누는 것입니다.

비차원화에 대한 또 다른 접근법은 분산보다는 위치별 확장에 초점을 맞추고 있습니다. 백분율 편차는 관측값과 허용값의 차이로 계산하고 허용값으로 나눈 다음 100%를 곱한 이 방법을 보여줍니다. 이 기법을 사용하면 허용된 값을 기준으로 편차를 조정하여 백분율 용어로 편차를 표현할 수 있으므로 관측된 값과 허용된 값 사이의 상대적인 차이를 명확하게 파악할 수 있습니다. 두 가지 비차원화 방법 모두 특정 측정 단위를 넘어 편차를 비교하고 해석할 수 있도록 하는 목적을 가지고 있습니다.[11]

한 예에서 속도에 대한 일련의 측정은 특정 매체에서 소리를 취합니다. 이론적 계산에 근거한 이 매체의 음속에 대한 허용되거나 예상되는 값은 초당 343미터입니다.

이제 실험 중에 여러 연구자들에 의해 여러 측정이 수행됩니다. 연구원 A는 소리의 속도를 초속 340m로 측정하여 예상치에서 초속 -3m의 편차가 발생합니다. 반면 연구원 B는 속도를 초속 345m로 측정해 초속 +2m의 편차가 발생합니다.

이러한 과학적 맥락에서 편차는 개별 측정값이 이론적으로 예측되거나 허용되는 값과 어떻게 다른지 정량화하는 데 도움이 됩니다. 실험 결과의 정확성과 정밀성에 대한 통찰력을 제공하여 연구자가 데이터의 신뢰성을 평가하고 불일치의 원인이 되는 요인을 잠재적으로 식별할 수 있습니다.

또 다른 예에서는 화학 반응이 화학량론에 근거하여 특정 화합물 100g을 산출할 것으로 예상된다고 가정합니다. 하지만 실제 실험실 실험에서는 조건이 다른 여러 실험이 진행됩니다.

실험 1에서 실제 수율은 95g으로 측정되어 예상 수율에서 -5g의 편차가 발생했습니다. 실험 2에서 실제 수율은 102g으로 측정되어 +2g의 편차가 발생합니다. 이러한 기대값으로부터의 편차는 다양한 조건에서 화학 반응의 효율성과 재현성에 대한 귀중한 정보를 제공합니다.

과학자들은 이러한 편차를 분석하여 반응 조건을 최적화하고, 잠재적인 오류 원인을 파악하며, 공정의 전체적인 수율과 신뢰성을 향상시킬 수 있습니다. 편차의 개념은 실험 결과의 정확성을 평가하고 과학적 실험 결과를 향상시키기 위한 정보에 근거한 결정을 내리는 데 중요합니다.

참고 항목

참고문헌

  1. ^ a b c Lee, Dong Kyu; In, Junyong; Lee, Sangseok (2015). "Standard deviation and standard error of the mean". Korean Journal of Anesthesiology. 68 (3): 220. doi:10.4097/kjae.2015.68.3.220. ISSN 2005-6419.
  2. ^ Livingston, Edward H. (June 2004). "The mean and standard deviation: what does it all mean?". Journal of Surgical Research. 119 (2): 117–123. doi:10.1016/j.jss.2004.02.008. ISSN 0022-4804.
  3. ^ Dodge, Yadolah, ed. (2003-08-07). The Oxford Dictionary Of Statistical Terms. Oxford University PressOxford. ISBN 978-0-19-850994-3.
  4. ^ Konno, Hiroshi; Koshizuka, Tomoyuki (2005-10-01). "Mean-absolute deviation model". IIE Transactions. 37 (10): 893–900. doi:10.1080/07408170591007786. ISSN 0740-817X.
  5. ^ Pham-Gia, T.; Hung, T. L. (2001-10-01). "The mean and median absolute deviations". Mathematical and Computer Modelling. 34 (7): 921–936. doi:10.1016/S0895-7177(01)00109-1. ISSN 0895-7177.
  6. ^ Chen, Kani; Ying, Zhiliang (1996-04-01). "A counterexample to a conjecture concerning the Hall-Wellner band". The Annals of Statistics. 24 (2). doi:10.1214/aos/1032894456. ISSN 0090-5364.
  7. ^ Dodge, Yadolah, ed. (2003-08-07). The Oxford Dictionary Of Statistical Terms. Oxford University PressOxford. ISBN 978-0-19-850994-3.
  8. ^ "2. Mean and standard deviation The BMJ". The BMJ The BMJ: leading general medical journal. Research. Education. Comment. 2020-10-28. Retrieved 2022-11-02.
  9. ^ a b Pham-Gia, T.; Hung, T. L. (2001-10-01). "The mean and median absolute deviations". Mathematical and Computer Modelling. 34 (7): 921–936. doi:10.1016/S0895-7177(01)00109-1. ISSN 0895-7177.
  10. ^ Jones, Alan R. (2018-10-09). Probability, Statistics and Other Frightening Stuff. Routledge. p. 73. ISBN 978-1-351-66138-6.
  11. ^ Freedman, David; Pisani, Robert; Purves, Roger (2007). Statistics (4 ed.). New York: Norton. ISBN 978-0-393-93043-6.