순서형 데이터

Ordinal data

순서형 데이터는 변수가 자연적이고 순서가 정해진 범주를 가지며 범주 간의 거리를 알 수 없는 범주형 통계 데이터 유형이다.[1]: 2 이 데이터는 S. S. 스티븐스가 1946년에 설명한 네 가지 측정 수준 중 하나인 서수 척도로 존재한다.서수 척도는 순위를 가짐으로써 공칭 척도와 구별된다.또한 기본 속성의 동일한 증분을 나타내는 범주 폭을 갖지 않음으로써 구간 척도비율 척도와도 다르다.[2]

순서형 데이터의 예

서수 데이터의 잘 알려진 예는 리커트 척도다.리커트 척도의 예는 다음과 같다.[3]: 685

맘에 들다 어느 정도 중립 다소 싫어함 싫어하다
1 2 3 4 5

서수 데이터의 예는 설문지에서 종종 발견된다. 예를 들어, "당신의 일반적인 건강 상태가 좋지 않은가, 합리적인가, 좋은가, 훌륭한가?" 조사 질문에서는 이러한 답변이 각각 1, 2, 3, 4로 코딩될 수 있다.때때로 구간 척도 또는 비율 척도의 데이터는 순서 척도로 그룹화된다. 예를 들어, 소득이 알려진 개인은 소득 범주로 그룹화되며, 소득 범주는 $0–19,999,20,000–39,999,40,000–59,99, ..., 1, 2, 3, 4로 코드화될 수 있다.순서형 데이터의 다른 예로는 사회경제적 지위, 군 계급, 교과목의 서신 등급 등이 있다.[4]

순서형 데이터를 분석하는 방법

순서형 데이터 분석에는 다른 정성적 변수와는 다른 분석 집합이 필요하다.이러한 방법에는 전력 손실을 방지하기 위해 변수의 자연적인 순서가 포함된다.[1]: 88 서수 데이터 표본의 평균 계산은 권장되지 않는다. 중위수 또는 모드를 포함한 다른 중심 경향의 척도는 일반적으로 더 적절하다.[5]

일반

스티븐스(1946)는 범주 간 동일한 거리에 대한 가정이 순서형 데이터에 대해 유지되지 않기 때문에, 순서형 분포의 설명에 평균과 표준 편차를 사용하고 평균과 표준 편차에 기초한 추정 통계량을 사용하는 것은 적절하지 않다고 주장했다.대신 공칭 데이터에 적합한 기술 통계량(사례 수, 모드, 우발적 상관 관계) 외에 중위수 및 백분위수와 같은 위치 측도를 사용해야 한다.[2]: 678 비모수적 방법은 특히 순위 측정 분석을 위해 개발된 순서형 데이터를 포함하는 추정 통계에 가장 적절한 절차로 제안되었다.[4]: 25–28 그러나, 이용 가능한 통계 절차의 더 넓은 범위를 이용하기 위해 특정 주의사항과 함께 순서형 데이터에 대한 파라메트릭 통계 사용이 허용될 수 있다.[6][7][3]: 90

일변량 통계량

평균과 표준 편차 대신 순서형 데이터에 적합한 일변량 통계량에는 중위수,[8]: 59–61 기타 백분위수(사분위수, 십분위수 등)[8]: 71 및 사분위수 편차가 포함된다.[8]: 77 순서형 데이터에 대한 1-표본 검정에는 Kolmogorov-Smirnov 1-표본 검정,[4]: 51–55 1-표본검정,[4]: 58–64 변경점 시험이 포함된다.[4]: 64–71

이바리아테 통계

t-검정 평균의 시험 차이 대신, 두 개의 독립 표본에서 서수 데이터 분포의 차이를 Mann-Whitney,[8]: 259–264 ,[8]: 253–259 Smirnov [8]: 266–269 및 서명 순위[8]: 269–273 시험으로 시험할 수 있다.관련되거나 일치하는 두 표본에 대한 테스트에는 기호 테스트[4]: 80–87 Wilcoxon 서명된 순위 테스트가 포함된다.[4]: 87–95 순서[8]: 367–369 지정된 대안[4]: 216–222 대한 순위Jonckheer 검정의 분산 분석독립 표본 분산 분석 대신 순서형 데이터를 사용하여 수행할 수 있다.세 개 이상의 관련 표본에 대한 검정에는 순위별[4]: 174–183 이원 분산 분석순서가 지정된 대안에 대한 페이지 검정이 포함된다.[4]: 184–188 두 개의 서수 척도로 된 변수에 적합한 상관 관계 측정에는 Kendall의 tau,[8]: 436–439 감마,[8]: 442–443 r [8]: 434–436 s dyx/dxy 포함된다.[8]: 443

회귀 분석 응용 프로그램

순서형 데이터는 양적 변수로 간주할 수 있다.로지스틱 회귀 분석에서 방정식

모델과 c는 범주형 척도의 지정된 수준을 취한다.[1]: 189 회귀 분석에서 순서형 변수인 결과(의존 변수)는 순서형 로짓 또는 순서형 프로빗과 같은 순서형 회귀 분석의 변형을 사용하여 예측할 수 있다.

다중 회귀 분석/상관 분석에서 순서형 데이터는 검정력 다항식을 사용하고 점수 및 순위 정규화를 통해 수용할 수 있다.[9]

선형 추세

선형 추세는 또한 일반적으로 분할표에서 순서형 데이터와 다른 범주형 변수 사이의 연관성을 찾는 데 사용된다.r이 -1과 1 사이에 있는 변수들 사이에서 상관관계 r이 발견된다.추세를 검정하려면 검정 통계량:

n이 표본 크기인 경우 사용된다.[1]: 87

R 1 .. . I{\로 하면 찾을 수 있다. 행 점수와 v . . . v 열 점수.Let = + 행 점수의 평균이 되는 vv = j + j}p그런 i + 은(는) 한계 열 확률이고 + 은 한계 열 확률이다.R은 다음과 같이 계산된다.

분류 방법

순서형 데이터에 대한 분류 방법도 개발되었다.데이터는 각 관측치가 다른 관측치와 유사하게 서로 다른 범주로 나뉜다.각 그룹에서 분산을 측정하고 최소화하여 분류 결과를 극대화한다.산포함수는 정보이론에 사용된다.[10]

순서형 데이터에 대한 통계적 모형

순서형 데이터의 구조를 설명하는 데 사용할 수 있는 몇 가지 다른 모델이 있다.[11]아래에 설명되어 있는 네 가지 주요 모델 등급은 각각 무작위 Y 에 대해 정의되었으며 k = ,, {\,2로 색인화되었다

아래 모델 정의에서 값은 동일한 데이터 집합에 대한 모든 모델에 대해 동일하지는 않지만 다른 모델의 구조를 비교하는 데 표기법이 사용된다.

비례 오즈 모형

순서 자료에 가장 모델은 비례 확률 모델, 로그 ⁡[Pr(Y≤ k=Pr(Y>k)]에 의해 정의된=log⁡[Pr(Y≤ k=1− Pr(Y≤ k=])μ k+β T){\displaystyle\log \left[{\frac{\Pr(Y\leq k=}{Pr(Y>, k)}}\right]=\log \left[{\frac{\Pr(Y\leq k=}{1-\Pr(Y\leq k=}}\right]=\m.u_{k}} 매개변수 {\(가) 순서 데이터의 기본 분포를 설명하고, 공변량 효과를 설명하는 계수다.

This model can be generalized by defining the model using instead of , and this would make the model suitable for nominal data (in which the categories have no n순서형 데이터뿐만 아니라 경음순 순서).그러나 이러한 일반화는 모형을 데이터에 적합시키는 것을 훨씬 더 어렵게 만들 수 있다.

기준 카테고리 로짓 모델

The baseline category model is defined by

이 모델은 범주에 오더를 부과하지 않으므로 순서형 데이터뿐만 아니라 명목형 데이터에도 적용할 수 있다.

주문형 고정관념 모델

The ordered stereotype model is defined by where the score parameters are constrained such that }

이는 기준 범주 로짓 모델보다 더 파사모닉하고 더 전문화된 모델이다. k {\은(는) k } 와 유사하다고 생각할 수 있다

주문되지 않은 고정관념 모델은 주문된 고정관념 모델과 형태가 같지만, k 에 부과된 주문은 없다이 모델은 공칭 데이터에 적용할 수 있다.

Note that the fitted scores, , indicate how easy it is to distinguish between the different levels of . If then that indicates that the current set of data공변량 에 대해 수준 {\k}과 k - 을(를) 구별하는 데 많은 정보를 제공하지 않지만, 그렇다고 반드시 실제 값 이 멀리 있다는 의미는 아니다.공변량의 값이 변경되면, 이 데이터의 적합 점수 ^ ) - 은(와) 크게 다를 수 있다.

인접 카테고리 로짓 모델

그 인접한 범주 모형 로그 ⁡[Pr(Y)k)Pr(Y)k+1)]에 의해 정의된다 μ k+β kT={\displaystyle \log \left[{\frac{\Pr(Y=k)}{\Pr(Y=k+1)}}\right]=\mu_{k}+\mathbf{\beta}_{k}^{T}\mathbf{)}}비록 가장 흔한 형태,에 언급한 Agresti(2010년)[11]은"비례 확률을 형성하기"을 정의.d에 의해

한 범주에서 다음 범주로 이동하는 확률을 모형화하는 것은 그러한 범주의 순서가 존재함을 의미하기 때문에 이 모델은 순서형 데이터에만 적용할 수 있다.

인접한 범주 로짓 모델은 k= (- ) }의 기준선 범주 로짓 모델의 특별한 사례로 생각할 수 있다인접한 범주 로짓 모델은 또한 데이터를 기반으로 추정되기 보다는 k - {\ k{\ 사이의 거리가 미리 정의되어 있는 순서 고정관념 모델의 특수한 경우라고 생각할 수 있다.

모형 간 비교

비례 오즈 모델은 다른 세 가지 모델과 구조가 매우 다르고, 기초적인 의미도 다르다.이후 Y≤ k{Y\leq km그리고 4.9초 만\displaystyle}Y을 비교된다로 Y)k{Y=k\displaystyle}에 비유된다 k{k\displaystyle}을 참조 범주의 비례 확률 모델에서 크기마다 다를 경우, k{\displaystyle Y>, k}, 반면 다른 모델들에서 그 참조문 범주의 크기 고정된 남아 있습니다. Y) 또는 = +

서로 다른 연결 함수

프로빗 링크나 보완 로그 로그 링크와 같이 서로 다른 링크 기능을 사용하는 모든 모델의 변형들이 있다.

시각화 및 표시

순서형 데이터는 여러 가지 다른 방법으로 시각화할 수 있다.일반적인 시각화는 막대 차트파이 차트 입니다.는 또한 순서형 데이터와 빈도를 표시하는 데 유용할 수 있다.모자이크 그림은 순서형 변수와 명목형 또는 순서형 변수의 관계를 보여주는 데 사용될 수 있다.[12]범프 차트 - 한 시점부터 다음 시점까지의 항목의 상대적 순위를 보여주는 꺽은선형 차트는 순서형 데이터에도 적합하다.[13]

색상 또는 그레이스케일 그라데이션은 데이터의 순서 특성을 나타내기 위해 사용될 수 있다.소득 범위와 같은 단방향 척도는 단일 색상의 포화도가 증가하거나 감소하는 경우 더 높은(또는 더 낮은) 소득을 나타내는 막대 차트로 나타낼 수 있다.리커트 척도와 같이 양방향 척도로 측정한 변수의 순서 분포도 쌓인 막대 차트에 색상으로 나타낼 수 있다.중간점(흰색 또는 회색)은 중간점으로부터 반대방향에 사용된 대조적인 색상으로 중간점(제로 또는 중립점)에 사용될 수 있으며, 여기서 색상의 포화 또는 어둠이 증가하면 중간점으로부터 점점 멀어지는 범주를 나타낼 수 있다.[14]초로플레스 지도는 또한 순서형 데이터를 표시하기 위해 색상이나 그레이스케일 음영을 사용한다.[15]

국방비 지출에 대한 의견의 막대 플롯 예.
정당별 국방비 지출에 대한 의견의 과장된 예.
정당별 국방비 지출에 대한 의견의 모자이크 플롯 예.
정당별 국방비 지출에 대한 의견의 누적 막대 그래프의 예.

적용들

순서형 데이터의 사용은 범주형 데이터가 생성되는 대부분의 연구 영역에서 찾을 수 있다.순서형 데이터가 수집되는 설정에는 관찰, 시험 또는 설문지에 의해 사람으로부터 측정치를 수집하는 사회 및 행동 과학과 정부 및 기업 환경이 포함된다.서수 데이터 수집을 위한 몇 가지 일반적인 맥락에는 조사 연구지능, 적성 및 성격 검사가 포함된다.[16][17][3]: 89–90

순서형 데이터를 이용한 '효과 크기'(Cliff's Delta d)의 계산은 통계적 우위의 척도로 권고되었다.{클리프, N. (1993)우위 통계량:순서형 질문에 답변하는 순서형 분석.심리학 회보, 114, 494-509}

참고 항목

참조

  1. ^ a b c d Agresti, Alan (2013). Categorical Data Analysis (3 ed.). Hoboken, New Jersey: John Wiley & Sons. ISBN 978-0-470-46363-5.
  2. ^ a b Stevens, S. S. (1946). "On the Theory of Scales of Measurement". Science. New Series. 103 (2684): 677–680. Bibcode:1946Sci...103..677S. doi:10.1126/science.103.2684.677. PMID 17750512.
  3. ^ a b c Cohen, Ronald Jay; Swerdik, Mark E.; Phillips, Suzanne M. (1996). Psychological Testing and Assessment: An Introduction to Tests and Measurement (3rd ed.). Mountain View, CA: Mayfield. pp. 685. ISBN 1-55934-427-X.
  4. ^ a b c d e f g h i j Siegel, Sidney; Castellan, N. John Jr. (1988). Nonparametric Statistics for the Behavioral Sciences (2nd ed.). Boston: McGraw-Hill. pp. 25–26. ISBN 0-07-057357-3.
  5. ^ Jamieson, Susan (December 2004). "Likert scales: how to (ab)use them". Medical Education. 38 (12): 1212–1218. doi:10.1111/j.1365-2929.2004.02012.x. PMID 15566531. S2CID 42509064.
  6. ^ Sarle, Warren S. (Sep 14, 1997). "Measurement theory: Frequently asked questions".
  7. ^ van Belle, Gerald (2002). Statistical Rules of Thumb. New York: John Wiley & Sons. pp. 23–24. ISBN 0-471-40227-3.
  8. ^ a b c d e f g h i j k l Blalock, Hubert M. Jr. (1979). Social Statistics (Rev. 2nd ed.). New York: McGraw-Hill. ISBN 0-07-005752-4.
  9. ^ Cohen, Jacob; Cohen, Patricia (1983). Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences (2nd ed.). Hillsdale, New Jersey: Lawrence Erlbaum Associates. p. 273. ISBN 0-89859-268-2.
  10. ^ Laird, Nan M. (1979). "A Note on Classifying Ordinal-Scale Data". Sociological Methodology. 10: 303–310. doi:10.2307/270775. JSTOR 270775.
  11. ^ a b Agresti, Alan (2010). Analysis of Ordinal Categorical Data (2nd ed.). Hoboken, New Jersey: Wiley. ISBN 978-0470082898.
  12. ^ "Plotting Techniques".
  13. ^ Berinato, Scott (2016). Good Charts: The HBR Guide to Making Smarter, More Persuasive Data Visualizations. Boston: Harvard Business Review Press. p. 228. ISBN 978-1633690707.
  14. ^ Kirk, Andy (2016). Data Visualisation: A Handbook for Data Driven Design (1st ed.). London: SAGE. p. 269. ISBN 978-1473912144.
  15. ^ Cairo, Alberto (2016). The Truthful Art: Data, Charts, and Maps for Communication (1st ed.). San Francisco: New Riders. p. 280. ISBN 978-0321934079.
  16. ^ Alwin, Duane F. (2010). Marsden, Peter V.; Wright, James D. (eds.). Assessing the Reliability and Validity of Survey Measures. Handbook of Survey Research. Howard House, Wagon Lane, Bingley BD16 1WA, UK: Emerald House. p. 420. ISBN 978-1-84855-224-1.{{cite book}}: CS1 maint : 위치(링크)
  17. ^ Fowler, Floyd J. Jr. (1995). Improving Survey Questions: Design and Evaluation. Thousand Oaks, CA: Sage. pp. 156–165. ISBN 0-8039-4583-3.

추가 읽기

  • Agresti, Alan (2010). Analysis of Ordinal Categorical Data (2nd ed.). Hoboken, New Jersey: Wiley. ISBN 978-0470082898.