범주형 변수

Categorical variable

통계학에서 범주형 변수(질적 변수라고도 함)는 제한적이고 일반적으로 고정된 가능한 값의 수 중 하나를 취할 수 있는 변수이며, 각 개별 또는 다른 관측 단위를 어떤 질적 특성[1]따라 특정 그룹 또는 명목 범주에 할당합니다.컴퓨터 과학 및 수학의 일부 분과에서 범주형 변수는 열거형 또는 열거형이라고 합니다.일반적으로(이 문서에는 없지만) 범주형 변수의 가능한 각 값은 수준이라고 합니다.랜덤 범주형 변수와 연관된 확률 분포범주형 분포라고 합니다.

범주형 데이터는 범주형 변수 또는 해당 형식으로 변환된 데이터(예: 그룹화된 데이터)로 구성된 통계 데이터 유형입니다.보다 구체적으로 범주형 데이터는 계수 또는 교차표로 요약된 정성적 데이터로 이루어진 관측치 또는 주어진 구간 내에서 그룹화된 정량적 데이터의 관측치로부터 파생될 수 있다.종종 순수한 범주형 데이터는 분할표의 형태로 요약된다.그러나 특히 데이터 분석을 고려할 때 "범주 데이터"라는 용어를 사용하여 일부 범주형 변수를 포함하면서도 비 범주형 변수를 포함할 수 있는 데이터 집합에 적용하는 것이 일반적입니다.

정확히 두 개의 값을 취할 수 있는 범주형 변수를 이진 변수 또는 이분법 변수라고 합니다. 중요한 특수한 경우는 베르누이 변수입니다.가능한 값이 세 개 이상인 범주형 변수를 다종 변수라고 하며, 달리 지정되지 않는 한 범주형 변수를 다종으로 가정하는 경우가 많습니다.이산화연속적인 데이터를 범주형으로 취급하는 것입니다.이분법은 연속 데이터나 다종 변수를 2진수 변수로 취급하는 것이다.회귀 분석에서는 종종 하나 이상의 정량적 더미 변수를 사용하여 범주 구성원을 처리합니다.

범주형 변수의 예제

범주형 변수에 표시될 수 있는 값의 예:

  • 6면 다이의 롤: 가능한 결과는 1, 2, 3, 4, 5, 또는 6입니다.
  • 인구의 인구 통계 정보: 성별, 질병 상태.
  • 사람의 혈액형: A, B, AB 또는 O.
  • 유권자가 투표할 수 있는 정당(: 녹색당, 기독교 민주당, 사회 민주당 등)
  • 암석의 종류: 화성, 퇴적 또는 변성.
  • 특정 단어의 ID(예: 언어 모델):V 크기의 어휘에 사용할 수 있는 V 중 하나입니다.

표기법

통계처리를 용이하게 하기 위해 K-way 범주형 변수(즉, K개의 가능한 값을 정확하게 표현할 수 있는 변수)에 대해 1부터 K까지의 수치 지수를 할당할 수 있다.그러나 일반적으로 숫자는 임의이며 단순히 특정 값에 대해 편리한 레이블을 제공하는 것 이상의 의미는 없습니다.다시 말해, 범주형 변수의 값은 공칭 척도로 존재합니다. 즉, 각각은 논리적으로 분리된 개념을 나타내며, 반드시 의미 있게 정렬될 수 없으며, 숫자처럼 다른 방식으로 조작될 수 없습니다.대신 유효한 조작은 동등성, 세트멤버십 및 기타 세트 관련 조작입니다.

결과적으로 범주형 변수 집합의 중심 경향은 해당 모드에 의해 제공되며, 평균중위수를 정의할 수 없습니다.예를 들어, 일련의 사람들이 주어진다면, 우리는 그들의 성에 대응하는 범주형 변수 집합을 고려할 수 있습니다.동등성(두 사람이 같은 성을 가지고 있는지 여부), 설정 멤버십(특정 리스트에 이름이 있는지 여부), 카운트(특정 성을 가진 사람 수), 모드 검색(가장 자주 발생하는 이름) 등의 작업을 고려할 수 있습니다.그러나 Smith + Johnson의 "합"을 의미 있게 계산하거나 Smith가 Johnson보다 작거나 "큰"지 여부를 물어볼 수 없습니다.따라서 이름 집합에서 "평균 이름"(평균) 또는 "가장 중간 이름"(중앙값)이 무엇인지 의미 있게 물어볼 수 없습니다.

는 알파벳 순서의 개념을 무시한다는 점에 유의하십시오. 알파벳 순서는 이름 자체에는 고유하지 않지만 라벨을 구성하는 방식으로 특성입니다.만일 우리가 글자의 키릴 자모 순서를 고려하 키릴 자모의 이름을 써 예를 들면, 우리가;그리고 우리는 한자의 이름을 써 주지 않기 때문에 consisten, 우리가 의미 있게 전혀,"스미스 <, 존슨"을 평가할 수 없다면 표준 라틴 알파벳의 이름을 써 보다"스미스 <, 존슨"평가하는 다른 결과를 얻을 수 있습니다.t또는dering은 이러한 문자에 대해 정의됩니다.그러나, 예를 들어 라틴 알파벳으로 쓰여진 이름으로 간주하고, 표준 알파벳 순서에 대응하는 순서를 정의하면, 서수 척도로 정의된 서수 변수로 효과적으로 변환됩니다.

가능한 값의 수

범주형 랜덤 변수는 일반적으로 범주형 분포에 의해 통계적으로 설명되며, 이를 통해 임의의 K-way 범주형 변수를 각각의 가능한 결과에 대해 지정된 개별 확률로 표현할 수 있습니다.이러한 다중 범주 범주형 변수는 종종 다양한 범주의 발생 횟수의 가능한 각 조합의 빈도를 세는 다항 분포를 사용하여 분석됩니다.범주형 결과에 대한 회귀 분석은 다항 로지스틱 회귀 분석, 다항 프로빗 또는 관련 유형의 이산 선택 모형을 통해 수행됩니다.

가능한 결과가 두 개뿐인 범주형 변수(예: "예" 대 "아니오" 또는 "성공" 대 "실패")를 이항 변수(또는 Bernouli 변수)라고 합니다.이러한 변수는 중요하기 때문에 별도의 분포(베르누이 분포)와 별도의 회귀 모형(로지스틱 회귀 분석, 프로빗 회귀 분석 등)을 가진 별도의 범주로 간주되는 경우가 많습니다.결과적으로, "범주 변수"라는 용어는 종종 3개 이상의 결과를 가진 경우를 위해 남겨지며, 때로는 이진 변수와 반대되는 다원 변수로 불리기도 한다.

범주 수가 미리 고정되지 않은 범주형 변수를 고려할 수도 있습니다.예를 들어, 특정 단어를 기술하는 범주형 변수의 경우 어휘의 크기를 미리 알지 못할 수 있으며, 우리가 아직 보지 못한 단어와 마주칠 수 있는 가능성을 고려하고자 합니다.범주 분포다항 로지스틱 회귀 분석과 같은 표준 통계 모형에서는 범주의 수가 미리 알려져 있고 범주 수를 변경하는 것이 까다롭다고 가정합니다.이러한 경우에는 보다 고도의 기술을 사용해야 합니다.한 예로 비모수 통계량의 영역에 속하는 디리클레 과정이 있습니다.이러한 경우, 무한한 수의 범주가 존재한다고 논리적으로 가정되지만, 한 때 대부분의 범주(사실 유한한 수를 제외한 모든 범주)는 한 번도 관찰되지 않았습니다.모든 공식은 (무한) 잠재적 범주의 총수가 아니라 실제로 지금까지 확인된 범주의 수로 표현되며, "새로운" 범주의 추가를 포함한 통계 분포의 증분 업데이트를 위한 방법이 작성된다.

범주형 변수 및 회귀 분석

범주형 변수는 데이터를 채점하는 정성적 방법을 나타낸다(즉, 범주 또는 그룹 구성원을 나타낸다).이러한 변수는 회귀 분석에서 독립 변수로 포함되거나 로지스틱 회귀 분석 또는 프로빗 회귀 분석에서 종속 변수로 포함될 수 있지만 데이터를 분석하려면 양적 데이터로 변환해야 합니다.코딩 시스템을 사용함으로써 그렇게 할 수 있다.분석은 g -1(g은 그룹의 수)만 코드화되도록 수행됩니다.는 전체 g 그룹을 코딩하여 추가 정보를 얻을 수 없기 때문에 전체 데이터 세트를 나타내면서도 중복성을 최소화한다. 예를 들어, 성별을 코딩할 때(여기서 g = 2: 남성과 여성), 여성만 코딩한다면 남은 모든 사람은 반드시 남성이 될 것이다.일반적으로 코드화하지 않는 그룹은 [2]관심도가 낮은 그룹입니다.

회귀 분석의 범주형 변수 분석에는 일반적으로 더미 코딩, 효과 코딩 및 대비 코딩의 세 가지 주요 코딩 시스템이 사용됩니다.회귀 방정식은 Y = bX + a형태를 취한다. 여기서 b는 기울기이며 설명자에게 경험적으로 할당된 가중치를 제공하고, X는 설명 변수, a는 Y 절편이며, 이러한 값은 사용된 부호화 시스템에 따라 다른 의미를 취한다.코드화 시스템의 선택은 F 또는2 R 통계량에 영향을 주지 않습니다.그러나 b 값의 해석[2]다양하기 때문에 관심 비교에 따라 코드 체계를 선택한다.

더미 코딩

더미 코딩은 제어 또는 비교 그룹을 염두에 두고 있을 때 사용됩니다.따라서 a는 관리 그룹의 평균을 나타내고 b는 실험 그룹의 평균과 관리 그룹의 평균 사이의 차이인 비교 그룹에 대한 한 그룹의 데이터를 분석합니다.적절한 대조군 그룹을 지정하기 위한 세 가지 기준을 충족할 것을 제안한다. 즉, 그룹은 잘 확립된 그룹이어야 하며(예: "기타" 범주이어서는 안 되며), 비교 대상으로 이 그룹을 선택하는 논리적 이유(예: 그룹이 종속 변수에 대해 가장 높은 점수를 얻을 것으로 예상됨), 마지막으로 그룹의 샘이다.플립 크기는 실질적이어야 하며 다른 그룹에 [3]비해 작으면 안 된다.

더미 부호화에서는 기준 그룹에는 각 코드 변수에 대해 0의 값이 할당되고 기준 그룹과의 비교 대상 그룹에는 지정된 코드 변수에 대해 1의 값이 할당되며, 다른 그룹에는 그 특정 코드 [2]변수에 대해 0이 할당됩니다.

b 값은 실험 그룹이 관리 그룹과 비교되도록 해석해야 합니다.따라서 음의 b 값을 산출하면 실험 그룹이 종속 변수에 대한 대조군보다 낮은 점수를 얻어야 합니다.이것을 설명하기 위해서, 우리가 몇개의 나라들 사이에서 낙관론을 측정하고 있고, 프랑스 사람들이 유용한 통제가 될 것이라고 결정했다고 가정해 보자.만약 우리가 그들을 이탈리아인과 비교하고 우리가 부정적인 b 값을 관찰한다면, 이것은 이탈리아인들이 평균적으로 더 낮은 낙관적 점수를 얻는다는 것을 암시할 것이다.

다음 표는 프랑스어를 제어그룹으로 하고 C1, C2, C3를 이탈리아어, 독일어기타(프랑스어, 이탈리아어, 독일어 모두 아님)의 코드로서 사용하는 더미 코딩의 예를 나타내고 있습니다.

국적. C1 C2 C3
프랑스어 0 0 0
이탈리아의 1 0 0
독일의 0 1 0
다른. 0 0 1

효과 코드화

이펙트 부호화 시스템에서는, 1개의 그룹을 다른 모든 그룹과 비교함으로써 데이터를 해석한다.더미 코딩과 달리 제어 그룹은 없습니다.오히려, 비교는 결합된 모든 그룹의 평균에서 이루어지고 있다(a가 현재 전체 평균이다).따라서 다른 그룹과 관련된 데이터를 찾는 것이 아니라 전체 [2]평균과 관련된 데이터를 찾는 것입니다.

미치는 영향 코딩거나 무거운 짐을 가중할 수 있다.가중 효과 코딩 단순히, 따라서 계좌에 각 변수의 샘플 크기의 가중 웅장한 의미를 계산하고 있다.이 가장의 표본 문제의 인구의 대표적인 상황에서 적절하다Unweighted 효과 코딩 가장 부수적인 요인의 표본 크기에서는 차이가 있습니다. 그 결과 상황에서 적절하다b에 대한 해석은 각각:부담이 없는 효과에서 실험 그룹의 평균과 웅장한 평균 사이에 b차이에요, 가중 상황에서 실험 그룹의 그것은 평균 영하는 가중 웅장한 의미 부호화 다르다.[2]

효과 코딩에서는 더미 코딩과 마찬가지로 관심 그룹을 1로 코딩한다.주된 차이점은 우리가 가장 관심이 없는 그룹에 대해 -1을 코드화한다는 것입니다.g - 1 코딩 방식을 계속 사용하므로 데이터를 생성하지 않는 것은 사실상 -1 코딩 그룹입니다. 따라서 해당 그룹에는 관심이 가장 적습니다.코드 0은 다른 모든 그룹에 할당됩니다.

b 값은 실험 그룹이 결합된 모든 그룹의 평균(또는 가중 효과 코딩의 경우 가중치 전체 평균)과 비교되도록 해석해야 한다.따라서 의 b 값을 산출하면 코드화된 그룹이 종속 변수에 대한 모든 그룹의 평균보다 낮은 점수를 획득하게 됩니다.만약 관심 집단이 이탈리아인이라면, 의 b 값을 관찰하면 그들이 더 낮은 낙관적 점수를 얻을 수 있다는 것을 알 수 있습니다.

다음 표는 기타 항목을 최소 관심 그룹으로 코딩하는 효과의 예제입니다.

국적. C1 C2 C3
프랑스 0 0 1
이탈리아의 1 0 0
독일의 0 1 0
다른. −1 −1 −1

콘트라스트 코딩

콘트라스트 코딩 시스템은 연구자가 직접 특정 질문을 할 수 있게 해준다.부호화 시스템이 비교를 지시하는 대신(즉, 더미 부호화에서와 같은 제어 그룹 또는 효과 부호화에서와 같은 모든 그룹에 대해) 자신의 특정 연구 질문에 맞는 고유한 비교를 설계할 수 있다.이 맞춤형 가설은 일반적으로 이전의 이론 및/또는 연구에 기초한다.제안된 가설은 일반적으로 다음과 같습니다. 첫째, 두 그룹 사이의 큰 차이를 가정하는 중심 가설이 있습니다. 두 번째 가설은 각 집합 내에서 그룹 간의 차이가 작다는 것을 나타냅니다.선험적 가설을 통해 대조 부호화는 덜 지시된 이전 부호화 [2]시스템과 비교할 때 통계 검정의 검정력을 증가시킬 수 있다.

분산 분석과 회귀 분석 사이의 선행 계수를 비교할 때 특정 차이가 나타납니다.분산 분석에서 사용할 때와 달리 회귀 분석에서는 계수 이 직교인지 비직교인지 여부에 따라 결정되므로 대조 부호화에서 할당된 계수 값이 직교여야 합니다.또한 회귀 분석에서 계수 값은 소수 또는 소수 형식이어야 합니다.인터벌 값은 사용할 수 없습니다.

콘트라스트 코드 구성은 다음 세 가지 규칙에 의해 제한됩니다.

  1. 각 코드 변수당 대비 계수의 합계는 0이어야 합니다.
  2. 양수 계수의 합과 음수 계수의 합 사이의 차이는 1이어야 합니다.
  3. 코드화된 변수는 [2]직교해야 합니다.

규칙 2를 위반하면 정확2 R F 값이 생성되어 유의한 차이가 있는지 여부에 대해 동일한 결론에 도달하지만 b 은 더 이상 평균 차이로 해석할 수 없습니다.

콘트라스트 코드의 구성을 설명하려면 다음 표를 참조하십시오.선행 가설을 설명하기 위해 계수를 선택했습니다.가설 1: 프랑스와 이탈리아인이 독일인보다 낙관론에서 더 높은 점수를 받을 것이다(프랑스인 = +0.33, 이탈리아인 = +0.33, 독일인 = -0.66).이는 프랑스와 이탈리아 범주에 동일한 계수를 할당하고 독일 범주에 다른 계수를 할당함으로써 설명된다.할당된 부호는 관계의 방향을 나타냅니다(따라서 독일인들에게 부정적인 부호를 주는 것은 그들의 낮은 가설의 낙관적 점수를 나타냅니다).가설 2: 프랑스인과 이탈리아인은 낙관론 점수가 다를 것으로 예상됩니다(프랑스어 = +0.50, 이탈리아어 = -0.50, 독일어 = 0).여기서 0 값을 독일인에게 할당하는 것은 이 가설의 분석에 포함되지 않는 것을 보여준다.다시, 할당된 부호는 제안된 관계를 나타냅니다.

국적. C1 C2
프랑스 +0.33 +0.50
이탈리아의 +0.33 −0.50
독일의 −0.66 0

넌센스 부호화

넌센스 부호화는 앞의 부호화 시스템에서 볼 수 있는 지정된 "0"의 "1" 및 "-1" 대신 임의의 값을 사용할 때 발생합니다.변수에 대한 올바른 평균 값을 생성하지만 해석 불가능한 통계 결과를 [2]초래하므로 넌센스 코드 사용은 권장되지 않습니다.

내장

임베딩범주형 값을 고차원 실가(때로는 복소값) 벡터 공간에 코드화하는 것으로, 보통 '유사' 값이 '유사' 벡터 또는 벡터를 각각의 애플리케이션에 유용하게 만드는 다른 종류의 기준과 관련하여 할당됩니다.일반적인 특수한 경우는 단어 삽입이며, 여기서 범주형 변수의 가능한 값은 언어 내의 단어이며, 유사한 의미를 가진 단어는 유사한 벡터를 할당해야 한다.

상호 작용

교호작용은 세 개 이상의 변수 간의 관계를 고려할 때 발생할 수 있으며 세 번째 변수에 대한 두 변수의 동시 영향이 가법적이지 않은 상황을 설명합니다.범주형 변수와 교호작용은 범주형 변수 교호작용과 연속형 변수 교호작용의 두 가지 방법으로 발생할 수 있습니다.

범주형 변수 교호작용별 범주형

이러한 교호작용 유형은 범주형 변수가 두 개일 때 발생합니다.이러한 유형의 상호작용을 조사하기 위해서는 연구자의 가설을 가장 적절하게 다루는 시스템을 사용하여 코드화할 수 있다.코드의 곱은 상호작용을 생성합니다.그런 다음 b 값을 계산하고 교호작용이 [2]유의한지 여부를 확인할 수 있습니다.

연속형 변수 교호작용에 의한 범주형

단순 기울기 분석은 회귀 분석에서 사용되는 일반적인 사후 검정으로, 교호작용 분석에 사용되는 분산 분석의 단순 효과 분석과 유사합니다.이 검정에서는 한 독립 변수의 단순 기울기를 다른 독립 변수의 특정 값으로 조사합니다.이러한 검정은 연속형 변수와 함께 사용하도록 제한되지 않으며 독립 변수가 범주형인 경우에도 사용할 수 있습니다.데이터의 공칭 특성 때문에 연속 변수 사례에서와 같이 단순히 상호작용을 탐색하기 위해 값을 선택할 수 없다(즉, 연속적인 경우, 데이터를 높은 수준, 중간 수준 및 낮은 수준에서 분석할 수 있으며, 평균에서 1개의 표준 편차를 할당하고, 평균에서 1개의 표준 편차를 각각 평균보다 낮게 할당할 수 있다).ly) 범주형에서는 각 그룹에 대해 단순 회귀 방정식을 사용하여 단순 기울기를 조사합니다.단순 기울기 분석에서 데이터를 보다 쉽게 해석할 수 있도록 변수를 표준화하거나 중심화하는 것이 일반적이지만 범주형 변수는 표준화하거나 중심화해서는 안 됩니다.이 테스트는 모든 코딩 [2]시스템에서 사용할 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Yates, Daniel S.; Moore, David S.; Starnes, Daren S. (2003). The Practice of Statistics (2nd ed.). New York: Freeman. ISBN 978-0-7167-4773-4. Archived from the original on 2005-02-09. Retrieved 2014-09-28.
  2. ^ a b c d e f g h i j Cohen, J.; Cohen, P.; West, S. G.; Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioural sciences (3rd ed.). New York, NY: Routledge.
  3. ^ Hardy, Melissa (1993). Regression with dummy variables. Newbury Park, CA: Sage.

추가 정보