통계 데이터 유형

Statistical data type

통계에서 개별 데이터 지점의 그룹은 범주형("빨간색", "파란색", "녹색", 실제 번호(1.68, -5, 1.7e+6) 등 다양한 통계 데이터 유형에 속하는 것으로 분류할 수 있다.데이터 유형은 변수의 의미론적 내용의 기본 구성요소로서 변수에 대한 허용 연산, 변수를 예측하는 데 사용되는 회귀 분석 유형 등을 논리적으로 설명하는 데 사용할 수 있는 확률 분포의 종류를 제어한다.데이터 유형의 개념은 측정 수준의 개념과 유사하지만 보다 구체적이다.예를 들어 카운트 데이터에는 음이 아닌 실제 값 데이터가 요구하는 분포(예: 포아송 분포 또는 이항 분포)와 다른 분포가 필요하지만 둘 다 동일한 측정 수준(비율 척도)에 속한다.null

측정 수준의 분류법을 만들기 위한 다양한 시도가 있었다.정신물리학자 스탠리 스미스 스티븐스는 명목, 서수, 간격, 비율 척도를 정의했다.공칭 측정값에는 값 사이의 유의한 순위 순서가 없으며 일대일 변환이 허용된다.순서형 측정은 연속된 값들 간의 차이를 부정확하게 하지만, 그러한 값들에 의미 있는 순서를 가지며, 모든 순서 보존 변환을 허용한다.간격 측정은 측정값 사이의 의미 있는 거리를 정의하지만 0 값은 임의적이며(℃ 또는 화씨도경도온도 측정의 경우처럼) 선형 변환을 허용한다.비율 측정은 의미 있는 영점 값과 서로 다른 측정 사이의 거리를 모두 가지며, 모든 재스케일 변환을 허용한다.null

공칭 또는 순서형 측정에만 적합한 변수는 숫자로 합리적으로 측정할 수 없기 때문에, 때로는 범주형 변수로 함께 그룹화되는 반면, 비율과 구간 측정은 수치적 특성 때문에 이산형 또는 연속형일 수 있는 양적 변수로 그룹화된다.이러한 구분은 종종 컴퓨터 공학에서 데이터 유형과 느슨하게 상관될 수 있는데, 그 점에서 이분법 범주형 변수는 부울 데이터 유형, 적분 데이터 유형에 임의로 할당된 정수를 가진 다항성 범주형 변수, 부동 소수점을 포함하는 실제 데이터 유형의 연속형 변수로 나타낼 수 있다.tation. 그러나 컴퓨터 과학 데이터 유형을 통계 데이터 유형에 매핑하는 것은 후자의 분류에 따라 달라진다.null

다른 분류가 제안되었다.예를 들어,[1] MostellerTukey(1977)는 등급, 순위, 분수, 계수, 금액 및 잔액을 구분한다.Nelder(1990)[2]는 연속 카운트, 연속 비율, 카운트 비율 및 범주형 데이터 모드를 설명했다.Chrisman(1998),[3] van den Berg(1991)도 참조하십시오.[4]null

다른 종류의 측정 절차에서 얻은 데이터에 다른 종류의 통계적 방법을 적용하는 것이 적절한지에 대한 문제는 변수의 변환과 연구 질문의 정확한 해석에 관한 문제로 복잡하다."데이터와 그들이 기술하는 것 사이의 관계는 특정 유형의 통계적 진술이 일부 변환에서 불변하는 진실 값을 가질 수 있다는 사실을 반영할 뿐이다.변형이 고려하기에 합리적인지 아닌지는 대답하려는 질문에 달려 있다."(Hand,[5] 2004, 페이지 82)null

단순 데이터 유형

아래 표는 다양한 단순 데이터 유형, 관련 분포, 허용 연산 등을 분류한다.이러한 모든 데이터 유형은 논리적인 가능한 값과 상관없이 일반적으로 실수를 사용하여 코딩된다. 왜냐하면 랜덤 변수의 이론은 종종 실수를 보유한다고 명시적으로 가정하기 때문이다.null

데이터 유형 가능한 값 사용 예 측정 수준 분배 상대적 차이의 척도 허용통계량 회귀분석
이진의 0, 1(필수 라벨) 이진 결과("예/아니오", "참/거짓", "실패/실패" 등)null 명목 척도 베르누이 비할 데 없는 모드, 카이-제곱 로지스틱, 프로빗
단정적인 "name1", "name2", "name3", ..."nameK"(임의 레이블) "로미", "암스테르담", "매드리드", "런던", "워싱턴"(특정 혈액형, 정당, 단어 등)과 같은 이름이나 장소가 포함된 범주형 결과.null 단정적인 다항 로짓, 다항 프로빗
서수의 범주 또는 정수 또는 실제 번호 순서 지정(계수 척도) "Small", "Medium", "Large", 상대 점수, 순위 생성에만 유의한 부사 주문 순서형 척도 단정적인 상대적 비교 순서형 회귀 분석(순서형 로짓, 순서형 프로빗)
이항성의 0, 1, ..., N 가능한 N 중에서 성공 횟수(예: 예스 표) 간격 척도 이항, 베타 이항null 첨가제의 평균, 중위수, 모드, 표준 편차, 상관 관계 이항 회귀 분석(로지스틱, 프로빗)
수를 세다 음이 아닌 정수(0, 1, ...) 지정된 간격/면적/용적에서 항목 수(인원, 분자, 출생, 사망 등) 비율 척도 포아송, 음이항null 승수의 구간 척도에 허용되는 모든 통계량과 기하 평균, 조화 평균, 변동 계수 포아송, 음이항 회귀 분석
실질가 첨가제 실수 온도(섭씨 또는 화씨), 상대 거리, 위치 변수 등(또는 큰 스케일에 걸쳐 변동하지 않는 것) 간격 척도 정규 등(보통 평균에 대해 대칭) 첨가제의 평균, 중위수, 모드, 표준 편차, 상관 관계 표준 선형 회귀 분석
실제의 곱셈. 플러스 실수 켈빈, 가격, 소득, 크기, 척도 매개변수 등의 온도(특히 대규모에 따라 변동하는 경우) 비율 척도 로그 정규, 감마, 지수 등(일반적으로 치우친 분포) 승수의 구간 척도에 허용되는 모든 통계량과 기하 평균, 조화 평균, 변동 계수 로그 링크가 있는 일반화된 선형 모형

다변량 데이터 유형

단일 숫자를 사용하여 설명할 수 없는 데이터는 종종 실제 가치 랜덤 변수무작위 벡터로 전환되지만, 스스로 그것들을 처리하려는 경향이 증가하고 있다.몇 가지 예:

  • 임의 벡터.개별 요소는 상관관계가 있을 수도 있고 없을 수도 있다.상관 관계가 있는 랜덤 벡터를 설명하는 데 사용되는 분포의 예로는 다변량 정규 분포와 다변량 t-분포를 들 수 있다.일반적으로 어떤 요소와 다른 요소 사이에 임의의 상관관계가 있을 수 있지만, 이것은 종종 특정 크기 이상으로 관리할 수 없게 되어 관련 요소들에 대한 추가적인 제한이 필요하다.
  • 랜덤 행렬.랜덤 행렬은 선형적으로 배치되고 랜덤 벡터로 처리될 수 있지만, 이것은 서로 다른 요소들 간의 상관 관계를 표현하는 효율적인 방법이 아닐 수 있다.일부 확률 분포는 행렬 정규 분포위시아트 분포와 같은 랜덤 행렬에 대해 특별히 설계된다.
  • 랜덤 시퀀스.이것들은 때로 랜덤 벡터와 같다고 여겨지지만, 다른 경우에는 각 랜덤 변수가 주변 변수들과만 상관되는 경우(마코프 모델에서처럼)에 특별히 적용된다.이것은 베이즈 네트워크의 특별한 경우로서 유전자 순서나 긴 텍스트 문서와 같은 매우 긴 시퀀스에 종종 사용된다.숨겨진 마르코프 모델과 같은 그러한 시퀀스를 위해 많은 모델이 특별히 설계된다.
  • 랜덤 프로세스.이것들은 무작위 시퀀스와 유사하지만, 시퀀스의 길이가 무한하거나 무한하며 시퀀스의 요소들이 하나씩 처리되는 경우.이는 흔히 시계열로 설명할 수 있는 데이터(예: 연속된 날의 주식 가격)에 사용된다.랜덤 공정은 이산형 구간이 아니라 연속적으로 변화하는 값(예: 연속적인 시간의 온도)을 모델링하는 데도 사용된다.
  • 베이즈 네트워크.이는 그래픽 모델을 사용하여 설명한 랜덤 변수 집합에 해당하며, 그래프 구조에서 개별 랜덤 변수가 인접한 변수와 관련된 조건부 분포와 함께 연결된다.null
  • 임의 필드.이것들은 무작위 과정을 다차원까지 확장하는 것을 나타내며, 3차원(또는 시간을 포함할 때 4차원)에 걸쳐 연속적으로 변화시킬 수 있는 이나 전기장 등의 속성을 기술하기 위해 통계 역학에서 사용되는 물리학에 공통적이다.

이러한 개념은 다양한 과학 분야에서 시작되어 자주 사용법이 중복된다.결과적으로, 여러 개념들이 잠재적으로 같은 문제에 적용될 수 있는 경우가 매우 많다.null

참조

  1. ^ Mosteller, F, & Tukey, J. W. (1977)데이터 분석회귀 분석.보스턴:애디슨 웨슬리
  2. ^ 넬더, J. A. (1990).통계 정보의 분석과 해석을 전산화하는데 필요한 지식.Expert 시스템인공지능: 데이터에 대한 정보의 필요성.3월 23-27일 런던 도서관 협회 보고서
  3. ^ 크리스만, 니콜라스 R. (1998년).카토그래피에 대한 측정 수준 재고.지도지리 정보 과학, 제25권(4), 페이지 231–242
  4. ^ 판 덴 버그, G. (1991)분석 방법 선택.라이덴: DSWO 프레스
  5. ^ 손, D. J. (2004)측정 이론 및 실습: 계량화를 통한 세계.영국 런던: 아놀드.