그룹화된 데이터

Grouped data

그룹화된 데이터변수의 개별 관측치를 그룹으로 집계하여 형성된 데이터이며, 이러한 그룹의 빈도 분포가 데이터를 요약 또는 분석하는 편리한 수단이 된다.그룹화에는 크게 두 가지 유형이 있습니다. 1차원 변수의 데이터 빈화, 빈의 카운트에 의한 개별 번호 대체, 다차원 변수(특히 독립 변수에 의한)의 일부 차원으로 그룹화함으로써 그룹화되지 않은 차원(특히 종속 변수)의 분포를 얻을 수 있습니다.

그룹화된 데이터의 개념은 다음과 같은 원시 데이터 집합을 고려하여 설명할 수 있습니다.

표 1: 학생 그룹이 간단한 수학 문제에 답하는 걸리는 시간(초 단위)
20 25 24 33 13 26 8 19 31 11 16 21 17 11 34 14 15 21 18 17

위의 데이터는 몇 가지 방법으로 빈도 분포를 구성하기 위해 그룹화할 수 있습니다.한 가지 방법은 간격을 기준으로 사용하는 것입니다.

위의 데이터에서 가장 작은 값은 8이고 가장 큰 값은 34입니다.8 ~ 34 의 간격은, 보다 작은 서브 인터벌(클래스 간격이라고 불립니다)로 분할됩니다.각 클래스 간격에 대해 이 간격에 해당하는 데이터 항목의 수가 카운트됩니다.이 숫자를 해당 클래스 간격의 빈도라고 합니다.결과는 다음과 같이 빈도 표로 정리됩니다.

표 2: 학생 그룹이 간단한 수학 문제에 답하는 걸리는 시간의 빈도 분포(초 단위)
소요시간(초단위) 빈도수.
5 월 30 일 < 10 ) 1
10 ° T < 15 4
15 인치 t < 20 6
20 ° T < 25 4
25 ° T < 30 2
30 ° T < 35 3

데이터를 그룹화하는 또 다른 방법은 숫자 구간 대신 몇 가지 질적 특성을 사용하는 것입니다.예를 들어, 위의 예에서는 1) 응답 시간이 5 ~14초, 2) 15 ~24초, 3) 25초 이상이면 정상보다 높은 세 가지 유형의 학생이 있다고 가정합니다.그룹화된 데이터는 다음과 같습니다.

표 3: 세 가지 유형의 학생 빈도 분포
빈도수.
정상 이하 5
보통의 10
정상 이상 5

그러나 데이터를 그룹화하는 또 다른 예는 일반적으로 사용되는 수치, 즉 실제로 우리가 범주에 할당하는 "이름"을 사용하는 것이다.예를 들어, 학급 내 학생들의 나이 분포를 살펴보자.학생들은 10살, 11살 또는 12살일 것이다.10세, 11세, 12세입니다.10세 그룹의 학생들은 10세 0일에서 10세 364일까지이며, 나이를 연속해서 보면 평균 연령은 10.5세이다.그룹화된 데이터는 다음과 같습니다.

표 4: 학급 학생의 연령 분포
나이 빈도수.
10 10
11 20
12 10

그룹화된 데이터의 평균

데이터를 추출한 모집단 평균 x {\는 그룹화된 데이터에서 다음과 같이 계산할 수 있습니다.

이 공식에서 x는 클래스 간격의 중간점을 나타내며 f는 클래스 빈도입니다.이 결과는 그룹화되지 않은 데이터의 표본 평균과 다릅니다.위의 예에서 그룹화된 데이터의 평균은 다음과 같이 계산할 수 있습니다.

수업 간격 주파수(f ) 중간점(x ) f x
5 이상, 10 미만 1 7.5 7.5
10 ° T < 15 4 12.5 50
15 인치 t < 20 6 17.5 105
20 ° T < 25 4 22.5 90
25 ° T < 30 2 27.5 55
30 ° T < 35 3 32.5 97.5
20 405


따라서 그룹화된 데이터의 평균은 다음과 같습니다.


위의 예 4에서 그룹화된 데이터의 평균은 다음과 같이 계산할 수 있습니다.

연령 그룹 주파수(f ) 중간점(x ) f x
10 10 10.5 105
11 20 11.5 230
12 10 12.5 125
40 460


따라서 그룹화된 데이터의 평균은 다음과 같습니다.

「 」를 참조해 주세요.

레퍼런스

  • Newbold, P.; Carlson, W.; Thorne, B. (2009). Statistics for Business and Economics (Seventh ed.). Pearson Education. ISBN 978-0-13-507248-6.