줄기와 잎 표시

Stem-and-leaf display
값 20, 30, 32, 35, 41, 41, 43, 47, 48, 51, 53, 54, 56, 57, 58, 59, 60, 62, 64, 65, 69, 71, 77, 88 및 102의 줄기와 잎 그림

줄기-잎 표시 또는 줄기-잎 그림은 분포모양을 시각화하는 데 도움이 되는 양적 데이터를 히스토그램과 유사한 그래픽 형식으로 표시하는 장치입니다.그것들은 1900년대 초 Arthur Bowley의 작품에서 발전하여 탐색적 데이터 분석에 유용한 도구입니다.스템플롯은 1977년 [1]탐험 데이터 분석에 관한투키의 책이 출간된 이후 1980년대에 더 일반적으로 사용되었다.그 동안의 인기는 당시의 컴퓨터 테크놀로지가 그래픽을 쉽게 만들 수 있도록 한 모노스페이스(타자기) 타이프 스타일을 사용한 덕분이다.최신 컴퓨터의 뛰어난 그래픽 기능은 이러한 기술의 사용 빈도를 낮춥니다.

이 플롯은 옥타브와 [3]R로[2] 구현되었다.

줄기-잎 그림은 줄기 그림이라고도 하지만, 후자의 항은 종종 다른 관리도 유형을 가리킵니다.단순 스템플롯은 공통의 x축에 y값의 행렬을 그려 수직선으로 공통의 x값을, 선상에 [4]기호가 있는 개별의 y값을 식별하는 것을 참조할 수 있다.

히스토그램과 달리, 줄기-잎 디스플레이는 원본 데이터를 적어도 두 개의 유효 자릿수로 유지하고 데이터를 순서대로 배치하므로 순서 기반 추론 및 비모수 통계로 쉽게 이동할 수 있습니다.


건설

줄기-잎 디스플레이를 구성하려면 먼저 관측치를 오름차순으로 정렬해야 합니다. 이 작업은 잎이 정렬되지 않은 상태에서 줄기-잎 디스플레이의 초안을 구성한 다음 잎을 정렬하여 최종 줄기-잎 디스플레이를 생성하는 방식으로 손으로 작업하는 경우 가장 쉽게 수행할 수 있습니다.다음 예에서 사용되는 데이터 값의 정렬된 집합을 다음에 나타냅니다.

44, 46, 47, 49, 63, 64, 66, 68, 68, 72, 72, 75, 76, 81, 84, 88, 106

다음으로 줄기가 무엇을 나타낼지, 잎이 무엇을 나타낼지 결정해야 한다.일반적으로 리프에는 숫자의 마지막 숫자가 포함되며 스템에는 다른 모든 숫자가 포함됩니다.매우 큰 숫자의 경우, 데이터 값은 잎에 사용되는 특정 자리 값(예: 수백 자리)으로 반올림될 수 있습니다.반올림 자리 값 왼쪽에 있는 나머지 자릿수가 스템으로 사용됩니다.

이 예에서 잎은 1자리 자리를 나타내고 스템은 나머지 숫자(10자리 이상)를 나타냅니다.

줄기-잎 표시는 세로선으로 구분된 두 개의 열로 그려집니다.줄기는 세로줄 왼쪽에 나열되어 있습니다.비록 어떤 줄기는 잎이 없다는 것을 의미할지라도 각 줄기는 한 번만 나열하고 숫자를 생략하지 않는 것이 중요하다.잎은 각 줄기의 오른쪽에 한 줄로 오름차순으로 나열되어 있습니다.

데이터에 반복되는 숫자(예: 72s 두 개)가 있는 경우 그림은 이러한 값을 반영해야 합니다(따라서 72 72 75 76 77의 숫자가 있는 경우 그림이 7 2 2 5 6 7처럼 보입니다).

키: {6 \ 3 =}
리프 유닛: 1.0
스템 유닛: 10.0

줄기와 잎 표시를 작성하려면 반올림이 필요할 수 있습니다.다음 데이터 세트를 기반으로 아래 스템플롯이 생성됩니다.

−23.678758, −12.45, −3.4, 4.43, 5.5, 5.678, 16.87, 24.7, 56.8

음수의 경우 음수가 스템 단위 앞에 배치되며, 값은 여전히 X/10입니다. 정수가 아닌 경우에는 반올림됩니다.이를 통해 더 복잡한 데이터 세트에서도 줄기 및 잎 그림이 모양을 유지할 수 있었습니다.다음 예시와 같이

- 2- (\ - 2 \ 4 = - )

사용.

줄기와 잎 표시는 데이터의 상대적 밀도와 모양을 표시하는 데 유용하여 독자에게 분포를 간략하게 보여 줍니다.대부분의 원시 수치 데이터를 완벽한 무결성으로 유지합니다.특이치를 강조 표시하고 모드를 찾는 데도 유용합니다.그러나 줄기와 잎 디스플레이는 중간 크기의 데이터 세트(약 15-150개의 데이터 포인트)에만 유용합니다.데이터 세트가 매우 작을 경우 최종 분포 특성을 확립하기 위해 합리적인 수의 데이터 포인트가 필요하기 때문에 줄기-잎 디스플레이는 거의 쓸모가 없을 수 있습니다.이러한 데이터에는 점 그림이 더 적합할 수 있습니다.데이터 세트가 매우 크면 각 데이터 점을 숫자로 표시해야 하므로 줄기와 잎 디스플레이가 매우 복잡해집니다.상자 그림 또는 히스토그램은 데이터 크기가 증가할수록 더 적절해질 수 있습니다.

비수치 사용

a'abdeghilmnrstwxy b│aeioy c│h d daeio e│adefhlmnrstwx f ay giiou haeaeimo idfdfnost jaao kaiaioi m│ai m│ n│i oy o│bdefhikmnoprsuxy │i │ioti oti │i │i │i otiotiotiotiotiotiotiotiotiotiotiotiotiotiotiotiotioti

스템 앤 리프 디스플레이는 숫자 이외의 정보를 전달하는 데도 사용할 수 있다.Collins Scrabble Words(미국 이외의 스크래블 토너먼트에서 사용되는 단어 목록)에 있는 유효한 두 글자의 단어 예에서는 상위 3개의 이니셜이 줄기로 되어 있는 것을 쉽게 알 수 있습니다.o, a, e.[5]

메모들

  1. ^ Tukey, John W. (1977). Exploratory Data Analysis (1 ed.). Pearson. ISBN 0-201-07616-0.
  2. ^ 옥타브 단위의 함수
  3. ^ R의 함수
  4. ^ 예제: MATLAB 및 Matplotlib의 스템 함수.줄기와 잎 표시는 생성되지 않습니다.
  5. ^ Gideon Goldin, 두 글자로 된 스크래블 워드를 줄기와 잎으로 시각화, 2020-10-01

레퍼런스

  • Wild, C. and Seber, G. (2000) Chance Encounters: 데이터 분석 및 추론의 첫 번째 코스, John Wiley and Sons. 페이지 49–54.ISBN 0-471-32936-3
  • Elliott, Jane; Catherine Marsh (2008). Exploring Data: An Introduction to Data Analysis for Social Scientists (2nd ed.). Polity Press. ISBN 0-7456-2282-8.