줄기와 잎 표시
Stem-and-leaf display줄기-잎 표시 또는 줄기-잎 그림은 분포의 모양을 시각화하는 데 도움이 되는 양적 데이터를 히스토그램과 유사한 그래픽 형식으로 표시하는 장치입니다.그것들은 1900년대 초 Arthur Bowley의 작품에서 발전하여 탐색적 데이터 분석에 유용한 도구입니다.스템플롯은 1977년 [1]탐험 데이터 분석에 관한 존 투키의 책이 출간된 이후 1980년대에 더 일반적으로 사용되었다.그 동안의 인기는 당시의 컴퓨터 테크놀로지가 그래픽을 쉽게 만들 수 있도록 한 모노스페이스(타자기) 타이프 스타일을 사용한 덕분이다.최신 컴퓨터의 뛰어난 그래픽 기능은 이러한 기술의 사용 빈도를 낮춥니다.
줄기-잎 그림은 줄기 그림이라고도 하지만, 후자의 항은 종종 다른 관리도 유형을 가리킵니다.단순 스템플롯은 공통의 x축에 y값의 행렬을 그려 수직선으로 공통의 x값을, 선상에 [4]기호가 있는 개별의 y값을 식별하는 것을 참조할 수 있다.
히스토그램과 달리, 줄기-잎 디스플레이는 원본 데이터를 적어도 두 개의 유효 자릿수로 유지하고 데이터를 순서대로 배치하므로 순서 기반 추론 및 비모수 통계로 쉽게 이동할 수 있습니다.
건설
줄기-잎 디스플레이를 구성하려면 먼저 관측치를 오름차순으로 정렬해야 합니다. 이 작업은 잎이 정렬되지 않은 상태에서 줄기-잎 디스플레이의 초안을 구성한 다음 잎을 정렬하여 최종 줄기-잎 디스플레이를 생성하는 방식으로 손으로 작업하는 경우 가장 쉽게 수행할 수 있습니다.다음 예에서 사용되는 데이터 값의 정렬된 집합을 다음에 나타냅니다.
- 44, 46, 47, 49, 63, 64, 66, 68, 68, 72, 72, 75, 76, 81, 84, 88, 106
다음으로 줄기가 무엇을 나타낼지, 잎이 무엇을 나타낼지 결정해야 한다.일반적으로 리프에는 숫자의 마지막 숫자가 포함되며 스템에는 다른 모든 숫자가 포함됩니다.매우 큰 숫자의 경우, 데이터 값은 잎에 사용되는 특정 자리 값(예: 수백 자리)으로 반올림될 수 있습니다.반올림 자리 값 왼쪽에 있는 나머지 자릿수가 스템으로 사용됩니다.
이 예에서 잎은 1자리 자리를 나타내고 스템은 나머지 숫자(10자리 이상)를 나타냅니다.
줄기-잎 표시는 세로선으로 구분된 두 개의 열로 그려집니다.줄기는 세로줄 왼쪽에 나열되어 있습니다.비록 어떤 줄기는 잎이 없다는 것을 의미할지라도 각 줄기는 한 번만 나열하고 숫자를 생략하지 않는 것이 중요하다.잎은 각 줄기의 오른쪽에 한 줄로 오름차순으로 나열되어 있습니다.
데이터에 반복되는 숫자(예: 72s 두 개)가 있는 경우 그림은 이러한 값을 반영해야 합니다(따라서 72 72 75 76 77의 숫자가 있는 경우 그림이 7 2 2 5 6 7처럼 보입니다).
- 키: {6 \ 3 =}
- 리프 유닛: 1.0
- 스템 유닛: 10.0
줄기와 잎 표시를 작성하려면 반올림이 필요할 수 있습니다.다음 데이터 세트를 기반으로 아래 스템플롯이 생성됩니다.
- −23.678758, −12.45, −3.4, 4.43, 5.5, 5.678, 16.87, 24.7, 56.8
음수의 경우 음수가 스템 단위 앞에 배치되며, 값은 여전히 X/10입니다. 정수가 아닌 경우에는 반올림됩니다.이를 통해 더 복잡한 데이터 세트에서도 줄기 및 잎 그림이 모양을 유지할 수 있었습니다.다음 예시와 같이
- - 2† - (\ - 2 \ 4 = - )
사용.
줄기와 잎 표시는 데이터의 상대적 밀도와 모양을 표시하는 데 유용하여 독자에게 분포를 간략하게 보여 줍니다.대부분의 원시 수치 데이터를 완벽한 무결성으로 유지합니다.특이치를 강조 표시하고 모드를 찾는 데도 유용합니다.그러나 줄기와 잎 디스플레이는 중간 크기의 데이터 세트(약 15-150개의 데이터 포인트)에만 유용합니다.데이터 세트가 매우 작을 경우 최종 분포 특성을 확립하기 위해 합리적인 수의 데이터 포인트가 필요하기 때문에 줄기-잎 디스플레이는 거의 쓸모가 없을 수 있습니다.이러한 데이터에는 점 그림이 더 적합할 수 있습니다.데이터 세트가 매우 크면 각 데이터 점을 숫자로 표시해야 하므로 줄기와 잎 디스플레이가 매우 복잡해집니다.상자 그림 또는 히스토그램은 데이터 크기가 증가할수록 더 적절해질 수 있습니다.
비수치 사용
스템 앤 리프 디스플레이는 숫자 이외의 정보를 전달하는 데도 사용할 수 있다.Collins Scrabble Words(미국 이외의 스크래블 토너먼트에서 사용되는 단어 목록)에 있는 유효한 두 글자의 단어 예에서는 상위 3개의 이니셜이 줄기로 되어 있는 것을 쉽게 알 수 있습니다.o, a, e.[5]
메모들
- ^ Tukey, John W. (1977). Exploratory Data Analysis (1 ed.). Pearson. ISBN 0-201-07616-0.
- ^ 옥타브 단위의 함수
- ^ R의 함수
- ^ 예제: MATLAB 및 Matplotlib의 스템 함수.줄기와 잎 표시는 생성되지 않습니다.
- ^ Gideon Goldin, 두 글자로 된 스크래블 워드를 줄기와 잎으로 시각화, 2020-10-01
레퍼런스
- Wild, C. and Seber, G. (2000) Chance Encounters: 데이터 분석 및 추론의 첫 번째 코스, John Wiley and Sons. 페이지 49–54.ISBN 0-471-32936-3
- Elliott, Jane; Catherine Marsh (2008). Exploring Data: An Introduction to Data Analysis for Social Scientists (2nd ed.). Polity Press. ISBN 0-7456-2282-8.