안스콤베 4중주단

Anscombe's quartet
단순 요약 통계로 조사하면 4개 세트가 모두 동일하지만 그래프로 조사하면 상당히 달라진다.

안스콤베의 4중주단은 거의 동일한 단순 서술적 통계를 가지고 있지만 분포가 매우 다르고 그래프를 만들 때 매우 다르게 나타나는 4개의 데이터 세트로 구성된다. 각 데이터 집합은 11개의 (x,y) 포인트로 구성된다. 그것들은 1973년 통계학자 프랜시스 앤스콤브가 데이터를 분석할 때 그래프의 중요성과 특이치와 기타 영향력 있는 관측치가 통계 속성에 미치는 영향을 모두 보여주기 위해 건설되었다. 그는 이 글이 통계학자들 사이에서 "수치적 계산은 정확하지만 그래프는 거칠다"[1]는 인상에 맞서기 위한 의도라고 설명했다.

데이터

4개의 데이터셋 모두에 대해:

속성 가치 정확도
평균 x 9 정확한
x : s의2
x
표본 분산
11 정확한
평균 y 7.50 소수점 2자리까지
y : s의2
y
표본 분산
4.125 ±0.003
xy상관 관계 0.816 소수점 3자리까지
선형 회귀선 y = 3.00 + 0.500x 소수점 2자리, 소수점 3자리 각각
선형 회귀 분석의 결정계수 : 2 R 0.67 소수점 2자리까지
  • 첫 번째 산점도(왼쪽 위)는 단순한 선형 관계로 보이며, 여기서 y는 x에 평균적으로 선형 의존적인 가우스(가우스)로 모델링될 수 있는 상관 관계에 해당한다.
  • 두 번째 그래프(오른쪽 위)는 정규 분포를 따르지 않으며, 두 변수 사이의 관계가 분명하지만 선형이 아니며 Pearson 상관 계수는 관련이 없다. 더 일반적인 회귀 분석과 그에 상응하는 결정 계수가 더 적절할 것이다.
  • 세 번째 그래프(왼쪽 아래)에서 분포는 선형이지만 다른 회귀선을 가져야 한다(강력한 회귀선이 요구되었을 것이다). 계산된 회귀 분석은 상관 계수를 1에서 0.816으로 낮추기에 충분한 영향을 미치는 특이치 하나로 상쇄된다.
  • 마지막으로 네 번째 그래프(오른쪽 아래)는 다른 데이터 점이 변수 사이의 관계를 나타내지 않더라도 하나의 높은 탐지 가능 지점이 높은 상관 계수를 생성하기에 충분한 예를 보여준다.

4중주단은 특정 유형의 관계에 따라 분석을 시작하기 전에 일련의 데이터를 그래픽으로 보는 것의 중요성과 현실적인 데이터 집합을 설명하기 위한 기본적인 통계 속성의 부족을 설명하기 위해 여전히 자주 사용된다.[2][3][4][5][6]

데이터 집합은 다음과 같다. x 값은 처음 세 데이터 집합에 대해 동일하다.[1]

안스콤베 4중주단
I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89

안스콤브가 어떻게 데이터 세트를 만들었는지는 알려지지 않았다.[7] 출판 이후, 동일한 통계와 다른 그래픽으로 유사한 데이터 세트를 생성하는 몇 가지 방법이 개발되었다.[7][8] 이 중 하나인 데이타사우루스 다스는 공룡의 윤곽을 추적하는 지점과 12개의 다른 데이터 세트로 구성되어 있으며, 그 외에 동일한 요약 통계를 가지고 있다.[9][10][11]

참고 항목

참조

  1. ^ a b Anscombe, F. J. (1973). "Graphs in Statistical Analysis". American Statistician. 27 (1): 17–21. doi:10.1080/00031305.1973.10478966. JSTOR 2682899.
  2. ^ Elert, Glenn (2021). "Linear Regression". The Physics Hypertextbook.
  3. ^ Janert, Philipp K. (2010). Data Analysis with Open Source Tools. O'Reilly Media. pp. 65–66. ISBN 978-0-596-80235-6.
  4. ^ Chatterjee, Samprit; Hadi, Ali S. (2006). Regression Analysis by Example. John Wiley and Sons. p. 91. ISBN 0-471-74696-7.
  5. ^ Saville, David J.; Wood, Graham R. (1991). Statistical Methods: The geometric approach. Springer. p. 418. ISBN 0-387-97517-9.
  6. ^ Tufte, Edward R. (2001). The Visual Display of Quantitative Information (2nd ed.). Cheshire, CT: Graphics Press. ISBN 0-9613921-4-2.
  7. ^ a b Chatterjee, Sangit; Firat, Aykut (2007). "Generating Data with Identical Statistics but Dissimilar Graphics: A follow up to the Anscombe dataset". The American Statistician. 61 (3): 248–254. doi:10.1198/000313007X220057. JSTOR 27643902. S2CID 121163371.
  8. ^ Matejka, Justin; Fitzmaurice, George (2017). "Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing". Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems: 1290–1294. doi:10.1145/3025453.3025912. S2CID 9247543.
  9. ^ Murray, Lori L.; Wilson, John G. (April 2021). "Generating data sets for teaching the importance of regression analysis". Decision Sciences Journal of Innovative Education. 19 (2): 157–166. doi:10.1111/dsji.12233. ISSN 1540-4595. S2CID 233609149.
  10. ^ Andrienko, Natalia; Andrienko, Gennady; Fuchs, Georg; Slingsby, Aidan; Turkay, Cagatay; Wrobel, Stefan (2020), "Visual Analytics for Investigating and Processing Data", Visual Analytics for Data Scientists, Cham: Springer International Publishing, pp. 151–180, doi:10.1007/978-3-030-56146-8_5, ISBN 978-3-030-56145-1, S2CID 226648414, retrieved 2021-04-20
  11. ^ Matejka, Justin; Fitzmaurice, George (2017). "Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing". Autodesk Research. Retrieved 2021-04-20.{{cite web}}: CS1 maint : url-status (링크)

외부 링크