탐색적 자료 분석

Exploratory data analysis

통계학에서 탐색적 데이터 분석(, EDA)은 데이터 집합의 주요 특징을 요약하기 위해 분석하는 접근법으로, 종종 통계 그래픽 및 기타 데이터 시각화 방법을 사용합니다.통계적 모델을 사용할 수도 있고 사용하지 않을 수도 있지만, 주로 EDA는 데이터가 공식적인 모델링을 넘어 우리에게 무엇을 알려줄 수 있는지를 확인하기 위한 것이므로 전통적인 가설 테스트와 대조됩니다.탐색적 데이터 분석은 1970년부터 통계학자들이 데이터를 탐색하고 새로운 데이터 수집과 실험으로 이어질 수 있는 가설을 공식화하기 위해 John Tukey에 의해 추진되어 왔습니다.EDA는 모형 적합 및 가설 검정에 필요한 가정을 [1][2]확인하고 결측치를 처리하고 필요에 따라 변수를 변환하는 데 보다 좁게 초점을 맞추는 초기 데이터 분석(IDA)과는 다릅니다.EDA는 IDA를 포괄합니다.

개요

1961년 Tukey는 데이터 분석을 다음과 같이 정의했습니다. "데이터를 분석하는 절차, 그러한 절차의 결과를 해석하는 기술, 분석을 더 쉽게, 더 정확하게 또는 더 정확하게 하기 위해 데이터 수집을 계획하는 방법, 데이터를 분석하는 데 적용되는 (수학적) 통계의 모든 기계와 결과."[3]

탐색적 데이터 분석은 데이터 집합을 분석하고 조사하여 데이터 집합의 주요 특성을 요약하는 분석 기법입니다.EDA의 주요 장점은 분석을 수행한 후 데이터의 시각화를 제공하는 것입니다.이 보고서는 신체적, 인지적, 정서적 등 다양한 요소로 조직 관리를 조명할 것입니다.이러한 요인들은 환경적 위협, 일시적이고 정의적인 신뢰와 인지적인 신뢰를 찾을 수 없는 것과 같은 다양한 예측 요인들에 의해 판단되어 왔습니다.Tukey의 EDA 우승은 통계 컴퓨팅 패키지, 특히 Sat Bell Labs의 개발을 장려했습니다.[4]S 프로그래밍 언어는 S-PLUS와 R 시스템에 영감을 주었습니다.이 통계-컴퓨팅 환경 제품군은 대폭 향상된 동적 시각화 기능을 특징으로 하며, 이를 통해 통계학자는 추가 연구가 필요한 데이터의 이상치, 추세 및 패턴을 식별할 수 있었습니다.

Tukey의 EDA는 통계 이론의 두 가지 다른 발전과 관련이 있었습니다: 강력한 통계학과 비모수 통계학, 두 가지 모두 통계 모델을 공식화하는 데 있어 오류에 대한 통계 추론의 민감도를 줄이려고 노력했습니다.Tukey는 경험적 분포의 함수인 중위수와 사분위수가 평균표준 편차와 달리 모든 분포에 대해 정의되기 때문에 두 극단(최대최소), 중위수, 사분위수의 다섯 가지 숫자 요약 데이터를 사용하도록 권장했습니다.사분위수와 중위수는 전통적인 요약(평균 및 표준 편차)보다 치우치거나 꼬리가 무거운 분포에 더 강합니다.패키지 S, S-PLUSR에는 (많은 문제에 대해) 비모수적이고 강력한 Quenouille 및 Tukey's jackknifeEfron's bootstrap과 같은 리샘플링 통계를 사용한 루틴이 포함되었습니다.

탐색적 데이터 분석, 강력한 통계, 비모수 통계 및 통계 프로그래밍 언어의 개발은 과학 및 공학 문제에 대한 통계학자의 작업을 용이하게 했습니다.이런 문제에는 반도체 조작과 통신망에 대한 이해가 포함돼 벨 연구소가 우려했습니다.Tukey가 지지하는 이러한 통계적 발전은 통계적 가설을 검증하는 분석 이론, 특히 지수 가족에 대한 라플라시안 전통의 강조를 보완하기 위해 고안되었습니다.[5]

발전

데이터 과학 프로세스 흐름도

John W. Tukey는 1977년에 "Exploratory Data Analysis"라는 책을 썼습니다.[6]Tukey는 통계학에서 너무 많은 비중을 차지하는 것은 통계적 가설 검정(확인 데이터 분석)이며, 검정할 가설을 제시하기 위해 데이터를 사용하는 것에 더 비중을 둘 필요가 있다고 주장했습니다.특히 두 가지 유형의 분석을 혼동하여 동일한 데이터 집합에 사용하는 것은 데이터가 제시하는 검정 가설에 내재된 문제로 인해 체계적인 편향을 초래할 수 있다고 주장했습니다.

EDA의 목적은 다음과 같습니다.

  • 데이터에서 예상치 못한 검색 실행
  • 관찰된 현상원인에 대한 가설 제시
  • 통계적 추론의 근거가 되는 가정을 평가
  • 적절한 통계 도구 및 기법의 선정을 지원합니다.
  • 설문조사실험[7] 통해 추가적인 데이터 수집의 근거 제공

많은 EDA 기법이 데이터 마이닝에 채택되었습니다.그들은 또한 통계학적 사고를 도입하기 위한 방법으로 어린 학생들에게 가르쳐지고 있습니다.[8]

테크닉 및 툴

EDA에 유용한 도구들이 많이 있지만 EDA는 특정한 기술보다는 태도에 더 큰 특징이 있습니다.[9]

EDA에서 사용되는 대표적인 그래픽 기법은 다음과 같습니다.

차원 축소:

대표적인 정량 기법은 다음과 같습니다.

역사

많은 EDA 아이디어는 이전의 저자들로부터 거슬러 올라갈 수 있습니다. 예를 들어 다음과 같습니다.

오픈 유니버시티 코스 통계사회(MDST 242)는 위의 아이디어를 받아들여 동전 던지기와 중앙값 테스트를 통한 통계적 추론을 도입한 고트프리드 노이더의 연구와 결합했습니다.

EDA의 결과는 주 분석 작업과 직교합니다.예를 들어, Cook 등의 예제를 생각해 보십시오. 여기서 분석 작업은 식당에서 웨이터에게 주는 팁을 가장 잘 예측하는 변수를 찾는 것입니다.[12]이 작업을 위해 수집된 데이터에서 사용할 수 있는 변수는 팁 금액, 총 청구서, 지불자 성별, 흡연/금연 구간, 시간, 요일 및 파티 규모입니다.주요 분석 작업은 팁 비율이 반응 변수인 회귀 모형을 적합시켜 접근합니다.적합한 모델은

(팁 레이트) = 0.18 - 0.01 × (파티사이즈)

회식 자리의 규모가 한 사람 증가하면(더 높은 법안으로 이어짐), 팁 레이트는 평균적으로 1% 감소할 것이라는 것입니다.

그러나 데이터를 탐색하면 이 모델에 의해 설명되지 않은 다른 흥미로운 특징이 나타납니다.

실험이 다른 추세를 조사하기 위해 설계되지 않았음에도 불구하고 그림에서 학습된 내용은 회귀 모형에서 설명된 내용과 다릅니다.데이터를 탐색함으로써 발견된 패턴은 사전에 예상하지 못했을 수도 있는 팁에 대한 가설을 제시하며, 새로운 데이터를 수집함으로써 가설을 공식적으로 진술하고 테스트하는 흥미로운 후속 실험으로 이어질 수 있습니다.

소프트웨어

  • JMP, SAS Institute의 EDA 패키지입니다.
  • KNIME, Konstanz Information Miner – Eclipse 기반 오픈소스 데이터 탐색 플랫폼
  • 산업 및 기업 환경에서 널리 사용되는 EDA 및 일반 통계 패키지인 Minitab.
  • 오픈 소스 데이터 마이닝머신 러닝 소프트웨어 제품군인 오렌지.
  • 데이터 마이닝 및 머신 러닝에 널리 사용되는 오픈 소스 프로그래밍 언어인 파이썬.
  • R, 통계 컴퓨팅 및 그래픽을 위한 오픈 소스 프로그래밍 언어.Python과 함께 데이터 과학 분야에서 가장 인기 있는 언어 중 하나입니다.
  • 팅커 초등학교와 중학교 고학년 학생들을 위한 EDA 소프트웨어를 계획합니다.
  • Weka는 시각화 및 표적 프로젝션 추적과 같은 EDA 도구를 포함하는 오픈 소스 데이터 마이닝 패키지입니다.

참고 항목

참고문헌

  1. ^ Chatfield, C. (1995). Problem Solving: A Statistician's Guide (2nd ed.). Chapman and Hall. ISBN 978-0412606304.
  2. ^ Baillie, Mark; Le Cessie, Saskia; Schmidt, Carsten Oliver; Lusa, Lara; Huebner, Marianne; Topic Group "Initial Data Analysis" of the STRATOS Initiative (2022). "Ten simple rules for initial data analysis". PLOS Computational Biology. 18 (2): e1009819. Bibcode:2022PLSCB..18E9819B. doi:10.1371/journal.pcbi.1009819. PMC 8870512. PMID 35202399.
  3. ^ John Tukey - 데이터 분석의 미래 - 1961년 7월
  4. ^ Becker, Richard A., A Brief History of S, Murray Hill, New Jersey: AT&T Bell Laboratories, archived from the original (PS) on 2015-07-23, retrieved 2015-07-23, ... we wanted to be able to interact with our data, using Exploratory Data Analysis (Tukey, 1971) techniques.
  5. ^ Morgenthaler, Stephan; Fernholz, Luisa T. (2000). "Conversation with John W. Tukey and Elizabeth Tukey, Luisa T. Fernholz and Stephan Morgenthaler". Statistical Science. 15 (1): 79–94. doi:10.1214/ss/1009212675.
  6. ^ Tukey, John W. (1977). Exploratory Data Analysis. Pearson. ISBN 978-0201076165.
  7. ^ 베렌스-탐색적 자료분석의 원리와 절차-미국심리학회-1997
  8. ^ Konold, C. (1999). "Statistics goes to school". Contemporary Psychology. 44 (1): 81–82. doi:10.1037/001949.
  9. ^ Tukey, John W. (1980). "We need both exploratory and confirmatory". The American Statistician. 34 (1): 23–25. doi:10.1080/00031305.1980.10482706.
  10. ^ Sailem, Heba Z.; Sero, Julia E.; Bakal, Chris (2015-01-08). "Visualizing cellular imaging data using PhenoPlot". Nature Communications. 6 (1): 5825. Bibcode:2015NatCo...6.5825S. doi:10.1038/ncomms6825. ISSN 2041-1723. PMC 4354266. PMID 25569359.
  11. ^ 기초통계편람(제3판, 1920)https://archive.org/details/cu31924013702968/page/n5
  12. ^ 쿡, 디, 스웨인 (A와 함께)부자, D.Temple Lang, H. Hofmann, H. Wickham, M. Lawrence) (2007) 데이터 분석을 위한 ″ Interactive and Dynamic Graphics:R 및 G고비 ″ 스프링어 포함, 978-0387717616

서지학

  • Andrienko, N & Andrienko, G (2005) 공간시간 데이터의 탐색적 분석 체계적인 접근법.스프링어.ISBN 3-540-25994-5
  • Cook, D. and Swayne, D.F. (with A. Buja, D. Temple Lang, H. Hofmann, H. Wickham, M. Lawrence) (2007-12-12). Interactive and Dynamic Graphics for Data Analysis: With R and GGobi. Springer. ISBN 9780387717616.Cook, D. and Swayne, D.F. (with A. Buja, D. Temple Lang, H. Hofmann, H. Wickham, M. Lawrence) (2007-12-12). Interactive and Dynamic Graphics for Data Analysis: With R and GGobi. Springer. ISBN 9780387717616.{{cite book}}CS1 유지 : 여러 이름 : 저자 목록 (링크)Andrienko, N & Andrienko, G (2005) 공간 및 시간 데이터의 탐색적 분석체계적인 접근법.스프링어.ISBN 3-540-25994-5

쿡, 디, 스웨인 (A와 함께)부자, D.템플 랭, H. 호프만, H. 위컴, M. 로렌스) (2007-12-12)데이터 분석을 위한 대화형 및 동적 그래픽:R이랑 GGobi랑.스프링어.ISBN 9780387717616.Hoaglin, DC; Mosteller, F & Tukey, John Wilder (Eds) (1985).데이터 테이블, 추세 및 모양 탐색.ISBN 978-0-471-09776-1.호글린, DC; 모스텔러, F & Tukey, John Wilder (Eds) (1983).강력하고 탐색적인 데이터 분석을 이해합니다.ISBN 978-0-471-09777-8.Young, F. W. Valero-Mora, P. and Friendly M. (2006) 시각통계:Dynamic Interactive Graphics로 데이터 보기.Wiley ISBN 978-0-471-68160-1 Jambu M. (1991) 탐색적 및 다변량 데이터 분석학술지 ISBN 0123800900SH. C. DuToit, A. G. W. Steyn, R. H. Stumpf(1986) 그래픽 탐색 데이터 분석.스프링어 ISBN 978-1-4612-9371-2

Andrienko, N & Andrienko, G (2005) 공간 및 시간 데이터의 탐색적 분석체계적인 접근법.스프링어.ISBN 3-540-25994-5 Cook, D. and Swayne, D.F. (A와 함께)부자, D.템플 랭, H. 호프만, H. 위컴, M. 로렌스) (2007-12-12)데이터 분석을 위한 대화형 및 동적 그래픽:R이랑 GGobi랑.스프링어.ISBN 9780387717616.Hoaglin, DC; Mosteller, F & Tukey, John Wilder (Eds) (1985).데이터 테이블, 추세 및 모양 탐색.ISBN 978-0-471-09776-1.호글린, DC; 모스텔러, F & Tukey, John Wilder (Eds) (1983).강력하고 탐색적인 데이터 분석을 이해합니다.ISBN 978-0-471-09777-8.Young, F. W. Valero-Mora, P. and Friendly M. (2006) 시각통계:Dynamic Interactive Graphics로 데이터 보기.Wiley ISBN 978-0-471-68160-1 Jambu M. (1991) 탐색적 및 다변량 데이터 분석학술지 ISBN 0123800900SH. C. DuToit, A. G. W. Steyn, R. H. Stumpf(1986) 그래픽 탐색 데이터 분석.스프링어 ISBN 978-1-4612-9371-2

외부 링크