데이터 사이언스

Data science
우주망원경광시야 적외선 탐사선이 획득한 천문측량 데이터를 분석하여 네오와이즈 혜성(여기서 일련의 붉은 점으로 표현됨)의 존재를 발견했습니다.

데이터 과학통계, 과학적 컴퓨팅, 과학적 방법, 프로세스, 알고리즘 및 시스템을 사용하여 소음이 많고 구조화되지 않은 데이터에서 지식과 통찰력을 추출하거나 추론하는 학제간 학문 분야입니다[1].[2]

또한 데이터 과학은 기본 응용 분야(예: 자연 과학, 정보 기술 및 의학)의 도메인 지식을 통합합니다.[3]데이터 과학은 다면적이며 과학, 연구 패러다임, 연구 방법, 학문, 작업 흐름 및 직업으로 설명될 수 있습니다.[4]

데이터 과학은 "통계, 데이터 분석, 정보학 및 그와 관련된 방법통합하여 데이터와 "실제 현상을 이해하고 분석하는" 개념입니다.[5]그것은 수학, 통계학, 컴퓨터 과학, 정보 과학, 그리고 영역 지식의 맥락 안에서 많은 분야에서 끌어온 기술과 이론을 사용합니다.[6]하지만 데이터 과학은 컴퓨터 과학과 정보 과학과는 다릅니다.튜링상 수상자 짐 그레이는 데이터 과학을 과학의 "제4패러다임"(실증적, 이론적, 계산적, 그리고 이제는 데이터 중심)으로 상상하고 "정보 기술의 영향으로 과학의 모든 것이 변화하고 있다"고 주장했고 데이터 홍수.[7][8]

데이터 과학자는 프로그래밍 코드를 만들고 이를 통계적 지식과 결합하여 데이터로부터 통찰력을 창출하는 전문가입니다.[9]

기초

데이터 과학은 일반적으로 대규모 데이터 세트에서 지식을 추출하고 해당 데이터에서 지식과 통찰력을 적용하여 광범위한 응용 분야의 문제를 해결하는 데 중점을 둔 학제분야입니다[10].이 분야는 분석을 위한 데이터 준비, 데이터 과학 문제 공식화, 데이터 분석, 데이터 기반 솔루션 개발, 다양한 응용 분야에서 높은 수준의 결정을 알리는 결과 제시 등을 포함합니다.컴퓨터 과학, 통계학, 정보 과학, 수학, 데이터 시각화, 정보 시각화, 데이터 초음파화, 데이터 통합, 그래픽 디자인, 복잡한 시스템, 커뮤니케이션비즈니스의 기술을 통합합니다.[11][12]통계학자 Nathan YauBen Fry를 바탕으로 데이터 과학을 인간과 컴퓨터의 상호작용과 연결합니다. 사용자는 직관적으로 데이터를 제어하고 탐색할 수 있어야 합니다.[13][14]2015년 미국 통계 협회데이터베이스 관리, 통계 및 기계 학습, 분산병렬 시스템을 새롭게 등장하는 3대 기초 전문 커뮤니티로 지정했습니다.[15]

통계와의 관계

네이트 실버를 포함한 많은 통계학자들은 데이터 과학이 새로운 분야가 아니라 통계학의 다른 이름이라고 주장했습니다.[16]다른 사람들은 데이터 과학이 디지털 데이터 특유의 문제와 기술에 초점을 맞추기 때문에 통계학과는 구별된다고 주장합니다.[17]Vasant Dhar는 통계학이 양적 자료와 기술을 강조한다고 쓰고 있습니다.이에 반해 데이터 사이언스는 이미지, 텍스트, 센서, 트랜잭션, 고객 정보 등의 양적 데이터와 질적 데이터를 다루며 예측과 행동을 강조합니다.[18]콜롬비아 대학Andrew Gelman은 통계를 데이터 과학의 비필수적인 부분이라고 설명했습니다.[19]

Stanford의 교수인 David Donoho는 데이터 과학이 데이터셋의 크기나 컴퓨팅의 사용에 의해 통계학과 구별되지 않으며, 많은 대학원 프로그램이 분석 및 통계 교육을 데이터 과학 프로그램의 본질로 잘못 광고하고 있다고 말합니다.그는 데이터 과학을 전통적인 통계를 바탕으로 성장하는 응용 분야라고 설명합니다.[20]

어원

조기사용

1962년 존 터키는 "데이터 분석"이라고 부르는 분야를 설명했는데, 이 분야는 현대 데이터 과학과 유사합니다.[20]1985년, C. F. Jeff Wu는 베이징의 중국과학원에서 한 강연에서 통계학의 대체 명칭으로 "데이터 과학"이라는 용어를 처음 사용했습니다.[21]이후 1992년 몽펠리에 대학에서 열린 통계 심포지엄에 참석한 사람들은 통계학과 데이터 분석의 확립된 개념과 원칙을 컴퓨팅과 결합하여 다양한 기원과 형태의 데이터에 초점을 맞춘 새로운 학문의 출현을 인정했습니다.[22][23]

"데이터 과학"이라는 용어는 1974년 Peter Naur가 컴퓨터 과학의 대안적인 이름으로 제안했을 때까지 거슬러 올라갑니다.[6]1996년 국제분류학회연맹은 데이터 과학을 주제로 구체적으로 다루는 첫 번째 회의가 되었습니다.[6]그러나 그 정의는 여전히 유동적이었습니다.1985년 베이징의 중국과학원에서 강연을 한 후 1997년 C. F. Jeff Wu는 다시 통계학이 데이터 과학으로 이름을 바꾸어야 한다고 제안했습니다.그는 새로운 이름이 통계가 회계와 동의어가 되거나 데이터를 설명하는 것에 한정되는 등 부정확한 고정관념을 없애는 데 도움이 될 것이라고 추론했습니다.[24]1998년 하야시 치키오(Hayashi Chikio)는 데이터 설계, 수집, 분석의 세 가지 측면을 가진 새로운 학제 간 개념으로서 데이터 과학을 주장했습니다.[23]

1990년대에는 데이터셋에서 패턴을 찾는 과정(점점 더 큰 규모)에 대해 "지식 발견"과 "데이터 마이닝"을 포함하는 대중적인 용어가 사용되었습니다.[6][25]

현대 용법

2012년 기술자 Thomas H. DavenportDJ Patil은 "Data Scientist:21세기 가장 섹시한 직업'[26] 뉴욕타임스[27], 보스턴글로브 등 주요 도시 신문들도 고른 캐치프레이즈.[28]10년 후, 그들은 그것을 재확인했고, "그 일자리는 고용주들에게 그 어느 때보다 수요가 많다"[29]고 말했습니다.

독립적인 학문으로서 데이터 과학의 현대적인 개념은 때때로 William S에 기인합니다. 클리블랜드.[30]2001년 논문에서 그는 통계를 이론을 넘어 기술적인 영역으로 확장할 것을 주장했습니다. 이는 해당 분야를 크게 변화시킬 것이기 때문에 새로운 이름을 보장합니다.[25]"데이터 과학"은 다음 몇 년 동안 더 널리 사용되었습니다. 2002년에 데이터 과학 기술 위원회데이터 과학 저널을 창간했습니다.2003년 콜롬비아 대학교는 The Journal of Data Science를 시작했습니다.[25]2014년 미국통계협회의 통계학습 및 데이터마이닝 섹션(Section on Statistical Learning and Data Mining)은 데이터 과학의 인기를 반영하여 통계학습 및 데이터 과학 섹션(Section on Statistical Learning and Data Science)으로 이름을 변경했습니다.[31]

"데이터 과학자"라는 전문적인 칭호는 2008년 DJ PatilJeff Hammerbacher에 의해 부여되었습니다.[32]National Science Board가 2005년 보고서 "Long-Life Digital Data Collections: Enableding Research and Education in the 21st Century"에서 사용했지만, 디지털 데이터 컬렉션을 관리하는 데 있어서 모든 핵심적인 역할을 광범위하게 언급했습니다.[33]

데이터 과학의 정의에 대해서는 여전히 합의가 이루어지지 않고 있으며, 일부에서는 이를 유행어로 간주하고 있습니다.[34]빅 데이터는 관련 마케팅 용어입니다.[35]데이터 과학자들은 빅 데이터를 사용 가능한 정보로 분해하고 기업과 조직이 최적의 운영을 결정하는 데 도움이 되는 소프트웨어와 알고리즘을 만드는 일을 담당합니다.[36]

데이터 과학 및 데이터 분석

데이터 과학과 데이터 분석은 데이터 관리와 분석 분야에서 모두 중요한 학문이지만 몇 가지 주요한 면에서 차이가 있습니다.두 분야 모두 데이터를 다루는 것을 포함하는 반면, 데이터 과학은 데이터로부터 통찰력을 추출하고 예측을 하는 통계적, 계산적 및 기계 학습 방법의 적용을 포함하는 학제분야에 더 가깝습니다.데이터 분석은 패턴과 추세를 식별하기 위해 데이터의 검사와 해석에 더 중점을 두고 있습니다.[37][38]

데이터 분석은 일반적으로 더 작고 구조화된 데이터셋과 협력하여 특정 질문에 답하거나 특정 문제를 해결하는 것을 포함합니다.여기에는 데이터에 대한 통찰력을 얻고 변수 간의 관계에 대한 가설을 개발하기 위해 데이터 정리, 데이터 시각화 및 탐색적 데이터 분석과 같은 작업이 포함될 수 있습니다.데이터 분석가들은 일반적으로 통계적 방법을 사용하여 이러한 가설을 검정하고 데이터로부터 결론을 도출합니다.예를 들어, 데이터 분석가는 판매 데이터를 분석하여 고객 행동의 동향을 파악하고 마케팅 전략을 권장할 수 있습니다.[37]

반면, 데이터 과학은 분석에 고급 계산 및 통계 방법이 필요한 대규모, 더 복잡한 데이터 세트를 사용하는 보다 복잡하고 반복적인 프로세스입니다.데이터 과학자들은 종종 텍스트나 이미지와 같은 비정형 데이터로 작업하고 머신 러닝 알고리즘을 사용하여 예측 모델을 구축하고 데이터 중심의 의사 결정을 내립니다.데이터 과학은 통계 분석 외에도 데이터 전처리, 특징 엔지니어링, 모델 선택 등의 작업을 수행하는 경우가 많습니다.예를 들어, 데이터 과학자는 사용자의 행동 패턴을 분석하고 기계 학습 알고리즘을 사용하여 사용자의 선호도를 예측함으로써 전자 상거래 플랫폼에 대한 추천 시스템을 개발할 수 있습니다.[38][39]

데이터 분석이 기존 데이터에서 통찰력을 추출하는 데 중점을 두는 반면, 데이터 과학은 이를 넘어 예측 모델의 개발과 구현을 통합하여 정보에 입각한 의사 결정을 내립니다.데이터 과학자들은 종종 데이터를 수집 및 정리하고 적절한 분석 기법을 선택하며 실제 시나리오에 모델을 배치하는 역할을 맡습니다.이들은 수학, 컴퓨터 과학도메인 전문 지식의 교차점에서 복잡한 문제를 해결하고 대규모 데이터 세트에서 숨겨진 패턴을 찾아냅니다.[38]

이러한 차이에도 불구하고 데이터 과학과 데이터 분석은 밀접하게 관련된 분야이며 종종 유사한 기술을 필요로 합니다.두 분야 모두 통계, 프로그래밍데이터 시각화에 대한 확고한 기반이 필요하며, 기술적인 사용자와 비기술적인 사용자 모두에게 결과를 효과적으로 전달할 수 있는 능력이 필요합니다.또한 두 분야 모두 정확한 분석 및 모델링을 위해 데이터의 맥락과 뉘앙스를 이해하는 것이 필수적이기 때문에 비판적 사고와 영역 지식의 혜택을 받습니다.[37][38]

요약하면, 데이터 분석과 데이터 과학은 광범위한 데이터 관리 및 분석 분야에서 별개의 상호 연결된 학문입니다.데이터 분석은 구조화된 데이터에서 통찰력을 추출하고 결론을 도출하는 데 중점을 두고 있으며, 데이터 과학은 통찰력을 추출하고 예측 모델을 구축하며 데이터 중심의 의사 결정을 추진하기 위해 통계 분석, 계산 방법 및 기계 학습을 결합한 보다 포괄적인 접근 방식을 포함합니다.두 분야 모두 다양한 영역에서 패턴을 이해하고, 정보에 입각한 결정을 내리고, 복잡한 문제를 해결하는 데 데이터의 힘을 활용하는 데 중요한 역할을 합니다.

역사

참고 항목

참고문헌

  1. ^ Donoho, David (2017). "50 Years of Data Science". Journal of Computational and Graphical Statistics. 26 (4): 745–766. doi:10.1080/10618600.2017.1384734. S2CID 114558008.
  2. ^ Dhar, V. (2013). "Data science and prediction". Communications of the ACM. 56 (12): 64–73. doi:10.1145/2500499. S2CID 6107147. Archived from the original on 9 November 2014. Retrieved 2 September 2015.
  3. ^ Danyluk, A.; Leidig, P. (2021). Computing Competencies for Undergraduate Data Science Curricula (PDF). ACM Data Science Task Force Final Report (Report).
  4. ^ Mike, Koby; Hazzan, Orit (20 January 2023). "What is Data Science?". Communications of the ACM. 66 (2): 12–13. doi:10.1145/3575663. ISSN 0001-0782.
  5. ^ Hayashi, Chikio (1 January 1998). "What is Data Science ? Fundamental Concepts and a Heuristic Example". In Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa (eds.). Data Science, Classification, and Related Methods. Studies in Classification, Data Analysis, and Knowledge Organization. Springer Japan. pp. 40–51. doi:10.1007/978-4-431-65950-1_3. ISBN 9784431702085.
  6. ^ a b c d Cao, Longbing (29 June 2017). "Data Science: A Comprehensive Overview". ACM Computing Surveys. 50 (3): 43:1–43:42. doi:10.1145/3076253. ISSN 0360-0300. S2CID 207595944.
  7. ^ Tony Hey; Stewart Tansley; Kristin Michele Tolle (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. ISBN 978-0-9825442-0-4. Archived from the original on 20 March 2017.
  8. ^ Bell, G.; Hey, T.; Szalay, A. (2009). "Computer Science: Beyond the Data Deluge". Science. 323 (5919): 1297–1298. doi:10.1126/science.1170411. ISSN 0036-8075. PMID 19265007. S2CID 9743327.
  9. ^ Davenport, Thomas H.; Patil, D. J. (October 2012). "Data Scientist: The Sexiest Job of the 21st Century". Harvard Business Review. 90 (10): 70–76, 128. PMID 23074866. Retrieved 18 January 2016.
  10. ^ Emmert-Streib, Frank; Dehmer, Matthias (2018). "Defining data science by a data-driven quantification of the community". Machine Learning and Knowledge Extraction. 1: 235–251. doi:10.3390/make1010015.
  11. ^ "1. Introduction: What Is Data Science?". Doing Data Science [Book]. O’Reilly. Retrieved 3 April 2020.
  12. ^ "the three sexy skills of data geeks". m.e.driscoll: data utopian. 27 May 2009. Retrieved 3 April 2020.
  13. ^ Yau, Nathan (4 June 2009). "Rise of the Data Scientist". FlowingData. Retrieved 3 April 2020.
  14. ^ "Basic Example". benfry.com. Retrieved 3 April 2020.
  15. ^ "ASA Statement on the Role of Statistics in Data Science". AmStatNews. American Statistical Association. 1 October 2015. Archived from the original on 20 June 2019. Retrieved 29 May 2019.
  16. ^ "Nate Silver: What I need from statisticians". Statistics Views. Retrieved 3 April 2020.
  17. ^ "What's the Difference Between Data Science and Statistics?". Priceonomics. 13 October 2015. Retrieved 3 April 2020.
  18. ^ Vasant Dhar (1 December 2013). "Data science and prediction". Communications of the ACM. 56 (12): 64–73. doi:10.1145/2500499. S2CID 6107147.
  19. ^ "Statistics is the least important part of data science « Statistical Modeling, Causal Inference, and Social Science". statmodeling.stat.columbia.edu. Retrieved 3 April 2020.
  20. ^ a b Donoho, David (18 September 2015). "50 years of Data Science" (PDF). Retrieved 2 April 2020.
  21. ^ Wu, C. F. Jeff (1986). "Future directions of statistical research in China: a historical perspective" (PDF). Application of Statistics and Management. 1: 1–7. Retrieved 29 November 2020.
  22. ^ Escoufier, Yves; Hayashi, Chikio; Fichet, Bernard, eds. (1995). Data science and its applications. Tokyo: Academic Press/Harcourt Brace. ISBN 0-12-241770-4. OCLC 489990740.
  23. ^ a b Murtagh, Fionn; Devlin, Keith (2018). "The Development of Data Science: Implications for Education, Employment, Research, and the Data Revolution for Sustainable Development". Big Data and Cognitive Computing. 2 (2): 14. doi:10.3390/bdcc2020014.
  24. ^ Wu, C. F. Jeff. "Statistics=Data Science?" (PDF). Retrieved 2 April 2020.
  25. ^ a b c Press, Gil. "A Very Short History of Data Science". Forbes. Retrieved 3 April 2020.
  26. ^ Davenport, Thomas (1 October 2012). "Data Scientist: The Sexiest Job of the 21st Century". Harvard Business Review. Retrieved 10 October 2022.
  27. ^ Miller, Claire (4 April 2013). "Data Science: The Numbers of Our Lives". New York Times. New York City. Retrieved 10 October 2022.
  28. ^ Borchers, Callum (11 November 2015). "Behind the scenes of the 'sexiest job of the 21st century'". Boston Globe. Boston. Retrieved 10 October 2022.
  29. ^ Davenport, Thomas (15 July 2022). "Is Data Scientist Still the Sexiest Job of the 21st Century?". Harvard Business Review. Retrieved 10 October 2022.
  30. ^ Gupta, Shanti (11 December 2015). "William S. Cleveland". Retrieved 2 April 2020.
  31. ^ Talley, Jill (1 June 2016). "ASA Expands Scope, Outreach to Foster Growth, Collaboration in Data Science". Amstat News. American Statistical Association.2013년 룩셈부르크에서 첫 번째 유럽 데이터 분석 회의(ECDA2013)가 시작되었으며, 2015년 룩셈부르크에서 유럽 데이터 과학 협회(EuADS) www.euads.org 를 설립했습니다.
  32. ^ Davenport, Thomas H.; Patil, D. J. (1 October 2012). "Data Scientist: The Sexiest Job of the 21st Century". Harvard Business Review. No. October 2012. ISSN 0017-8012. Retrieved 3 April 2020.
  33. ^ "US NSF – NSB-05-40, Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century". www.nsf.gov. Retrieved 3 April 2020.
  34. ^ Press, Gil. "Data Science: What's The Half-Life of a Buzzword?". Forbes. Retrieved 3 April 2020.
  35. ^ Pham, Peter. "The Impacts of Big Data That You May Not Have Heard Of". Forbes. Retrieved 3 April 2020.
  36. ^ Martin, Sophia (20 September 2019). "How Data Science will Impact Future of Businesses?" (PDF). Medium. Retrieved 3 April 2020.
  37. ^ a b c Gareth, Hastie; Witten, Tibshira (29 September 2017). "An Introduction to Statistical Learning: with Applications in R." Springer.
  38. ^ a b c d Provost, Foster; Tom Fawcett (1 August 2013). "Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking". O'Reilly Media, Inc.
  39. ^ Han, Kamber; Pei (2011). Data Mining: Concepts and Techniques. ISBN 9780123814791. {{cite book}}: website=무시됨(도움말)