데이터 호수

Data lake

데이터 레이크는 자연/원시 [1]형식으로 저장된 데이터 시스템 또는 저장소이며, 일반적으로 객체 블럽 또는 파일입니다.데이터 레이크는 일반적으로 소스 시스템 데이터, 센서 데이터, 소셜 데이터 등의 원시 복사본 및 보고, 시각화, 고급 분석 및 기계 학습과 같은 작업에 사용되는 변환된 데이터를 포함하는 단일 데이터 저장소입니다.[2]데이터 레이크에는 관계형 데이터베이스(행 및 열), 반구조화 데이터(CSV, 로그, XML, JSON), 비구조화 데이터(이메일, 문서, PDF) 및 이진 데이터(이미지, 오디오,[3] 비디오)의 구조화 데이터가 포함될 수 있습니다.데이터 레이크는, 「사내」(조직의 데이터 센터내) 또는 「클라우드」(Amazon, Microsoft, Google등의 벤더의 클라우드 서비스 사용)로 설정할 수 있습니다.

제대로 관리되지 않은 데이터 레이크는 익살스럽게 데이터 [4]늪이라고 불리고 있습니다.

배경

당시 Pentaho의 최고 기술 책임자인 James Dixon은 2011년까지[5] 이 용어를 만들어 원시 [6]데이터에서 파생된 흥미로운 속성의 작은 저장소인 데이터 마트와 대조했습니다.데이터 레이크를 홍보하면서 데이터 마트는 정보 사일로화와 같은 몇 가지 고유한 문제가 있다고 주장했습니다.PricewaterhouseCoopers(PwC)는 데이터 호수가 "데이터 [7]사일로를 없앨 수 있다"고 말했습니다.데이터 레이크에 대한 연구에서 이들은 기업들이 "분석용 데이터를 추출하여 단일 하둡 기반 저장소에 배치하기 시작했다"고 언급했습니다.

Hortonworks, Google, Oracle, Microsoft, Zaloni, Teradata, Impute Technologies, Cloudera, MongoDB Amazon Web Services는 [8]모두 2016년까지 이 용어를 사용했습니다.

많은 기업이 Google Cloud Storage 및 Amazon S3같은 클라우드 스토리지 서비스나 Apache Hadoop 분산 파일 시스템(HDFS)[9]과 같은 분산 파일 시스템을 사용합니다.데이터 레이크의 개념에 대한 학계의 관심이 점차 높아지고 있습니다.예를 들어 카디프 대학의 Personal DataLake는 개인 [10]데이터를 수집, 정리 및 공유하는 단일 지점을 제공함으로써 개별 사용자의 빅데이터를 관리하는 것을 목표로 하는 새로운 유형의 데이터 호수입니다.

이전의 데이터 레이크(Hadoop 1.0)는 배치 지향 처리(Map Reduce)로 기능이 제한되었으며 이와 관련된 유일한 처리 패러다임이었습니다.데이터 호수와의 상호작용은 맵 축소 및 Apache Pig, Apache Spark 및 Apache Hive(원래 배치 지향)와 같은 고급 도구를 사용하여 Java에 대한 전문 지식을 갖추어야 한다는 것을 의미합니다.

비판

2015년 6월, David Needle은 "데이터 호수"를 " [11]데이터를 관리하는 가장 논란이 많은 방법 중 하나"로 규정했습니다.또한 PwC는 연구에서 모든 데이터 레이크 이니셔티브가 성공적인 것은 아니라는 점에 주의했습니다.Cambridge Symantics의 CTO인 Sean Martin의 말을 인용했습니다.

고객이 빅데이터 묘지를 만들고 모든 것을 HDFS(Hadoop Distributed File System)에 덤프하여 향후에 이 묘지로 무언가를 하길 원하는 것을 볼 수 있습니다.하지만 그들은 그곳에 무엇이 있는지 알지 못한다.주요 과제는 데이터 레이크를 만드는 것이 아니라 데이터 레이크가 [7]제공하는 기회를 활용하는 것입니다.

이들은 성공적인 데이터 레이크를 구축하는 기업이 조직에 중요한 데이터와 메타데이터를 파악하면서 점차 성숙해 가는 것을 설명합니다.

또 다른 비판은 "데이터 호수"라는 용어가 매우 다양한 방식으로 사용되기 때문에 유용하지 않다는 것입니다.[12] 예를 들어 데이터 웨어하우스가 아닌 툴 또는 데이터 관리 관행, 구현용 특정 기술, 원시 데이터 저장소, ETL 오프로드용 허브, 셀프 서비스 분석용 중앙 허브 등을 참조할 수 있습니다.

데이터 레이크에 대한 비판은 보증되지만, 대부분의 경우 다른 데이터 프로젝트에도 적용됩니다.[13]예를 들어, "데이터 웨어하우스"의 정의도 변경할 수 있으며, 모든 데이터 웨어하우스 작업이 성공한 것은 아닙니다.다양한 비판에 대해[14] McKinsey는 데이터 레이크는 테크놀로지의 결과가 아니라 기업 내에서 비즈니스 가치를 제공하기 위한 서비스 모델로 간주해야 한다고 지적했습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ "The growing importance of big data quality". The Data Roundtable. Retrieved 1 June 2020.
  2. ^ "What is a data lake?". aws.amazon.com. Retrieved 12 October 2020.
  3. ^ Campbell, Chris. "Top Five Differences between DataWarehouses and Data Lakes". Blue-Granite.com. Retrieved 19 May 2017.
  4. ^ Olavsrud, Thor (8 June 2017). "3 keys to keep your data lake from becoming a data swamp". CIO. Retrieved 4 January 2021.
  5. ^ Woods, Dan (21 July 2011). "Big data requires a big architecture". Forbes.
  6. ^ Dixon, James (14 October 2010). "Pentaho, Hadoop, and Data Lakes". James Dixon’s Blog. James Dixon. Retrieved 7 November 2015. If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.
  7. ^ a b Stein, Brian; Morrison, Alan (2014). Data lakes and the promise of unsiloed data (PDF) (Report). Technology Forecast: Rethinking integration. PricewaterhouseCooper.
  8. ^ Weaver, Lance (10 November 2016). "Why Companies are Jumping into Data Lakes". blog.equinox.com. Retrieved 19 May 2017.
  9. ^ Tuulos, Ville (22 September 2015). "Petabyte-Scale Data Pipelines with Docker, Luigi and Elastic Spot Instances". NextRoll.
  10. ^ Walker, Coral; Alrehamy, Hassan (2015). "Personal Data Lake with Data Gravity Pull". 2015 IEEE Fifth International Conference on Big Data and Cloud Computing. pp. 160–167. doi:10.1109/BDCloud.2015.62. ISBN 978-1-4673-7183-4. S2CID 18024161.
  11. ^ Needle, David (10 June 2015). "Hadoop Summit: Wrangling Big Data Requires Novel Tools, Techniques". Enterprise Apps. eWeek. Retrieved 1 November 2015. Walter Maguire, chief field technologist at HP's Big Data Business Unit, discussed one of the more controversial ways to manage big data, so-called data lakes.
  12. ^ "Are Data Lakes Fake News?". Sonra. 8 August 2017. Retrieved 10 August 2017.
  13. ^ "Experimental Characteristics Study of Data Storage Formats for Data Marts Development within Data Lakes". Retrieved 18 September 2021.
  14. ^ "A smarter way to jump into data lakes". McKinsey. 1 August 2017.