데이터 혼합

Data blending

데이터 혼합은 여러 소스의[1] 빅데이터를 하나의 데이터 웨어하우스데이터 세트로 통합하는 과정이다.[2] 그것은 다른 파일 형식이나 상이한 데이터 소스의 병합뿐만 아니라 다른 종류의 데이터도 포함한다.[3] 데이터 혼합을 통해 비즈니스 분석가는 양질의 비즈니스 인텔리전스를 기반으로 중요한 비즈니스 의사결정을 내리는 데 필요한 데이터의 확장에 대응할 수 있다.[4]

데이터 혼합은 데이터 과학자의 실질적인 개입에 비해 너무 빨리 출처를 병합하기 위한 데이터 분석가의 요구사항 때문에 데이터 통합과는 다른 것으로 설명되어 왔다.[5]

데이터 소스를 결합하기 위한 분석가들의 수요 증가를 대표하여, 여러 소프트웨어 회사들은 큰 성장을 보이고 수백만 달러를 모금했으며,[6] 일부 초기 진입자들은 현재 공기업이 되었다.[7] 예를 들어, 텍스트 파일, 데이터베이스, XML, JSON 및 기타 많은 형태의 구조화 및 반구조화 데이터 등 다양한 데이터 소스의 데이터를 결합할 수 있는 AWS, Alteryx, Microsoft Power Query [8]Incorta를 예로 들 수 있다.[9][10][11][12][13]

데이터 혼합은 여러 면에서 ETL과 유사하다. ETL과 데이터 혼합 모두 다양한 소스의 데이터를 가져와 결합한다. 그러나 ETL은 데이터를 대상 데이터베이스,[14] 종종 데이터 웨어하우스로 병합하고 구조화하는 데 사용된다. 데이터 혼합은 특정 시점에 특정 사용 사례에 대한 데이터 결합에 관한 것이므로 약간 다르다.[15] 일부 소프트웨어에서는 데이터가 데이터베이스에 기록되지 않는데, 이는 ETL과는 매우 다르다. 예를 들어, Google Data Studio와[16] Tableau를 사용하면 데이터 혼합이 보고 계층에서 발생하며, 어디에도 기록되지 않고 표시만 된다.

Tableau에서 데이터 혼합

Tableau 소프트웨어에서 데이터 혼합은 데이터 시각화에서 여러 데이터 소스의 데이터를 결합하는 기법이다.[17] 데이터 소스는 별도로 저장되며 대시보드의 보고 계층에만 함께 표시된다. 이것은 데이터 혼합의 다른 정의와 Tableau 데이터 혼합을 구별하는 핵심 개념 중 하나이다.

또 다른 중요한 차별화 요소는 데이터 결합의 세분화다. 일반적으로 데이터를 단일 데이터 집합에 혼합할 때, 가능한 경우 ID 필드를 사용하여 일반적으로 가장 세분화된 수준에서 결합되는 데이터베이스 결합을 사용한다.[18] Tableau의 데이터 혼합은 최소한 세분화된 수준에서 이루어져야 한다.[19]

Google 데이터 스튜디오의 데이터 혼합

구글 데이터 스튜디오에서는 하나의 데이터 소스의 레코드와 최대 4개의 다른 데이터 소스의 레코드를 결합하여 데이터 소스를 결합한다. Tableau와 마찬가지로, 데이터 혼합은 보고 계층에서만 발생한다. 혼합된 데이터는 별도의 결합 데이터 소스로 저장되지 않는다.[20]

데이터 혼합과 관련된 당면 과제

가장 일반적인 사용자 지정 메타데이터 질문은 "이 데이터 세트가 다른 데이터 세트와 어떻게 혼합될 수 있는가?"[21] 입니다. 2015년 Forrester Consulting의 연구에 따르면 기업의 52%가 50개 이상의 데이터 소스를 혼합하고 있으며 12%가 1,000개 이상의 소스를 혼합하고 있는 것으로 나타났다.[22]

참고 항목

참조

  1. ^ Alterex Analytics, 예측 및 빅 데이터의 강력한 시장 창출
  2. ^ 데이터 혼합은 여러 소스의 데이터를 기능하는 데이터 세트로 결합하는 과정이다.
  3. ^ 데이터 혼합에 대한 최종 가이드
  4. ^ "Data Blending". Trifacta.com. August 24, 2017.
  5. ^ 데이터 혼합이란 무엇이며 어떤 툴을 통해 데이터 혼합이 더 쉬워질까?
  6. ^ "Incorta raises $30M Series C for ETL-free data processing solution". TechCrunch. Retrieved 2021-02-27.
  7. ^ "Alteryx Announces Pricing of Initial Public Offering". Alteryx. Retrieved 2021-02-27.
  8. ^ Corporation, Microsoft. "Microsoft Power Query". powerquery.microsoft.com. Retrieved 2021-02-27.
  9. ^ "Direct Data Analytics Software Incorta". www.incorta.com. Retrieved 2021-02-27.
  10. ^ "Data Sources". docs.incorta.com. Retrieved 2021-02-27.
  11. ^ davidiseminger. "Shape and combine data from multiple sources using Power Query". docs.microsoft.com. Retrieved 2021-02-27.
  12. ^ "Supported Data Sources - Amazon QuickSight". docs.aws.amazon.com. Retrieved 2021-02-27.
  13. ^ "Data Sources Alteryx Help". help.alteryx.com. Retrieved 2021-02-27.
  14. ^ "How ETL Works". Databricks (in German). Retrieved 2021-02-27.
  15. ^ "What Is Data Blending, and Which Tools Make It Easier?". Software Advice. 2016-08-25. Retrieved 2021-02-27.
  16. ^ "Google Data Studio Overview". datastudio.google.com. Retrieved 2021-02-27.
  17. ^ "Blend Your Data". help.tableau.com. Retrieved 2021-02-27.
  18. ^ "SQL Joins Explained". SQL Joins Explained. Retrieved 2021-02-27.
  19. ^ TAR Solutions (2021-01-20). "Data Blending in Tableau". TAR Solutions. Retrieved 2021-02-27.{{cite web}}: CS1 maint : url-status (링크)
  20. ^ "About data blending - Data Studio Help". support.google.com. Retrieved 2021-02-27.
  21. ^ Heer, Jeffrey; Hellerstein, Joseph; Kandel, Sean; Rattenbury, Tye (July 2017). Principles of Data Wrangling. O'Reilly Media.
  22. ^ "Data Mashups for Analytics". Pentaho.