웹 데이터 통합

Web data integration

WDI(Web Data Integration, WDI)는 서로 다른 웹사이트의 데이터를 하나의 동질적인 워크플로우로 통합하고 관리하는 과정이다.이 프로세스에는 데이터 액세스, 변환, 매핑, 품질 보증 및 데이터 융합이 포함된다.웹사이트에서 소싱되고 구조화된 데이터를 "웹 데이터"라고 부른다.WDI는 웹을 이기종 데이터베이스의 집합으로 보는 데이터 통합의 확장 및 전문화다.

웹의 맥락에서 데이터 통합 기법은 점점 더 많은 수의 공개 접속 웹사이트에서 이용할 수 있는 데이터를 이용하는 기업의 기반을 형성한다.[1]이 분야에 대한 기업 지출은 2017년 약 25억 달러에 달했고, 2020년에는 시장이 거의 70억 달러에 이를 것으로 예상된다.[2]

원천

웹 데이터 통합을 확장하고 전문화하여 웹을 웹 프로토콜을 통해 액세스할 수 있는 데이터베이스 보기 모음으로 표시([3]이에 국한되지 않음):

  • 데이터 카탈로그 열기
  • 정부 데이터 카탈로그
  • 웹 응용 프로그램 및 사이트
  • 의미 웹(SPARQL)
  • HTML 내장 구조 데이터
  • HTML 데이터 테이블
  • 스프레드시트
  • PDF
  • 온라인 백과사전

데이터 액세스 및 변환

WDI는 표준 질의 메커니즘이 없는 비정형 또는 반정형 데이터인 웹 데이터 소스에 필요한 데이터 액세스 및 변환 때문에 데이터 통합과는 다른 기술적 과제를 안고 있다.

데이터 품질

데이터는 일반적으로 암묵적으로 신뢰되지 않고 신뢰할 수 있는 출처에서 수집되는 것보다 품질이 낮기 때문에 WDI에서는 데이터의 품질과 진실성을 이해하는 것이 훨씬 더 중요하다.웹 데이터에 대한 신뢰 등급을 자동화하려는 시도가 있다.[4]

데이터 통합의 데이터 품질은 일반적으로 데이터 액세스와 변환 후에 발생할 수 있지만 WDI 품질은 데이터 수집에 소요되는 시간과 비용 때문에 데이터를 수집함에 따라 모니터링할 필요가 있을 수 있다.

적용들

WDI는 생물정보학,[5] 검색엔진,[6] 가격비교,[7] 법의학 검색[8] 데이터 분석, 비즈니스 인텔리전스, 전자상거래,[9] 의료, 제약[10], 제품 개발 등 여러 분야에서 응용 분야를 보유하고 있다.

대부분의 가격 비교 엔진과 권장 시스템은 사용자 생성 데이터를 사용하여 사용자를 위한 권장 사항을 작성한다.마찬가지로, 의료 시스템은 데이터의 정확성을 확인하고 사용자 중심 제품을 만들기 위해 카글과[11] 같은 웹사이트에서 실시한 경쟁 결과를 이용한다.사실, IBM은 낮은 품질의 WDI가 매년 3조[12] 달러 이상의 수익을 기업에 앗아간다고 추정한다.

참조

  1. ^ "IE 670 Web Data Integration". www.uni-mannheim.de. 2019-01-24. Retrieved 2019-02-11.
  2. ^ "Opimas: The Web Data Extraction Market". Opimas: We begin with an understanding. Retrieved 2019-02-12.
  3. ^ "Introduction :: Web Data Integration". www.webdataintegration.io. Retrieved 2019-02-14.
  4. ^ Giménez-García, José M.; Thakkar, Harsh; Zimmermann, Antoine (2016). "Assessing Trust with PageRank in the Web of Data". In Sack, Harald; Rizzo, Giuseppe; Steinmetz, Nadine; Mladenić, Dunja; Auer, Sören; Lange, Christoph (eds.). The Semantic Web. Lecture Notes in Computer Science. Vol. 9989. Springer International Publishing. pp. 293–307. doi:10.1007/978-3-319-47602-5_45. ISBN 9783319476025.
  5. ^ "Web Data Integration". Database Group Leipzig.
  6. ^ "Web-scale Data Integration - You Can Only Afford to Pay as You Go". www.datascienceassn.org. Retrieved 2019-02-12.
  7. ^ Siegel, Michael D.; Madnick, Stuart E.; Zhu, Hongwei (2008). "Enabling global price comparison through semantic integration of web data". International Journal of Electronic Business. 6 (4): 319. doi:10.1504/IJEB.2008.020672. hdl:1721.1/40084. S2CID 7995576. Retrieved 2019-02-12.
  8. ^ "PwC buys Kusiri, London-based fraud detection start-up". www.consultancy.uk. 2015-10-30. Retrieved 2019-02-12.
  9. ^ Osial, P.; Kauranen, K.; Ahmed, E. (April 2017). "Smartphone recommendation system using web data integration techniques". 2017 IEEE 30th Canadian Conference on Electrical and Computer Engineering (CCECE): 1–5. doi:10.1109/CCECE.2017.7946845. ISBN 978-1-5090-5538-8.
  10. ^ "How Data Integration is Revamping Healthcare and Pharma". Data Integration Info. 2020-04-27. Retrieved 2020-05-04.
  11. ^ "Kaggle: Your Machine Learning and Data Science Community". www.kaggle.com. Retrieved 2020-05-04.
  12. ^ Import.io. "Web Data Integration: Revolutionizing the Way You Work with Web Data". www.import.io. Retrieved 2020-05-04.