데이터 품질
Data quality데이터 품질이란 정보의 질적 또는 양적 상태를 말합니다.데이터 품질에는 여러 가지 정의가 있지만, 일반적으로 데이터는 "운영, 의사결정 [1][2][3]및 계획에서 의도된 용도에 적합"할 경우 고품질로 간주됩니다.또한, 데이터가 참조하는 실제 구성을 올바르게 나타내는 경우 데이터는 고품질로 간주됩니다.게다가 이러한 정의와는 별도로, 데이터 소스의 수가 증가함에 따라, 특정 외부 목적에 대한 사용 적합성에 관계없이 내부 데이터 일관성에 대한 의문이 커진다.데이터 품질에 대한 사람들의 견해는 같은 목적으로 사용되는 동일한 데이터 세트에 대해 논의하는 경우에도 종종 일치하지 않을 수 있습니다.이 경우 데이터 거버넌스는 데이터 품질에 대한 정의와 표준에 합의된 구성을 위해 사용됩니다.이 경우 데이터 [4]품질을 보장하기 위해 표준화를 포함한 데이터 정리가 필요할 수 있습니다.
정의들
데이터가 사용되는 컨텍스트가 많고 최종 사용자, 생산자 및 데이터 관리자에 대한 [5]관점이 다양하기 때문에 데이터 품질을 정의하기가 어렵습니다.
사용자의 관점에서 데이터 품질은 다음과 같습니다.[5]
- "데이터 소비자가 사용하기에 적합한 데이터"
- 데이터 "소비자의 기대치를 충족하거나 초과"
- "사용 목적의 요건을 충족하는" 데이터
비즈니스 관점에서 데이터 품질은 다음과 같습니다.
- 의도된 운영, 의사결정 및 기타 역할에 "사용에 적합"하거나 "기준 준수"를 나타내는 데이터, 즉 사용 적합성을 달성할 [6]수 있는 데이터
- "운영, 의사결정 및 [7]계획에서 의도된 용도에 적합한" 데이터
- "[8]기업의 비즈니스, 시스템 및 기술 요구사항을 충족하는 데이터 기능"
표준 기반의 관점에서 데이터 품질은 다음과 같습니다.
이러한 모든 경우에 "데이터 품질"은 특정 데이터 세트의 실제 상태를 원하는 상태와 비교하는 것으로, 원하는 상태는 일반적으로 "사용 적합", "사양에 적합", "소비자의 기대 충족", "불량 없음" 또는 "요건 충족"으로 언급된다.이러한 기대, 사양 및 요건은 일반적으로 한 명 이상의 개인 또는 그룹, 표준 조직, 법률 및 규정, 비즈니스 정책 또는 소프트웨어 개발 [5]정책에 의해 정의됩니다.
데이터 품질의 치수
더 자세히 살펴보면, 이러한 기대, 규격 및 요구사항은 다음과 [5][6][7][8][11]같은 데이터의 특성 또는 치수의 관점에서 명시됩니다.
- 접근성 또는 가용성
- 정확성 또는 정확성
- 비교 가능성
- 완전성 또는 포괄성
- 일관성, 일관성 또는 명확성
- 신뢰성, 신뢰성 또는 평판
- 유연성
- 타당성
- 관련성, 관련성 또는 유용성
- 적시성 또는 대기 시간
- 고유성
- 타당성 또는 타당성
문헌의 체계적인 범위 검토 결과, 실제 데이터를 사용한 데이터 품질 차원 및 방법은 문헌에 일관되지 않으며, 그 결과 이러한 [11]데이터의 복잡하고 이질적인 특성 때문에 품질 평가가 어렵다.
역사
저렴한 컴퓨터 데이터 스토리지가 등장하기 전에는 대규모 메인프레임 컴퓨터가 배송 서비스를 위해 이름과 주소 데이터를 유지하기 위해 사용되었습니다.이는 메일이 수신처로 올바르게 라우팅될 수 있도록 하기 위함이었다.메인프레임에서는 비즈니스 규칙을 사용하여 이름 및 주소 데이터의 일반적인 철자 오류와 철자 오류를 수정하고, 이사를 가거나, 사망하거나, 감옥에 가거나, 결혼하거나, 이혼하거나, 다른 인생을 바꾼 사건을 경험한 고객을 추적했습니다.정부 기관들은 우편 데이터를 몇몇 서비스 회사가 사용할 수 있도록 하여 고객 데이터를 NCOA(National Change of Address Registry)와 상호 참조하기 시작했습니다.이 기술을 통해 대기업은 고객 데이터를 수동으로 수정하는 것에 비해 수백만 달러를 절약할 수 있었습니다.청구서와 다이렉트 마케팅 자료가 고객에게 더 정확하게 전달되었기 때문에 대기업들은 우편 요금을 절약했습니다.처음에는 서비스로 판매되던 데이터 품질은 저비용의 강력한 서버 테크놀로지를 이용할 [citation needed]수 있게 되면서 기업의 벽을 넘어섰습니다.
마케팅을 중시하는 기업은 종종 이름과 주소 정보에 품질 노력을 집중하지만, 데이터 품질은 모든 유형의 데이터에서 중요한 속성으로 인식되고[by whom?] 있습니다.데이터 품질의 원칙은 공급망 데이터, 트랜잭션 데이터 및 기타 거의 모든 카테고리의 데이터에 적용할 수 있습니다.예를 들어, 서플라이 체인(supply-chain) 데이터를 특정 표준에 준거시키는 것은 1) 유사하지만 약간 다른 재고의 과잉 재고 방지 2) 잘못된 재고 감소를 방지하고 3) 공급업체 구매에 대한 이해를 개선하여 대량 할인을 협상하고 4) 전체 재고 및 배송에 대한 물류 비용을 절감함으로써 조직에 가치가 있습니다.대규모 [citation needed]조직
상당한 연구 노력을 기울이고 있는 기업의 경우 데이터 품질에는 연구 방법을 위한 프로토콜 개발, 측정 오류 감소, 데이터 경계 검사, 교차 표, 모델링 및 특이치 감지, 데이터 무결성 검증 [citation needed]등이 포함될 수 있습니다.
개요
데이터 품질을 이해하기 위한 여러 가지 이론적 프레임워크가 있습니다.미국 실용주의의 영향을 받은 시스템 이론 접근법은 정보 품질을 포함하도록 데이터 품질의 정의를 확장하고, 과학 이론에 기초한 정확성과 정밀도의 기본 차원의 포괄성을 강조한다(Ivanov, 1972)."제로 결함 데이터"(Hansen, 1991년)라고 불리는 한 프레임워크는 통계 프로세스 제어의 원칙을 데이터 품질에 맞게 조정한다.또 다른 프레임워크는 제품 관점(사양 준수)과 서비스 관점(소비자의 기대치 충족)을 통합하고자 한다(Kahn 등 2002).또 다른 프레임워크는 데이터의 형태, 의미 및 사용을 평가하기 위한 기호학을 기반으로 한다(Price and Shanks, 2004).매우 이론적인 접근방식은 정보 시스템의 존재론적 특성을 분석하여 데이터 품질을 엄격하게 정의합니다(Wand and Wang, 1996).
상당한 양의 데이터 품질 조사에는 다양한 범주의 데이터 바람직한 속성(또는 차원)을 조사하고 설명하는 작업이 포함됩니다.거의 200개의 그러한 용어가 확인되었으며, 그 성격상(이러한 개념, 목표 또는 기준인가), 정의나 척도는 거의 일치하지 않는다(Wang 등, 1993년).소프트웨어 엔지니어는 이것이 "ilities"와 유사한 문제로 인식될 수 있습니다.
MIT에는 Richard Wang 교수가 이끄는 정보품질(MITIQ) 프로그램이 있으며, 이 프로그램은 다수의 출판물을 제작하고 이 분야에서 중요한 국제회의(International Conference on Information Quality, ICIQ)를 개최합니다.이 프로그램은 한센이 "제로 결함 데이터" 프레임워크에 대해 수행한 연구에서 비롯되었다(Hansen, 1991).
실제로 데이터 품질은 데이터 웨어하우징 및 비즈니스 인텔리전스부터 고객 관계 관리 및 공급망 관리까지 광범위한 정보 시스템과 관련된 전문가에게 우려되는 사항입니다.한 업계 조사에 따르면 데이터 품질 문제로 인한 미국 경제의 총 비용은 연간 6000억 달러 이상이라고 합니다(Eckerson, 2002).잘못된 데이터(비활성화 및 오래된 정보 포함)는 데이터 입력 또는 데이터 이행 [12]및 변환 프로젝트를 통해 서로 다른 데이터 소스에서 발생할 수 있습니다.
2002년, USPS와 PricewaterhouseCoopers는 전송된 모든 미국 우편물의 23.6%가 주소가 [13]잘못되었다는 보고서를 발표했다.
연락처 데이터가 평균 데이터베이스 내에서 매우 빠르게 오래된 이유 중 하나는 매년 [14]4500만 명 이상의 미국인이 주소를 변경하는 것입니다.
실제로 이 문제는 기업 내에서 데이터 품질을 전담하는 데이터 거버넌스 팀을 구성하기 시작할 정도로 심각한 문제입니다.일부 조직에서는[who?] 이 데이터 거버넌스 기능이 대규모 법령 준수 기능(데이터/정보 품질 중요성 인식)의 일부로 확립되어 있습니다.
데이터 품질의 문제는 잘못된 데이터에서만 발생하는 것이 아닙니다. 데이터의 일관성이 없는 것도 문제입니다.데이터 섀도 시스템을 제거하고 웨어하우스에 데이터를 집중 관리하는 것은 데이터의 일관성을 확보하기 위한 기업의 대처 중 하나입니다.
기업, 과학자 및 연구자들은 공통 [15]데이터의 품질을 개선하기 위해 데이터 큐레이션 커뮤니티에 참여하기 시작했습니다.
시장은 데이터 품질 보증을 제공하는 방향으로 나아가고 있습니다.많은 벤더가 품질 불량 데이터를 분석 및 복구하기 위한 도구를 현장에서 만들고 있으며, 서비스 프로바이더는 계약 방식으로 데이터를 정리할 수 있으며, 컨설턴트는 데이터 품질 문제를 피하기 위해 프로세스 또는 시스템을 수정하는 데 대해 조언할 수 있습니다.대부분의 데이터 품질 도구는 데이터를 개선하기 위한 일련의 도구를 제공합니다.이 도구에는 다음 중 일부 또는 전부가 포함됩니다.
- 데이터 프로파일링 - 데이터의 현재 상태를 파악하기 위한 초기 평가(대부분 가치 분포 포함)
- 데이터 표준화 - 데이터가 표준에 적합하도록 보장하는 비즈니스 규칙 엔진
- 지오코딩 - 이름 및 주소 데이터입니다.미국 및 전 세계 지리적 기준에 따라 데이터를 수정
- 매칭 또는 링크 - 유사하지만 약간 다른 레코드를 정렬할 수 있도록 데이터를 비교하는 방법입니다.매칭은 "퍼지 로직"을 사용하여 데이터에서 중복을 찾을 수 있습니다.그것은 종종 "밥"과 "뽀"가 같은 개인일 수도 있다는 것을 인식한다.예를 들어, 같은 주소에 있는 배우자 간의 연결을 찾거나 "주택 보유"를 관리할 수 있습니다.마지막으로, 많은 경우 여러 데이터 소스에서 최고의 컴포넌트를 가져와 하나의 슈퍼 레코드를 구축함으로써 "동종 최고의" 레코드를 구축할 수 있습니다.
- 감시 - 시간 경과에 따른 데이터 품질 추적 및 데이터 품질 변화 보고소프트웨어는 사전 정의된 비즈니스 규칙에 따라 변화를 자동으로 수정할 수도 있습니다.
- 배치 및 실시간 - 데이터를 초기 정리(배치)한 후 기업은 데이터를 깨끗하게 유지하기 위해 프로세스를 엔터프라이즈 애플리케이션으로 구축해야 하는 경우가 많습니다.
유명한 작가들과 자칭 전문가들이 몇 명 있는데, 래리 잉글리쉬가 아마도 가장 인기 있는 전문가일 것이다.또한, IQ International - International Association for Information and Data Quality는 2004년에 설립되어 이 분야의 전문가와 연구자들에게 중심점을 제공하고 있습니다.
ISO 8000은 데이터 [16]품질의 국제 표준입니다.
데이터 품질 보증
데이터 품질 보증은 데이터 품질 개선을 위해 데이터[17][18] 클렌징 활동(예: 이상치 제거, 데이터 보간 누락)을 수행할 뿐만 아니라 데이터 불일치 및 기타 이상을 발견하기 위한 데이터 프로파일링 프로세스입니다.
이러한 액티비티는 데이터 웨어하우징의 일부 또는 기존 애플리케이션 [19]소프트웨어의 데이터베이스 관리의 일부로서 실시할 수 있습니다.
데이터 품질 관리
데이터 품질 관리는 응용 프로그램 또는 프로세스의 데이터 사용을 제어하는 프로세스입니다.이 프로세스는 데이터 불일치 발견 및 수정으로 구성된 데이터 품질 보증(QA) 프로세스 전후 모두에서 수행됩니다.
이전:
- 입력 제한
QA 프로세스 후 다음 통계를 수집하여 QC(품질관리) 프로세스를 안내합니다.
- 부정합 심각도
- 불완전성
- 정확성.
- 정확
- 누락/알 수 없음
데이터 QC 프로세스는 QA 프로세스의 정보를 사용하여 데이터를 분석에 사용할지, 애플리케이션 또는 비즈니스 프로세스에 사용할지 결정합니다.일반적인 예: 데이터 QC 프로세스에서 데이터에 너무 많은 오류 또는 불일치가 있는 것으로 판명되면 해당 데이터가 의도된 프로세스에 사용되지 않게 되어 중단이 발생할 수 있습니다.구체적인 예: 항공기의 자동 조종 기능에 여러 센서에서 잘못된 측정을 제공하면 추락할 수 있습니다.따라서 QC 프로세스를 확립함으로써 데이터 사용을 [citation needed]보호할 수 있습니다.
데이터 품질의 최적 사용
데이터 품질(DQ)은 데이터 문제의 갭을 커버함으로써 데이터 관리의 무결성에 필요한 틈새 영역입니다.이는 데이터를 모니터링하여 현재 데이터 관리 작업에서 발견되지 않은 예외를 발견함으로써 데이터 거버넌스를 지원하는 주요 기능 중 하나입니다.데이터 품질 검사는 복구 [citation needed]단계를 완전히 제어하기 위해 속성 수준에서 정의할 수 있습니다.
조직이 DQ 범위에 주의를 기울이지 않으면 DQ 체크와 비즈니스 규칙이 쉽게 겹칠 수 있습니다.비즈니스 팀은 중복을 피하기 위해 DQ 범위를 철저히 이해해야 합니다.비즈니스 로직이 DQ와 동일한 기능을 포함하고 동일한 목적을 충족하는 경우 데이터 품질 검사는 중복됩니다.조직의 DQ 범위를 DQ 전략으로 정의하고 적절하게 구현해야 합니다.일부 데이터 품질 체크는 [citation needed]과거에 예외를 반복한 후 비즈니스 규칙으로 변환될 수 있습니다.
다음으로 지속적인 DQ 체크가 필요한 데이터 흐름의 몇 가지 영역을 나타냅니다.
모든 데이터에 대한 완전성 및 정밀도 DQ 검사는 각 소스 시스템으로부터의 각 필수 속성에 대해 입력 지점에서 수행할 수 있습니다.트랜잭션의 최초 생성 후 생성되는 속성 값은 거의 없습니다.이 경우 이러한 체크 관리는 까다로워지고 해당 속성의 소스 및 트랜잭션의 기타 핵심 속성 조건이 정의된 이벤트가 충족된 후 즉시 수행해야 합니다.
조직에서 참조 데이터를 참조하는 속성을 가진 모든 데이터는 DQ 유효성 검사를 통해 신규 또는 불일치 값을 발견하기 위해 명확하게 정의된 참조 데이터의 유효값 세트에 대해 검증할 수 있습니다.결과를 사용하여 MDM(Master Data Management)에서 관리되는 참조 데이터를 업데이트할 수 있습니다.
서드파티에서 조직 내부 팀으로 소싱된 모든 데이터는 서드파티 데이터와 비교하여 정확도(DQ) 검사를 받을 수 있습니다.이러한 DQ 체크 결과는 데이터 입력 시점 이후 해당 데이터가 엔터프라이즈 인텔리전스용으로 승인 또는 저장되기 전에 여러 홉을 수행한 데이터에 대해 관리하면 유용합니다.
마스터 데이터를 참조하는 모든 데이터 열은 무결성 검사를 위해 검증될 수 있습니다.엔트리 포인트의 데이터에 대해 관리되는 DQ 체크는 MDM 프로세스의 새로운 데이터를 검출하지만 엔트리 포인트 후에 실행되는 DQ 체크는 일관성 장애(예외가 아님)를 검출합니다.
데이터가 변환될 때 여러 타임스탬프와 타임스탬프의 위치가 캡처되어 서로 및 그 여유와 비교하여 정의된 SLA(서비스 수준 계약)와 비교하여 그 가치, 붕괴, 운용상의 중요성을 검증할 수 있습니다.이 적시성 DQ 체크를 사용하여 데이터 값 감소율을 줄이고 데이터 이동 일정의 정책을 최적화할 수 있습니다.
조직의 복잡한 논리는 일반적으로 여러 프로세스에 걸쳐 단순한 논리로 구분됩니다.특정 범위의 가치 또는 정적 상호 관계(집약된 비즈니스 규칙) 내에서 논리적 결과에 따라 산출되는 이러한 복잡한 논리에 대한 합리성 DQ 체크는 복잡하지만 중요한 비즈니스 프로세스와 데이터의 이상치, BAU(통상적인 비즈니스) 예상으로부터의 드리프트를 발견하기 위해 검증될 수 있으며, 다음을 제외하고 가능할 수 있다.이온은 결국 데이터 문제로 이어집니다.이 검사는 대규모 데이터 청크로 둘러싸인 단순한 일반 집계 규칙이거나 조직의 핵심 비즈니스와 관련된 트랜잭션 속성 그룹에 대한 복잡한 논리일 수 있습니다.이 DQ 체크에는 고도의 비즈니스 지식과 통찰력이 필요합니다.합리적인 문제를 발견하면 비즈니스 거버넌스 또는 데이터 거버넌스 중 하나 또는 둘 다에 의한 정책 및 전략 변경에 도움이 될 수 있습니다.
컴플라이언스 검사와 무결성 검사는 모든 비즈니스 요구에 포함될 필요는 없습니다.데이터베이스 아키텍처의 재량에 따라 엄격하게 결정됩니다.
데이터 이동 중에는 DQ 검사가 필요하지 않을 수 있는 곳이 많습니다.예를 들어 Null이 아닌 열의 완전성과 정밀도에 대한 DQ 검사는 데이터베이스에서 전송된 데이터에 대해 중복됩니다.마찬가지로 데이터가 서로 다른 소스에 걸쳐 연결된 시간에 대해 데이터의 정확성을 검증해야 합니다.단, 이는 비즈니스 규칙이며 DQ [citation needed]범위에 포함되지 않아야 합니다.
유감스럽게도 소프트웨어 개발의 관점에서 보면 DQ는 기능하지 않는 요건으로 인식되는 경우가 많습니다.따라서 주요 데이터 품질 검사/프로세스는 최종 소프트웨어 솔루션에 포함되지 않습니다.의료기관 내에서는 웨어러블 테크놀로지 또는 Body Area Networks가 [20]대량의 데이터를 생성합니다.데이터 품질을 보증하는 데 필요한 세부 수준은 매우 높으며 종종 과소평가됩니다.이는 대부분의 mHealth 애플리케이션, EHR 및 기타 건강 관련 소프트웨어 솔루션에도 해당됩니다.그러나 데이터 [21]품질을 검사하는 일부 오픈 소스 도구가 있습니다.그 주된 이유는 소프트웨어 아키텍처 내에서 보다 엄격한 비용이 수반되기 때문입니다.
의료 데이터 보안 및 개인 정보 보호
mHealth라고 불리는 모바일 디바이스를 헬스(mHealth)에서 사용하는 것은 [2]데이터 품질에 직접 영향을 미치는 방법으로 헬스 데이터의 보안과 프라이버시에 대한 새로운 과제를 야기하고 있습니다.mHealth는 저소득 국가 [22]및 중산층 국가에서 의료 서비스를 제공하는 데 있어 점점 더 중요한 전략입니다.휴대 전화와 태블릿은 거의 실시간으로 데이터를 수집, 보고 및 분석하는 데 사용됩니다.그러나 이러한 모바일 기기는 개인 활동에도 일반적으로 사용되므로 데이터 침해로 이어질 수 있는 보안 위험에 더욱 취약합니다.적절한 보안 보호 장치가 없으면 이러한 개인적인 사용은 건강 [23]데이터의 품질, 보안 및 기밀성을 위태롭게 할 수 있습니다.
공중 보건 데이터 품질
데이터 품질은 최근 몇 년 동안 공중 보건 프로그램의 주요 관심사가 되었으며,[24] 특히 책임에 대한 요구가 증가함에 따라 더욱 그러해지고 있습니다.에이즈, 결핵, 말라리아와 같은 질병과의 싸움과 관련된 야심찬 목표를 위해 노력하는 것은 프로그램 [25]구현과 관련된 질 높은 데이터를 생성하는 강력한 모니터링 및 평가 시스템에 기초해야 합니다.이러한 프로그램 및 프로그램 감사자들은 데이터 [26]품질 결정 프로세스를 표준화 및 합리화하고, 보고된 데이터의 품질을 검증하며,[27] 지표에 대한 기본 데이터 관리 및 보고 시스템을 평가하기 위한 도구를 점점 더 찾고 있습니다.예를 들어 WHO와 MEASURE Evaluation의 Data Quality[28] Review Tool WHO, Global Fund, GAVI 및 MEASURE Evaluation이 서로 다른 질병 [29]및 프로그램에 걸쳐 데이터 품질 보장에 대한 조화로운 접근 방식을 도출하기 위해 협력한 것이 그 예입니다.
오픈 데이터 품질
Wikipedia, Wikidata, DBpedia 및 기타 오픈 데이터 소스의 데이터 품질 분석에 전념하는 많은 과학적 연구가 있습니다.위키피디아의 경우, 품질 분석은 기사 전체와[30] 관련될 수 있습니다. 품질 모델링은 다양한 방법으로 수행됩니다.이들 중 일부는 랜덤 [31]포레스트, [32]서포트 벡터 머신 등 머신러닝 알고리즘을 사용하고 있습니다.Wikidata, DBpedia 및 기타 LOD 소스에서 데이터 품질을 평가하는 방법은 다릅니다.[33]
프로페셔널 어소시에이션
- IQ International - 국제 정보 및 데이터[34] 품질 협회
- IQ International은 2004년에 설립된 비영리 벤더 뉴트럴 프로페셔널 어소시에이션으로, 정보 및 데이터 품질에 관한 프로페셔널을 육성하는 것을 목적으로 하고 있습니다.
전자상거래코드관리협회
ECCMA(Electronic Commerce Code Management Association)는 회원 기반의 국제적인 비영리 단체로, 국제 표준의 실시를 통해 데이터 품질을 향상시키는데 전념하고 있습니다.ECCMA는 현재 ISO 8000 및 ISO 22745 개발을 위한 프로젝트 리더로서, 각각 데이터 품질과 소재 및 서비스 마스터 데이터 교환에 관한 국제 표준입니다.ECCMA는 전 세계 데이터 품질 및 데이터 거버넌스에 관한 분야 전문가들 간의 협업을 위한 플랫폼을 제공하여 정보를 명확하게 라벨링하는 데 사용되는 글로벌 개방형 표준 사전을 구축 및 유지합니다.이러한 라벨 사전이 존재하기 때문에 컴퓨터 시스템 간에 의미를 [35]잃지 않고 정보를 전달할 수 있습니다.
「 」를 참조해 주세요.
레퍼런스
- ^ Redman, Thomas C. (30 December 2013). Data Driven: Profiting from Your Most Important Business Asset. Harvard Business Press. ISBN 978-1-4221-6364-1.
- ^ a b Fadahunsi, Kayode Philip; Akinlua, James Tosin; O’Connor, Siobhan; Wark, Petra A; Gallagher, Joseph; Carroll, Christopher; Majeed, Azeem; O’Donoghue, John (March 2019). "Protocol for a systematic review and qualitative synthesis of information quality frameworks in eHealth". BMJ Open. 9 (3): e024722. doi:10.1136/bmjopen-2018-024722. ISSN 2044-6055. PMC 6429947. PMID 30842114.
- ^ Fadahunsi, Kayode Philip; O'Connor, Siobhan; Akinlua, James Tosin; Wark, Petra A.; Gallagher, Joseph; Carroll, Christopher; Car, Josip; Majeed, Azeem; O'Donoghue, John (2021-05-17). "Information Quality Frameworks for Digital Health Technologies: Systematic Review". Journal of Medical Internet Research. 23 (5): e23479. doi:10.2196/23479. PMC 8167621. PMID 33835034.
- ^ Smallwood, R.F. (2014). Information Governance: Concepts, Strategies, and Best Practices. John Wiley and Sons. p. 110. ISBN 9781118218303. Archived from the original on 2020-07-30. Retrieved 2020-04-18.
Having a standardized data governance program in place means cleaning up corrupted or duplicated data and providing users with clean, accurate data as a basis for line-of-business software applications and for decision support analytics in business intelligence (BI) applications.
- ^ a b c d e Fürber, C. (2015). "3. Data Quality". Data Quality Management with Semantic Technologies. Springer. pp. 20–55. ISBN 9783658122249. Archived from the original on 31 July 2020. Retrieved 18 April 2020.
- ^ a b Herzog, T.N.; Scheuren, F.J.; Winkler, W.E. (2007). "Chapter 2: What is data quality and why should we care?". Data Quality and Record Linkage Techniques. Springer Science & Business Media. pp. 7–15. ISBN 9780387695020. Archived from the original on 31 July 2020. Retrieved 18 April 2020.
{{cite book}}
: CS1 maint: 여러 이름: 작성자 목록(링크) - ^ a b Fleckenstein, M.; Fellows, L. (2018). "Chapter 11: Data Quality". Modern Data Strategy. Springer. pp. 101–120. ISBN 9783319689920. Archived from the original on 31 July 2020. Retrieved 18 April 2020.
{{cite book}}
: CS1 maint: 여러 이름: 작성자 목록(링크) - ^ a b Mahanti, R. (2019). "Chapter 1: Data, Data Quality, and Cost of Poor Data Quality". Data Quality: Dimensions, Measurement, Strategy, Management, and Governance. Quality Press. pp. 5–6. ISBN 9780873899772. Archived from the original on 23 November 2020. Retrieved 18 April 2020.
- ^ International Organization for Standardization (September 2015). "ISO 9000:2015(en) Quality management systems — Fundamentals and vocabulary". International Organization for Standardization. Archived from the original on 19 May 2020. Retrieved 18 April 2020.
- ^ NIST Big Data Public Working Group, Definitions and Taxonomies Subgroup (October 2019). "NIST Big Data Interoperability Framework: Volume 4, Security and Privacy" (PDF). NIST Special Publication 1500-4r2 (3rd ed.). National Institute of Standards and Technology. doi:10.6028/NIST.SP.1500-4r2. Archived (PDF) from the original on 9 May 2020. Retrieved 18 April 2020.
Validity refers to the usefulness, accuracy, and correctness of data for its application. Traditionally, this has been referred to as data quality.
- ^ a b Bian, Jiang; Lyu, Tianchen; Loiacono, Alexander; Viramontes, Tonatiuh Mendoza; Lipori, Gloria; Guo, Yi; Wu, Yonghui; Prosperi, Mattia; George, Thomas J; Harle, Christopher A; Shenkman, Elizabeth A (2020-12-09). "Assessing the practice of data quality evaluation in a national clinical data research network through a systematic scoping review in the era of real-world data". Journal of the American Medical Informatics Association. 27 (12): 1999–2010. doi:10.1093/jamia/ocaa245. ISSN 1527-974X. PMC 7727392. PMID 33166397.
- ^ "Liability and Leverage - A Case for Data Quality". Information Management. August 2006. Archived from the original on 2011-01-27. Retrieved 2010-06-25.
- ^ "Address Management for Mail-Order and Retail". Directions Magazine. Archived from the original on 2005-04-28. Retrieved 2010-06-25.
- ^ "USPS PostalPro" (PDF). Archived (PDF) from the original on 2010-02-15. Retrieved 2010-06-25.
- ^ E. Curry, A.Freitas와 S.O'Riáin, "엔터프라이즈용 커뮤니티 주도 데이터 큐레이션의 역할", 2012년 1월 23일 Linking Enterprise Data, D의 웨이백 머신에서 아카이브.우드, 에드보스턴(매주):Springer US, 2010, 페이지 25-47.
- ^ "ISO/TS 8000-1:2011 Data quality -- Part 1: Overview". International Organization for Standardization. Archived from the original on 21 December 2016. Retrieved 8 December 2016.
- ^ "Can you trust the quality of your data?". spotlessdata.com. Archived from the original on 2017-02-11.
- ^ "What is Data Cleansing? - Experian Data Quality". 13 February 2015. Archived from the original on 11 February 2017. Retrieved 9 February 2017.
- ^ "Lecture 23 Data Quality Concepts Tutorial – Data Warehousing". Watch Free Video Training Online. Archived from the original on 2016-12-21. Retrieved 8 December 2016.
- ^ 오도너휴, 존, 존 허버트."mHealth 환경 내 데이터 관리: 환자 센서, 모바일 디바이스 및 데이터베이스"Journal of Data and Information Quality (JDIQ) 4.1 (2012): 5.
- ^ Huser, Vojtech; DeFalco, Frank J; Schuemie, Martijn; Ryan, Patrick B; Shang, Ning; Velez, Mark; Park, Rae Woong; Boyce, Richard D; Duke, Jon; Khare, Ritu; Utidjian, Levon; Bailey, Charles (30 November 2016). "Multisite Evaluation of a Data Quality Tool for Patient-Level Clinical Datasets". eGEMs. 4 (1): 24. doi:10.13063/2327-9214.1239. PMC 5226382. PMID 28154833.
- ^ MEASURE 평가.(2017) 모바일 커뮤니티 기반 건강정보 시스템의 데이터 품질 향상: 설계 및 구현 지침(tr-17-182).채플힐, NC: 노스캐롤라이나 대학교 MEASURE Evaluation.https://www.measureevaluation.org/resources/publications/tr-17-182에서 취득, 2017-08-08 Wayback Machine에서 아카이브 완료
- ^ Wambugu, S. & Vilella, C. (2016년)m 저소득 및 중산층 국가의 건강 정보 시스템 건강: 데이터 품질, 프라이버시 및 보안에 관한 과제와 기회(tr-16-140).채플힐, NC: 노스캐롤라이나 대학교 MEASURE Evaluation.https://www.measureevaluation.org/resources/publications/tr-16-140에서 취득, 2017-08-08 Wayback Machine에서 아카이브 완료
- ^ MEASURE 평가.(2016) 모니터링 및 평가 시스템 데이터 품질(fs-16-170)채플힐, NC: 노스캐롤라이나 대학교 MEASURE Evaluation.https://www.measureevaluation.org/resources/publications/fs-16-170-en에서 취득, 2017-08-08 Wayback Machine에서 아카이브 완료
- ^ MEASURE 평가.(2016).일상 건강 정보 시스템 : 기본 개념과 실천에 관한 커리큘럼 - 요강 (sr-16-135a)채플힐, NC: 노스캐롤라이나 대학교 MEASURE Evaluation.https://www.measureevaluation.org/resources/publications/sr-16-135a에서 취득, 2017-08-08 Wayback Machine에서 아카이브 완료
- ^ "Data quality assurance tools". MEASURE Evaluation. Archived from the original on 8 August 2017. Retrieved 8 August 2017.
- ^ "Module 4: RHIS data quality". MEASURE Evaluation. Archived from the original on 8 August 2017. Retrieved 8 August 2017.
- ^ MEASURE Evaluation. "Data quality". MEASURE Evaluation. Archived from the original on 8 August 2017. Retrieved 8 August 2017.
- ^ 세계보건기구(WHO)(2009).보건 시스템 강화 모니터링 및 평가스위스 제네바: WHO. http://www.who.int/healthinfo/HSS_MandE_framework_Nov_2009.pdf에서 취득, 2017-08-28 Wayback Machine에서 아카이브 완료
- ^ Mesgari, Mostafa; Chitu, Okoli; Mehdi, Mohamad; Finn Årup, Nielsen; Lanamäki, Arto (2015). ""The Sum of All Human Knowledge": A Systematic Review of Scholarly Research on the Content of Wikipedia" (PDF). Journal of the Association for Information Science and Technology. 66 (2): 219–245. doi:10.1002/asi.23172. S2CID 218071987. Archived (PDF) from the original on 2020-05-10. Retrieved 2020-01-21.
- ^ Warncke-Wang, Morten; Cosley, Dan; Riedl, John (2013). Tell me more: An actionable quality model for wikipedia. WikiSym '13 Proceedings of the 9th International Symposium on Open Collaboration. doi:10.1145/2491055.2491063. ISBN 9781450318525. S2CID 18523960.
- ^ Hasan Dalip, Daniel; André Gonçalves, Marcos; Cristo, Marco; Calado, Pável (2009). "Automatic quality assessment of content created collaboratively by web communities". Proceedings of the 2009 joint international conference on Digital libraries - JCDL '09. p. 295. doi:10.1145/1555400.1555449. ISBN 9781605583228. S2CID 14421291.
- ^ Färber, Michael; Bartscherer, Frederic; Menne, Carsten; Rettinger, Achim (2017-11-30). "Linked data quality of DBpedia, Freebase, OpenCyc, Wikidata, and YAGO". Semantic Web. 9 (1): 77–129. doi:10.3233/SW-170275. Archived from the original on 2018-01-22.
- ^ "IQ International - the International Association for Information and Data Quality". IQ International website. Archived from the original on 2017-05-10. Retrieved 2016-08-05.
- ^ "Home". ECCMA. Archived from the original on 2018-08-19. Retrieved 2018-10-03.
추가 정보
- Baškarada, S; Koronios, A (2014). "A Critical Success Factors Framework for Information Quality Management". Information Systems Management. 31 (4): 1–20. doi:10.1080/10580530.2014.958023. S2CID 33018618.
- Baamann, Katharina, "수익 보장의 데이터 품질 측면", 기사
- Eckerson, W. (2002) "데이터 웨어하우징 스페셜 리포트: 데이터 품질과 수익", 기사
- Ivanov, K.(1972) "정보의 품질관리: 데이터 뱅크 및 관리 정보 시스템의 정보의 정확성 개념에 대해 설명합니다."스톡홀름 대학과 왕립 공과대학입니다.박사 학위 논문.
- Hansen, M. (1991) 결점 제로 데이터, MIT. 석사 논문 [1]
- Kahn, B., Strong, D., Wang, R. (2002) "정보 품질 벤치마크: 제품과 서비스 퍼포먼스", ACM의 커뮤니케이션, 2002년 4월. 페이지 184–192.기사
- Price, R. and Shanks, G. (2004) A Semiotic Information Quality Framework, Pro.IFIP 국제 의사결정 지원 시스템 회의(DSS2004):불확실하고 복잡한 세계에서의 의사결정 지원, Prato.기사
- Redman, T. C. (2008) 데이터 기반: 델의 가장 중요한 비즈니스 자산 활용
- Wand, Y. and Wang, R. (1996) "온톨로지 재단의 데이터 품질 차원 고정", ACM 커뮤니케이션, 1996년 11월 페이지 86-95.기사
- Wang, R., Kon, H. & Madnick, S.(1993), 데이터 품질 요구사항 분석 및 모델링, 제9회 데이터 엔지니어링 국제회의, 오스트리아 비엔나.기사
- Fournel Michel, Acroitre la qualité et la valeur donées de vos 클라이언트, editions Publibook, 2007.ISBN 978-2-7483-3847-8.
- Daniel F., Casati F., Palpanas T., Chayka O., Capiello C.(2008) "품질 인식 보고서를 통한 보다 나은 의사결정의 실현", 국제정보품질회의(ICIQ), MIT 기사.
- Jack E. Olson(2003), "데이터 품질:정확도 차원", Morgan Kaufmann Publishers
- Woodall P., Oberhofer M. 및 Borek A.(2014), "데이터 품질 평가 및 개선 방법의 분류"International Journal of Information Quality 3 (4), 298–321. doi:10.1504/ijiq.2014.068656.
- Woodall, P., Borek, A. 및 Parliqueskad, A.(2013), "데이터 품질 평가:하이브리드 어프로치"정보 및 관리 50 (7), 369 ~382 。