자료작성

Data preparation

데이터 준비는 (이종의 데이터 소스에서 나올 수 있는) 원시 데이터를 비즈니스 목적 등으로 쉽고 정확하게 분석할 수 있는 형태로 조작(또는 전처리)하는 행위다.[1]

데이터 준비는 데이터 분석 프로젝트의 첫 번째 단계로서 데이터 로드 또는 데이터 수집, 데이터 융합, 데이터 클리닝, 데이터 확대, 데이터 전송과 같은 여러 개별 작업을 포함할 수 있다.[2]

다루어야 할 쟁점은 크게 두 가지 범주로 나뉜다.

  • 데이터 레코드가 서로 다른 출처에서 왔기 때문에 많은 수의 데이터 레코드를 포함하는 체계적인 오류
  • 원본 데이터 입력의 오류로 인해 적은 수의 데이터 레코드에 영향을 미치는 개별 오류.

데이터 사양

첫 번째 단계는 각 데이터 필드의 형식과 입력의 의미에 대한 완전하고 상세한 사양을 설정하는 것이다.이는 다음 사항을 신중하게 고려해야 한다.

  • 가장 중요한 것은 데이터 사용자와의 상담
  • 분석을 수행하기 위해 데이터를 사용할 수 있는 시스템의 모든 사용 가능한 사양
  • 소스 데이터에서 이용 가능한 정보와 모든 간극에 대한 완전한 이해

데이터 정의 사양을 참조하십시오.

지리적 위치를 나타내는 영문자 2자 필드가 있다고 가정합시다.한 데이터 소스에서 코드 "EE"는 "유럽"을 의미하고 다른 데이터 소스에서 동일한 코드가 "에스토니아"를 의미할 수 있다.모호하지 않은 코드 세트를 고안하고 그에 따라 하나의 기록 세트로 코드를 수정해야 할 것이다.

또한 "지리적 지역"은 배송 주소, 청구지 주소, 상품이 공급된 주소, 청구지 통화 또는 해당 국가 규정과 같은 어떤 것을 가리킬 수 있다.이 모든 문제는 명세서에서 다루어야 한다.

그 분야에는 "X"나 "555"가 있는 기록이 있을 수 있다.분명히 이것은 규격을 준수하지 않기 때문에 유효하지 않은 데이터다.이러한 레코드의 수가 적으면 수동으로 수정하거나 정밀도가 중요하지 않으면 파일에서 해당 레코드를 삭제하십시오.또 다른 가능성은 "알 수 없는" 범주를 만드는 것이다.

보정이 필요한 유효하지 않은 데이터의 기타 예

  • 전화번호는 형식이 올바르고 지리적 위치 필드에 표시된 지역에 대한 정확한 값을 가지고 있다.국가 코드는 일부 기록에는 있을 수 있지만 다른 기록에는 없을 수 있다. 데이터 사양에 따라 국가 코드를 제거하거나 삽입(지리적 위치에 따라)해야 한다.마찬가지로 날짜와 측정 단위(중량, 길이)의 형식도 일관성이 없을 수 있다.
  • 일부 경우에는 누락된 데이터가 외부 소스로부터 제공되어야 한다(예: 외부 데이터 소스를 통해 주소의 ZIP/우편 번호 찾기).
  • 데이터는 서로 다르지만 관련된 데이터 레코드 간에 일관성이 있어야 한다(예: 동일한 개인이 서로 다른 레코드 또는 데이터 집합에 서로 다른 출생지를 가질 수 있음).

가능하다면 경제적으로 권위 있는 출처를 대상으로 데이터를 검증해야 한다(예: 정확성을 보장하기 위해 사업 정보를 D&B 데이터베이스에 대해 참조).[3][4]

데이터가 도착할 수 있는 데이터와 형식을 제공하는 다양한 데이터 소스(: 데이터베이스, 비즈니스 애플리케이션)를 고려할 때, 데이터 준비는 상당히 복잡하고 관련될 수 있다.데이터 작성에 사용되는 툴과 기술이[5] 많다.데이터 청소 비용은 항상 개선된 정확도의 가치와 균형을 이루어야 한다.

셀프 서비스 데이터 준비

스크립팅 언어 또는 ETL 및 데이터 품질 도구와 같은 기존의 툴과 기술은 비즈니스 사용자를 위한 것이 아니다.일반적으로 대부분의 비즈니스 사용자에게는 없는 프로그래밍 또는 IT 기술을 요구한다.[citation needed]

Paxata, Trifacta, Alteryx, Talend, Atacama와 같은 여러 회사는 데이터를 표시하고 사용자가 제공한 샘플 데이터를 직접 탐색, 구조, 청소, 증강 및 업데이트할 수 있는 시각적 인터페이스를 제공한다.

준비 작업이 완료되면 다른 데이터셋에서 기본 단계를 실행하여 동일한 작업을 수행할 수 있다.이러한 재사용은 데이터 준비를 위한 전통적인 수동 및 수동 코딩 방법과 비교할 때 상당한 생산성 향상을 제공한다.

참고 항목

참조

  1. ^ Friedland, David (September 7, 2016). "A Fresh Look at Data Preparation". IRI (Blog Article). IRI, The CoSort Company.
  2. ^ Pyle, Dorian (April 5, 1999). Data Preparation for Data Mining. Morgan Kaufmann. ISBN 9781558605299 – via Google Books.
  3. ^ "salesify".
  4. ^ 데이터 준비 문서
  5. ^ "Tools / Languages for Data Cleaning". www.kdnuggets.com (Poll).