자료작성
Data preparation데이터 준비는 (이종의 데이터 소스에서 나올 수 있는) 원시 데이터를 비즈니스 목적 등으로 쉽고 정확하게 분석할 수 있는 형태로 조작(또는 전처리)하는 행위다.[1]
데이터 준비는 데이터 분석 프로젝트의 첫 번째 단계로서 데이터 로드 또는 데이터 수집, 데이터 융합, 데이터 클리닝, 데이터 확대, 데이터 전송과 같은 여러 개별 작업을 포함할 수 있다.[2]
다루어야 할 쟁점은 크게 두 가지 범주로 나뉜다.
- 데이터 레코드가 서로 다른 출처에서 왔기 때문에 많은 수의 데이터 레코드를 포함하는 체계적인 오류
- 원본 데이터 입력의 오류로 인해 적은 수의 데이터 레코드에 영향을 미치는 개별 오류.
데이터 사양
첫 번째 단계는 각 데이터 필드의 형식과 입력의 의미에 대한 완전하고 상세한 사양을 설정하는 것이다.이는 다음 사항을 신중하게 고려해야 한다.
- 가장 중요한 것은 데이터 사용자와의 상담
- 분석을 수행하기 위해 데이터를 사용할 수 있는 시스템의 모든 사용 가능한 사양
- 소스 데이터에서 이용 가능한 정보와 모든 간극에 대한 완전한 이해
데이터 정의 사양을 참조하십시오.
예
지리적 위치를 나타내는 영문자 2자 필드가 있다고 가정합시다.한 데이터 소스에서 코드 "EE"는 "유럽"을 의미하고 다른 데이터 소스에서 동일한 코드가 "에스토니아"를 의미할 수 있다.모호하지 않은 코드 세트를 고안하고 그에 따라 하나의 기록 세트로 코드를 수정해야 할 것이다.
또한 "지리적 지역"은 배송 주소, 청구지 주소, 상품이 공급된 주소, 청구지 통화 또는 해당 국가 규정과 같은 어떤 것을 가리킬 수 있다.이 모든 문제는 명세서에서 다루어야 한다.
그 분야에는 "X"나 "555"가 있는 기록이 있을 수 있다.분명히 이것은 규격을 준수하지 않기 때문에 유효하지 않은 데이터다.이러한 레코드의 수가 적으면 수동으로 수정하거나 정밀도가 중요하지 않으면 파일에서 해당 레코드를 삭제하십시오.또 다른 가능성은 "알 수 없는" 범주를 만드는 것이다.
보정이 필요한 유효하지 않은 데이터의 기타 예
- 전화번호는 형식이 올바르고 지리적 위치 필드에 표시된 지역에 대한 정확한 값을 가지고 있다.국가 코드는 일부 기록에는 있을 수 있지만 다른 기록에는 없을 수 있다. 데이터 사양에 따라 국가 코드를 제거하거나 삽입(지리적 위치에 따라)해야 한다.마찬가지로 날짜와 측정 단위(중량, 길이)의 형식도 일관성이 없을 수 있다.
- 일부 경우에는 누락된 데이터가 외부 소스로부터 제공되어야 한다(예: 외부 데이터 소스를 통해 주소의 ZIP/우편 번호 찾기).
- 데이터는 서로 다르지만 관련된 데이터 레코드 간에 일관성이 있어야 한다(예: 동일한 개인이 서로 다른 레코드 또는 데이터 집합에 서로 다른 출생지를 가질 수 있음).
가능하다면 경제적으로 권위 있는 출처를 대상으로 데이터를 검증해야 한다(예: 정확성을 보장하기 위해 사업 정보를 D&B 데이터베이스에 대해 참조).[3][4]
데이터가 도착할 수 있는 데이터와 형식을 제공하는 다양한 데이터 소스(예: 데이터베이스, 비즈니스 애플리케이션)를 고려할 때, 데이터 준비는 상당히 복잡하고 관련될 수 있다.데이터 작성에 사용되는 툴과 기술이[5] 많다.데이터 청소 비용은 항상 개선된 정확도의 가치와 균형을 이루어야 한다.
셀프 서비스 데이터 준비
스크립팅 언어 또는 ETL 및 데이터 품질 도구와 같은 기존의 툴과 기술은 비즈니스 사용자를 위한 것이 아니다.일반적으로 대부분의 비즈니스 사용자에게는 없는 프로그래밍 또는 IT 기술을 요구한다.[citation needed]
Paxata, Trifacta, Alteryx, Talend, Atacama와 같은 여러 회사는 데이터를 표시하고 사용자가 제공한 샘플 데이터를 직접 탐색, 구조, 청소, 증강 및 업데이트할 수 있는 시각적 인터페이스를 제공한다.
준비 작업이 완료되면 다른 데이터셋에서 기본 단계를 실행하여 동일한 작업을 수행할 수 있다.이러한 재사용은 데이터 준비를 위한 전통적인 수동 및 수동 코딩 방법과 비교할 때 상당한 생산성 향상을 제공한다.
참고 항목
- 데이터 편집, 데이터 말뭉치의 오류 수정
- 데이터 사전 처리, 분석을 위한 데이터 마이닝에서 데이터를 정리하는 단계
- 데이터 마이닝, 데이터 세트 내에서 패턴 및 통찰력 찾기
- 데이터 전송
참조
- ^ Friedland, David (September 7, 2016). "A Fresh Look at Data Preparation". IRI (Blog Article). IRI, The CoSort Company.
- ^ Pyle, Dorian (April 5, 1999). Data Preparation for Data Mining. Morgan Kaufmann. ISBN 9781558605299 – via Google Books.
- ^ "salesify".
- ^ 데이터 준비 문서
- ^ "Tools / Languages for Data Cleaning". www.kdnuggets.com (Poll).