시엠마
SEMMASEMMA는 Sample, Discovery, Modify, Model, Model 및 Assessment를 나타내는 약자다.통계 및 비즈니스 인텔리전스 소프트웨어의 최대 생산국 중 하나인 SAS Institute에서 개발한 순차적 단계 목록이다.데이터 마이닝 애플리케이션의 구현을 지도한다.[1]SEMMA는 흔히 일반적인 데이터 마이닝 방법론으로 간주되지만, SAS는 자사 제품 중 하나인 SAS Enterprise Miner의 기능 툴 세트의 논리적 조직으로서 "데이터 마이닝의 핵심 업무를 수행하기 위한 것"[2]이라고 주장한다.null
배경
확대되는 데이터 마이닝 분야에서는 업종을 불문하고 사용자가 자신의 데이터 마이닝 프로젝트에 적용할 수 있는 다양하고 반복적인 데이터 마이닝 프로세스를 위한 표준 방법론이나 간단한 모범 사례 리스트가 요구되어 왔다.유럽정보기술연구전략프로그램(European Strategy Program on Research in Information Technology Initiative)이 설립한 데이터 마이닝을 위한 크로스 산업 표준 프로세스(CRFH-DM)가 중립적인 방법론을 만드는 것을 목표로 한 반면, SAS는 데이터 마이닝 툴에 따르는 패턴을 제공하기도 했다.null
SEMMA의 단계
SEMMA의 단계 및 관련 업무는 다음과 같다.[2]
- 샘플. 프로세스는 데이터 샘플링(예: 모델링을 위한 데이터 세트 선택)으로 시작한다.데이터 세트는 검색하기에 충분한 정보를 포함할 수 있을 만큼 크지만 효율적으로 사용할 수 있을 만큼 작아야 한다.이 단계에서는 데이터 파티셔닝도 다룬다.
- 탐험하다.이 단계에서는 데이터 시각화의 도움을 받아 변수 간의 예상 및 예상치 못한 관계와 비정상적인 관계를 발견함으로써 데이터의 이해를 다룬다.
- 수정. 수정 단계에는 데이터 모델링에 대비하여 변수를 선택, 생성 및 변환하는 방법이 포함되어 있다.
- 모델. 모델 단계에서는 원하는 결과를 제공할 수 있는 모델을 만들기 위해 준비된 변수에 다양한 모델링(데이터 마이닝) 기법을 적용하는 데 초점을 맞추고 있다.
- 평가. 마지막 단계는 평가다.모델링 결과에 대한 평가는 생성된 모델의 신뢰성과 유용성을 보여준다.
비판
SEMMA는 주로 데이터 마이닝 프로젝트의 모델링 작업에 집중하며, 비즈니스 측면은 배제한다(예: CRFH-DM 및 비즈니스 이해 단계).또한 SEMMA는 SAS 엔터프라이즈 Miner 소프트웨어의 사용자를 지원하도록 설계되었다.따라서 기업 광부 외부에 적용하는 것은 모호할 수 있다.[3]그러나 SEMMA의 "샘플링" 단계를 완료하기 위해서는 효과적인 샘플링을 하기 위해서는 비즈니스 측면에 대한 깊은 이해가 요구되어야 할 것이다.따라서 표본추출을 효과적으로 완료하기 위해서는 사실상 사업적 이해가 필요할 것이다.[4]null
참고 항목
참조
- ^ 아제베도, A.와 산토스, M. F. KDD, SEMMA 및 CRFH-DM: 병렬 개요.2008년 IADIS 유럽 데이터 마이닝 회의의 절차에서 182-185페이지.2013년 1월 9일 웨이백 머신에 보관
- ^ a b 2012년 3월 8일 웨이백 머신에 보관된 SAS Enterprise Miner 웹 사이트
- ^ Rohanizadeh, S. S.와 M. B. A 제안된 데이터 마이닝 방법론과 산업 공학 4(2009) 페이지 37-50.
- ^ [1] KDD, SEMMA 및 CRIP-DM: 병렬 개요, Ana Azevedo 및 M.F. Santos