진화적 데이터 마이닝

Evolutionary data mining

진화적 데이터 마이닝 또는 유전적 데이터 마이닝은 진화적 알고리즘을 사용하는 모든 데이터 마이닝의 총칭이다. DNA 시퀀스에서 데이터를 채굴하는 데 사용할 수 있지만 생물학적 맥락에 국한되지 않고 분류 기반 예측 시나리오에서 사용할 수 있어 "다른 속성의 값에 기반한 사용자 지정 목표 속성의 값 ...을 예측하는 데 도움이 된다."[1][2] 예를 들어, 은행 기관은 고객의 신용이 나이, 소득 및 경상 저축액을 기준으로 "좋음"인지 "나쁨"인지 여부를 예측하고자 할 수 있다.[2] 일련의 랜덤 규칙을 생성하여 교육 데이터 세트와 대조하여 데이터 마이닝 작업을 위한 진화 알고리즘.[3] 데이터에 가장 근접하게 맞는 규칙이 선택되어 변이된다.[3] 이 프로세스는 여러 번 반복되며, 결국 교육 데이터와 100% 유사성에 접근하는 규칙이 발생할 것이다.[2] 그런 다음 이 규칙은 이전에 유전 알고리즘에서 볼 수 없었던 테스트 데이터 집합에 대해 점검된다.[2]

과정

자료작성

진화 알고리즘을 사용하여 데이터베이스에 데이터를 채굴하기 전에 먼저 데이터를 청소해야 하는데,[2] 불완전하거나 소음이 많거나 일관성이 없는 데이터를 복구해야 한다는 뜻이다. 이것은 알고리즘이 더 정확한 결과를 산출하는 데 도움이 될 것이기 때문에 채굴이 일어나기 전에 반드시 이루어져야 한다.[3]

데이터가 둘 이상의 데이터베이스에서 온다면, 이 시점에서 통합되거나 결합될 수 있다.[3] 대규모 데이터셋을 처리할 때는 처리되는 데이터의 양을 줄이는 것도 이로운 일일 수 있다.[3] 하나의 일반적인 데이터 감소 방법은 데이터베이스에서 정규화된 데이터 샘플을 얻음으로써 작동하며, 그 결과 훨씬 더 빠르지만 통계적으로 동등한 결과를 얻는다.[3]

이 시점에서 데이터는 동일하지만 상호 배타적인 두 가지 요소, 즉 시험과 훈련 데이터 집합으로 나뉜다.[2] 훈련 데이터세트는 그것과 밀접하게 일치하는 규칙들이 진화할 수 있도록 하기 위해 사용될 것이다.[2] 테스트 데이터 집합은 이 규칙을 확인하거나 거부한다.[2]

데이터 마이닝

진화 알고리즘은 자연 진화를 모방하려고 노력함으로써 작동한다.[3] 첫째, 훈련 데이터 집합에 무작위적인 일련의 "규칙"이 설정되며, 이 데이터들은 공식으로 일반화하려고 시도한다.[3] 규칙을 확인하고, 데이터에 가장 적합한 규칙을 유지하며, 데이터에 맞지 않는 규칙은 폐기한다.[3] 그리고 나서 보관되어 있던 규칙들은 변이되고, 증식되어 새로운 규칙을 만든다.[3]

이 프로세스는 데이터 집합과 가능한 가깝게 일치하는 규칙을 생성하기 위해 필요에 따라 반복한다.[3] 이 규칙을 얻으면 테스트 데이터 집합에 대해 검사한다.[2] 규칙이 여전히 데이터와 일치하면 규칙이 유효하고 유지된다.[2] 데이터와 일치하지 않으면 폐기되고 무작위 규칙을 다시 선택하는 것으로 프로세스가 시작된다.[2]

참고 항목

참조

  1. ^ 와이호오우, 키스 C. C. 찬, 신요. IEEE는 2008년 12월 4일에 "Curn Predictional Data Mining Algorithm With Applications With Churn Prediction, IEEE"를 회수했다.
  2. ^ a b c d e f g h i j k 프리타스, 알렉스 A. "데이터 마이닝 지식 발견을 위한 진화 알고리즘 조사", 폰티피아 유니버시아드 카톨리카 파라나, 2008-12-4년 회수"
  3. ^ a b c d e f g h i j k Jawei Han, Micheline Kamber 데이터 마이닝: 개념기술(2006), Morgan Kaufmann, ISBN1-55860-901-6