데이터 마이닝
Data mining시리즈의 일부 |
기계 학습 및 데이터 마이닝 |
---|
데이터 마이닝은 기계 학습, 통계 및 데이터베이스 [1]시스템의 교차점에 있는 메서드와 관련된 대규모 데이터 집합의 패턴을 추출하고 발견하는 과정입니다.데이터 마이닝은 컴퓨터 과학 및 통계의 학문적 하위 분야로, 데이터 집합에서 (지능적인 방법을 사용하여) 정보를 추출하여 더 이상 사용할 [1][2][3][4]수 있도록 정보를 이해할 수 있는 구조로 변환하는 것이 전체적인 목표입니다.데이터 마이닝은 "데이터베이스 내 지식 발견" 프로세스(KDD)[5]의 분석 단계입니다.원시 분석 단계 외에도 데이터베이스 및 데이터 관리 측면, 데이터 사전 처리, 모델 및 추론 고려 사항, 관심도 메트릭, 복잡성 고려 사항, 발견된 구조의 사후 처리, 시각화 및 온라인 [1]업데이트도 포함합니다.
데이터 마이닝이라는 용어는 데이터 자체의 [6]추출(마이닝)이 아니라 대량의 데이터에서 패턴과 지식을 추출하는 것이 목표이기 때문에 잘못된 명칭입니다.이[7] 용어는 유행어이기도 하며 인공지능(예: 기계학습) 및 비즈니스 인텔리전스를 포함한 컴퓨터 의사결정 지원 시스템의 모든 응용 프로그램뿐만 아니라 모든 형태의 대규모 데이터 또는 정보 처리(수집, 추출, 창고, 분석 및 통계)에도 자주 사용됩니다.데이터 마이닝: Java를 사용한[8] 실용적인 머신 러닝 툴과 기술(주로 머신 러닝 자료를 망라)은 원래 Practical 머신 러닝이라고 명명될 예정이었지만, 데이터 마이닝이라는 용어는 마케팅상의 [9]이유로 추가되었을 뿐입니다.보다 일반적인 용어(대규모)의 데이터 분석 및 분석(실제 방법을 참조할 때는 인공지능 및 기계 학습)이 더 적합합니다.
실제 데이터 마이닝 태스크는 데이터 레코드 그룹(클러스터 분석), 비정상적인 레코드(이상 검출), 의존관계(관련 규칙 마이닝, 순차적 패턴 마이닝)와 같이 이전에는 알려지지 않았던 흥미로운 패턴을 추출하기 위해 대량의 데이터를 반자동 또는 자동으로 분석하는 것입니다.여기에는 일반적으로 공간 색인과 같은 데이터베이스 기술을 사용하는 것이 포함됩니다.이러한 패턴은 입력 데이터의 일종의 요약으로 볼 수 있으며, 추가 분석 또는 기계 학습 및 예측 분석 등에 사용될 수 있다.예를 들어, 데이터 마이닝 단계는 데이터 내의 여러 그룹을 식별하여 의사결정 지원 시스템에 의해 보다 정확한 예측 결과를 얻는 데 사용할 수 있다.데이터 수집, 데이터 준비, 결과 해석 및 보고서 작성은 데이터 마이닝 단계에는 포함되지 않습니다.단, 추가 단계로서 KDD 프로세스 전체에 속합니다.
데이터 분석과 데이터 마이닝의 차이점은 데이터 분석 기능이 데이터 세트에 대한 모델 및 가설을 테스트하는 데 사용된다는 것입니다. 예를 들어, 데이터 양에 관계없이 마케팅 캠페인의 효과를 분석합니다.이와는 대조적으로 데이터 마이닝은 기계 학습과 통계 모델을 사용하여 대량의 [10]데이터에서 비밀스럽거나 숨겨진 패턴을 밝혀냅니다.
관련 용어인 데이터 준설, 데이터 피싱 및 데이터 스누핑은 발견된 패턴의 유효성에 대해 신뢰할 수 있는 통계적 추론을 하기에는 너무 작거나 더 작을 수 있는 대규모 모집단 데이터 세트의 일부를 샘플링하기 위해 데이터 마이닝 방법을 사용하는 것을 말한다.그러나 이러한 방법을 사용하여 더 큰 데이터 모집단에 대해 검정할 새로운 가설을 생성할 수 있습니다.
어원학
1960년대에 통계학자와 경제학자들은 데이터 피싱이나 데이터 준설과 같은 용어를 사용하여 a-priori 가설 없이 데이터를 분석하는 나쁜 관행을 가리켰다."[11][12]데이터 마이닝"이라는 용어는 경제학자 마이클 러벨이 1983년 경제연구 리뷰에 발표한 기사에서 유사하게 비판적인 방법으로 사용했다.러벨은 그 관습이 "실험"에서 "낚시" 또는 "스누핑"까지 다양한 가명으로 위장하고 있음을 나타낸다.
데이터 마이닝이라는 용어는 데이터베이스 커뮤니티에서 1990년경 등장했는데, 대체로 긍정적인 의미를 내포하고 있습니다.1980년대에 잠깐 동안 "마이닝"™이라는 문구가 사용되었지만 샌디에이고에 본사를 둔 HNC가 데이터베이스 마이닝 워크스테이션을 [13]홍보하기 위해 상표권을 부여했기 때문에 연구자들은 데이터 마이닝으로 눈을 돌렸습니다.사용되는 다른 용어로는 데이터 고고학, 정보 수집, 정보 발견, 지식 추출 등이 있습니다.Gregory Piatetsky-Shapiro는 같은 주제에 대한 첫 번째 워크숍(KDD-1989)에서 "데이터베이스에서의 지식 발견"이라는 용어를 만들었고, 이 용어는 AI 및 기계 학습 커뮤니티에서 더욱 인기를 끌게 되었습니다.그러나 데이터 마이닝이라는 용어는 비즈니스 [14]및 언론 커뮤니티에서 더 많이 사용되고 있습니다.현재 데이터 마이닝과 지식 발견이라는 용어는 서로 바꿔서 사용되고 있습니다.
학계에서는 1995년 AAAI의 후원으로 몬트리올에서 제1회 데이터 마이닝 및 지식 발견 국제회의(KDD-95)가 시작되면서 연구의 주요 포럼이 시작되었다.우사마 파야드와 라마사미 우서루사미가 공동 의장을 맡았다.그로부터 1년 뒤인 1996년 Usama Fayyad는 Kluwer에 의해 창립 편집장으로서 Data Mining and Knowledge Discovery라는 저널을 창간했다.이후 SIGKDD 뉴스레터 SIGKDD [15]Expirations를 시작했습니다.KDD International Conference는 데이터 마이닝 분야에서 가장 높은 품질의 주요 컨퍼런스가 되었으며, 연구 논문 제출 수용률은 18%를 밑돌았습니다.Data Mining and Knowledge Discovery 저널은 이 분야의 주요 연구 저널입니다.
배경
데이터로부터 패턴을 수동으로 추출하는 것은 수세기 동안 행해져 왔습니다.데이터에서 패턴을 식별하는 초기 방법으로는 Bayes의 정리(1700년대)와 회귀 분석(1800년대)[16]이 있습니다.컴퓨터 테크놀로지의 보급, 보급, 파워의 향상으로 데이터 수집, 저장 및 조작 능력이 비약적으로 향상되었습니다.데이터 세트의 크기와 복잡성이 증가함에 따라, 직접적인 "실제" 데이터 분석은 특히 신경 네트워크, 클러스터 분석, 유전 알고리즘(1950년대), 의사결정 트리 및 의사결정 규칙과 같은 컴퓨터 과학 분야의 다른 발견에 의해 도움을 받아 간접적이고 자동화된 데이터 처리를 통해 점점 더 강화되고 있습니다.s(1990년대) 및 지원 벡터 머신(1990년대)입니다.데이터 마이닝은 숨겨진 [17]패턴을 발견하기 위해 이러한 방법을 적용하는 과정입니다.큰 데이터 세트에 있습니다.실제 학습 및 검출 알고리즘을 보다 효율적으로 실행하기 위해 데이터가 데이터베이스에 저장 및 인덱싱되는 방법을 활용하여 응용 통계 및 인공지능(일반적으로 수학적 배경 제공)에서 데이터베이스 관리에 이르기까지의 격차를 해소하고, 이러한 방법을 더욱 큰 데이터 세트에 적용할 수 있도록 합니다.
과정
데이터베이스(KDD)에서의 지식 검출 프로세스는 일반적으로 다음 단계에서 정의됩니다.
- 선택.
- 전처리
- 변혁
- 데이터 마이닝
- 해석/평가.[5]
그러나 이 주제에는 다음과 같은 6가지 단계를 정의하는 CRISP-DM(Cross-Industry Standard Process for Data Mining)과 같은 다양한 변형이 존재합니다.
- 비즈니스 이해
- 데이터 이해
- data 준비
- 모델링.
- 평가하기
- 도입
또는 (1) 전처리, (2) 데이터 마이닝, (3) 결과 검증과 같은 단순화된 프로세스입니다.
2002년, 2004년, 2007년 및 2014년에 실시된 여론조사에 따르면 CRISP-DM 방법론은 데이터 [18]마이너가 사용하는 주요 방법론인 것으로 나타났습니다.이러한 조사에서 언급된 다른 데이터 마이닝 표준은 SEMA뿐이었습니다. 그러나 CRISP-DM을 사용하는 사람이 3~4배 더 많았습니다. 여러 연구팀이 데이터 마이닝 프로세스 [19]모델에 대한 리뷰를 발표했으며,[20] Azevedo와 Santos는 2008년에 CRISP-DM과 SEMMA를 비교했습니다.
전처리
데이터 마이닝 알고리즘을 사용하려면 먼저 대상 데이터 세트를 조립해야 합니다.데이터 마이닝은 데이터 내에 실제로 존재하는 패턴만 발견할 수 있으므로 대상 데이터 세트는 이러한 패턴을 포함할 수 있을 만큼 충분히 크고 허용 가능한 시간 내에 마이닝할 수 있을 만큼 간결해야 합니다.일반적인 데이터 소스는 데이터 마트 또는 데이터 웨어하우스입니다.데이터 마이닝 전에 다변량 데이터 세트를 분석하려면 사전 처리가 필수적입니다.그런 다음 대상 세트가 치료됩니다.데이터 청소는 잡음이 포함된 관측치와 결측 데이터가 있는 관측치를 제거합니다.
데이터 마이닝
데이터 마이닝에는 다음 6가지 일반적인 태스크 [5]클래스가 포함됩니다.
- 이상 검출(이상치/변경/변화 검출)– 흥미로운 데이터 레코드 또는 추가 조사가 필요한 데이터 오류 식별.
- 연관 규칙 학습(의존성 모델링) – 변수 간의 관계를 검색합니다.예를 들어, 슈퍼마켓은 고객의 구매 습관에 대한 데이터를 수집할 수 있습니다.연합 규칙 학습을 사용하여 슈퍼마켓은 어떤 제품이 자주 함께 구매되는지 결정하고 이 정보를 마케팅 목적으로 사용할 수 있습니다.이를 시장 바스켓 분석이라고 부르기도 합니다.
- 클러스터링 – 데이터 내의 기존 구조를 사용하지 않고 데이터 내의 그룹 및 구조를 어떤 식으로든 "유사"하게 검출하는 작업입니다.
- 분류 – 기존 구조를 일반화하고 새로운 데이터에 적용하는 작업입니다.예를 들어, 전자 메일 프로그램이 전자 메일을 "합법적" 또는 "스팸"으로 분류하려고 시도할 수 있습니다.
- 회귀 분석 – 데이터 또는 데이터 세트 간의 관계를 추정하기 위해 오류가 가장 적은 데이터를 모델링하는 함수를 찾으려고 합니다.
- 요약 – 시각화 및 보고서 생성 등 데이터 세트를 보다 간결하게 표현할 수 있습니다.
결과 검증
데이터 마이닝은 의도하지 않게 오용되어 의미 있는 것처럼 보이지만 실제로는 미래의 동작을 예측하지 못하고 새로운 데이터 샘플로 재현할 수 없기 때문에 거의 쓸모가 없습니다.이는 때때로 너무 많은 가설을 조사하고 적절한 통계 가설 검정을 수행하지 않아 발생합니다.기계 학습에서 이 문제의 단순한 버전은 과적합이라고 알려져 있지만, 프로세스의 다른 단계에서 동일한 문제가 발생할 수 있습니다. 따라서, 적용 가능한 경우, 열차/테스트 분할로는 이러한 [21]문제를 방지하기에 충분하지 않을 수 있습니다.
데이터에서 지식 발견의 마지막 단계는 데이터 마이닝 알고리즘에 의해 생성된 패턴이 더 넓은 데이터 세트에서 발생하는지 확인하는 것입니다.알고리즘에 의해 검출된 모든 패턴이 반드시 유효한 것은 아닙니다.일반적으로 데이터 마이닝 알고리즘은 일반적인 데이터 세트에 존재하지 않는 트레이닝 세트의 패턴을 찾습니다.이것은 과피팅이라고 불립니다.이를 극복하기 위해 평가에서는 데이터 마이닝 알고리즘이 훈련되지 않은 데이터 테스트세트를 사용합니다.학습된 패턴이 이 테스트세트에 적용되어 결과 출력이 원하는 출력과 비교됩니다.예를 들어, "스팸"과 "합법적인" 전자 메일을 구별하려고 하는 데이터 마이닝 알고리즘은 샘플 전자 메일의 트레이닝 세트에 대해 훈련됩니다.일단 훈련을 받으면 학습된 패턴은 훈련을 받지 않은 전자 메일의 테스트세트에 적용됩니다.패턴의 정밀도는 올바르게 분류된 전자 메일의 수에서 측정할 수 있습니다.ROC 곡선 등 여러 통계 방법을 사용하여 알고리즘을 평가할 수 있습니다.
학습한 패턴이 원하는 기준을 충족하지 못할 경우 전처리 및 데이터 마이닝 단계를 재평가하여 변경해야 합니다.학습 패턴이 원하는 기준을 충족한다면 마지막 단계는 학습 패턴을 해석하여 지식으로 바꾸는 것입니다.
조사.
이 분야의 최고 프로페셔널 기관은 ACM(Association for Computing Machine)의 SIGKDD([22][23]Knowledge Discovery and Data Mining)에 관한 SIG(Special Interest Group)입니다.이 ACM SIG는 1989년부터 매년 국제회의를 개최해 [24]그 결과를 발표하고 있으며, 1999년부터는 「SIGKDD 탐색」[25]이라는 학술지를 2년에 1회 발행하고 있습니다.
데이터 마이닝에 관한 컴퓨터 사이언스 컨퍼런스는 다음과 같습니다.
- CIKM 회의 – ACM 정보 및 지식 관리 회의
- 데이터베이스 지식 발견의 기계 학습과 원칙 및 실천에 관한 유럽 회의
- KDD 회의 – ACM SIGKDD 지식 검출 및 데이터 마이닝 회의
데이터 마이닝의 토픽은 ICDE 회의, SIGMOD 회의, 국제초대규모 데이터베이스 회의 등 많은 데이터 관리/데이터베이스 회의에서도 볼 수 있습니다.
표준
데이터 마이닝 프로세스의 표준을 정의하기 위해 1999년 CRISP-DM 1.0 및 2004년 Java Data Mining 표준(JDM 1.0) 등의 노력이 이루어지고 있습니다.이러한 프로세스의 후계자(CRISP-DM 2.0 및 JDM 2.0)의 개발은 2006년에 활발했지만, 그 이후로는 정체되어 있습니다.JDM 2.0은 최종 초안에 도달하지 못한 채 철회되었습니다.
추출된 모델(특히 예측 분석에서 사용)을 교환하기 위한 핵심 표준은 예측 모델 마크업 언어(PMML)입니다. PMML은 데이터 마이닝 그룹(DMG)에서 개발하고 많은 데이터 마이닝 애플리케이션에서 교환 형식으로 지원되는 XML 기반 언어입니다.이름에서 알 수 있듯이 비즈니스 애플리케이션에 매우 중요한 데이터 마이닝 작업인 예측 모델만 다룹니다.단, (예를 들어) 서브스페이스 클러스터링을 커버하기 위한 확장은 [26]DMG와는 독립적으로 제안되고 있습니다.
주목할 만한 용도
데이터 마이닝은 오늘날 디지털 데이터를 사용할 수 있는 모든 곳에서 사용됩니다.데이터 마이닝의 주목할 만한 예는 비즈니스, 의학, 과학 및 보안 감시 전반에 걸쳐 찾아볼 수 있습니다.
프라이버시에 관한 우려와 윤리
"데이터 마이닝"이라는 용어 자체는 윤리적 의미가 없을 수 있지만, 종종 사용자 행동(윤리적 및 기타)[27]과 관련된 정보 마이닝과 관련이 있습니다.
경우에 따라서는 데이터 마이닝을 사용하는 방법에 따라 프라이버시, 합법성 및 윤리에 [28]대한 의문이 제기될 수 있습니다.특히, 토탈 정보 인식 프로그램이나 ADDISH와 같은 국가 보안이나 법 집행 목적을 위한 데이터 마이닝 정부나 상업 데이터 세트는 사생활 [29][30]문제를 제기하고 있다.
데이터 마이닝에는 기밀성과 프라이버시 의무를 침해하는 정보나 패턴을 밝혀내는 데이터 준비가 필요합니다.이러한 현상이 발생하는 일반적인 방법은 데이터 집약을 사용하는 것입니다.데이터 집계에는 분석을 용이하게 하는 방식으로 (가능성이 있는 다양한 소스의) 데이터를 함께 결합하는 것이 포함된다(그러나 개인, 개인 수준의 데이터 식별이 가능하거나 명확해질 [31]수도 있다).이는 데이터 마이닝 자체가 아니라 분석 전(목적을 위해) 데이터를 준비한 결과입니다.개인의 사생활에 대한 위협은 데이터가 컴파일되면 데이터 마이너 또는 새로 컴파일된 데이터 세트에 액세스할 수 있는 모든 사용자가 특정 개인을 식별할 수 있게 되며, 특히 데이터가 원래 [32]익명일 때 발생합니다.
데이터를 [31]수집하기 전에 다음 사항에 유의하는 것이 좋습니다[according to whom?].
- 데이터 수집 및 (알려진) 데이터 마이닝 프로젝트의 목적
- 데이터 사용 방법
- 누가 데이터를 마이닝하고 데이터와 그 파생상품을 사용할 수 있는가?
- 데이터 접근을 둘러싼 보안 상태
- 수집된 데이터의 업데이트 방법.
데이터는 개인을 [31]쉽게 식별할 수 없도록 익명화할 수도 있다.그러나 기자들이 AOL에 [33]의해 무심코 공개된 일련의 검색 기록을 바탕으로 여러 명의 개인을 찾을 수 있었던 것처럼, "익명화된" 데이터 세트도 개인을 식별할 수 있는 충분한 정보를 포함할 수 있다.
개인 식별 가능 정보의 부주의한 폭로가 제공자에게로 이어지는 것은 공정한 정보 관행을 위반하는 것입니다.이러한 경솔함은 지적된 개인에게 금전적, 정서적 또는 신체적으로 해를 끼칠 수 있습니다.프라이버시 침해의 한 예로서, Walgreens의 고객들은 2011년에 처방전 정보를 데이터 마이닝 회사에 판매한 혐의로 회사를 상대로 소송을 제기했고, 데이터 마이닝 회사는 그 데이터를 제약 [34]회사에 제공했습니다.
유럽 상황
유럽은 프라이버시법이 상당히 강력하여 소비자의 권리를 더욱 강화하기 위한 노력이 진행되고 있다.그러나 1998년부터 2000년 사이에 개발된 미국-유럽 세이프하버 원칙은 현재 유럽 사용자들이 미국 기업에 의한 사생활 침해에 효과적으로 노출되어 있다.에드워드 스노든의 글로벌 감시 공개로 이 합의를 파기하기 위한 논의가 활발해졌고, 특히 이 데이터는 국가안보국에 완전히 공개될 것이며, 미국과의 합의에 이르려는 시도는 실패했다.[35]
특히 영국에서는 기업이 데이터 마이닝을 특정 고객 집단을 대상으로 부당하게 높은 가격을 지불하도록 강요하는 사례가 있었습니다.이러한 집단은 디지털 [36]시장에서 이용될 수 있는 방법을 잘 알지 못하는 사회 경제적 지위가 낮은 사람들인 경향이 있다.
미국의 상황
미국에서는 의료보험 이동성 및 설명책임법(HIPAA)과 같은 규제 통제 통과를 통해 개인 정보 보호 문제가 해결되었습니다.HIPAA는 개인이 제공하는 정보, 현재 및 미래의 용도에 대해 "정보 제공 동의"를 하도록 요구한다.생명공학 비즈니스 위크에 실린 기사에 따르면, "[i]n 관행은 HIPAA가 연구 분야의 오랜 규제보다 더 큰 보호를 제공하지 못할 수도 있습니다,"라고 AAHC는 말한다.더 중요한 것은 사전동의에 의한 보호라는 이 규칙의 목표는 [37]일반인이 이해할 수 없는 수준에 근접하는 것이다.이는 데이터 집계 및 마이닝 관행에서 데이터 익명성의 필요성을 강조합니다.
HIPAA 및 Family Educational Rights and Privacy Act(FERPA)와 같은 미국의 정보 프라이버시 법률은 이러한 법이 다루는 특정 영역에만 적용됩니다.미국 내 대다수 기업의 데이터 마이닝 사용은 어떤 법률로도 규제되지 않습니다.
저작권법
유럽 상황
유럽 저작권 및 데이터베이스법에 따르면 저작권자의 허가 없이 저작권 내 저작물(웹 마이닝 등)을 채굴하는 것은 합법적이지 않습니다.유럽에서 데이터베이스가 순수 데이터인 경우 저작권이 없는 것일 수 있지만 데이터베이스 권리는 존재할 수 있으므로 데이터 마이닝은 데이터베이스 지침에 의해 보호되는 지적 재산권 소유자의 권리의 대상이 됩니다.Hargreaves 리뷰의 권고에 따라 영국 정부는 2014년 저작권법을 개정하여 콘텐츠 마이닝을 제한 및 [38]예외로 허용하였다.영국은 2009년 데이터 마이닝 예외를 도입한 일본에 이어 세계에서 두 번째 국가였다.그러나 정보사회 지침(2001)의 제한으로 인해 영국의 예외는 비상업적 목적을 위한 콘텐츠 마이닝만 허용하고 있습니다.또한 영국 저작권법은 이 조항을 계약 조건에 의해 무효로 하는 것을 허용하지 않습니다.스위스도 2020년부터 스위스 저작권법 제24조 제24d항에 규정된 조건 하에 연구 분야에 데이터 마이닝을 허용함으로써 데이터 마이닝을 규제하고 있다.이 새로운 조항은 2020년 [39]4월 1일부터 시행되었다.
유럽위원회는 2013년에 "유럽 라이선스"[40]라는 제목으로 텍스트 및 데이터 마이닝에 대한 이해관계자 논의를 촉진했다.제한과 예외보다는 인허가 문제 해결에 초점을 맞췄기 때문에 2013년 [41]5월 대학, 연구원, 도서관, 시민사회단체, 개방형 접근 출판사 대표들이 이해관계자 대화를 중단했다.
미국의 상황
미국 저작권법, 특히 공정한 사용을 위한 조항은 미국 및 이스라엘, 대만, 한국 등의 공정한 사용 국가에서 콘텐츠 마이닝의 합법성을 지지합니다.콘텐츠 마이닝은 혁신적이기 때문에, 즉 원작을 대체하지 않기 때문에, 공정한 사용 하에서는 합법적이라고 볼 수 있습니다.예를 들어, Google Book 합의의 일환으로 재판장은 Google의 저작권 내 도서 디지털화 프로젝트가 합법적이라고 판결했습니다. 부분적으로는 디지털화 프로젝트가 보여주는 혁신적 용도(텍스트 및 데이터 마이닝)[42] 때문입니다.
소프트웨어
무료 오픈 소스 데이터 마이닝 소프트웨어 및 애플리케이션
다음 응용 프로그램은 자유/오픈 소스 라이센스로 사용할 수 있습니다.애플리케이션 소스 코드에 대한 일반 액세스도 이용할 수 있습니다.
- 당근2:텍스트 및 검색 결과 클러스터링 프레임워크.
- Chemicalize.org: 화학 구조 채굴기 및 웹 검색 엔진.
- ELKI: Java 언어로 작성된 고급 클러스터 분석 및 특이치 감지 방법을 갖춘 대학 연구 프로젝트입니다.
- GATE: 자연어 처리 및 언어 엔지니어링 도구.
- KNIME: Konstanz Information Miner는 사용하기 쉽고 포괄적인 데이터 분석 프레임워크입니다.
- Massive Online Analysis(MOA): Java 프로그래밍 언어로 된 개념 드리프트 툴을 사용한 실시간 빅데이터 스트림 마이닝입니다.
- MEPX: 유전자 프로그래밍 변종을 기반으로 한 회귀 및 분류 문제를 위한 교차 플랫폼 도구.
- mlpack : C++ 언어로 작성된 즉시 사용할 수 있는 머신러닝 알고리즘 집합.
- NLTK(Natural Language Toolkit):Python 언어용 기호 및 통계 자연 언어 처리(NLP)를 위한 라이브러리 및 프로그램 모음입니다.
- OpenNN: 신경 네트워크 라이브러리를 엽니다.
- Orange: Python 언어로 작성된 컴포넌트 기반 데이터 마이닝 및 머신 러닝 소프트웨어 스위트.
- PSPP: SPSS와 유사한 GNU 프로젝트의 데이터 마이닝 및 통계 소프트웨어
- R: 통계 컴퓨팅, 데이터 마이닝 및 그래픽스용 프로그래밍 언어 및 소프트웨어 환경.GNU 프로젝트의 일부입니다.
- Scikit-learn: Python 프로그래밍 언어용 오픈 소스 머신 러닝 라이브러리
- Torch: 기계학습 알고리즘을 폭넓게 지원하는 Lua 프로그래밍 언어 및 과학 컴퓨팅 프레임워크용 오픈 소스 딥러닝 라이브러리입니다.
- UIMA: UIMA(Unstructured Information Management Architecture)는 텍스트, 오디오 및 비디오와 같은 비정형 컨텐츠를 분석하기 위한 구성요소 프레임워크로, 원래 IBM이 개발했습니다.
- Weka: Java 프로그래밍 언어로 작성된 일련의 기계 학습 소프트웨어 애플리케이션입니다.
독자적인 데이터 마이닝 소프트웨어 및 애플리케이션
다음의 애플리케이션은, 독자 사양의 라이센스로 이용할 수 있습니다.
- 앙고스 지식STUDIO: 데이터 마이닝 도구
- LIONsolver: LION(Learning and Intelligent OptimizatioN) 접근방식을 구현하는 데이터 마이닝, 비즈니스 인텔리전스 및 모델링용 통합 소프트웨어 애플리케이션입니다.
- PolyAnalyst: Megaputer Intelligence의 데이터 및 텍스트 마이닝 소프트웨어.
- Microsoft Analysis Services: Microsoft가 제공하는 데이터 마이닝 소프트웨어.
- NetOwl: 데이터 마이닝을 지원하는 다국어 텍스트 및 엔티티 분석 제품 제품군.
- Oracle Data Mining: Oracle Corporation의 데이터 마이닝 소프트웨어.
- PSeven: DATADVANCE가 제공하는 엔지니어링 시뮬레이션 및 분석 자동화, 다분야 최적화 및 데이터 마이닝을 위한 플랫폼.
- Qlucore Omics Explorer: 데이터 마이닝 소프트웨어.
- Rapid Miner:머신 러닝 및 데이터 마이닝 실험을 위한 환경.
- SAS Enterprise Miner: SAS Institute가 제공하는 데이터 마이닝 소프트웨어.
- SPSS Modeler: IBM에서 제공하는 데이터 마이닝 소프트웨어.
- STATICA Data Miner: StatSoft에서 제공하는 데이터 마이닝 소프트웨어.
- Tanagra: 시각화 지향 데이터 마이닝 소프트웨어이며 교육용이기도 합니다.
- Vertica: Hewlett-Packard가 제공하는 데이터 마이닝 소프트웨어.
- Google Cloud Platform: Google에서 관리하는 자동화된 사용자 지정 ML 모델입니다.
- Amazon Sage Maker: 커스텀 ML 모델을 작성 및 제작하기 위해 Amazon이 제공하는 관리 서비스.
「 」를 참조해 주세요.
- 방법들
- 응용 프로그램 도메인
- 응용 프로그램 예시
- 영국의 자동 번호판 인식
- 고객 분석
- 교육 데이터 마이닝
- 국가안전보장국
- 정량적 구조-활동 관계
- 감시/대량 감시(Stellar Wind 등)
- 관련 토픽
데이터 분석이 아닌 데이터에서 정보를 추출하는 방법에 대한 자세한 내용은 다음을 참조하십시오.
- 기타 자원
레퍼런스
- ^ a b c "Data Mining Curriculum". ACM SIGKDD. 2006-04-30. Retrieved 2014-01-27.
- ^ Clifton, Christopher (2010). "Encyclopædia Britannica: Definition of Data Mining". Retrieved 2010-12-09.
- ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning: Data Mining, Inference, and Prediction". Archived from the original on 2009-11-10. Retrieved 2012-08-07.
- ^ Han, Jaiwei; Kamber, Micheline; Pei, Jian (2011). Data Mining: Concepts and Techniques (3rd ed.). Morgan Kaufmann. ISBN 978-0-12-381479-1.
- ^ a b c Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). "From Data Mining to Knowledge Discovery in Databases" (PDF). Retrieved 17 December 2008.
- ^ Han, Jiawei; Kamber, Micheline (2001). Data mining: concepts and techniques. Morgan Kaufmann. p. 5. ISBN 978-1-55860-489-6.
Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long
- ^ OKAIRP 2005 가을 컨퍼런스, 애리조나 주립 대학교, 웨이백 머신에서 2014-02-01 아카이브
- ^ Witten, Ian H.; Frank, Eibe; Hall, Mark A. (2011). Data Mining: Practical Machine Learning Tools and Techniques (3 ed.). Elsevier. ISBN 978-0-12-374856-0.
- ^ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). "WEKA Experiences with a Java open-source project". Journal of Machine Learning Research. 11: 2533–2541.
the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.
- ^ 올슨, D. L. (2007)비즈니스 서비스의 데이터 마이닝.서비스업, 1(3), 181~193.doi:10.1007/s11628-006-0014-7
- ^ Lovell, Michael C. (1983). "Data Mining". The Review of Economics and Statistics. 65 (1): 1–12. doi:10.2307/1924403. JSTOR 1924403.
- ^ Charemza, Wojciech W.; Deadman, Derek F. (1992). "Data Mining". New Directions in Econometric Practice. Aldershot: Edward Elgar. pp. 14–31. ISBN 1-85278-461-X.
- ^ Mena, Jesús (2011). Machine Learning Forensics for Law Enforcement, Security, and Intelligence. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.
- ^ Piatetsky-Shapiro, Gregory; Parker, Gary (2011). "Lesson: Data Mining, and Knowledge Discovery: An Introduction". Introduction to Data Mining. KD Nuggets. Retrieved 30 August 2012.
- ^ Fayyad, Usama (15 June 1999). "First Editorial by Editor-in-Chief". SIGKDD Explorations. 13 (1): 102. doi:10.1145/2207243.2207269. S2CID 13314420. Retrieved 27 December 2010.
- ^ Coenen, Frans (2011-02-07). "Data mining: past, present and future". The Knowledge Engineering Review. 26 (1): 25–29. doi:10.1017/S0269888910000378. ISSN 0269-8889. S2CID 6487637.
- ^ Kantardzic, Mehmed (2003). Data Mining: Concepts, Models, Methods, and Algorithms. John Wiley & Sons. ISBN 978-0-471-22852-3. OCLC 50055336.
- ^ Gregory Piatetsky-Shapiro (2002) KDnuggets 방법론 조사, Gregory Piatetsky-Shapiro (2004) KDnuggets 방법론 조사, Gregory Piatetsky-Shapiro (2014)
- ^ Lukasz Kurgan 및 Petr Musilek: "지식 발견 및 데이터 마이닝 프로세스 모델 조사"Knowledge Engineering Review.제21권 2006년 3월 1호, 페이지 1~24, 뉴욕 케임브리지 대학 출판부, doi:10.1017/S0269888906000737
- ^ Azevedo, A. 및 Santos, M. F. KDD, SEMMA 및 CRISP-DM: 병렬 개요 2013-01-09년 Wayback Machine에서 아카이브됨2008년 IADIS 유럽 데이터 마이닝 회의의 진행에서 페이지 182–185.
- ^ Hawkins, Douglas M (2004). "The problem of overfitting". Journal of Chemical Information and Computer Sciences. 44 (1): 1–12. doi:10.1021/ci0342472. PMID 14741005.
- ^ "Microsoft Academic Search: Top conferences in data mining". Microsoft Academic Search.
- ^ "Google Scholar: Top publications - Data Mining & Analysis". Google Scholar.
- ^ Wayback Machine, International Conference on Knowledge Discovery and Data Mining, ACM, New York에서의 절차 아카이브 2010-04-30.
- ^ SIGKDD 탐색, ACM, 뉴욕
- ^ Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). "An extension of the PMML standard to subspace clustering models". Proceedings of the 2011 workshop on Predictive markup language modeling. p. 48. doi:10.1145/2023598.2023605. ISBN 978-1-4503-0837-3. S2CID 14967969.
- ^ Seltzer, William (2005). "The Promise and Pitfalls of Data Mining: Ethical Issues" (PDF). ASA Section on Government Statistics. American Statistical Association.
- ^ Pitts, Chip (15 March 2007). "The End of Illegal Domestic Spying? Don't Count on It". Washington Spectator. Archived from the original on 2007-11-28.
- ^ Taipale, Kim A. (15 December 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782.
- ^ Resig, John. "A Framework for Mining Instant Messaging Services" (PDF). Retrieved 16 March 2018.
- ^ a b c 조사하기 전에 생각하다: Wayback Machine에서 2008-12-17년에 아카이브된 데이터 마이닝 및 집약의 프라이버시 영향, NASCIO Research Brief, 2004년 9월
- ^ Ohm, Paul. "Don't Build a Database of Ruin". Harvard Business Review.
- ^ 개인 식별된 AOL 검색 데이터, 보안Focus, 2006년8월
- ^ Kshetri, Nir (2014). "Big data's impact on privacy, security and consumer welfare" (PDF). Telecommunications Policy. 38 (11): 1134–1145. doi:10.1016/j.telpol.2014.10.002.
- ^ Weiss, Martin A.; Archick, Kristin (19 May 2016). "U.S.–E.U. Data Privacy: From Safe Harbor to Privacy Shield" (PDF). Washington, D.C. Congressional Research Service. p. 6. R44257. Retrieved 9 April 2020.
On October 6, 2015, the CJEU ... issued a decision that invalidated Safe Harbor (effective immediately), as currently implemented.
- ^ 파커, 조지"빅 데이터를 사용하여 고객 활용을 목표로 하는 영국 기업"Read Financial Times, Financial Times, 2018년 9월 30일, https://www.ft.com/content/5dbd98ca-c491-11e8-bc21-54264d1c4647를 구독하십시오.
- ^ Biotech Business Week Editors (2008년 6월 30일), BIOMOTEMICENTING; HIPAA 프라이버시 규칙이 Biotechical Research를 방해함, Biotech Business Week, Lexis Nexis Academic에서 2009년 11월 17일 취득
- ^ 새로운 영국 저작권법에 따라 데이터 마이닝 권한을 부여받은 영국 연구자.2014년 6월 9일 Wayback Machine Out-Law.com에서 아카이브.2014년 11월 14일 취득
- ^ "Fedlex".
- ^ "Licences for Europe – Structured Stakeholder Dialogue 2013". European Commission. Retrieved 14 November 2014.
- ^ "Text and Data Mining:Its importance and the need for change in Europe". Association of European Research Libraries. Retrieved 14 November 2014.
- ^ "Judge grants summary judgment in favor of Google Books – a fair use victory". Lexology.com. Antonelli Law Ltd. 19 November 2013. Retrieved 14 November 2014.
추가 정보
- Cabena, Peter, Hadjianan, Pablo, Stadler, Rolf, Verhees, Jaap, Zanasi, Alessandro(1997), 데이터 마이닝 발견: 개념에서 구현까지 프렌티스 홀, ISBN 0-13-743980-6
- M.S. Chen, J. Han, P.S Yu(1996) "데이터 마이닝: 데이터베이스 관점에서의 개요"Knowledge and Data Engineering, IEEE 트랜잭션 (8(6), 866–883)
- Feldman, Ronen; Sanger, James(2007);텍스트 마이닝 핸드북, 캠브리지 대학 출판부, ISBN 978-0-521-83657-9
- Guo, Yike; 및 Grossman, Robert(편집자)(1999년);고성능 데이터 마이닝: 스케일링 알고리즘, 애플리케이션 및 시스템, Kluwer 학술 출판사
- 한, 자웨이, 미켈린 캄버, 지안 페이.데이터 마이닝: 개념과 기술.모건 카우프만, 2006년
- Hastie, Trevor, Tibshirani, Robert and Friedman, Jerome(2001);통계학 학습의 요소: 데이터 마이닝, 추론, 예측, 스프링어, ISBN 0-387-95284-5
- Liu, Bing (2007, 2011);웹 데이터 마이닝: 하이퍼링크, 콘텐츠 및 사용 데이터 탐색, Springer, ISBN 3-540-37881-2
- Murphy, Chris (16 May 2011). "Is Data Mining Free Speech?". InformationWeek: 12.
- Nisbet, Robert; Elder, John; Miner, Gary(2009);통계분석 및 데이터 마이닝 어플리케이션 핸드북, 학술용 프레스/엘세비어, ISBN 978-0-12-374765-5
- Poncelet, Pascal, Massglia, Florent, Teisire, Maguelonne (편집자) (2007년 10월), 데이터 마이닝 패턴:새로운 방법과 응용" 정보과학 레퍼런스, ISBN 978-1-59904-162-9
- Tan, Pang-Ning; Steinbach, Michael; 및 Kumar, Vipin(2005);데이터 마이닝 개요, ISBN 0-321-32136-7
- Theodoridis, Sergios, and Koutrumbas, Constantinos (2009); 패턴 인식, 제4판, 학술 출판, ISBN 978-1-59749-272-0
- Weiss, Sholom M. 및 Indurkhya, Nitin(1998), 예측 데이터 마이닝, Morgan Kaufmann
- Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30 January 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 ed.). Elsevier. ISBN 978-0-12-374856-0. ('무료 Weka 소프트웨어'도 참조)
- Ye, Nang(2003);데이터 마이닝 핸드북, 마와, 뉴저지 주: 로렌스 얼바움