개념 드리프트

Concept drift

예측 분석머신러닝에서 개념 표류는 모형이 예측하려고 하는 대상 변수의 통계적 특성이 시간에 따라 예측하지 못한 방식으로 변화한다는 것을 의미한다. 이것은 시간이 지날수록 예측의 정확도가 떨어지기 때문에 문제를 일으킨다.

용어 개념은 예측될 수량을 가리킨다. 보다 일반적으로는 입력과 같이 목표 개념 외에 다른 관심 현상을 언급할 수도 있지만, 개념 표류의 맥락에서는 일반적으로 목표 변수를 지칭하는 용어다.

부정 행위 탐지 애플리케이션에서 대상 개념은 주어진 거래가 사기인지 여부를 나타내는 "예" 또는 "아니오" 값을 가진 2진수 속성일 수 있다. 또는 기상 예측 애플리케이션에서 온도, 압력, 습도 등 여러 가지 목표 개념이 있을 수 있다.

온라인 상점에서 고객들의 행동은 시간이 지남에 따라 바뀔 수 있다. 예를 들어, 주간 상품 판매를 예측하고, 만족스럽게 작동하는 예측 모델이 개발되었다. 모델은 광고에 지출되는 금액, 실행 중인 프로모션 및 판매에 영향을 미칠 수 있는 기타 지표와 같은 투입물을 사용할 수 있다. 이 모델은 시간이 지남에 따라 점점 정확도가 낮아질 가능성이 있다. 즉, 개념의 변화다. 상품 판매 어플리케이션에서 컨셉트 드리프트의 한 가지 이유는 계절성일 수 있는데, 이것은 쇼핑 행동이 계절적으로 변한다는 것을 의미한다. 예를 들어, 겨울 휴가철에는 여름보다 더 많은 판매가 있을 것이다. 개념 드리프트는 일반적으로 데이터 집합을 구성하는 공변량이 목표 집합의 변동을 덜 정확하게 설명하기 시작할 때 발생한다. 즉, 일부 교란 변수가 생겨났을 수 있으며, 이는 단순히 설명할 수 없는 것으로 모형 정확도를 시간에 따라 점진적으로 감소시킨다. 일반적으로, 생산 후 분석의 일환으로 건강 검진을 실시하고 개념 표류의 징후가 있을 경우 새로운 가정으로 모델을 재교육하는 것이 좋다.

가능한 치료법

개념 드리프트로 인한 예측 정확도 저하를 방지하기 위해 반응성추적 솔루션을 채택할 수 있다. 반응성 솔루션은 데이터 생성 프로세스의 통계 변경으로 개념 표류를 명시적으로 감지하기 위해 변경 감지 테스트와 같은 트리거 메커니즘에 반응하여 모델을 재교육한다.[1][2] 개념 표류가 감지되면 현재 모델은 더 이상 최신 모델이 아니며 예측 정확도를 회복하기 위해 새로운 모델로 교체해야 한다.[3][4] 반응적 접근법의 단점은 변화가 감지될 때까지 성능이 저하될 수 있다는 것이다. 추적 솔루션은 모델을 지속적으로 업데이트하여 개념의 변화를 추적한다. 이를 달성하기 위한 방법으로는 온라인 머신러닝, 가장 최근에 관찰된 샘플에 대한 빈번한 재교육,[5] 최신 예시에 대한 하나의 새로운 분류자가 훈련되고 앙상블에서 가장 오래된 분류자를 대체하는 분류자의 앙상블 유지 등이 있다.[6]

가능한 경우 상황별 정보를 사용하여 개념 표류의 원인을 더 잘 설명할 수 있다. 예를 들어, 판매 예측 애플리케이션에서 개념 표류는 모형에 계절에 대한 정보를 추가함으로써 보상될 수 있다. 연중 시간에 대한 정보를 제공함으로써, 모형의 열화 속도가 감소할 가능성이 높으며, 개념 표류는 완전히 제거되지 않을 것이다. 실제 쇼핑 행태가 어떤 정적이고 유한한 모델을 따르지 않기 때문이다. 쇼핑 행태, 알려진 요인의 영향 또는 상호 작용이 바뀔 수 있는 새로운 요인들이 언제든지 발생할 수 있다.

고정된 자연의 법칙에 지배되지 않는 복잡한 현상에 대해서는 개념 표류를 피할 수 없다. 사회경제적 과정, 생물학적 과정 등 인간의 활동에서 발생하는 모든 과정은 개념 표류를 경험할 가능성이 높다. 따라서, 어떤 모델에 대해서도 새로워지는 것으로 알려져 있는 정기적인 재교육이 필요하다.

소프트웨어

  • RapidMiner: 예전의 YALE: 지식 검색, 데이터 마이닝 및 머신러닝을 위한 무료 오픈 소스 소프트웨어도 데이터 스트림 마이닝, 시간 변동 개념 학습 및 표류 개념 추적 기능을 제공한다. 데이터 스트림 마이닝 플러그인(이전의 개념 드리프트 플러그인)과 결합해 사용한다.
  • EDDM(Early Drift Detection Method): Weka에서 드리프트 탐지 방법의 무료 오픈 소스 구현.
  • MOA(Massive Online Analysis): 개념 표류를 포함한 마이닝 데이터 스트림을 위한 무료 오픈 소스 소프트웨어. 선행 평가 방법, EDDM 개념 드리프트 방법, ARFF 리얼 데이터셋의 판독기, SEA 개념으로서의 인공 스트림 생성기, STAGER, 회전 하이퍼플레인, 랜덤 트리, 랜덤 반지름 기반 함수를 포함한다. MOA는 Weka와의 양방향 상호작용을 지원한다.

데이터 집합

진짜

  • USP Data Stream Repository, Souza 등(2020년)이 작성한 개념 표류를 포함한 27개의 실제 스트림 데이터셋. 접근
  • 항공사, E가 집계한 약 1억 1,600만 건의 항공편 도착 및 출발 기록(청소 및 정렬) 이코노모프스카죠 참고: 2009 데이터 엑스포 경기[1] 접근
  • I. Zliobaite가 컴파일한 Chess.com룩셈부르크(사회조사) 데이터 집합. 접근
  • ECUE 스팸 2개 데이터셋은 각각 개인이 약 2년 동안 수집한 10,000개 이상의 전자 메일로 구성된다. S.J.에서 접속.들라니 웹 페이지
  • 일렉트릭2, 전력 수요, 2개 등급, 45,312개 인스턴스. 참조: M. 해리스, 스플라이스-2 비교 평가: 1999년 사우스 웨일즈 대학의 전기 가격, 기술 보고서. J에서 액세스.가마 홈페이지. 적용가능성에 대한 코멘트.
  • PAKDD'09 경기 데이터는 신용평가 업무를 나타낸다. 그것은 5년에 걸쳐 수집된다. 불행히도, 진정한 라벨은 데이터의 첫 부분에만 공개된다. 접근
  • 센서 스트림전원 공급 스트림 데이터셋은 X에서 사용할 수 있다. Zhu의 스트림 데이터 마이닝 저장소. 접근
  • SMARE는 결측값이 많은 벤치마크 데이터 스트림이다. 7년 이상의 환경 관찰 데이터. 흐림을 예측한다. 접근
  • 텍스트 마이닝은 I. Katakis가 관리하는 개념 표류를 가진 텍스트 마이닝 데이터셋의 모음입니다. 접근
  • 가스 센서 어레이 드리프트 데이터 집합(Gas Sensor Array Dripled Dataset)은 다양한 농도의 6개 기체의 차별화 작업에서 드리프트 보상에 활용된 16개 화학 센서로부터 13,910개의 측정값을 수집했다. 접근

기타

  • KDD의 99 경기 데이터에는 군사 네트워크 환경에서 모의 침입이 포함되어 있다. 그것은 종종 개념 표류를 취급하는 것을 평가하기 위한 벤치마크로 사용된다. 접근

합성

  • 극한 검증 지연 시간 벤치마크, Souza, V.M.A.; Silva, D.F.; Gama, J.; Batista, G.E.A.P.A. : 비스테이션 환경에서의 클러스터링 및 극한 검증 지연 시간에 의해 유도된 데이터 스트림 분류. SIAM 국제 데이터 마이닝 회의(SDM), 페이지 873–881, 2015. Nonstationary Environments – Archive에서 액세스.
  • 사인, 선, 평면, 부울 데이터 세트, L.L.Minku, A.P.화이트, 엑스.야오, 개념 드리프트의 존재에서 다양성이 온라인 앙상블 학습에 미치는 영향, IEEE Transactions on Knowledge and Data Engineering, vol.22, no.5, 페이지 730–742, 2010. L에서 액세스.민쿠 홈페이지.
  • SEA 개념, N.W.Street, Y.Kim, A 스트리밍 앙상블 알고리즘(SEA) 대규모 분류를 위한 KDD01: 지식 검색 및 데이터 마이닝에 관한 제7회 ACM SIGKDD 국제회의, 2001. J에서 액세스.가마 홈페이지.
  • Stagger, J.C.Schlimer, R.H.Granger, 노이즈가 많은 데이터의 증분 학습, 마하. 학습, 제1권, 제3권, 1986.
  • 믹스, J.가마, P.메다스, G. 카스티요, P.Rodrigues, 2004년 표류탐지 학습.

데이터 생성 프레임워크

  • A.P. L.L.민쿠화이트, 엑스.야오, 개념 드리프트의 존재에서 다양성이 온라인 앙상블 학습에 미치는 영향, IEEE Transactions on Knowledge and Data Engineering, vol.22, no.5, 페이지 730–742, 2010. L에서 다운로드하십시오.민쿠 홈페이지.
  • Lindstrom P, SJ Delany & B MacNamee (2008) Autopilot: Simulating Changing Concepts in Real Data In: Proceedings of the 19th Irish Conference on Artificial Intelligence & Cognitive Science, D Bridge, K Brown, B O'Sullivan & H Sorensen (eds.) p272-263 PDF
  • Narasimhamurthy A, L.I. Kuncheva, 변화하는 환경을 시뮬레이션하기 위한 데이터 생성 프레임워크, Proc. IASTED, 인공지능 및 애플리케이션, 오스트리아 인스부르크, 2007, 384–389 PDF 코드

프로젝트

  • IMT-2000 3GPP - 진화하고 강력한 예측 시스템을 위한 컴퓨터 인텔리전스 플랫폼(2010-2014), 본머스 대학교(영국), 에보닉 인더스트리(독일), 연구 및 엔지니어링 센터(폴란드)
  • HaCDAIS: Adaptive Information Systems(2008-2012), Eindhoven Technology University(네덜란드)의 개념 변화 처리
  • KDUS: 유비쿼터스 스트림, INESC 포르토 및 인공지능 및 의사결정 지원 연구소(포르투갈)
  • ADEPT: 적응형 다이내믹 앙상블 예측 기법, 맨체스터 대학교(영국), 브리스톨 대학교(영국)
  • 알라딘: 분산된 데이터 및 정보 네트워크를 위한 자율 학습 담당자(2005-2010)

벤치마크

  • NAB: Numenta Format Benchmark, 스트리밍, 실시간 애플리케이션에서 이상 징후 탐지를 위한 알고리즘 평가 벤치마크. (2014–2018)

회의

  • 2014
    • [2] "동적 환경의 개념 변화, 도메인 적응 및 학습" @IEEE IJCNN 2014 특별 세션
  • 2013
    • RealStream Real-World Challenges for Data Stream Mining Workshop - 체코 프라하의 ECML PKDD 2013에서 토론
    • LEAPS 2013 제1회 스테이션이 아닌 환경에서 학습 계층Egies 및 data 처리에 관한 국제 워크숍
  • 2011
    • LEE 2011 ICMLA'11에서 진화하는 환경에서의 학습 및 실제 문제에 대한 적용에 관한 특별 세션
    • HaCDAIS 2011 제2회 적응형 정보 시스템 개념 변화 처리 국제 워크숍
    • ICAIS 2011 증분 학습 트랙
    • IJCNN 2011 개념변동과 학습동적 환경에 관한 특별 세션
    • CIDUE 2011 동적이고 불확실한 환경에서의 전산지능 심포지엄
  • 2010
    • HaCDAIS 2010 Adaptive Information System의 개념 드리프트 처리에 관한 국제 워크숍: 중요성, 과제 및 솔루션
    • IMT2000 3GPP - ICMLA10 비스테이션 환경에서 동적학습 특별 세션
    • ACM 심포지엄에서 열린 SAC 2010 데이터 스트림 응용 컴퓨팅 트랙
    • SensorKDD 2010 센서 데이터에서 지식 검색에 관한 국제 워크숍
    • StreamKDD 2010 새로운 데이터 스트림 패턴 마이닝 기술
    • IEEE 월드 콩그레스 컴퓨팅 인텔리전스 비전향 환경에서의 개념 변화 및 학습
    • ISDA'10 제10차 지능형 설계 및 응용 국제 컨퍼런스에서 열린 MLMDS의 데이터 스트림 기계 학습 방법에 관한 2010 특별 세션

참고 문헌 참고 문헌

개념 드리프트 탐지를 위한 알고리즘을 설명하는 많은 논문들이 발표되었다. 여기에는 리뷰, 설문 조사 및 개요만 제공된다.

리뷰

  • 수자, V. M. A., Reis, D. M., Maletzke, A. G. Batista, G. E. P. A. (2020) 실제 데이터, 데이터 마이닝 및 지식 검색을 통한 스트림 학습 알고리즘 벤치마킹의 어려움, 1-54 https://link.springer.com/article/10.1007/s10618-020-00698-5
  • 크라크지크, B, 민쿠, L.L., 가마, J. 스테파노스키, J., 워즈니악, M.(2017년). "Enexemble Learning for Data Stream Analysis: 설문 조사", 정보 퓨전, Vol 37, 페이지 132–156, 액세스
  • 달 포졸로, A, 보라치, G, 카엘렌, O, 알리피, C, & 본템피, G. (2015) 신용 카드 부정 행위 탐지 및 지연된 감독 정보를 통한 개념 왜곡 적응. 2015년 국제 신경망 합동회의 (IJCNN) (pp. 1–8)에서. IEEE. PDF
  • C.Alippi, "비역적 및 진화하는 환경에서 학습", Embedded Systems 인텔리전스에 관한 장. 2014년 스프링거 283pp, ISBN978-3-19-05278-6.
  • Gama, J.; Žliobaitė, I.; Bifet, A.; Pechenizkiy, M.; Bouchachia, A. (1 March 2014), "A survey on concept drift adaptation" (PDF), ACM Computing Surveys, 46 (4): 1–37, doi:10.1145/2523813, ISSN 0360-0300, Wikidata Q58204632
  • C. Alippi, R. Polikar, Nonstationary 및 Evolution Environments, IEEE Transactions on Neural Networks and Learning Systems, vol. 25, no. 1, 2014년 1월
  • 달 포졸로, A, 카엘렌, O, 르 보그네, Y. A, 워터슈트, S, & 본템피, G. (2014) 실무자의 관점에서 신용카드 부정행위 적발에 대한 교훈을 얻었다. 응용 프로그램이 있는 전문가 시스템, 41(10), 4915–4928. PDF
  • Zliobaite, I. 개념 표류에 따른 학습: 개요. 기술 보고서. 2009년, 빌니우스 대학교의 수학과 정보학 교수: 빌니우스, 리투아니아. PDF[permanent dead link]
  • Jiang, JJ, 통계 분류자의 도메인 적응에 관한 문헌 조사. 2008. PDF
  • 쿤체바 L.I. 스트리밍 데이터의 개념 변화를 감지하기 위한 분류기 앙상블: 개요 및 관점, Proc. 2차 워크샵 SUEMA 2008(ECAI 2008), 파트라스, 그리스, 2008, 5-10, PDF
  • 가버, M, M, 자슬라프스키, A, 크리슈나스와미, S, 마이닝 데이터 스트림: A Review, ACM SGIMOD Record, Vol. 34, No. 2005년 6월 1일 ISSN 0163-5808
  • 쿤체바 L.I., 환경변화를 위한 분류기 앙상블, F.의 MCS2004, 이탈리아 카글리아리 국제 워크숍. 롤리, J. 키틀러, T. Windeatt (Eds.), 컴퓨터 과학 강의 노트, Vol 3077, 2004, 1–15, PDF.
  • Tsymbal, A, 개념 표류의 문제: 정의와 관련 업무. 기술 보고서. 2004, 트리니티 칼리지 컴퓨터 과학 학부: 아일랜드 더블린 PDF

참고 항목

참조

  1. ^ Basseville, Michele (1993). Detection of abrupt changes: theory and application. Prentice Hall. ISBN 0-13-126780-9. OCLC 876004326.
  2. ^ 알리피, C, & 로버리, M. (2007) 고정 상태의 적응 분류기. 2007년 신경망 국제공동회의. 2007년 국제 신경망 공동 회의 IEEE. https://doi.org/10.1109/ijcnn.2007.4371096
  3. ^ 가마, J, 메다스, P, 카스티요, G, & 로드리게스, P. (2004) 드리프트 탐지 기능을 통한 학습. 인공지능의 진보에서 – SBIA 2004 (pp. 286–295) 스프링거 베를린 하이델베르크. https://doi.org/10.1007/978-3-540-28645-5_29
  4. ^ Alippi, C, Boracchi, G, & Roberi, M.(2011년). 신뢰 구간 규칙의 교차점에 기초한 적시 적응형 분류 시스템. Neural Networks (Vol. 24, 문제 8, 페이지 791–800). 엘시버 BV https://doi.org/10.1016/j.neunet.2011.05.012
  5. ^ 와이드머, G, & 쿠바트, M. (1996년) 개념 표류 및 숨겨진 맥락에서 학습. 머신러닝(Vol. 23, 문제 1, 페이지 69–101)에서. Springer Science and Business Media LLC. https://doi.org/10.1007/bf00116900
  6. ^ Elwell, R, & Polikar, R.(2011). 비스테이션 환경에서 개념 드리프트의 증분 학습. 신경망에서의 IEEE 거래 (Vol. 22, 발행 10, 페이지 1517–1531)에서. 전기전자공학연구원(IEEE) https://doi.org/10.1109/tnn.2011.2160459