게으른 학문
Lazy learning머신러닝(machine learning)에서 게으른 학습은 이론상 훈련 데이터의 일반화가 시스템에 대한 질의가 이루어질 때까지 지연되는 학습 방법으로서, 시스템은 쿼리를 받기 전에 훈련 데이터의 일반화를 시도한다.[1]
온라인 추천 시스템("이 영화/아이템/튠을 보고/구매/듣고/듣고 있는 사람들")에서 사용되는 K-가장 가까운 이웃 알고리즘에서와 같이 게으른 학습을 사용하는 주된 이유는 데이터 세트가 새로운 항목(예: Amazon에서 판매되는 새로운 항목, 넷플릭스에서 볼 새로운 영화, Yo에서 새로운 클립)으로 지속적으로 업데이트되기 때문이다.유투브, 스포티파이나 판도라의 새로운 음악. 지속적인 업데이트로 인해 "교육 데이터"는 특히 새로운 베스트셀러나 히트 영화/음악이 지속적으로 출판/발표되는 책과 영화와 같은 영역에서 비교적 짧은 시간 내에 쓸모 없게 될 것이다. 따라서 실제로 '훈련 단계'를 말할 수는 없다.
게으른 분류자는 일반적으로 쿼리되는 속성이 거의 없는 크고 지속적으로 변화하는 데이터셋에 가장 유용하다. 특히, 예를 들어, 책의 출판 연도가 1년인 책이라도, 저자, 출판사, 제목, 판권, ISBN, 판매 가격 등 - 권고 쿼리는 훨씬 적은 속성에 의존한다 - 예를 들어, 공동 발생 데이터를 구매하거나 보거나 구매/관람한 항목의 사용자 등급.
이점
게으른 학습 방법을 사용함으로써 얻을 수 있는 주요 이점은 k-가장 가까운 이웃 알고리즘과 같이 목표 함수가 국소적으로 근사하게 계산된다는 것이다. 대상 함수는 시스템에 대한 각 질의에 대해 국지적으로 근사하므로 게으른 학습 시스템은 동시에 여러 문제를 해결하고 문제 영역의 변화를 성공적으로 처리할 수 있다. 동시에 선형 회귀 모델링(보통 PRESS 통계량)과 제어에서 많은 이론적 및 적용 결과를 재사용할 수 있다.[2] 단일 훈련 세트를 이용한 예측이 소수의 대상에 대해서만 개발되면 이 시스템의 장점이 달성된다고 한다.[3] 이는 인스턴스 기반이고 기능은 국소적으로만 추정되는 k-NN 기법의 경우에 증명할 수 있다.[4]
단점들
게으른 학습으로 인한 이론적 단점은 다음과 같다.
- 전체 교육 데이터 세트를 저장하기 위한 대규모 공간 요구 사항. 실제로 하드웨어의 진보와 저장해야 하는 속성(예: 공동발생 빈도)의 상대적으로 적은 수 때문에 이것은 문제가 되지 않는다.
- 특히 시끄러운 훈련 데이터는 훈련 단계에서 추상화가 이루어지지 않기 때문에 불필요하게 사례 기반을 증가시킨다. 실제로, 앞에서 설명한 것처럼, 게으른 학습은 데이터의 변화로 인해 미리 수행된 학습이 곧 쓸모 없게 되는 상황에 적용된다. 또한 게으른 학습이 최적의 문제인 경우, "소음" 데이터는 실제로 발생하지 않는다 - 책의 구매자는 다른 책을 샀거나 사지 않았다.
- 게으른 학습 방법은 보통 평가하기가 더디다. 실제로 동시성 로드가 높은 매우 큰 데이터베이스의 경우, 쿼리는 실제 쿼리 시간까지 연기되지 않고, 예를 들어, 야간, 향후 쿼리를 예상하고 저장된 답변과 같은 주기적인 기준으로 미리 재계산된다. 이런 식으로, 다음 번에 데이터베이스의 기존 항목에 대해 새로운 질의를 할 때, 즉석에서 계산될 필요 없이 단지 빠르게 답을 찾아낼 뿐이며, 이것은 거의 확실히 높은 통화성 다중 사용자 시스템을 무릎 꿇게 할 것이다.
- 교육 데이터가 클수록 비용도 증가한다. 특히, 프로세서가 제한된 양의 교육 데이터 포인트만 처리할 수 있는 계산 비용이 고정되어 있다.[5]
이 답변에 영향을 미치는 데이터(예: 새로운 항목, 새로운 구매, 새로운 뷰)가 변경되지 않는 한 특정 답변이 재계산되지 않도록 재계산 효율성을 향상시키는 표준 기법이 있다. 즉, 저장된 답변은 점진적으로 업데이트된다.
대형 전자상거래나 미디어 사이트에 의해 사용되는 이 접근방식은 생물학적 시퀀스, 3-D 단백질 구조, 출판-기사 추상화 등 대규모 데이터 집합에서 서로 다른 항목들 간의 유사성을 사전 계산하기 위해 오래 전부터 엔트레스 포털(NCBI)에서 사용되어 왔다. 유사한 검색 쿼리를 너무 자주 묻기 때문에 NCBI는 병렬 하드웨어를 사용하여 야간 재평가를 수행한다. 데이터 집합의 새로운 입력 항목과 기존 입력 항목에 대해서만 재평가가 수행된다. 즉, 두 기존 입력 항목 간의 유사성은 재평가할 필요가 없다.
게으른 학습 방법의 예
- K-가장 가까운 이웃들, 이것은 인스턴스 기반 학습의 특별한 경우다.
- 국부 회귀 분석.
- 상업용 스팸 탐지 소프트웨어에서 광범위하게 사용되는 게으른 순진한 베이즈 규칙. 여기서 스팸 발송자들은 점점 더 똑똑해지고 스팸 발송 전략을 수정하며, 따라서 학습 규칙 또한 지속적으로 업데이트되어야 한다.
참조
- ^ Aha, David (29 June 2013). Lazy Learning (illustrated ed.). Springer Science & Business Media, 2013. p. 424. ISBN 978-9401720533. Retrieved 30 September 2021.
- ^ Bontempi, Gianluca; Birattari, Mauro; Bersini, Hugues (1 January 1999). "Lazy learning for local modelling and control design". International Journal of Control. 72 (7–8): 643–658. doi:10.1080/002071799220830.
- ^ Sammut, Claude; Webb, Geoffrey I. (2011). Encyclopedia of Machine Learning. New York: Springer Science & Business Media. p. 572. ISBN 9780387307688.
- ^ Pal, Saurabh (2017-11-02). Data Mining Applications. A Comparative Study for Predicting Student's Performance. GRIN Verlag. ISBN 9783668561458.
- ^ Aha, David W. (2013). Lazy Learning. Berlin: Springer Science & Business Media. p. 106. ISBN 9789401720533.
- 게으름: 로컬 회귀 분석을 위한 게으름 학습, 참조 매뉴얼이 있는 R 패키지
- "The Lazy Learning Package". Archived from the original on 16 February 2012.
- Webb G.I. (2011) 게으른 학습. 인: Sammut C, Webb G.I. (eds) 머신러닝 백과사전 캘리포니아 주 보스턴 스프링거