예측 모델링

Predictive modelling

예측 모델링은 결과를 예측하기 위해 통계를 사용한다.[1] 예측하고 싶은 사건은 대부분 미래 사건이지만 예측 모델링은 발생 시기와 관계없이 미지의 어떤 유형의 사건에도 적용될 수 있다. 예를 들어, 예측 모델은 범죄가 일어난 후에 범죄를 탐지하고 용의자를 식별하기 위해 종종 사용된다.[2]

많은 경우 모델은 정해진 양의 입력 데이터로 주어진 결과의 확률을 추측하기 위해 검출 이론에 기초하여 선택된다. 예를 들어, 스팸일 가능성을 결정하는 이메일이 그것이다.

모델은 하나 이상의 분류자를 사용하여 다른 집합에 속하는 데이터 집합의 확률을 결정할 수 있다. 예를 들어, 모델은 전자 메일이 스팸인지 또는 "햄"(비 스팸)인지를 결정하는 데 사용될 수 있다.

정의적 경계에 따라 예측 모델링은 학문적 또는 연구 개발적 맥락에서 더 흔히 언급되기 때문에 기계 학습 분야와 동의어 또는 크게 중복된다. 상업적으로 배치되는 예측 모델링은 흔히 예측 분석이라고 한다.

예측 모델링은 종종 원인 모델링/분석과 대조된다. 전자에서는 관심 결과의 지표 또는 대용치를 이용하는 것에 전적으로 만족할 수 있다. 후자에서는 진정한 인과 관계를 결정하려고 한다. 이러한 구별은 연구 방법 및 통계 분야에서 급증하는 문헌과 "상관 관계가 인과 관계를 내포하지 않는다"는 일반적인 진술을 낳았다.

모델

거의 모든 통계적 모델은 예측 목적으로 사용될 수 있다. 대체로 예측 모델의 두 가지 등급이 있는데, 바로 모수(parametric)와 비모수 모델이다. 세 번째 등급인 반모수 모델은 두 가지 특징을 모두 포함한다. 모수 모델은 "기본 분포를 특징짓는 하나 이상의 모집단 모수에 대해 특정 가정을 한다".[3] 비모수 모델은 "일반적으로 [모수모형보다] 구조와 분포 형태에 대한 가정은 적게 포함하지만, 일반적으로 독립성에 대한 강한 가정을 포함하고 있다."[4]

적용들

업리프트 모델링

업리프트 모델링은 작용에 의한 확률의 변화를 모델링하는 기법이다. 전형적으로 이것은 제품을 구입하거나, 제품을 더 많이 사용하거나, 계약을 재계약하는 것과 같은 마케팅 활동이다. 예를 들어, 보존 캠페인에서 당신은 고객이 연락을 받았을 때 고객이 계속 고객으로 남아 있을 확률의 변화를 예측하고자 한다. 확률변화의 모델은 확률변화가 유익할 고객들을 대상으로 보존 캠페인을 할 수 있도록 한다. 이것은 보존 프로그램이 불필요한 혼란이나 고객 감소를 유발하는 것을 피할 수 있게 해주며, 어떤 식으로든 행동할 사람들과 접촉하는 데 돈을 낭비하지 않는다.

고고학

고고학의 예측 모델링은 페루의 비루 계곡에 있는 고든 윌리의 중간 단계의 연구로부터 그 기초를 얻는다.[5] 완전하고 집중적인 조사가 수행된 후 문화유적과 비탈과 식생과 같은 자연적 특징 사이의 공변성이 결정되었다. 정량적 방법의 개발과 적용 가능한 데이터의 더 큰 가용성은 1960년대와 1980년대 후반에 걸쳐 전세계 주요 토지 관리자에 의해 상당한 발전을 이루었다.

일반적으로 고고학에서 예측 모델링은 토양 유형, 고도, 경사, 식생, 물과의 근접성, 지질학, 지형학 등의 자연 대리점과 고고학적 특징의 존재와 같은 자연 대리점 사이에 통계적으로 타당한 인과관계나 공변적 관계를 확립하고 있다. 고고학적 조사를 거친 토지에서 이러한 수량화 가능한 속성의 분석을 통해, 때로는 해당 지역의 자연 대리점에 근거하여 비평가 지역의 "유산학적 민감성"을 기대할 수 있다. 미국 토지관리국(BLM), 국방부(DOD),[6][7] 수많은 고속도로 및 공원 관리 기관 등 미국의 대형 토지 관리자들이 이 전략을 성공적으로 채택했다. 문화자원관리계획에서 예측모델링을 활용함으로써 지반 교란을 요할 가능성이 있는 활동을 계획할 때 보다 정보에 입각한 의사결정을 내릴 수 있게 된다.

고객관계관리

예측 모델링은 분석 고객 관계 관리데이터 마이닝에 광범위하게 사용되어 고객이 특정 행동을 취할 가능성을 설명하는 고객 수준 모델을 생산한다. 일반적으로 영업, 마케팅 및 고객 유지와 관련된 활동이 그것이다.

예를 들어, 이동통신 사업자와 같은 대규모 소비자 단체는 제품 교차 판매, 제품 딥셀링(또는 상향 판매) 및 회항 예측 모델을 보유하게 된다. 그런 조직이 업리프트 모델을 이용한 야만성의 모델을 갖는 것도 이제는 더 일반적이다. 이는 표준 교란 예측 모델과 반대로 계약 기간이 끝날 때 고객이 절약될 수 있는 가능성(교란 확률의 변화)을 예측한다.

자동차보험

예측 모델링은 보험 가입자가 획득한 정보로부터 보험 가입자에게 사고 위험을 할당하기 위해 차량 보험에 활용된다. 이는 예측 모델이 원격측정 기반 데이터를 활용하여 보험금 청구 가능성에 대한 예측 위험 모델을 구축하는 사용량 기반 보험 솔루션에서 광범위하게 사용된다.[citation needed] 블랙박스 자동보험 예측 모델은 GPS 또는 가속도계 센서 입력만 사용한다.[citation needed] 일부 모델에는 개선된 위험 모델을 제공하기 위해 첨단 운전 행동, 독립적 충돌 기록, 도로 이력 및 사용자 프로필을 포함한 기본적인 원격 측정 이상의 광범위한 예측 입력이 포함된다.[citation needed]

헬스케어

2009년 파크랜드 헬스 앤 병원 시스템은 재입원 위험이 높은 환자를 식별하는 데 도움이 되는 예측 모델링을 사용하기 위해 전자 의료 기록 분석을 시작했다. 당초 이 병원은 울혈성 심부전 환자에 초점을 맞췄지만 당뇨병, 급성 심근경색, 폐렴 등으로 프로그램이 확대됐다.[8]

바네르지 외 연구진은 2018년 전자 진료기록의 자유 텍스트 임상노트를 분석하여 환자의 단기수명(>3개월)을 추정하기 위한 딥러닝 모델인 전이암 환자의 생존에 대한 확률론적 예측(PPES-Met)을 제안하고, 시간적 방문순서는 유지했다.[9] 모델은 대규모 데이터 세트(10,293명 환자)에서 교육되었으며, 분리된 데이터 세트(1818명 환자)에서 검증되었다. 0.89의 ROC(수신기 작동 특성) 곡선 아래 영역을 달성했다. 설명 능력을 제공하기 위해, 그들은 모델의 예측에 대한 기초에 대한 의사의 이해를 향상시킬 수 있는 대화형 그래픽 도구를 개발했다. PPES-Met 모델의 높은 정확도와 설명 가능성으로 인해 모델을 전이성 암 치료를 개인화하고 의사에게 귀중한 도움을 제공하는 의사결정 지원 도구로 사용할 수 있다.

알고리즘 트레이딩

거래에서 예측 모델링은 일련의 예측 변수를 사용하여 결과의 확률을 예측하는 모델링 과정이다. 예측 모델은 주식, 선물, 통화, 상품 등과 같은 다른 자산에 대해 구축될 수 있다.[citation needed] 예측 모델링은 여전히 무역 회사들이 전략과 무역을 고안하기 위해 광범위하게 사용되고 있다. 그것은 수학적으로 진보된 소프트웨어를 이용하여 가격, 부피, 공개 이익 및 기타 과거 데이터에 대한 지표를 평가하여 반복 가능한 패턴을 발견한다.[10]

리드 추적 시스템

예측 모델링은 각 잠재적 캠페인에 대한 데이터 중심 결과를 예측함으로써 리드 생성자에게 유리한 출발을 제공한다. 이 방법은 시간을 절약하고 잠재된 사각지대를 노출시켜 고객이 현명한 결정을 내리도록 돕는다.[11]

예측 모델링의 현저한 실패

주류 예측 모델링 커뮤니티에서 광범위하게 논의되지는 않았지만, 예측 모델링은 과거 금융 산업에서 널리 사용되어 온 방법론이며, 2007~2008년 금융위기의 원인이 된 주요 실패 사례도 있다. 이러한 실패는 본질적으로 자연에서 뒤돌아보는 모델에 전적으로 의존하는 위험을 예시한다. 다음의 예는 결코 완전한 목록이 아니다.

1) 채권등급. S&P, 무디스, 피치는 등급이라고 하는 이산형 변수로 채권의 디폴트 확률을 정량화한다. 등급은 AAA에서 D까지의 이산형 값을 가질 수 있다. 등급은 차입자 및 역사적 거시경제 자료와 관련된 다양한 변수에 기초한 채무불이행 위험을 예측하는 것이다. 신용평가회사들은 6,000억 달러의 담보대출에 대한 신용등급으로 인해 실패했다. CDO 시장의 거의 전체 AAA 부문(그리고 새로운 등급인 슈퍼 AAA 부문)은 2008년 동안 디폴트되거나 심하게 강등되었으며, 이들 중 다수는 불과 1년도 채 되지 않아 그들의 등급을 획득했다.[citation needed]

2) 현재까지 역사적 자료에 근거하여 주식시장가격을 예측하려는 통계적 모델은 장기적으로 지속적으로 정확한 예측을 하는 것으로 간주되지 않는다. 특히 기억에 남는 실패는 노벨경제과학상 수상자를 포함한 뛰어난 자격을 갖춘 분석가들을 고용하여 서로 다른 유가증권들 간의 가격 확산을 예측하는 정교한 통계 모델을 개발한 기금인 장기자본운용의 실패다. 이 모델들은 앨런 그린스펀 당시 연방준비제도이사회 의장이 채권시장의 붕괴를 막기 위해 월가 중개상들의 구제안을 중개하기 위해 개입할 때까지 인상적인 수익을 창출했다.[citation needed]

데이터 적합에 기반한 예측 모델의 가능한 근본적 한계

1) 역사는 항상 미래를 정확하게 예측할 수 없다. 미래를 예측하기 위해 역사적 데이터에서 파생된 관계를 사용하면 복잡한 시스템에 특정한 지속적 조건이나 상수가 있다는 것을 암묵적으로 가정한다. 이것은 거의 항상 시스템이 사람들을 연루시킬 때 부정확한 것으로 이어진다.[citation needed]

2) 미지의 문제 모든 데이터 수집에서 수집기는 먼저 데이터가 수집되는 변수 집합을 정의한다. 단, 수집가가 변수의 선택을 아무리 폭넓게 고려하더라도, 아직 고려되지 않았거나 정의되지도 않은 새로운 변수의 가능성은 항상 존재하지만, 결과에 결정적인 영향을 미친다.[citation needed]

3) 알고리즘의 대립적 패배 알고리즘이 허용되는 측정 표준이 된 후에는 알고리즘을 이해하고 결과를 속이거나 조작할 동기를 부여받은 사람들이 이를 이용할 수 있다. 위에서 설명한 CDO 등급은 이렇게 되었다. CDO 딜러들은 평가 기관의 "고급" 모델에 "알 수 없는" 변수를 교묘하게 조작함으로써, 자신들이 발행하고 있는 CDO에 AAA 또는 슈퍼 AAA에 도달하기 위한 평가 기관의 의견을 적극적으로 이행했다.[citation needed]

참고 항목

참조

  1. ^ Geisser, Seymour (1993). Predictive Inference: An Introduction. Chapman & Hall. p. [page needed]. ISBN 978-0-412-03471-8.
  2. ^ Finlay, Steven (2014). Predictive Analytics, Data Mining and Big Data. Myths, Misconceptions and Methods (1st ed.). Palgrave Macmillan. p. 237. ISBN 978-1137379276.
  3. ^ Sheskin, David J. (April 27, 2011). Handbook of Parametric and Nonparametric Statistical Procedures. CRC Press. p. 109. ISBN 978-1439858011.
  4. ^ Cox, D. R. (2006). Principles of Statistical Inference. Cambridge University Press. p. 2.
  5. ^ 윌리, 고든 R. (1953) "페루 비루 계곡의 역사적 정착 패턴" 155번지 미국 민족학국
  6. ^ 하이델베르크, 커트 등 2002년 SRI 기술보고서 02-16, "네바다 시험훈련장 고고학적 표본조사 프로그램 평가"
  7. ^ 제프리 H. 알츠철, 린 세바스찬, 커트 하이델버그, "군내 예측 모델링: 유사한 목표, 다양한 경로", SRI 재단, 보존 연구 시리즈 1, 2004
  8. ^ "Hospital Uses Data Analytics and Predictive Modeling To Identify and Allocate Scarce Resources to High-Risk Patients, Leading to Fewer Readmissions". Agency for Healthcare Research and Quality. 2014-01-29. Retrieved 2019-03-19.
  9. ^ Banerjee, Imon; et al. (2018-07-03). "Probabilistic Prognostic Estimates of Survival in Metastatic Cancer Patients (PPES-Met) Utilizing Free-Text Clinical Narratives". Scientific Reports. 8 (10037 (2018)): 10037. Bibcode:2018NatSR...810037B. doi:10.1038/s41598-018-27946-5. PMC 6030075. PMID 29968730.
  10. ^ "Predictive-Model Based Trading Systems, Part 1 - System Trader Success". System Trader Success. 2013-07-22. Retrieved 2016-11-25.
  11. ^ "Predictive Modeling for Call Tracking". Phonexa. 2019-08-22. Retrieved 2021-02-25.

추가 읽기