양수 및 음수 예측 값

Positive and negative predictive values
양수 및 음수 예측 값
양수 및 음수 예측 값 - 2

양수 음수 예측 값(각각 PPVNPV)은 각각 참 양수 및 참수 음수 결과인 통계진단 테스트에서 양수 및 음수 결과의 비율이다.[1] PPV와 NPV는 진단 테스트 또는 기타 통계적 측정의 성능을 설명한다. 높은 결과는 그러한 통계의 정확성을 나타내는 것으로 해석할 수 있다. PPV와 NPV는 (진정한 양성률실제 음성 비율이 그렇듯이) 시험의 본질적인 것이 아니며, 또한 유병률에 의존한다.[2] PPV와 NPV 모두 베이지스의 정리를 이용하여 도출할 수 있다.

때때로 동의어로 사용되기는 하지만, 양성 예측 값은 일반적으로 대조군 그룹에 의해 확립된 것을 가리키는 반면, 시험확률은 개인의 확률을 가리킨다. 그럼에도 불구하고 목표조건에 대한 개인의 사전시험확률이 양성 예측값을 확립하는 데 사용되는 대조군 유병률과 동일하다면 두 가지는 수치적으로 동일하다.

정보 검색에서 PPV 통계량을 정밀도라고 하는 경우가 많다.

정의

양의 예측 값(PPV)

정밀도라고도 하는 양의 예측 값(PPV)은 다음과 같이 정의된다.

여기서 "진정한 양성"은 검사가 긍정적인 예측을 하고, 피험자는 금본위 아래 긍정적인 결과를 가지고 있는 사건이며, "거짓 양성"은 검사가 긍정적인 예측을 하고, 피험자는 금본위 아래 부정적인 결과를 가지고 있는 사건이다. PPV의 이상적인 값은 1(100%)이며, 가장 나쁜 값은 0이 될 것이다.

환자-대조군 연구의 경우 PPV는 민감도, 특수성유병률 포함으로 계산해야 한다.

cf. 베이즈 정리

PPV의 보완점은 FDR(False Discovery Rate)이다.

음의 예측 값(NPV)

음의 예측 값은 다음과 같이 정의된다.

여기서 "진정한 음성"은 검사가 음의 예측을 하는 사건이고, "거짓 음성"은 검정이 음의 예측을 하는 사건이고, "거짓 음성"은 검정이 음의 예측을 하는 사건이며, 대상자는 금의 표준에 따른 양성 결과를 갖는 사건이다. 거짓 부정을 반환하지 않는 완벽한 시험의 경우 NPV 값은 1(100%)이고 참 부정을 반환하지 않는 시험의 경우 NPV 값은 0이다.

NPV는 민감도, 특수성유병률로도 계산할 수 있다.

NPV의 보완점은 거짓 누락 비율(FOR):

때때로 동의어로 사용되기는 하지만, 음의 예측 값은 일반적으로 대조군 그룹에 의해 확립된 것을 가리키는 반면, 음의 시험 후 확률은 오히려 개인의 확률을 가리킨다. 그러나 목표조건에 대한 개인의 사전시험확률이 음의 예측값을 확립하는 데 사용되는 대조군 유병률과 동일하다면, 두 가지는 수치적으로 동일하다.

관계

다음 도표는 양의 예측 값, 음의 예측 값, 민감도 특수성이 어떻게 관련되어 있는지를 보여준다.

예측조건 출처: [3][4][5][6][7][8][9][10]
총인구
= P + N
양수(PP) 음수(PN) 정보 제공, BM(Bookmaker Information)
= TPR + TNR − 1
유병 임계값(PT)
= TPR × FPR − FPR/TPR − FPR
실조건
양수(P) 양성(TP),
때리다
거짓 음성(FN),
II형 오류입니다, 아가씨
과소평가
참 양수율(TPR), 리콜, 민감도(SEN), 탐지 확률, 적중률, 검정력
= TP/P= 1 − FNR
거짓 음률(FNR),
요금을 잘못 매기다
= FN/P= 1 − TPR
음수(N) 거짓 양성(FP),
I형 오류, 잘못된 경보,
과대평가
True Negative(TN),
거절을 바로잡다
거짓 양성률(FPR),
거짓 경보, 낙오 확률
= FP/N= 1 − TNR
참 음률(TNR),
특수성(SPC), 선택성
= TN/N= 1 − FPR
유병률
= P/P + N
양의 예측 값(PPV), 정밀한
= TP/PP = 1 − FDR
거짓누락률(FOR)
= FN/PN= 1 − NPV
양의 우도비(LR+)
= TPR/FPR
음우도비(LR-)
= FNR/TNR
정확도(ACC) = TP + TN/P + N FDR(False Discovery Rate)
= FP/PP= 1 − PPV
음의 예측 값(NPV) = TN/PN = 1 - FOR 마크니스(MK), 델타P(Δp)
= PPV + NPV − 1
진단 오즈비(DOR) = LR+/LR-
균형적 정확도(BA) = TPR + TNR/2 F1 점수
= 2 PPV × TPR/PPV + TPR = 2 TP/2 TP + FP + FN
팔크스-말라우스 지수(FM) = PPV×TPR MCC(Matthews 상관 계수)
= TPR×TNR×PPV×NPVFNR×FPR×FOR×FDR
위협 점수(TS), 중요 성공 지수(CSI), 자카드 지수 = TP/TP + FN + FP

양수와 음의 예측 값은 단면 연구 또는 유효한 유병률 추정치를 얻을 수 있는 다른 모집단 기반 연구의 데이터를 사용해서만 추정할 수 있다는 점에 유의한다. 대조적으로, 민감도와 특수성은 환자-대조군 연구를 통해 추정할 수 있다.

작업 예제

2030년에 대장암을 찾기 위해 분변 오컬트혈액(FOB) 스크린 테스트를 사용한다고 가정합시다.

대변 오컬트 혈액검출 검사 결과
총인구
(팝). = 2030
테스트 결과 양수 테스트 결과 음수 정확도(ACC)
= (TP + TN) / pop.
= (20 + 1820) / 2030
90.64%
F1 점수
= 2 × 정밀도 × 회수/수집 + 회수
0.174
의 환자
대장암
(확정된 바와 같이)
내시경 검사로)
실제
조건
양성의
참 양성(TP)
= 20
(2030 × 1.48% × 67%)
거짓 음성(FN)
= 10
(2030 × 1.48% × (100% − 67%))
참 양성률(TPR), 리콜, 민감도
= TP / (TP + FN)
= 20 / (20 + 10)
66.7%
잘못된 음수(FNR), 미스 레이트
= FN / (TP + FN)
= 10 / (20 + 10)
33.3%
실제
조건
부정의
거짓 양성(FP)
= 180
(2030 × (100% − 1.48%) × (100% − 91%))
True Negative(TN)
= 1820
(2030 × (100% − 1.48%) × 91%)
FPR(False Positive Rate), FPR(false-out), False-out(false-
= FP / (FP + TN)
= 180 / (180 + 1820)
= 9.0%
특수성, 선택성, 참 음률(TNR)
= TN / (FP + TN)
= 1820 / (180 + 1820)
= 91%
유병률
= (TP + FN) / pop.
= (20 + 10) / 2030
1.48%
양의 예측 값(PPV), 정밀도
= TP / (TP + FP)
= 20 / (20 + 180)
= 10%
거짓누락률(FOR)
= FN / (FN + TN)
= 10 / (10 + 1820)
0.55%
양의 우도비 (LR+)
= TPR/FPR
= (20 / 30) / (180 / 2000)
7.41
음우도비 (LR−)
= FNR/TNR
= (10 / 30) / (1820 / 2000)
0.366
FDR(False Discovery Rate)
= FP / (TP + FP)
= 180 / (20 + 180)
= 90.0%
음의 예측 값(NPV)
= TN / (FN + TN)
= 1820 / (10 + 1820)
99.45%
진단 오즈비(DOR)
= LR+/LR−
20.2

작은 양의 예측 값(PPV = 10%)은 이 시험 절차에서 나온 많은 양의 결과가 거짓 양성임을 나타낸다. 따라서 암이 존재하는지 여부에 대한 보다 정확한 평가를 얻기 위해서는 보다 신뢰할 수 있는 검사로 양성 결과를 추적할 필요가 있을 것이다. 그럼에도 불구하고, 그러한 시험은 저렴하고 편리하다면 유용할 수 있다. FOB 화면 테스트의 강도는 오히려 음의 예측 값에 있다. 즉, 개인에 대해 음의 경우 음의 결과가 사실이라는 높은 신뢰도를 제공한다.

문제

기타 개별 요인

PPV는 검정의 본질적인 것이 아니며, 또한 유병률에 따라 달라진다.[2] 예측 값에 대한 유병률의 영향이 크기 때문에 PPV를 50% [11]유병률로 정규화하는 표준화된 접근법이 제안되었다. PPV는 질병이나 질환의 유병률에 정비례한다[dubious ]. 위의 예에서, 검사된 사람들의 집단이 대장암에 걸린 사람들의 더 높은 비율을 포함했다면, PPV는 더 높게 나오고 NPV는 더 낮아질 것이다. 만약 모든 그룹이 대장암에 걸렸다면, PPV는 100%, NPV는 0%가 될 것이다.

이 문제를 극복하기 위해 NPV와 PPV는 NPV와 PPV를 확립하는 데 사용되는 질병군 내 환자 수와 건강관리군 내 환자 수의 비율이 연구 대상 모집단의 질병 유병률과 동일하거나, 두 가지 질병군과의 비율을 비교할 경우에만 사용해야 한다.질병 그룹 1의 환자의 mber와 질병 그룹 2의 환자 수는 연구된 두 질병의 만병률과 같다. 그렇지 않으면 우도비는 유병률에 따라 달라지지 않기 때문에 양의 우도비와 음의 우도비가 NPV 및 PPV보다 더 정확하다.

시험 대상 개인이 PPV와 NPV를 확립하는 데 사용된 대조군 그룹과는 다른 조건의 사전 시험 확률을 갖는 경우, PPV와 NPV는 일반적으로 양성 및 음성 시험 후 확률과 구별된다. PPV와 NPV는 대조군에 의해 설정된 확률과 시험 후 프로브에 언급된다.(예: 우도 비율에 의한 추정치) 시험한 개인을 위한 능력. 이러한 경우에 시험 사용을 위한 별도의 양의 예측 값과 음의 예측 값을 설정하기 위해 등가 개인으로 구성된 대규모 그룹을 연구해야 한다.

베이시안 업데이트

베이즈의 정리는 질병 유병 또는 사전 검사 확률의 함수로서 선별 검사의 정확성에 내재된 한계를 제한한다. 양성 선별 검사의 신뢰성이 급격히 떨어지는 유병 임계값으로 잘 정의된 특정 지점까지 유의한 유병률 하락을 허용할 수 있는 것으로 나타났다. 그렇기는 하지만,[12] 발라일라 등은 순차적 시험이 앞서 언급한 베이시안 한계를 극복하여 선별 시험의 신뢰성을 향상시킨다는 것을 보여주었다. k에 접근하는 원하는 양의 예측 값에 대해 n에i 필요한 양의 시험 반복 횟수는 다음과 같다.

여기서 ni = ρ, 원하는 양의 예측 값, a = 민감도, b = 특이도, φ = 질병 유병률, k = 상수. 특히 위 방정식의 분모는 양의 우도비(+LR)의 자연 로그다.

다른 목표 조건

PPV는 양성 검사의 경우 환자가 실제로 특정 질환을 가지고 있을 확률을 나타내기 위해 사용된다. 그러나 질병의 원인은 둘 이상일 수 있고, 잠재적인 원인 하나만으로 환자에게서 볼 수 있는 명백한 질병은 아닐 수 있다. PPV 또는 NPV 값이 실제로 해당 질병의 소인만을 지칭하는 경우, 테스트의 PPV 또는 NPV를 질병으로 해석하는 것과 같이 PPV와 NPV의 관련 목표 조건을 혼합할 가능성이 있다.

목이 아픈 환자에게 쓰이는 미생물학적 목 면봉이 그 예다. 보통 목 면봉의 PPV를 명시한 간행물은 발견되는 박테리아로 인해 환자가 병이 났다는 것이 아니라 목 안에 이 박테리아가 존재할 가능성에 대해 보도하고 있다. 만약 이 박테리아의 존재가 항상 목의 통증을 유발한다면, PPV는 매우 유용할 것이다. 그러나 그 박테리아는 무해한 방법으로 개인들을 식민지화 시킬 수 있고 결코 감염이나 질병을 일으키지 않을 것이다. 이 개인들에게서 발생하는 인후염은 바이러스 같은 다른 요인에 의해 발생한다. 이러한 상황에서 평가 연구에 사용된 금본위제는 박테리아의 존재(무해할 수 있음)만 나타내며 인과성 세균성 인후염 질환은 아니다. 이 문제가 부정적인 예측 가치보다 훨씬 더 긍정적인 예측 가치에 영향을 미칠 것이라는 것을 증명할 수 있다.[13] 금본위제가 질병의 잠재적 원인만을 조사하는 진단 시험을 평가하기 위해, Etiological Predic Value라고 불리는 예측 값의 확장을 사용할 수 있다.[14][15]

참고 항목

참조

  1. ^ Fletcher, Robert H. Fletcher ; Suzanne W. (2005). Clinical epidemiology : the essentials (4th ed.). Baltimore, Md.: Lippincott Williams & Wilkins. pp. 45. ISBN 0-7817-5215-9.
  2. ^ a b Altman, DG; Bland, JM (1994). "Diagnostic tests 2: Predictive values". BMJ. 309 (6947): 102. doi:10.1136/bmj.309.6947.102. PMC 2540558. PMID 8038641.
  3. ^ Fawcett, Tom (2006). "An Introduction to ROC Analysis" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010.
  4. ^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512.
  5. ^ Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63.
  6. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  7. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Retrieved 2019-07-17.
  8. ^ Chicco D, Jurman G (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
  9. ^ Chicco D, Toetsch N, Jurman G (February 2021). "The Matthews correlation coefficient (MCC) is more reliable than balanced accuracy, bookmaker informedness, and markedness in two-class confusion matrix evaluation". BioData Mining. 14 (13): 1-22. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
  10. ^ Tharwat A. (August 2018). "Classification assessment methods". Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003.
  11. ^ Heston, Thomas F. (2011). "Standardizing predictive values in diagnostic imaging research". Journal of Magnetic Resonance Imaging. 33 (2): 505, author reply 506–7. doi:10.1002/jmri.22466. PMID 21274995.
  12. ^ 자크 발라일라 베이시안 업데이트 및 순차 테스트: 선별 테스트의 기본 한계 극복. 아르시브 2020. https://arxiv.org/abs/2006.11641.
  13. ^ Orda, Ulrich; Gunnarsson, Ronny K; Orda, Sabine; Fitzgerald, Mark; Rofe, Geoffry; Dargan, Anna (2016). "Etiologic predictive value of a rapid immunoassay for the detection of group A Streptococcus antigen from throat swabs in patients presenting with a sore throat" (PDF). International Journal of Infectious Diseases. 45 (April): 32–5. doi:10.1016/j.ijid.2016.02.002. PMID 26873279.
  14. ^ Gunnarsson, Ronny K.; Lanke, Jan (2002). "The predictive value of microbiologic diagnostic tests if asymptomatic carriers are present". Statistics in Medicine. 21 (12): 1773–85. doi:10.1002/sim.1119. PMID 12111911.
  15. ^ Gunnarsson, Ronny K. "EPV Calculator". Science Network TV.