이항구분
Binary classification이 글은 검증을 위해 인용구가 추가로 필요하다. – · · 책 · · (2011년 5월) (이 템플릿 |
이진 분류란 분류 규칙에 근거하여 집합의 요소를 두 그룹으로 분류하는 작업이다. 대표적인 이항분류 문제에는 다음이 포함된다.
이항분류는 실제 상황에 적용되는 이분법이다. 많은 실제적인 이항분류 문제에서 두 그룹은 대칭적이지 않으며, 전체적인 정확성보다는 서로 다른 유형의 오류의 상대적 비율이 관심 대상이다. 예를 들어 의료검사에서 질병이 없을 때(허위 양성) 검출은 질병이 있을 때 발견하지 않는 것(허위 음성)과 다르게 간주된다.
통계이항구분
통계 분류는 기계학습에서 연구된 문제다. 그것은 범주가 미리 정의된 기계학습의 한 방법인 감독학습의 일종으로, 새로운 확률론적 관찰을 해당 범주로 분류하는 데 사용된다. 두 범주만 있는 경우, 문제를 통계적 이항분류라고 한다.
이항 분류를 위해 일반적으로 사용되는 몇 가지 방법은 다음과 같다.
각 분류자는 관측치의 수, 형상 벡터의 치수성, 데이터의 잡음 및 기타 많은 요인에 기초하여 선택된 영역에서만 최선이 된다. 예를 들어, 무작위 포리스트는 3D 점 구름에 대한 SVM 분류자보다 더 우수한 성능을 발휘한다.[1][2]
이항 분류자 평가

TP=true positive, TN=true positive, FP=false positive, FP=false positive, FN=false negative, TPR=false quitive rate를 결정하는 인스턴스 집합, FPR=false positive 예측값, NPV=negative 예측값.
분류자 또는 예측 변수의 성능을 측정하는 데 사용할 수 있는 많은 측정기준이 있다. 각 분야마다 다른 목표 때문에 특정 측정기준에 대한 선호도가 다르다. 의약품에서는 민감도와 특수성이 자주 사용되는 반면, 정보 검색 정밀도 및 회수 시 선호된다. 중요한 구별은 모집단에서 각 범주가 얼마나 자주 발생하는지와 독립적인 지표(유병률)와 유병률에 따라 달라지는 지표 사이의 차이인데, 두 유형 모두 유용하지만, 성질은 매우 다르다.
특정 데이터 세트의 분류에 따라 실제 데이터 범주와 할당된 범주의 기본 조합은 참 긍정 TP(정확한 양의 할당), 참 부정 TN(정확한 음의 할당), 거짓 긍정 FP(정확한 양의 할당), 거짓 부정 FN(정확한 부정 할당)이다.
맡겨진 실제 | 테스트 결과 양수 | 테스트 결과 음수 |
---|---|---|
조건양수 | 참긍정서 | 거짓 음성 |
조건부 음수 | 거짓양성 | 트루 네거티브 |
이를 2×2 분할표로 배열할 수 있으며, 실제 값(조건 양수 또는 조건 음수)에 해당하는 열과 분류 값에 해당하는 행(시험 결과 양수 또는 시험 결과 음수)에 해당하는 행이 있다.
8가지 기본 비율
이 표에서 계산할 수 있는 8가지 기본 비율이 있는데, 이 비율은 4개의 상호 보완적인 쌍(각 쌍을 합쳐서 1개)으로 나온다. 이들은 4개의 숫자를 각각 행 또는 열의 합으로 나누어 8개의 숫자를 산출하는데, 이는 일반적으로 "진정한 양의 행 비율" 또는 "거짓의 음의 열 비율" 형식으로 언급할 수 있다.
따라서 두 쌍의 열 비율과 두 쌍의 행 비율이 있으며, 각 쌍에서 하나의 비율을 선택하여 네 개의 숫자로 요약할 수 있으며, 나머지 네 개의 숫자는 보완이다.
열 비율은 다음과 같다.
- 참 양성률(TPR) = (TP/(TP+FN), 즉 민감도 또는 회수. 이는 모집단이 검정 조건이 올바른 비율이다.
- 거짓 음수율(FNR) = (FN/(TP+FN))을 보완하여 사용
- 참 음률(TNR) = (TN/(TN+FP), 특수성(SPC),
- FPR(false positive rate) = (FP/(TN+FP)), 유병률과 무관하게 부르기도 한다.
행 비율은 다음과 같다.
- 양의 예측 값(PPV, 이른바 정밀도)(TP/(TP+FP)). 이는 해당 테스트 결과가 올바른 모집단의 비율이다.
- FDR(False Discovery Rate)을 보완하여(FP/(TP+FP)
- 음의 예측 값(NPV)(TN/(TN+FN))
- FOR(false deleting rate) (FN/(TN+FN)), 또한 유병률에 의존하는 것으로도 불린다.
진단 테스트에서 사용되는 주요 비율은 감도와 특수성으로 알려진 실제 열 비율(참 양수 및 참 음수 비율)이다. 정보 검색에서 주요 비율은 실제 양의 비율(행과 열) - 양의 예측 값과 실제 양의 비율 - 정밀도 및 회수라고 알려져 있다.
4개의 우도비(비율의 2열비, 비율의 2열비)를 산출하여 보완적인 비율 쌍의 비율을 취할 수 있다. 이는 주로 열(조건) 비율에 대해 수행되며, 진단 테스트에서 우도비를 산출한다. 이러한 비율 그룹 중 하나의 비율을 취하면 최종 비율인 진단 오즈비(DOR)가 산출된다. 이는 (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN)로 직접 정의될 수도 있으며, 유용한 해석 - 승산비-로서 유병률에 의존하지 않는다.
정확성 또는 정확하게 분류된 모든 인스턴스의 분율을 측정하는 Fraction Correct(FC)와 같은 많은 다른 지표들이 있다. 그 보완점은 FiC이다. F-점수는 균형 F-점수(F1점수)로 가장 단순하게 동일한 가중치 선택을 통해 정밀도와 리콜을 하나의 숫자로 결합한다. 일부 메트릭은 회귀 계수에서 나온다. 즉, 표시성과 정보성, 그리고 그 기하학적 평균인 Matthews 상관 계수. 다른 지표로는 유덴의 J 통계량, 불확실성 계수, phi 계수, 코헨의 카파 등이 있다.
연속형 값을 이진수로 변환하는 중
대부분의 혈액 값과 같이 연속적인 값의 결과가 있는 테스트는 컷오프 값을 정의하여 인위적으로 2진법으로 만들 수 있으며, 결과 값이 컷오프보다 높거나 낮은지 여부에 따라 테스트 결과가 양수 또는 음수로 지정된다.
그러나 그러한 변환은 결과적으로 이항 분류를 통해 컷오프 값보다 얼마나 위 또는 아래에 있는지 알 수 없기 때문에 정보 손실을 야기한다. 그 결과 컷오프에 가까운 연속 값을 이진수로 변환할 때 결과적인 양의 예측 값이나 음의 예측 값은 일반적으로 연속 값에서 직접 주어진 예측 값보다 높다. 그러한 경우, 양수 또는 음수 중 한 가지에 대한 시험의 지정은 부적절하게 높은 확실성의 외관을 제공하는 반면, 그 값은 사실 불확실성의 간격에 있다. 예를 들어, hCg의 소변 농도를 연속값으로 하여, hCg의 52 mIU/ml를 측정한 소변 임신 테스트는 컷오프로 50 mIU/ml로 "양성"으로 나타날 수 있으나, 사실 불확실성의 간격에 있는 것으로서 원래의 연속값을 알고 있어야만 알 수 있다. 반면에 컷오프에서 매우 멀리 떨어진 테스트 결과는 일반적으로 연속값에서 주어진 예측 값보다 낮은 양의 예측 값 또는 음의 예측 값을 가진다. 예를 들어 소변 hCG 값 20만 mIU/ml는 임신 확률이 매우 높지만, 2진수 값으로 변환하면 52 mIU/ml의 값과 마찬가지로 "양성"을 보인다는 결과가 된다.
참고 항목
- 베이시안 추론의 예
- 분류규칙
- 혼동 행렬
- 검출이론
- 커널 메서드
- 멀티클라스 분류
- 다중 레이블 분류
- 일급구분
- 검사의 오류
- 수신기 작동 특성
- 임계값 설정(이미지 처리)
- 불확도계수, 이른바 숙련도
- 질적 속성
참조
- ^ Zhang & Zakhor, Richard & Avideh (2014). "Automatic Identification of Window Regions on Indoor Point Clouds Using LiDAR and Cameras". VIP Lab Publications. CiteSeerX 10.1.1.649.303.
- ^ Y. Lu and C. Rasmussen (2012). "Simplified markov random fields for efficient semantic labeling of 3D point clouds" (PDF). IROS.
참고 문헌 목록
- Nello Christianini와 John Shawe-Taylor. 벡터 머신 지원 및 기타 커널 기반 학습 방법 소개 캠브리지 대학 출판부, 2000년 ISBN 0-521-78019-5 ([1] SVM Book)
- 존 샤위-테일러와 넬로 크리스티아니니. 패턴 분석을 위한 커널 방법. 케임브리지 대학 출판부, 2004. ISBN 0-521-81397-2 (책의 경우 웹사이트)
- 베른하르트 슐코프와 A. J. 스몰라: 커널스와 함께 배운다. 2002년 MIT 프레스, 매사추세츠 주 캠브리지. ISBN 0-262-19475-9