이항구분

Binary classification

이진 분류란 분류 규칙에 근거하여 집합의 요소를 두 그룹으로 분류하는 작업이다. 대표적인 이항분류 문제에는 다음이 포함된다.

  • 환자의 특정 질환 여부를 결정하기 위한 의료 검사
  • 업계 품질 관리, 규격 충족 여부 결정
  • 정보 검색에서, 페이지가 검색 결과 집합에 있어야 하는지 여부를 결정한다.

이항분류는 실제 상황에 적용되는 이분법이다. 많은 실제적인 이항분류 문제에서 두 그룹은 대칭적이지 않으며, 전체적인 정확성보다는 서로 다른 유형의 오류의 상대적 비율이 관심 대상이다. 예를 들어 의료검사에서 질병이 없을 때(허위 양성) 검출은 질병이 있을 때 발견하지 않는 것(허위 음성)과 다르게 간주된다.

통계이항구분

통계 분류기계학습에서 연구된 문제다. 그것은 범주가 미리 정의된 기계학습의 한 방법인 감독학습의 일종으로, 새로운 확률론적 관찰을 해당 범주로 분류하는 데 사용된다. 두 범주만 있는 경우, 문제를 통계적 이항분류라고 한다.

이항 분류를 위해 일반적으로 사용되는 몇 가지 방법은 다음과 같다.

각 분류자는 관측치의 수, 형상 벡터의 치수성, 데이터의 잡음 및 기타 많은 요인에 기초하여 선택된 영역에서만 최선이 된다. 예를 들어, 무작위 포리스트는 3D 점 구름에 대한 SVM 분류자보다 더 우수한 성능을 발휘한다.[1][2]

이항 분류자 평가

이 테스트된 예에서, 분할자의 왼쪽 예에는 테스트되는 조건이 있다. 오른쪽 절반은 테스트되지 않는다. 타원은 테스트 알고리즘이 조건을 갖는 것으로 분류되는 인스턴스들을 제한한다. 녹색 영역은 테스트 알고리즘이 올바르게 분류한 인스턴스를 강조 표시한다. 라벨은 다음을 참조한다.
TP=true positive, TN=true positive, FP=false positive, FP=false positive, FN=false negative, TPR=false quitive rate를 결정하는 인스턴스 집합, FPR=false positive 예측값, NPV=negative 예측값.

분류자 또는 예측 변수의 성능을 측정하는 데 사용할 수 있는 많은 측정기준이 있다. 각 분야마다 다른 목표 때문에 특정 측정기준에 대한 선호도가 다르다. 의약품에서는 민감도와 특수성이 자주 사용되는 반면, 정보 검색 정밀도회수 시 선호된다. 중요한 구별은 모집단에서 각 범주가 얼마나 자주 발생하는지와 독립적인 지표(유병률)와 유병률에 따라 달라지는 지표 사이의 차이인데, 두 유형 모두 유용하지만, 성질은 매우 다르다.

특정 데이터 세트의 분류에 따라 실제 데이터 범주와 할당된 범주의 기본 조합은 참 긍정 TP(정확한 양의 할당), 참 부정 TN(정확한 음의 할당), 거짓 긍정 FP(정확한 양의 할당), 거짓 부정 FN(정확한 부정 할당)이다.

맡겨진
실제
테스트 결과 양수 테스트 결과 음수
조건양수 참긍정서 거짓 음성
조건부 음수 거짓양성 트루 네거티브

이를 2 분할표로 배열할 수 있으며, 실제 값(조건 양수 또는 조건 음수)에 해당하는 열과 분류 값에 해당하는 행(시험 결과 양수 또는 시험 결과 음수)에 해당하는 행이 있다.

8가지 기본 비율

이 표에서 계산할 수 있는 8가지 기본 비율이 있는데, 이 비율은 4개의 상호 보완적인 쌍(각 쌍을 합쳐서 1개)으로 나온다. 이들은 4개의 숫자를 각각 행 또는 열의 합으로 나누어 8개의 숫자를 산출하는데, 이는 일반적으로 "진정한 양의 행 비율" 또는 "거짓의 음의 열 비율" 형식으로 언급할 수 있다.

따라서 두 쌍의 열 비율과 두 쌍의 행 비율이 있으며, 각 쌍에서 하나의 비율을 선택하여 네 개의 숫자로 요약할 수 있으며, 나머지 네 개의 숫자는 보완이다.

열 비율은 다음과 같다.

행 비율은 다음과 같다.

진단 테스트에서 사용되는 주요 비율은 감도와 특수성으로 알려진 실제 열 비율(참 양수 및 참 음수 비율)이다. 정보 검색에서 주요 비율은 실제 양의 비율(행과 열) - 양의 예측 값과 실제 양의 비율 - 정밀도회수라고 알려져 있다.

4개의 우도비(비율의 2열비, 비율의 2열비)를 산출하여 보완적인 비율 쌍의 비율을 취할 수 있다. 이는 주로 열(조건) 비율에 대해 수행되며, 진단 테스트에서 우도비를 산출한다. 이러한 비율 그룹 중 하나의 비율을 취하면 최종 비율인 진단 오즈비(DOR)가 산출된다. 이는 (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN)로 직접 정의될 수도 있으며, 유용한 해석 - 승산비-로서 유병률에 의존하지 않는다.

정확성 또는 정확하게 분류된 모든 인스턴스의 분율을 측정하는 Fraction Correct(FC)와 같은 많은 다른 지표들이 있다. 그 보완점은 FiC이다. F-점수는 균형 F-점수(F1점수)로 가장 단순하게 동일한 가중치 선택을 통해 정밀도와 리콜을 하나의 숫자로 결합한다. 일부 메트릭은 회귀 계수에서 나온다. 즉, 표시성과 정보성, 그리고 그 기하학적 평균인 Matthews 상관 계수. 다른 지표로는 유덴의 J 통계량, 불확실성 계수, phi 계수, 코헨의 카파 이 있다.

연속형 값을 이진수로 변환하는 중

대부분의 혈액 값과 같이 연속적인 값의 결과가 있는 테스트는 컷오프 값을 정의하여 인위적으로 2진법으로 만들 수 있으며, 결과 값이 컷오프보다 높거나 낮은지 여부에 따라 테스트 결과가 양수 또는 음수로 지정된다.

그러나 그러한 변환은 결과적으로 이항 분류를 통해 컷오프 값보다 얼마나 위 또는 아래에 있는지 알 수 없기 때문에 정보 손실을 야기한다. 그 결과 컷오프에 가까운 연속 값을 이진수로 변환할 때 결과적인 의 예측 값이나 음의 예측 값은 일반적으로 연속 값에서 직접 주어진 예측 값보다 높다. 그러한 경우, 양수 또는 음수 중 한 가지에 대한 시험의 지정은 부적절하게 높은 확실성의 외관을 제공하는 반면, 그 값은 사실 불확실성의 간격에 있다. 예를 들어, hCg의 소변 농도를 연속값으로 하여, hCg의 52 mIU/ml를 측정한 소변 임신 테스트는 컷오프로 50 mIU/ml로 "양성"으로 나타날 수 있으나, 사실 불확실성의 간격에 있는 것으로서 원래의 연속값을 알고 있어야만 알 수 있다. 반면에 컷오프에서 매우 멀리 떨어진 테스트 결과는 일반적으로 연속값에서 주어진 예측 값보다 낮은 양의 예측 값 또는 음의 예측 값을 가진다. 예를 들어 소변 hCG 값 20만 mIU/ml는 임신 확률이 매우 높지만, 2진수 값으로 변환하면 52 mIU/ml의 값과 마찬가지로 "양성"을 보인다는 결과가 된다.

참고 항목

참조

  1. ^ Zhang & Zakhor, Richard & Avideh (2014). "Automatic Identification of Window Regions on Indoor Point Clouds Using LiDAR and Cameras". VIP Lab Publications. CiteSeerX 10.1.1.649.303.
  2. ^ Y. Lu and C. Rasmussen (2012). "Simplified markov random fields for efficient semantic labeling of 3D point clouds" (PDF). IROS.

참고 문헌 목록