분류규칙

Classification rule

각 구성원이 서로 다른 여러 집합 또는 계층 중 하나에 속하는 모집단을 고려할 때 분류 규칙 또는 분류자는 모집단 집합의 요소가 각각 하나의 클래스에 속할 것으로 예측되는 절차다.[1]완벽한 분류란 모집단의 모든 요소가 자신이 실제로 속한 클래스에 할당되는 분류다.불완전한 분류는 일부 오류가 나타나는 분류인데, 그 다음에 통계 분석을 적용하여 분류를 분석해야 한다.

분류 규칙의 특별한 종류는 이항 분류인데, 이항 분류는 오직 두 종류만 있는 문제들이다.

분류 규칙 테스트

xy 쌍으로 구성된 데이터 집합에서 x는 모집단의 요소와 y가 속한 클래스를 나타내며, 분류 규칙 hx는 각 요소를 클래스 y ^= ). )에 할당하는 함수다 이항 분류는 라벨 y가 두 값 중 하나만 취할 수 있는 것이다.

truei labels y는 알 수 있지만 그들의 = (x ){\ {i}}=h(x_i}}}}}}=})=이진 분류에서 정확하게 분류되지 않은 원소는 거짓 긍정과 거짓 부정으로 명명된다

일부 분류 규칙은 정적 함수다.다른 것들은 컴퓨터 프로그램이 될 수 있다.컴퓨터 분류기는 정적 분류 규칙을 학습하거나 구현할 수 있다.교육 데이터 세트의 경우, true labels yj 알 수 없지만, 한 한 이 근사치의 품질을 통계에 기초하여 판단해야 하는 경우, 근사 y = h ( ) 절차의 주요 대상이다미래 관측치가 도출될 전체 모집단의 확률적 특성.

분류규칙이 주어진 경우 분류시험은 초기 데이터 집합의 유한한 표본에 규칙을 적용한 결과다.

이항 및 다중글라스 분류

분류는 이항분류다중글라스분류라는 두 가지 별개의 문제로 생각할 수 있다.이항 분류, 보다 잘 이해되는 작업에서는 오직 두 개의 클래스만 포함되는 반면, 다중경 분류는 여러 클래스 중 하나에 개체를 할당하는 것을 포함한다.[2]많은 분류 방법이 특별히 이항 분류를 위해 개발되었기 때문에, 멀티클라스 분류는 다중 이항 분류기의 결합을 필요로 하는 경우가 많다.중요한 점은 많은 실제적인 이항분류 문제에서 두 집단이 대칭적이지 않다는 것이다 – 전체적인 정확성보다는 서로 다른 유형의 오류의 상대적 비율이 관심 대상이다.예를 들어 의료 검사에서 거짓 양성(질환이 없을 때 발견)은 거짓 음성(질환이 있을 때 발견하지 않음)과 다르게 간주된다.다중 글라스 분류에서 등급은 대칭적으로(모든 오차는 등가) 또는 비대칭적으로 간주될 수 있으며, 이는 상당히 복잡하다.

이항 분류 방법에는 프로빗 회귀 분석과 로지스틱 회귀 분석이 포함된다.다중글라스 분류법에는 다항 프로빗다항 로짓이 있다.

혼동 행렬 및 분류자

왼쪽과 오른쪽의 절반은 각각 조건이 있고 없는 경우를 포함한다.타원형에는 양(조건 있음)으로 분류(예측)된 인스턴스가 들어 있다.녹색과 빨간색은 각각 올바르게(참), 잘못(거짓) 분류된 인스턴스를 포함한다.
TP=참의 양수, TN=참의 음수, FP=거짓의 양수(오류), FN=거짓의 음수(타입 II 오류), TPR=참의 양수, FPR=거짓의 양수, PPV=양수 예측값; NPV=음수 예측값.

분류함수가 완벽하지 않으면 잘못된 결과가 나타난다.오른쪽 영상의 예에서.선 왼쪽(진실 쪽)에 20개의 점이 있는 반면, 그 20개 중 8개만이 사실이었다.선의 오른쪽(거짓면)과 유사한 상황에서 오른쪽에는 16개의 점이 있고 그 16개의 점 중 4개는 부정확하게 참으로 표시되었다.도트 위치를 사용하여, 우리는 값을 표현하기 위한 혼동 행렬을 만들 수 있다.우리는 가능한 4가지 다른 결과를 표현하기 위해 4가지 다른 측정 기준을 사용할 수 있다.참 양성(TP), 거짓 양성(FP), 거짓 음성(FN), 참 음성(TN)이 있다.

혼동 행렬의 예
예측된

실제
진실의 거짓의
진실의 8 4
거짓의 12 12

잘못된 긍정

잘못된 긍정은 검사가 거짓으로(잘못된) 양성 결과를 보고할 때 발생한다.예를 들어, 질병에 대한 건강검진은 환자가 병에 걸리지 않았더라도 환자가 병에 걸렸다는 것을 나타내는 양성 결과를 반환할 수 있다.거짓 양성(false positive)은 일반적으로 혼동 행렬에서 우측 상단(조건부 음성 X 시험 결과 양성) 단위로 표시된다.

거짓부정

반면, 거짓 음성 판정은 검사 결과가 거짓이거나 잘못 보고될 때 발생한다.예를 들어, 질병에 대한 건강검진은 환자가 실제로 병에 걸리더라도 병에 걸리지 않았음을 나타내는 음성 결과를 반환할 수 있다.거짓 음성은 혼동 행렬에서 일반적으로 왼쪽 하단(조건 양수 X 시험 결과 음수) 단위로 표시된다.

참 긍정

테스트가 양성 결과를 올바르게 보고할 때 진정한 양성 결과가 나타난다.예를 들어, 질병에 대한 건강검진은 환자가 병에 걸렸다는 것을 나타내는 양성 결과를 반환할 수 있다.이는 환자검사에서 질병의 존재를 확인할 때 사실로 나타난다.참 양성은 일반적으로 혼동 행렬에서 왼쪽 상단(조건 양수 X 시험 결과 양수) 단위로 표시된다.

참된 부정

테스트가 음의 결과를 올바르게 보고할 때 진정한 음의 결과.예를 들어, 질병에 대한 건강검진은 환자가 질병에 걸리지 않았음을 나타내는 양성 결과를 반환할 수 있다.이는 환자 검사에서도 질병이 없는 것으로 보고될 때 사실로 나타난다. 음극은 혼동 행렬에서 일반적으로 오른쪽 하단(조건 음극 X 시험 결과 음극) 단위로 표시된다.

베이즈 정리 적용

우리는 또한 베이지스의 정리를 이용하여 참 긍정, 거짓 긍정, 참 부정, 거짓 부정 등을 계산할 수 있다.베이지스의 정리를 사용하면 사건과 관련이 있을 수 있는 조건에 대한 사전 지식을 바탕으로 사건확률(확률 이론)을 설명하는 데 도움이 될 것이다.아래 예제를 이용한 4가지 분류가 표현되어 있다.

  • 검사 대상자가 질병에 걸리지 않은 경우 검사 결과의 5% 또는 0.05의 확률로 양성 결과를 반환한다.
  • 인구의 0.1%만이 이 질병을 가지고 있으므로 무작위로 선택된 환자가 그 병에 걸릴 확률이 0.001이라고 가정해 보자.
  • A는 환자가 병을 앓고 있는 상태를 나타내도록 한다.
  • \neg A는 환자가 병에 걸리지 않는 상태를 나타내도록 한다.
  • B가 양성 테스트 결과의 증거를 나타내도록 하자.
  • \neg B는 음성 테스트 결과의 증거를 나타내도록 한다.

참 긍정, 거짓 긍정, 거짓 부정, 참 부정의 관점에서 보면 다음과 같다.

  • 거짓 양성은 \neg A(환자가 병을 가지고 있지 않음)와 B(환자가 그 병에 대해 양성을 검사함)가 P(\neg A B)로 표현될 확률이다.
  • 거짓 음성(false negative)은 A(환자가 병에 걸렸을 때)가 \neg B(환자가 질병에 대해 음성을 검사할 때)로 또한 P(A \neg B)로 표현될 확률 P이다.
  • 참 양성이란 A(환자가 병을 가지고 있다)가 B(환자가 그 병에 대해 양성을 검사한다)로 또한 P(A B)로 표현될 확률 P이다.
  • 진정한 음수는 \neg A(환자가 병을 가지고 있지 않음)가 \neg B(환자가 그 병에 대해 음성을 검사함)로 표현될 확률 P(\neg A \neg B)이다.

잘못된 긍정

우리는 베이지스의 정리를 이용하여 양 결과가 사실 거짓 양성일 확률을 결정할 수 있다.우리는 만약 질병이 희귀하다면, 검사 결과가 비교적 정확하더라도 대부분의 양성 결과는 거짓 양성일 수 있다는 것을 발견한다.

순진하게도, 사람들은 양성 테스트 결과의 5%만이 거짓이라고 생각할 수 있지만, 그것은 우리가 보게 될 것처럼 상당히 잘못된 것이다.

인구의 0.1%만이 이 질병을 가지고 있으므로 무작위로 선택된 환자가 그 병에 걸릴 확률이 0.001이라고 가정해 보자.

우리는 Bayes의 정리를 사용하여 양성 테스트 결과가 거짓 양성일 확률을 계산할 수 있다.

따라서 양성 결과가 거짓 양성일 확률은 약 1 - 0.019 = 0.98 또는 98%이다.

겉으로 보기에 높은 정확도를 보였음에도 불구하고 발병률이 너무 낮아서 양성반응을 보이는 환자의 대다수가 이 병에 걸리지 않는다.그럼에도 불구하고 양성반응을 보이는 환자(0.019)의 비율은 아직 양성반응을 보이지 않은 환자(0.001)의 19배다.따라서 시험은 무용지물이 아니며, 재시험은 결과의 신뢰성을 향상시킬 수 있다.

거짓 양성 문제를 줄이려면 질병이 없을 때 음성 결과를 보고하는 데 있어 검사가 매우 정확해야 한다.검사 결과 확률이 0.999인 질병이 없는 환자에게 음성 결과가 보고되었다면,

1 - 0.5 = 0.5가 거짓 양성의 확률이다.

거짓부정

우리는 베이지스의 정리를 이용하여 위로부터의 예를 이용하여 음의 결과가 사실 거짓의 음의 결과일 확률을 결정할 수 있다.

음성 결과가 거짓 음성일 확률은 약 0.0000105 또는 0.00105%이다.질병이 드물면 거짓 부정은 시험에 큰 문제가 되지 않을 것이다.

그러나 인구의 60%가 이 병을 앓고 있다면, 거짓 음성일 확률이 더 클 것이다.위의 검정에서 거짓 음의 확률은 다음과 같다.

음성 결과가 거짓 음성일 확률은 0.0155 또는 1.55%로 상승한다.

참 긍정

우리는 위의 예를 이용하여 베이지스의 정리를 이용하여 양 결과가 사실 양성이 될 확률을 결정할 수 있다.

  • 검사 대상자가 질병에 걸린 경우 검사 결과의 99% 또는 0.99의 확률로 양성 결과를 반환한다.
  • 검사 대상자가 질병에 걸리지 않은 경우 검사 결과의 5% 또는 0.05의 확률로 양성 결과를 반환한다.
  • 인구의 0.1%만이 이 질병을 가지고 있으므로 무작위로 선택된 환자가 그 병에 걸릴 확률이 0.001이라고 가정해 보자.

A는 환자가 병에 걸린 상태를 나타내고, B는 양성 검사 결과의 증거를 나타내도록 한다.그러면 양성 검사 결과가 주어진 환자가 실제로 그 병에 걸릴 확률은 다음과 같다.

양성 결과가 참 양성일 확률은 약 0.019%이다.

참된 부정

우리는 또한 베이지스의 정리를 이용하여 진정한 음의 확률을 계산할 수 있다.위의 예제를 사용하여 다음을 수행하십시오.

  • 검사 대상자가 질병에 걸린 경우 검사 결과의 99% 또는 0.99의 확률로 양성 결과를 반환한다.

음성 결과가 참 음성일 확률은 0.99994 또는 99.99%이다.질병이 드물고 양에서 양으로 비율이 높고 음에서 음으로 비율도 높기 때문에 이는 큰 '참 부정률'을 낳게 된다.

민감도 및 특수성을 가진 분류자 측정

분류기를 훈련할 때, 사람들은 민감도와 특수성의 잘 수용된 측정 기준을 사용하여 분류기의 성능을 측정하기를 원할 수 있다.질병의 유행을 기준으로 동전을 엎는 임의의 분류기와 분류기를 비교하는 것이 유익할 수 있다.어떤 사람이 병에 걸릴 은 p{\}이고 그렇지 않을 q = - {\이라고 가정하자 그러면 환자가 같은 p{\로 병에 걸렸다고 추측하고 그가 병에 걸리지 않는다고 추측하는 임의 분류기가 있다고 가정하자.동일한 확률

참 양성의 확률은 환자가 병을 앓고 있을 확률에 이를 정확하게 추측할 확률을 곱한 확률 또는 p 유사한 추론을 가지고 거짓 음의 확률은 이다 위의 정의에서 이 민감도는분류자는 /( + )= p 유사한 추론을 가지고 /( 2+ p )= 로 구체성을 계산할 수 있다

따라서, 측정 자체는 질병 유병률과 무관하지만, 이 무작위 분류기의 성능은 질병 유병률에 따라 달라진다.분류자는 이 무작위 분류기와 같은 성능을 가질 수 있지만, 가중치가 더 높은 동전(높은 민감도와 특수성)을 가지고 있을 수 있다.그래서, 이러한 조치들은 질병의 확산에 의해 영향을 받을 수 있다.성과의 다른 척도는 매튜 상관 계수인데, 임의 분류자는 평균 0점을 받는다.

이 개념을 비이항 분류로 확장하면 혼동 행렬이 발생한다.

참고 항목

메모들

참조

  1. ^ 통계 시험을 위한 수학세계 기사
  2. ^ 하-펠드, S, 로스, D, 지맥, D.(2003) "다각류 분류와 순위를 위한 기형 분류"In: Becker, B, Thrun, S, Obermayer, K. (Eds) Neural Information Processing Systems 15: 2002년 회의의 진행, MIT Press. ISBN0-262-02550-7