Naigive Bayes 분류자

통계학에서, 순진한 베이즈 분류기는 특징들 사이의 강한 (순진한) 독립성 가정과 함께 베이즈의 정리를 적용하는 것에 기초한 단순한 "확률론적 분류기"의 집합이다(베이즈 분류기 참조).이들은 가장 단순한 베이지안 네트워크 ^[1]모델 중 하나이지만 커널 밀도 추정과 결합하면 높은 정확도 ^[2]^[3]수준을 달성할 수 있습니다.

Naigive Bayes 분류자는 확장성이 뛰어나 학습 문제에서 변수(피처/예측 변수)의 수에 선형으로 많은 매개 변수가 필요합니다.최대우도 훈련은 많은 다른 유형의 분류기에 사용되는 값비싼 반복 근사보다는 선형 시간이 걸리는 닫힌 형식의 ^[4]^{: 718}식을 평가함으로써 수행될 수 있다.

통계 문헌에서 순진한 베이즈 모델은 단순 베이즈 ^[5]및 독립 베이즈를 포함한 다양한 이름으로 알려져 있다.이 모든 이름은 분류자의 결정 규칙에서 베이즈의 정리의 사용을 참조하지만, 순진한 베이즈는 (필연적으로) 베이지안 ^[4]^[5]방법이 아니다.

서론

Naigive Bayes는 분류자를 구성하기 위한 간단한 기술입니다.문제 인스턴스에 클래스 라벨을 할당하는 모델입니다.특징값의 벡터로 표현됩니다.여기서 클래스 라벨은 유한 집합에서 추출됩니다.이러한 분류자를 훈련시키는 알고리즘은 단일 알고리즘이 아니라 공통 원리에 기초한 알고리즘 패밀리입니다.모든 네이비 베이즈 분류자는 클래스 변수가 주어진 다른 피쳐의 값과 독립적이라고 가정합니다.예를 들어, 과일이 빨갛고 둥글며 지름이 약 10cm이면 사과로 간주될 수 있습니다.네이비 베이즈 분류자는 색상, 원형도 및 직경의 상관관계에 관계없이 이러한 각 특징을 사과일 확률에 독립적으로 기여하는 것으로 간주합니다.

많은 실제 애플리케이션에서, 네이비 베이즈 모델에 대한 매개변수 추정은 최대우도 방법을 사용한다. 다시 말해, 베이즈 확률을 받아들이거나 베이지안 방법을 사용하지 않고도 네이비 베이즈 모델로 작업할 수 있다.

순진한 디자인과 지나치게 단순한 가정에도 불구하고, 순진한 베이즈 분류기는 많은 복잡한 현실 상황에서 꽤 잘 작동했습니다.2004년 베이지안 분류 문제의 분석은 순진한 베이즈 분류기의 ^[6]믿을 수 없는 효과에 대한 타당한 이론적 이유가 있다는 것을 보여주었다.그러나 2006년에 다른 분류 알고리즘과 종합적으로 비교한 결과, Bayes 분류는 증가된 나무나 랜덤 ^[7]포레스트와 같은 다른 접근법보다 더 우수한 것으로 나타났다.

네이비 베이즈의 장점은 ^{[citation needed]}분류에 필요한 매개변수를 추정하기 위해 적은 수의 교육 데이터만 필요하다는 것이다.

확률론적 모형

추상적으로, nave Bayes는 조건부 확률 모델이다: 분류할 문제 인스턴스가 주어지면 $벡터$ x $\mathbf {x} =(x_{1},\ldots ,x_{n})$ ( $\mathbf {x} =(x_{1},\ldots ,x_{n})$ , $\mathbf {x} =(x_{1},\ldots ,x_{n})$ … , $\mathbf {x} =(x_{1},\ldots ,x_{n})$ n $\mathbf {x} =(x_{1},\ldots ,x_{n})$ ) { $style \mathbf {x}$ = ( $x_{1},\ldots,x_{n})$ 로 $\mathbf {x} =(x_{1},\ldots ,x_{n})$ 표현되며, 이 인스턴스 확률에 할당된다.

\displaystyle p(C_{k}\mid x_{1},\ldots,x_{n},}

각 $K개$ 의 가능한 결과 $C_{k}$ $C_{k}$ Ck $(\$ k $C_{k}$ ^[8]에 대해 지정합니다.

위의 공식의 문제는 $기능n$ 의 수가 많거나 기능n이 다수의 값을 취할 수 있는 경우 그러한 모델을 확률 테이블에 기초하는 것은 불가능하다는 것입니다.따라서 모델을 보다 다루기 쉽게 재구성해야 합니다.베이즈의 정리를 사용하여, 조건부 확률은 다음과 같이 분해될 수 있다.

p(C_{k}\mad \mathbf {x})=p(\mathbf {x}\mid C_{k}){p(\mathbf {x}}}}},

쉬운 영어로, 베이지안 확률 용어를 사용하여, 위의 방정식은 다음과 같이 쓸 수 있다.

{\text{optility}}=black{\text{optility}}{\text{optility}},

실제로는 분모는 C $(\displaystyle$ C $)$ 에 $C$ 의존하지 않고 $x_{i}$ $(\$ }) 값이 $x_{i}$ 제공되므로 분모는 실질적으로 일정하기 때문에 해당 분수의 분자에만 관심이 있습니다.분자는 공동 확률 모형과 동일합니다.

\displaystyle p(C_{k},x_{1},\ldots,x_{n},}

조건부 확률의 정의를 반복적으로 적용하기 위해 체인 규칙을 사용하여 다음과 같이 다시 작성할 수 있습니다.

{\displaystyle{\begin{정렬}(C_{k},x_{1},\ldots ,x_{n})&, =p(x_{1},\ldots{n},C_{k},x_)\\&, =p(x_{1}\mid x_{2},\ldots{n},C_{k},x_)\ p(x_{2},\ldots{n},C_{k},x_)\\&, =p(x_{1}\mid x_{2},\ldots{n},C_{k},x_)\ p(x_{2}\mid{3}{n},x_ ,\ldots ,C_{k}x_)\ p(x_{3},x_{n},C_{k},\ldots)\\&, =\cdots \\&, =p(x_{1}\mid x_{2},\ldots{n},C_{k},x_)\ p(.x_{2}\mid x_{3},\ldots,x_{n},C_{k}\cdots p(x_{n-1}\mid x_{n},C_{k})\p(x_{n}\mid C_{k})\p(C_{k})\end {aligned}}}

이제 "순진한" 조건부 독립성 가정이 작용합니다. x $(\$ 의 $\mathbf {x}$ 모든 특징이 카테고리 $C_{k}$ k $(\$ 에 따라 서로 독립적이라고 가정합니다. 이 가정 하에서,

p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,

(

p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,

i

p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,

x

p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,

+

p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,

,

p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,

,

p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,

n ,

p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,

)

p

(

p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,

p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,

p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,

k

p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,

) \

displaystyle

p (

x

_ {

i

} \

mid x

_ {

i

+

1

, \

ldots

,

x _

{

n

, C _ { k } )

= p

( x _ { i } \

mid C

_ { k

p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,

、

따라서 조인트 모델은 다음과 같이 표현될 수 있다.

({displaystyle {begin{k}\mid x_{1},\ldots,x_{n}&\varpropto p(C_{k},x_{1},\ldots,x_{n})\\&\varpropto p(C_{k})\p(x_{1}\mid C_{k}\p(x_{2}\mid C_{k})\\cdots \&\varpropto p(C_{k})\pro_i(x)^{n}^{n}

여기서 $\displaystyle \varpropto는$ 비례성을 $\varpropto$ 나타냅니다.

즉, 위의 독립성 전제 조건 하에서 $클래스$ 변수C(\ $displaystyle$ C $)$ 에 $C$ 대한 조건부 분포는 다음과 같습니다.

p(C_{k}\mid x_{1},\ldots,x_{n}=p(C_{k})\prod _{i=1}^{n}p(x_{i}\mid C_{k}}}

$Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})$ 서 $Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})$ 증거 Z $Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})$ ( $Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})$ x ) $Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})$ $Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})$ ( $Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})$ $Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})$ $Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})$ ) $Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})$ ( $Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})$ \ $displaystyle$ Z $= p$ ( \ $mathbf { x$ } \ p ( \ mathbf { $x$ } \ mid $C_$ { $k$ } ) = \ $sum$ _ { k $Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})$ } p ( \ $mathbf$ { x )\ $style ...$ 에 의존하는 $x_{1},\ldots ,x_{n}$ 팩터입니다 $x_{1},\ldots ,x_{n}$

확률 모형에서 분류자 구성

지금까지의 논의에서는 독립된 특징 모델, 즉 순진한 베이즈 확률 모델이 도출되었습니다.Naigent Bayes 분류자는 이 모델을 결정 규칙과 결합합니다.하나의 일반적인 규칙은 오분류의 가능성을 최소화하기 위해 가장 가능성이 높은 가설을 선택하는 것이다. 이것은 최대 사후 규칙 또는 MAP 의사결정 규칙이라고 알려져 있다.대응하는 분류자(Bayes 분류자)는 다음과 같이 $일부$ k에 대해 y ${\hat {y}}=C_{k}$ ${\hat {y}}=C_{k}$ ${\hat {y}}=C_{k}$ k \ $display$ { $hat$ { ${\hat {y}}=C_{k}$ y} = $C_{k}}$ 클래스 ${\hat {y}}=C_{k}$ ${\hat {y}}=C_{k}$ 을 할당하는 함수입니다.

{hat {y}= 언더셋 {k\in \1,\ldots ,K\}}{\operatorname {nmax}}}\p(C_{k})\displaystyle _{i}{n}p(x_{i}\mid C_k}.

우도

p(\mathbf {x} \mid Y)

p

p(\mathbf {x} \mid Y)

p(\mathbf {x} \mid Y)

Y

p(\mathbf {x} \mid Y)

)(\

displaystyle

p

(\mathbf {x}

\

mid

Y

p(\mathbf {x} \mid Y)

혼란 행렬 및 ROC 곡선).naig Bayes 분류자의 경우 priori

p(Y)

p

)

(\

displaystyle

p

(Y)\

displaystyle p(Y)\displaystyle p

p(Y\mid \mathbf {x} )={\frac {p(Y)\ p(\mathbf {x} \mid Y)}{p(\mathbf {x} )}}\propto p(\mathbf {x} \mid Y)

Y

p(Y\mid \mathbf {x} )={\frac {p(Y)\ p(\mathbf {x} \mid Y)}{p(\mathbf {x} )}}\propto p(\mathbf {x} \mid Y)

displaystyle p(

p(Y\mid \mathbf {x} )={\frac {p(Y)\ p(\mathbf {x} \mid Y)}{p(\mathbf {x} )}}\propto p(\mathbf {x} \mid Y)

p

p(Y\mid \mathbf {x} )={\frac {p(Y)\ p(\mathbf {x} \mid Y)}{p(\mathbf {x} )}}\propto p(\mathbf {x} \mid Y)

class p

p(Y\mid \mathbf {x} )={\frac {p(Y)\ p(\mathbf {x} \mid Y)}{p(\mathbf {x} )}}\propto p(\mathbf {x} \mid Y)

에 따라 결정 경계(녹색선)가

p(Y)

두 확률의

p(Y\mid \mathbf {x} )={\frac {p(Y)\ p(\mathbf {x} \mid Y)}{p(\mathbf {x} )}}\propto p(\mathbf {x} \mid Y)

교차점에 배치됩니다

p(Y\mid \mathbf {x} )={\frac {p(Y)\ p(\mathbf {x} \mid Y)}{p(\mathbf {x} )}}\propto p(\mathbf {x} \mid Y)

laystyle

p

(Y\mid \mathbf {x})=slayfrac {p(Y)\p(\mathbf {x}

\

mid

Y

)}{p(\mathbf

{x

})}}\propto

p

(\mathbf {x}

\

mid

Y

p(Y\mid \mathbf {x} )={\frac {p(Y)\ p(\mathbf {x} \mid Y)}{p(\mathbf {x} )}}\propto p(\mathbf {x} \mid Y)

모수 추정 및 사건 모델

클래스의 선행은 적합 클래스( $p(C_{k})=1/K$ : $p(C_{k})=1/K$ p ( $p(C_{k})=1/K$ k ) $=$ / $p(C_{k})=1/K$ (\ $displaystyle$ p $(C_{k$ })= $1/K))$ 를 가정하거나 훈련 세트로부터 클래스 확률의 추정치(예: <특정 클래스에 대한 추정치> = <클래스 내 샘플 수> <총 샘플 수>)를 계산하여 계산할 수 있습니다.피쳐 분포에 대한 모수를 추정하려면 분포를 가정하거나 교육 ^[9]집합에서 피쳐에 대한 비모수 모형을 생성해야 합니다.

특징 분포에 대한 가정은 naigive Bayes 분류자의 "사건 모델"이라고 불립니다.문서 분류에서 발생하는 기능(스팸 필터링 포함)과 같은 개별 기능의 경우 다항 분포와 베르누이 분포가 널리 사용됩니다.이러한 가정은 두 가지 다른 모델로 이어지며,^[10]^[11] 이는 종종 혼동됩니다.

가우스 네이비 베이즈

연속 데이터를 다룰 때, 일반적인 가정은 각 클래스와 관련된 연속 값이 정규(또는 가우스) 분포에 따라 분포된다는 것입니다.예를 들어 트레이닝 데이터에 연속 속성 $\displaystyle$ x $x$ 가 포함되어 있다고 가정합니다.데이터는 먼저 클래스별로 분할된 후 각 클래스별로 $x의$ 과 분산이 $x$ 계산됩니다. $\mu _{k}$ k $(\$ _ ${k})$ 를 $\mu _{k}$ 클래스_k C와 관련된 $x$ x(\ $displaystyle$ x $)$ $x$ 의 평균으로 하고, $\sigma _{k}^{2}$ 2 $(\$ _ ${k}^2})$ 를 $\sigma _{k}^{2}$ 클래스_k C와 관련된 $x$ x(\ $displaystyle$ x) $x$ 의 Bessel 보정 분산으로 $\mu _{k}$ . $관찰값$ v ${displaystyle$ v $v$ 를 수집했다고 가정합니다. $class$ $C_{k}$ k {\ $p(x=v\mid C_{k})$ $C_{k$ , $p(x=v\mid C_{k})$ p ( $p(x=v\mid C_{k})$ $p(x=v\mid C_{k})$ v $p(x=v\mid C_{k})$ $p(x=v\mid C_{k})$ k $p(x=v\mid C_{k})$ ) \ $display$ p $(x$ = $v\mid$ C_ ${k}$ ) { $display style$ v $}$ 를 $v$ $\sigma _{k}^{2}$ k $\mu _{k}$ \ $\sigma _{k}^{2}$ \ $mu$ style _ $k }$ 로 $\mu _{k}$ 정규분포 방정식에 $v$ 하여v {\displaystyle v $}$ 의 $v$ 확률밀도를 계산할 수 있다. $(\$ _ ${k}^2$ 즉,

p(x=v\mid C_{k})=syslogfrac {1}{\pi \pi _{k}^{2}}}}, e^{-{\frac {(v-\mu _{k}^2}}}}, {2\frac {\displayfrac {k}{{{{k}}}}}}}

연속값을 처리하는 또 다른 일반적인 기술은 특징값을 이산화하기 위해 비닝을 사용하는 것입니다. 베르누이 분포된 새로운 특징 세트를 얻는 것입니다.실제로 일부 문헌에서는 이것이 순진한 베이스를 적용하기 위해 필요하지만 그렇지 않으며 이산화로 인해 차별적인 ^[5]정보가 폐기될 수 있습니다.

때때로 클래스 조건부 한계 밀도의 분포는 정규 분포와 거리가 멀다.이러한 경우, 커널 밀도 추정은 각 클래스의 한계 밀도의 보다 현실적인 추정에 사용될 수 있다.존과 ^[9]랭글리가 도입한 이 방법은 분류기의 정확도를 ^[2]^[3]크게 높일 수 있다.

다항 순진한 베이즈

다항 이벤트 모델에서 샘플(피처 벡터)은 특정 이벤트가 다항식 $(p$ $(p_{1},\dots ,p_{n})$ , $(p_{1},\dots ,p_{n})$ …, $n)$ 에 $(p_1, \dots, p_n)$ 의해 생성된 빈도를 나타냅니다. $p_{i}$ 서 p $p_{i}$ i {\ $displaystyle p_{$ i}는 $p_{i}$ $이벤트$ i( $또는$ 멀티클래스의 경우 K와 같은 다항식) 발생 확률입니다.특징 $\mathbf {x} =(x_{1},\dots ,x_{n})$ x $=$ ( $\mathbf {x} =(x_{1},\dots ,x_{n})$ 1 $\mathbf {x} =(x_{1},\dots ,x_{n})$ , $\mathbf {x} =(x_{1},\dots ,x_{n})$ , $\mathbf {x} =(x_{1},\dots ,x_{n})$ n $\mathbf {x} =(x_{1},\dots ,x_{n})$ ) { $displaystyle \mathbf {x}$ =( $x_{1},\$ display, $x_{$ n $x_{i}$ })}은 $\mathbf {x} =(x_{1},\dots ,x_{n})$ 히스토그램으로, $x_{i}$ (\ $displaystyle x_{i})$ 는 특정 인스턴스에서 관측된 $이벤트$ i의 횟수를 카운트합니다.이것은 문서 분류에 일반적으로 사용되는 이벤트 모델로, 단일 문서에서 단어의 발생을 나타내는 이벤트(단어 가정 참조)입니다. $히스토그램$ x를 관측할 확률은 다음과 같습니다.

(\displaystyle p(\mathbf {x} \mid C_{k})=subfrac {(\sum _{i=1}^{n}x_{i})!}{\filen_{i=1}^{n}x_{i}!}}\param _{i=1}^{n}{p_{ki}}^{x_{i}}}

다항 Navive Bayes 분류자는 로그 ^[12]공간으로 표현될 때 선형 분류자가 됩니다.

{displaystyle} \log p(C_{k}\mid \mathbf {x})&\varpropto \log \left(p(C_{k})\prod _{i=1}^{n}{p_{ki}}{x_{i}\right}\bright}\\&=\log p(C_{k}+\sum _{i=1}^{n}x_{i}\cdot \log p_{ki}\&=b+\mathbf {w}_{k}^{\top}\mathbf {x}\end{aligned}}

$b=\log p(C_{k})$ 서 b $b=\log p(C_{k})$ $b=\log p(C_{k})$ $b=\log p(C_{k})$ ( $b=\log p(C_{k})$ k $b=\log p(C_{k})$ ) \ $displaystyle$ b = \ $log$ p ( $C$ _ { $k$ $b=\log p(C_{k})$ ) $w_{ki}=\log p_{ki}$ w $w_{ki}=\log p_{ki}$ $w_{ki}=\log p_{ki}$ \ $log p _$ { $ki$ 。

훈련 데이터에서 특정 클래스와 피쳐 값이 함께 발생하지 않는 경우 확률 추정치는 피쳐 값의 발생 횟수에 정비례하므로 빈도 기반 확률 추정치는 0이 됩니다.이는 다른 확률의 정보가 곱될 때 모두 삭제되기 때문에 문제가 됩니다.따라서 확률이 정확히 0으로 설정되지 않도록 모든 확률 추정치에 의사 카운트라는 작은 표본 보정을 통합하는 것이 바람직합니다.이와 같이 Naigive Bayes를 정규화하는 방법을 의사 카운트가 하나일 경우 Laplace 평활이라고 하며, 일반적인 경우 Lidstone 평활이라고 합니다.

Rennie 등은 문서 분류의 맥락에서 다항 가정의 문제와 지원 벡터 ^[12]기계와 경쟁하는 순진한 베이즈 분류기를 생산하기 위해 원시 용어 빈도 및 문서 길이 정규화 대신 tf-idf 가중치의 사용을 포함하여 이러한 문제를 완화할 수 있는 가능한 방법을 논의한다.

베르누이 순진한 베이즈

다변량 Bernouli 사건 모형에서 피쳐는 입력을 설명하는 독립적인 Booan(이항 변수)입니다.다항식 모델과 마찬가지로 이 모델은 용어 빈도 대신 이진수 용어 발생 기능이 사용되는 문서 분류 ^[10]작업에 널리 사용됩니다. $(\$ })가 $x_{i}$ 어휘에서 $i번째$ 용어의 발생 여부를 나타내는 부울값인 $x_{i}$ $C_{k}$ C k(\ $displaystyle C_{$ k $C_{k}$ })가 주어진 문서의 가능성은 다음과^[10] 같습니다.

\displaystyle p(\mathbf {x} \mid C_{k}=\prod _{i=1}^{n}p_{ki}^{x_{i})^{(1-p_{ki})^{-1-x_{i}}}

$p_{ki}$ 서 p $(\$ })는 $p_{ki}$ $C_{k}$ $C_{k}$ k $(\$ 가 $(\$ 라는 $x_{i}$ 를 생성할 $C_{k}$ 확률입니다.이 이벤트 모델은 특히 짧은 텍스트를 분류하는 데 인기가 있습니다.용어의 부재를 명시적으로 모델링할 수 있는 장점이 있다.Bernouli 이벤트모델을 사용하는 네이비 베이즈 분류기는 주파수 카운트가 1로 잘린 다항식 NB 분류기와는 다릅니다.

반감시 파라미터 추정

라벨이 붙은 데이터에서 순진한 Bayes 분류자를 훈련시키는 방법이 주어지면, 루프에서 ^[13]지도 학습 알고리즘을 실행함으로써 라벨이 붙은 데이터와 라벨이 없는 데이터의 조합에서 학습할 수 있는 반지도 훈련 알고리즘을 구축할 수 있다.

라벨이 부착된

시료

L과 라벨이 부착되지

않은

시료 U의

D=L\uplus U

D

D=L\uplus U

L

{

displaystyle

D

=L\uplus

U}가

D=L\uplus U

주어진 경우, 우선 라벨이 부착되지 않은 Bayes 분류기를

L

에 교육하는 것부터 시작한다.

컨버전스가 될 때까지 다음 작업을 수행합니다.

D

(\displaystyle

D

D

의 모든

예

에 대해 클래스

P(C\mid x)

P

P(C\mid x)

x

P(C\mid x)

)(\

displaystyle

P

(C\mid

x

))

를

P(C\mid x)

예측합니다.

이전 단계에서 예측한 확률(라벨이 아님)에 따라 모델을 재교육합니다.

컨버전스는 모델 $P(D\mid \theta )$ P $P(D\mid \theta )$ $P(D\mid \theta )$ $P(D\mid \theta )$ ) $)(\displaystyle$ P $(D\mid \theta$ 의 개선에 따라 결정됩니다. $\theta$ 서 $"\displaystyle \theta"$ 는 $\theta$ nave Bayes 모델의 파라미터를 나타냅니다.

이 트레이닝 알고리즘은 보다 일반적인 Expectment-Maximization Algorithm(EM; 최대화 알고리즘)의 인스턴스입니다.루프 내부의 예측 스텝은 EM의 E 스텝이며, naigive Bayes의 재트레이닝은 M 스텝입니다.이 알고리즘은 데이터가 혼합물 모형에 의해 생성되고 이 혼합물 모형의 성분이 정확히 분류 ^[13]문제의 클래스라는 가정에 의해 공식적으로 정당화됩니다.

논의

광범위한 독립성 가정이 종종 부정확하다는 사실에도 불구하고, 순진한 베이즈 분류자는 실제로 놀라울 정도로 유용한 몇 가지 특성을 가지고 있습니다.특히 클래스 조건부 특징 분포의 디커플링은 각 분포가 1차원 분포로서 독립적으로 추정될 수 있음을 의미한다.이를 통해 기능 수에 따라 기하급수적으로 확장되는 데이터 세트의 필요성 등 차원성의 단점으로 인한 문제를 완화할 수 있습니다.순진한 Bayes는 올바른 클래스 ^[14]확률에 대한 적절한 견적을 내는 데 실패하는 경우가 많지만, 이는 많은 애플리케이션에 대한 요구사항은 아닐 수 있습니다.예를 들어 naig Bayes 분류자는 올바른 클래스가 다른 클래스보다 가능성이 높은 한 올바른 MAP 결정 규칙을 분류합니다.이것은 확률 추정치가 약간이나 심지어 완전히 부정확한지에 관계없이 사실이다.이러한 방식으로, 전체적인 분류자는 그 기초가 되는 순진한 확률 ^[15]모델의 심각한 결함을 무시할 수 있을 정도로 충분히 강력할 수 있다.순진한 베이즈 분류자의 성공이 관찰된 다른 이유는 아래에 인용된 문헌에서 논의된다.

로지스틱 회귀 분석과의 관계

이산 입력(이산 이벤트에 대한 지시자 또는 주파수 특징)의 경우, naig Bayes 분류자는 (다항식) 로지스틱 회귀 분류기와 함께 생성-차별 쌍을 형성합니다. 각 naig Bayes 분류자는 결합 가능성 $p(C,\mathbf {x} )$ , $p(C,\mathbf {x} )$ )를 최적화하는 확률 모델을 적합시키는 방법으로 간주될 수 있습니다.\ $displayst$ $yle$ p $(C,\mathbf {x$ 은 로지스틱 회귀는 $p(C\mid \mathbf {x} )$ p $p(C\mid \mathbf {x} )$ x $)$ 를 최적화하기 위해 동일한 확률 모델을 사용합니다.{ $displaystyle$ p $(C\mid \mathbf {$ x $}$ } $p(C\mid \mathbf {x} )$ ^[16]} }

p $p(C_{1}\mid \mathbf {x} )$ ( $p(C_{1}\mid \mathbf {x} )$ 1 $p(C_{1}\mid \mathbf {x} )$ † $p(C_{1}\mid \mathbf {x} )$ ) { $display p$ ( $C$ _ { $1$ $C_{1}$ \ $mid$ \ $mathbf { x$ ) $p(C_{2}\mid \mathbf {x} )$ } $p(C_{1}\mid \mathbf {x} )$ odds $p(C_{2}\mid \mathbf {x} )$ ( ( the those ( the those ( ( those ( those ( ( $p(C_{2}\mid \mathbf {x} )$ ( ( ( $p(C_{2}\mid \mathbf {x} )$ ( $p(C_{2}\mid \mathbf {x} )$ ( $those$ $p(C_{2}\mid \mathbf {x} )$ ( ( ( those the ( ( $p(C_{2}\mid \mathbf {x} )$ the the $the$ the $C_{1}$ the the the the the ( the $the$ the the the the the $C_{1}$ the the the ( ( ( ( ( ( ( ( ( the the the $C_{1}$ the the the the ( ( ( the $p(C_{1}\mid \mathbf {x} )$ the the ( ( ( ( ( $x})}$ ". $p(C_{2}\mid \mathbf {x} )$ 로그 공간에 이를 표현하면 다음과 같은 결과가 나옵니다.

\displaystyle \log {p(C_{1}\mid \mathbf {x}}{p(C_{2}\mid \mathbf {x}}}=\log p(C_{1}\mid \mathbf {x})-\log p(C_{2}\mid \mathbf {x}>0})

이 방정식의 왼쪽은 로지스틱 회귀 분석의 기반이 되는 선형 모형에 의해 예측되는 로그 오드 또는 로짓입니다.두"별개의"행사 모델 때문에 순진하든지 베이즈 또한 선형 모델은 일차 함수 b+w⊤)>0{\displaystyle b+\mathbf{w}^{\top}x>0}.+wlargeenough⊤에 군수 기능을 적용하는의 확률을 획득하는 것이 된 다음 문제){\displaystyle b+\mathbf{w}^{\top}x}, 또는 reparametrised 수 있다.t에멀티클래스 케이스, 소프트맥스 기능.

차별적 분류기는 생성적 분류기보다 점근 오차가 낮지만, Ng와 Jordan의 연구에 따르면 Ng와 Jordan의 실제적인 경우 점근 오차에 더 ^[16]빨리 도달하기 때문에 로지스틱 회귀를 능가할 수 있는 것으로 나타났다.

예

개인구분

문제: 측정된 특징을 바탕으로 주어진 사람이 남성인지 여성인지를 분류합니다.키, 몸무게, 발 사이즈가 특징입니다.

트레이닝

트레이닝의 예는 다음과 같습니다.

사람인	높이(피트)	중량(표준)	발 크기(표준)
남자	6	180	12
남자	5.92 (5'11")	190	11
남자	5.58 (5'7")	170	12
남자	5.92 (5'11")	165	10
여자	5	100	6
여자	5.5 (5'6")	150	8
여자	5.42 (5'5")	130	7
여자	5.75 (5'9")	150	9

가우스 분포 가정을 사용하여 교육 세트에서 생성된 분류기는 다음과 같습니다(특정 분산은 편향되지 않은 표본 분산입니다).

사람인	평균(높이)	분산(높이)	평균(무게)	분산(가중치)	평균(피트 크기)	분산(피트 크기)
남자	5.855	3.5033 × 10⁻²	176.25	1.2222 × 10²	11.25	9.1667 × 10⁻¹
여자	5.4175	9.7225 × 10⁻²	132.5	5.5833 × 10²	7.5	1.6667

다음 예제에서는 P(남성)= P(여성)= 0.5가 되도록 적합 클래스를 가정합니다.이러한 사전 확률 분포는 더 큰 모집단 또는 훈련 세트의 빈도에 대한 사전 지식을 기반으로 할 수 있다.

테스트

아래는 남성 또는 여성으로 분류되는 샘플입니다.

사람인	높이(피트)	중량(표준)	발 크기(표준)
샘플	6	130	8

샘플을 분류하기 위해서는 수컷과 암컷 중 어느 쪽이 더 큰지 결정해야 한다.남성으로 분류하기 위해 후부는 다음과 같이 주어진다.

{\displaystyle\text{text}(남성)}}=mid{P(\text{male}),p(\text{height}}\mid{text{male}),ptext{weight}\mid{text{male}),ptext\text{male}}\mid{text{male}}}

여성으로 분류하기 위해 후부는 다음과 같이 주어진다.

{\displaystyle\text}(여성)}}=mid {P(\text{female}),p(\text{height}}\mid {text{weight}}\mid {text{weight}}\mid {text{foot size}}\mid {text{female}}}}

근거(정규화 상수라고도 함)는 다음과 같이 계산할 수 있다.

{\displaystyle {begin}{\text{evidence}}=P({\text{male}})=p({\text{height}}\mid {text{male}}),p4\text{weight}}\mid {text{male}}}}\mid {text{text}}}},

그러나 표본이 주어진 경우 증거는 상수이므로 두 후방의 척도가 동일합니다.따라서 이는 분류에 영향을 주지 않으며 무시해도 됩니다.이제 표본의 성별에 대한 확률 분포를 결정할 수 있습니다.

P({\text{male}}})= 0.5

p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789

(

p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789

p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789

p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789

p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789

2

p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789

p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789

exp

p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789

(

p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789

- ( 6

p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789

-

p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789

)

p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789

2 σ 2

p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789

2 )

1

1.

p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789

( \

display style

pg \

text

{

height

} ) \ mid ( \

text

{ male } ) =

snap frac

{ { 1

}

{ \ \

pi

\

rt

{ 2 \ pi

^

{ 2 } } } } } } \ \

exp

\ frclap { 2

p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789

2 - { 2 - { 2 （ 2 } }

$\mu =5.855$ 서 μ $\mu =5.855$ $\mu =5.855$ { $displaystyle \mu =$ $\sigma ^{2}=3.5033\cdot 10^{-2}$ . $855}$ 및 $\mu =5.855$ $\sigma ^{2}=3.5033\cdot 10^{-2}$ 2 $=$ 3. $\sigma ^{2}=3.5033\cdot 10^{-2}$ $\sigma ^{2}=3.5033\cdot 10^{-2}$ $\sigma ^{2}=3.5033\cdot 10^{-2}$ 2 { $display \display ^{2$ }= $3.5033\cdot$ 10 $^{-2}}$ 은 $\sigma^2 = 3.5033 \cdot 10^{-2}$ 교육 세트에서 이전에 결정된 정규 분포의 매개변수입니다.여기서 1보다 큰 값은 OK입니다.높이는 연속형 변수이기 때문에 확률보다는 확률 밀도입니다.

pfrc {weight}\mid {\text{male}}=mid frac {\pi \pi ^{2}}}\exp \left frac {-(130-\mu}^2}}{2\right}=5.9881\cdot 10^{-6}

ppc\text{foot size}\mid {\text{male}}=mid frac {1}{\textrt {2\pi \flac ^{2}}}\exp \left\frac {-(8-\mu)^2}}{2\right}=1.3112\cdot 10^{-3

{\displaystyle\text}분자(남성)}}=cdot{상품}=6.199\cdot10^{-9}

P({\text{여}}})= 0.5

p420\text{height}}\mid {\text{여성}}=2.23\cdot 10^{-1

p420\text{weight}}\mid {\text{female}}=1.6789\cdot 10^{-2

pp4\text{foot size}}\mid\text{female}=2.8669\cdot 10^{-1

\displaystyle\text{분자(암수)} = text { item } = 5.3778\cdot 10^{-4}

여성의 경우 후분자가 더 크기 때문에 표본이 여성일 것으로 예측됩니다.

문서구분

다음은 문서 분류 문제에 대한 단순 베이지안 분류의 작업 예입니다.스팸 및 비스팸 전자 메일과 같이 문서를 내용별로 분류하는 문제를 고려하십시오.문서가 C클래스의 문서에서 특정 문서의 i번째 단어가 발생할 (독립) 확률이 다음과 같이 기록될 수 있는 단어 세트로 모델링될 수 있는 여러 문서 클래스에서 작성된다고 가정합니다.

p(w_{i}\mid C),

(이 처리에서는 문서 내에서 단어가 랜덤하게 분포되어 있다고 가정함으로써 더욱 단순해집니다.즉, 단어는 문서의 길이, 다른 단어에 대한 문서 내 위치 또는 기타 문서 컨텍스트에 의존하지 않습니다.)

그러면 클래스 C의 문서D에 $\$ 의 모든 $w_{i}$ 가 포함되어 있을 가능성은 다음과 같습니다.

({displaystyle p(D\mid C)=\prod _{i}p(w_{i}\mid C),

답변해야 할 질문은 "특정 문서 D가 특정 클래스 C에 속할 확률은?"입니다.즉 $p(C\mid D)\,$ $p(C\mid D)\,$ ( C $p(C\mid D)\,$ D ) \ $p(C\mid D)\,$ p ( $C$ \ $mid$ D ) $p(C\mid D)\,$

정의상

\displaystyle p(D\mid C)={p(D\cap C)\over p(C)}

그리고.

\displaystyle p(C\mid D)={p(D\cap C)\over p(D)}

베이즈의 정리는 이것들을 확률의 문장으로 조작한다.

p(C\mid D)=sublic frac {p(C),p(D\mid C)}{p(D)}

현재 상호 배타적인 클래스는 S와 S(스팸과 스팸이 아닌 경우 등)의 2개뿐이며, 모든 요소(전자 메일)가 어느 쪽인가에 있다고 가정합니다.

({displaystyle p(D\mid S)=\prod _{i}p(w_{i}\mid S),

그리고.

(\displaystyle p(D\mid \neg S)=\prod _{i}p(w_{i}\mid \neg S),}

위의 베이지안 결과를 사용하여 다음과 같이 쓸 수 있습니다.

\displaystyle p(S\mid D)={p(S)\over p(D)},\prod _{i}p(w_{i}\mid S)}

\displaystyle p(\neg S\mid D)={p(\neg S)\over p(D)},\prod _{i}p(w_{i}\mid \neg S)}

하나를 다른 것으로 나누면 다음과 같이 됩니다.

{\displaystyle {p(S\mid D)\over p(\neg S\mid D)}={p(S),\prod _{i}p(w_{i}\mid S)\prod _{i}p(w_{i}\mid \neg S)}}.

이는 다음과 같이 재구성할 수 있습니다.

\displaystyle {p(S\mid D)\over p(\neg S\mid D)}={p(S)\prod _{i}{p(w_{i}\mid S)\over p(w_{i}\mid \neg S)}}

따라서 확률비 p(S D) / p(δS D)는 일련의 우도비로 표현될 수 있습니다.실제 확률 p(S D)는 p(S D) + p(s D) = 1이라는 관측치에 기초하여 로그(p(S D) / p(s D))로부터 쉽게 계산할 수 있다.

이 모든 비율의 대수를 취하면 다음을 얻을 수 있습니다.

\displaystyle \ln {p(S\mid D)\over p(\neg S)}=\ln {p(i}\mid S)+\sum _{i}\ln {p(w_{i}\mid S)\over p(w_{i}\mid S)}}}

(이 「로그 우도비」의 기법은 통계학에서 일반적인 기법입니다.서로 배타적인 두 가지 대안(이 예 등)의 경우 로그우도비를 확률로 변환하는 것은 S자 곡선의 형태를 취합니다.자세한 내용은 로짓 참조).

마지막으로 다음과 같이 분류할 수 있다. $\ln {p(S\mid D) \over p(\neg S\mid D)}>0$ $p(S\mid D)>p(\neg S\mid D)$ ( $\ln {p(S\mid D) \over p(\neg S\mid D)}>0$ $p(S\mid D)>p(\neg S\mid D)$ $\ln {p(S\mid D) \over p(\neg S\mid D)}>0$ $p(S\mid D)>p(\neg S\mid D)$ D $p(S\mid D)>p(\neg S\mid D)$ ) $p(S\mid D)>p(\neg S\mid D)$ p ( $p(S\mid D)>p(\neg S\mid D)$ " $p(S\mid D)>p(\neg S\mid D)$ D $p(S\mid D)>p(\neg S\mid D)$ ) > p ( \ $display style p$ ( S \ $mid$ D ) > $p(S\mid D)>p(\neg S\mid D)$ p ( \ $neg$ S \ $mid$ $p(S\mid D)>p(\neg S\mid D)$ D ) $p(S\mid D)>p(\neg S\mid D)$ } ( $\ln {p(S\mid D) \over p(\neg S\mid D)}>0$ 、 ln $\ln {p(S\mid D) \over p(\neg S\mid D)}>0$ p ( S $\ln {p(S\mid D) \over p(\neg S\mid D)}>0$ )> $\ln {p(S\mid D) \over p(\neg S\mid D)}>0$ $0$ $display style \$ ln p ( S $\ln {p(S\mid D) \over p(\neg S\mid D)}>0$ d $D$ ) \ $over$ D )

「」를 참조해 주세요.

레퍼런스

^ McCallum, Andrew. "Graphical Models, Lecture2: Bayesian Network Representation" (PDF). Retrieved 22 October 2019.
^ ^a ^b Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-06-01). "Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems". Journal of Transportation Engineering, Part B: Pavements. 146 (2): 04020022. doi:10.1061/JPEODX.0000175. S2CID 216485629.
^ ^a ^b Hastie, Trevor. (2001). The elements of statistical learning : data mining, inference, and prediction : with 200 full-color illustrations. Tibshirani, Robert., Friedman, J. H. (Jerome H.). New York: Springer. ISBN 0-387-95284-5. OCLC 46809224.
^ ^a ^b Russell, Stuart; Norvig, Peter (2003) [1995]. Artificial Intelligence: A Modern Approach (2nd ed.). Prentice Hall. ISBN 978-0137903955.
^ ^a ^b ^c Hand, D. J.; Yu, K. (2001). "Idiot's Bayes — not so stupid after all?". International Statistical Review. 69 (3): 385–399. doi:10.2307/1403452. ISSN 0306-7734. JSTOR 1403452.
^ Zhang, Harry. The Optimality of Naive Bayes (PDF). FLAIRS2004 conference.
^ Caruana, R.; Niculescu-Mizil, A. (2006). An empirical comparison of supervised learning algorithms. Proc. 23rd International Conference on Machine Learning. CiteSeerX 10.1.1.122.5901.
^ Narasimha Murty, M.; Susheela Devi, V. (2011). Pattern Recognition: An Algorithmic Approach. ISBN 978-0857294944.
^ ^a ^b John, George H.; Langley, Pat (1995). Estimating Continuous Distributions in Bayesian Classifiers. Proc. Eleventh Conf. on Uncertainty in Artificial Intelligence. Morgan Kaufmann. pp. 338–345. arXiv:1302.4964.
^ ^a ^b ^c McCallum, Andrew; Nigam, Kamal (1998). A comparison of event models for Naive Bayes text classification (PDF). AAAI-98 workshop on learning for text categorization. Vol. 752.
^ Metsis, Vangelis; Androutsopoulos, Ion; Paliouras, Georgios (2006). Spam filtering with Naive Bayes—which Naive Bayes?. Third conference on email and anti-spam (CEAS). Vol. 17.
^ ^a ^b Rennie, J.; Shih, L.; Teevan, J.; Karger, D. (2003). Tackling the poor assumptions of naive Bayes classifiers (PDF). ICML.
^ ^a ^b Nigam, Kamal; McCallum, Andrew; Thrun, Sebastian; Mitchell, Tom (2000). "Learning to classify text from labeled and unlabeled documents using EM" (PDF). Machine Learning. 39 (2/3): 103–134. doi:10.1023/A:1007692713085. S2CID 686980.
^ Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Predicting good probabilities with supervised learning (PDF). ICML. doi:10.1145/1102351.1102430. Archived from the original (PDF) on 2014-03-11. Retrieved 2016-04-24.
^ Rish, Irina (2001). An empirical study of the naive Bayes classifier (PDF). IJCAI Workshop on Empirical Methods in AI.
^ ^a ^b Ng, Andrew Y.; Jordan, Michael I. (2002). On discriminative vs. generative classifiers: A comparison of logistic regression and naive Bayes. NIPS. Vol. 14.

추가 정보

Domingos, Pedro; Pazzani, Michael (1997). "On the optimality of the simple Bayesian classifier under zero-one loss". Machine Learning. 29 (2/3): 103–137. doi:10.1023/A:1007413511361.
Webb, G. I.; Boughton, J.; Wang, Z. (2005). "Not So Naive Bayes: Aggregating One-Dependence Estimators". Machine Learning. 58 (1): 5–24. doi:10.1007/s10994-005-4258-6.
Mozina, M.; Demsar, J.; Kattan, M.; Zupan, B. (2004). Nomograms for Visualization of Naive Bayesian Classifier (PDF). Proc. PKDD-2004. pp. 337–348.
Maron, M. E. (1961). "Automatic Indexing: An Experimental Inquiry". Journal of the ACM. 8 (3): 404–417. doi:10.1145/321075.321084. hdl:2027/uva.x030748531. S2CID 6692916.
Minsky, M. (1961). Steps toward Artificial Intelligence. Proc. IRE. Vol. 49. pp. 8–30.

외부 링크

책 장:Naigive Bayes 텍스트 분류, 정보 검색 소개
불균형 클래스가 있는 텍스트 분류용 Naigive Bayes
Navig Bayes 구현 벤치마크 결과
불확실한 데이터에 대한 계층형 Nave Bayes 분류자(Nave Bayes 분류자의 확장).

소프트웨어

Naigive Bayes 분류자는 Apache Mahout, Mallet, NLTK, Orange, skit-learn 및 Weka를 포함한 많은 범용 머신 러닝 및 NLP 패키지에서 사용할 수 있습니다.
IMSL 수치 라이브러리 C/C++, Fortran, Java 및 C#/에서 사용할 수 있는 산술 및 통계 알고리즘 모음.NET. IMSL 라이브러리의 데이터 마이닝 루틴은 Naigive Bayes 분류자를 포함합니다.
VBA(활성화된 매크로 필요)를 사용한 인터랙티브한 Microsoft Excel 스프레드시트 Navig Bayes 실장(소스 코드 표시 가능)
jBNC - 베이지안 네트워크 분류 도구 상자
Matlab용 통계 패턴 인식 도구 상자.
ifile - 베이지안 메일/스팸 필터 중 처음으로 자유롭게 사용할 수 있는(네이티브) 베이지안 메일/스팸 필터
NClassifier - NClassifier는 입니다.텍스트 분류 및 텍스트 요약을 지원하는 NET 라이브러리.Classifier4J 포트입니다.
Classifier4J - Classifier4J는 텍스트 분류를 위해 설계된 Java 라이브러리입니다.베이지안 분류기 구현이 포함되어 있습니다.
메모리 내 또는 고속 키 값 저장소(MapDB, LevelDB 또는 RocksDB)를 사용하는 JNBC Naigive Bayes 분류자.
Blayze - Blayze는 Kotlin으로 작성된 Naigive Bayes 분류용 최소 JVM 라이브러리입니다.

[1] McCallum, Andrew. "Graphical Models, Lecture2: Bayesian Network Representation" (PDF). Retrieved 22 October 2019.

[piryonesi2020-2] Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-06-01). "Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems". Journal of Transportation Engineering, Part B: Pavements. 146 (2): 04020022. doi:10.1061/JPEODX.0000175. S2CID 216485629.

[hastie01-3] Hastie, Trevor. (2001). The elements of statistical learning : data mining, inference, and prediction : with 200 full-color illustrations. Tibshirani, Robert., Friedman, J. H. (Jerome H.). New York: Springer. ISBN 0-387-95284-5. OCLC 46809224.

[aima-4] Russell, Stuart; Norvig, Peter (2003) [1995]. Artificial Intelligence: A Modern Approach (2nd ed.). Prentice Hall. ISBN 978-0137903955.

[idiots-5] Hand, D. J.; Yu, K. (2001). "Idiot's Bayes — not so stupid after all?". International Statistical Review. 69 (3): 385–399. doi:10.2307/1403452. ISSN 0306-7734. JSTOR 1403452.

[6] Zhang, Harry. The Optimality of Naive Bayes (PDF). FLAIRS2004 conference.

[7] Caruana, R.; Niculescu-Mizil, A. (2006). An empirical comparison of supervised learning algorithms. Proc. 23rd International Conference on Machine Learning. CiteSeerX 10.1.1.122.5901.

[8] Narasimha Murty, M.; Susheela Devi, V. (2011). Pattern Recognition: An Algorithmic Approach. ISBN 978-0857294944.

[john95-9] John, George H.; Langley, Pat (1995). Estimating Continuous Distributions in Bayesian Classifiers. Proc. Eleventh Conf. on Uncertainty in Artificial Intelligence. Morgan Kaufmann. pp. 338–345. arXiv:1302.4964.

[mccallum-10] McCallum, Andrew; Nigam, Kamal (1998). A comparison of event models for Naive Bayes text classification (PDF). AAAI-98 workshop on learning for text categorization. Vol. 752.

[11] Metsis, Vangelis; Androutsopoulos, Ion; Paliouras, Georgios (2006). Spam filtering with Naive Bayes—which Naive Bayes?. Third conference on email and anti-spam (CEAS). Vol. 17.

[rennie-12] Rennie, J.; Shih, L.; Teevan, J.; Karger, D. (2003). Tackling the poor assumptions of naive Bayes classifiers (PDF). ICML.

[em-13] Nigam, Kamal; McCallum, Andrew; Thrun, Sebastian; Mitchell, Tom (2000). "Learning to classify text from labeled and unlabeled documents using EM" (PDF). Machine Learning. 39 (2/3): 103–134. doi:10.1023/A:1007692713085. S2CID 686980.

[14] Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Predicting good probabilities with supervised learning (PDF). ICML. doi:10.1145/1102351.1102430. Archived from the original (PDF) on 2014-03-11. Retrieved 2016-04-24.

[rish-15] Rish, Irina (2001). An empirical study of the naive Bayes classifier (PDF). IJCAI Workshop on Empirical Methods in AI.

[pair-16] Ng, Andrew Y.; Jordan, Michael I. (2002). On discriminative vs. generative classifiers: A comparison of logistic regression and naive Bayes. NIPS. Vol. 14.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

Search

Naigive Bayes 분류자

네임스페이스

더

목차

서론

확률론적 모형

확률 모형에서 분류자 구성

모수 추정 및 사건 모델

가우스 네이비 베이즈

다항 순진한 베이즈

베르누이 순진한 베이즈

반감시 파라미터 추정

논의

로지스틱 회귀 분석과의 관계

예

개인구분

트레이닝

테스트

문서구분

「」를 참조해 주세요.

레퍼런스

추가 정보

외부 링크

Search

Naigive Bayes 분류자

서론

확률론적 모형

확률 모형에서 분류자 구성

모수 추정 및 사건 모델

가우스 네이비 베이즈

다항 순진한 베이즈

베르누이 순진한 베이즈

반감시 파라미터 추정

논의

로지스틱 회귀 분석과의 관계

예

개인구분

트레이닝

테스트

문서구분

「 」를 참조해 주세요.

레퍼런스

추가 정보

외부 링크

「」를 참조해 주세요.