그래디언트 부스팅

그래디언트 부스팅은 기능 공간에서 부스팅을 기반으로 하는 기계 학습 기법으로, 대상은 기존 부스팅에 사용되는 일반적인 잔차가 아닌 의사 잔차입니다. 약한 예측 모델, 즉 일반적으로 단순한 의사 결정 트리인 데이터에 대한 가정을 거의 하지 않는 모델의 앙상블 형태로 예측 모델을 제공합니다.^[1]^[2] 의사 결정 트리가 약한 학습자인 경우 결과 알고리즘은 그라디언트 부스트 트리라고 불리며, 일반적으로 랜덤 포레스트보다 성능이 뛰어납니다.^[1]^[2]^[3] 그래디언트 부스트 트리 모델은 다른 부스트 방법과 마찬가지로 단계별 방식으로 구축되지만 임의의 미분 가능한 손실 함수의 최적화를 허용하여 다른 방법을 일반화합니다.

역사

그래디언트 부스팅의 개념은 부스팅이 적절한 비용 함수에 대한 최적화 알고리즘으로 해석될 수 있다는 레오 브레이만의 관찰에서 비롯되었습니다.^[4] 명시적 회귀 기울기 부스팅 알고리즘은 Jerome H. Friedman에 의해 ^[5]^[6]Lleew Mason, Jonathan Baxter, Peter Bartlett 및 Marcus Frean의 보다 일반적인 기능적 기울기 부스팅 관점과 동시에 개발되었습니다.^[7]^[8] 후자의 두 논문에서는 부스팅 알고리즘을 반복적인 함수 기울기 하강 알고리즘으로 보는 관점을 소개했습니다. 즉, 음의 기울기 방향을 가리키는 함수(약한 가설)를 반복적으로 선택하여 함수 공간에 대한 비용 함수를 최적화하는 알고리즘입니다. 부스팅에 대한 이러한 기능적 기울기 관점은 회귀 및 분류를 넘어 머신 러닝 및 통계의 많은 영역에서 부스팅 알고리즘의 개발로 이어졌습니다.

비공식 소개

(이 절은 Cheng Li에 의한 그래디언트 부스팅의 설명을 따릅니다.)^[9]

다른 부스팅 방법과 마찬가지로 그래디언트 부스팅은 약한 "학습자"를 반복적인 방식으로 단일 강력한 학습자로 결합합니다. 최소 제곱 회귀 설정에서 가장 쉽게 설명할 수 있습니다. where the goal is to "teach" a model $F$ to predict values of the form ${\hat {y}}=F(x)$ by minimizing the mean squared error ${\tfrac {1}{n}}\sum _{i}({\hat {y}}_{i}-y_{i})^{2}$ , $i$ 서 i $i$ 인덱스는 $i$ 출력 변수 $y$ $y$ 의 $n$ 실제 값의 크기 $n$ $n$ 의 일부 교육 집합에 대해 다음과 같습니다 $y$

${\hat {y}}_{i}=$ ${\hat {y}}_{i}=$ $= {\displaystyle {\hat$ }=} 예측값 $F(x_{i})$ $F(x_{i})$
$y_{i}=$ i $= {\displaystyle$ }=} 관찰된 값
$n=$ $= {\displaysty$ n=} $y$ 수 y ${\displaystyle$ y $}$

$이제$ M ${\displaystyle$ M $}$ 단계의 $M$ 그래디언트 부스팅 알고리즘을 생각해 보겠습니다. At each stage $m$ ( $1\leq m\leq M$ ) of gradient boosting, suppose some imperfect model $F_{m}$ (for low $m$ , this model may simply return ${\hat {y}}_{i}={\bar {y}}$ , 여기서 RHS는 y $y$ 의 평균입니다. $y$ $F_{m}$ ${\$ 을 $F_{m}$ 를) 개선하려면 알고리즘에 새로운 추정기 $h_{m}(x)$ $h_{m}(x)$ $h_{m}(x)$ 를 추가해야 합니다 $h_{m}(x)$ 따라서,

F_{m+1}(x_{i})=F_{m}(x_{i})+h_{m}(x_{i})=y_{i}

아니면, 동등하게,

h_{m}(x_{i})=y_{i}-F_{m}(x_{i})

(

h_{m}(x_{i})=y_{i}-F_{m}(x_{i})

)

=

y

h_{m}(x_{i})=y_{i}-F_{m}(x_{i})

-

h_{m}(x_{i})=y_{i}-F_{m}(x_{i})

(

h_{m}(x_{i})=y_{i}-F_{m}(x_{i})

{\displaystyle h_{m}(x_

}) =

y_{i}-F_

Therefore, gradient boosting will fit $h_{m}$ to the residual $y_{i}-F_{m}(x_{i})$ . As in other boosting variants, each $F_{m+1}$ attempts to correct the errors of its predecessor $F_{m}$ . 이 아이디어를 제곱 오차 이외의 손실 함수와 분류 및 순위 문제로 일반화하면, 주어진 모델에 대한 $h_{m}(x_{i})$ 잔차 $h_{m}(x_{i})$ ${\displaystyle h_{m}(x_{i})$ 는 평균 제곱 오차(MSE) 손실 함수의 음의 구배에 비례합니다( $F(x_{i})$ $F(x_{i})$ 에 대해). $F(x_{i})$

L_{\rm {MSE}}={\frac {1}{n}}\sum _{i=1}^{n}\left(y_{i}-F(x_{i})\right)^{2}

F

}}={\frac {2}{n}}(y_{i}-F(x_{i}))

={\frac {2}{n}}h_{m}(x_{i})}

.

따라서 그래디언트 부스팅은 그래디언트 하강 알고리즘에 특화될 수 있으며, 이를 일반화하는 것은 다른 손실과 그 그래디언트를 "플러그인"하는 것을 의미합니다.

알고리즘.

많은 지도 학습 문제에는 출력 변수 $y$ 와 입력 변수 $x$ 의 벡터가 있으며, 어느 정도 확률적 분포를 가지고 서로 관련되어 있습니다. 목표는 입력 변수 값에서 출력 변수를 가장 근사화하는 ${\hat {F}}(x)$ ${\hat {F}}(x)$ 함수 F ${\hat {F}}(x)$ ${\hat {F}}(x)$ ${\displaystyle {\hat {F}}(x)$ 를 찾는 것입니다. 이는 손실 함수 $L(y,F(x))$ $L(y,F(x))$ 을(를) 도입하고 $L(y,F(x))$ 예상치를 최소화함으로써 공식화됩니다.

{\hat {F}}={\underset {F}{\arg \min }}\,\mathbb {E} _{x,y}[L(y,F(x))]

{\hat {F}}={\underset {F}{\arg \min }}\,\mathbb {E} _{x,y}[L(y,F(x))]

{\hat {F}}={\underset {F}{\arg \min }}\,\mathbb {E} _{x,y}[L(y,F(x))]

y

{\hat {F}}={\underset {F}{\arg \min }}\,\mathbb {E} _{x,y}[L(y,F(x))]

[

{\hat {F}}={\underset {F}{\arg \min }}\,\mathbb {E} _{x,y}[L(y,F(x))]

{\hat {F}}={\underset {F}{\arg \min }}\,\mathbb {E} _{x,y}[L(y,F(x))]

F

{\hat {F}}={\underset {F}{\arg \min }}\,\mathbb {E} _{x,y}[L(y,F(x))]

(x

))

]

{\displaystyle

{\

{\hat {F}}={\underset {F}{\arg \min }}\,\mathbb {E} _{x,y}[L(y,F(x))]

at {

F}={\underset

{F

}{\arg \min}}\,\mathbbb {E}

_{

x,y

}[L

(

y,F

{\hat {F}}={\underset {F}{\arg \min }}\,\mathbb {E} _{x,y}[L(y,F(x))]

x))]}.

그래디언트 부스팅 방법은 실수 값 $y$ 를 가정합니다. 기본(또는 약한) 학습자라고 ${\mathcal {H}}$ 하는 일부 ${\mathcal {H}}$ H ${\$ 에서 $h_{m}(x)$ M $함수$ h $h_{m}(x)$ $h_{m}(x)$ 의 가중 합 형태의 ${\hat {F}}(x)$ ${\hat {F}}(x)$ F ${\hat {F}}(x)$ ${\displaystyle$ {\ $hat {F}(x)}$ 를 찾습니다.

{\hat {F}}(x)=\sum _{m=1}^{M}\gamma _{m}h_{m}(x)+{\mbox{const}}

{\hat {F}}(x)=\sum _{m=1}^{M}\gamma _{m}h_{m}(x)+{\mbox{const}}

{\hat {F}}(x)=\sum _{m=1}^{M}\gamma _{m}h_{m}(x)+{\mbox{const}}

{\hat {F}}(x)=\sum _{m=1}^{M}\gamma _{m}h_{m}(x)+{\mbox{const}}

=

{\hat {F}}(x)=\sum _{m=1}^{M}\gamma _{m}h_{m}(x)+{\mbox{const}}

{\hat {F}}(x)=\sum _{m=1}^{M}\gamma _{m}h_{m}(x)+{\mbox{const}}

{\hat {F}}(x)=\sum _{m=1}^{M}\gamma _{m}h_{m}(x)+{\mbox{const}}

( x) +

const {\displaystyle

{\hat {

{\hat {F}}(x)=\sum _{m=1}^{M}\gamma _{m}h_{m}(x)+{\mbox{const}}

}(

x)}

=\

um _{m=1}^{M}\gamma

_

{m}h_

{m}(x

)

+

{\hat {F}}(x)=\sum _{m=1}^{M}\gamma _{m}h_{m}(x)+{\mbox{const}}

{\mbox{const}}}.

일반적으로 $알려진$ x의 샘플 값과 $해당$ y의 값의 $\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}$ $\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}$ $\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}$ $\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}$ 1 $\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}$ ( $\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}$ $\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}$ y $\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}$ ${\displaystyle \{(x_{1}),\dots,$ ( $x_{n}, y_{n})\}$ 훈련 세트가 제공됩니다. 경험적 위험 최소화 원칙에 따라 이 방법은 훈련 세트에서 손실 함수의 평균값을 최소화하는 ${\hat {F}}(x)$ 근사 ${\hat {F}}(x)$ ${\hat {F}}(x)$ ${\displaystyle {\hat {F}}(x)$ 를 찾으려고 합니다. 즉, 경험적 위험을 최소화합니다. 상수 함수 $F_{0}(x)$ $F_{0}(x)$ 로 구성된 모델부터 $F_{0}(x)$ 시작하여 그리디 방식으로 점진적으로 확장합니다.

F_{0}(x)={\underset {\gamma }{\arg \min }}{\sum _{i=1}^{n}{L(y_{i},\gamma )}}

F_{0}(x)={\underset {\gamma }{\arg \min }}{\sum _{i=1}^{n}{L(y_{i},\gamma )}}

(

F_{0}(x)={\underset {\gamma }{\arg \min }}{\sum _{i=1}^{n}{L(y_{i},\gamma )}}

F_{0}(x)={\underset {\gamma }{\arg \min }}{\sum _{i=1}^{n}{L(y_{i},\gamma )}}

⁡

γ

∑

F_{0}(x)={\underset {\gamma }{\arg \min }}{\sum _{i=1}^{n}{L(y_{i},\gamma )}}

=

1

L

F_{0}(x)={\underset {\gamma }{\arg \min }}{\sum _{i=1}^{n}{L(y_{i},\gamma )}}

,

γ)

{\displaystyle F_{

F_{0}(x)={\underset {\gamma }{\arg \min }}{\sum _{i=1}^{n}{L(y_{i},\gamma )}}

}(

x)={\unders

amm

F_{0}(x)={\underset {\gamma }{\arg \min }}{\sum _{i=1}^{n}{L(y_{i},\gamma )}}

{\arg

\min}}}{\su

_{i=1}^{n}{L(y_{i)},\gamma )}},

{\displaystyle F_{m}(x)=

F_{m-1}(x)+\left({\underset {h_{m}\in {\mathcal {H}}}{\operatorname {arg\,min} }}\left[{\sum _{i=1}^{n}{L(y_{i},F_{m-1}(x_{i})+h_{m}(x_{i}))

}}\right]\right)(x

$form$ ≥ 1 ${\displaystyle$ m $m\geq 1$ geq 1 $h_{m}\in {\mathcal {H}}$ 서 $hm$ ∈ H ${\displaystyle h_{m}\$ in {\mathcal {H}})은 기본 학습자 함수입니다.

불행히도 임의의 손실 함수 $L$ 에 대해 각 단계에서 $h_{m}$ 최상의 함수 $h_{m}$ ${\$ 를 선택하는 것은 일반적으로 계산적으로 실행할 수 없는 최적화 문제입니다. 따라서 문제의 단순화된 버전으로 접근 방식을 제한합니다.

이 아이디어는 이 최소화 문제(함수 경사 하강)에 가장 가파른 하강 단계를 적용하는 것입니다.

가장 가파른 하강 이면의 기본 아이디어는 $F_{m-1}(x)$ - $F_{m-1}(x)$ $F_{m-1}(x)$ $F_{m-1}(x)$ 에서 반복하여 손실 함수의 로컬 최소값을 찾는 것입니다 $F_{m-1}(x)$ 사실 손실 함수의 로컬 최대 하강 방향은 음의 기울기입니다.^[10]

따라서 선형 근사치가 유효하도록 소량 $\gamma$ γ {\ $displaystyle$ \gamma}을(를) 이동합니다.

$F_{m}(x)=F_{m-1}(x)-\gamma \sum _{i=1}^{n}{\nabla _{F_{m-1}}L(y_{i},F_{m-1}(x_{i}))}$

여기서 $\gamma >0$ γ > 0 ${\displaystyle$ > 0}. 작은 $\gamma$ γ $\gamma$ \gamma }의 경우 $L$ ( $L(y_{i},F_{m}(x_{i}))\leq L(y_{i},F_{m-1}(x_{i}))$ $L(y_{i},F_{m}(x_{i}))\leq L(y_{i},F_{m-1}(x_{i}))$ ( $L(y_{i},F_{m}(x_{i}))\leq L(y_{i},F_{m-1}(x_{i}))$ $L(y_{i},F_{m}(x_{i}))\leq L(y_{i},F_{m-1}(x_{i}))$ $L(y_{i},F_{m}(x_{i}))\leq L(y_{i},F_{m-1}(x_{i}))$ Fm $L(y_{i},F_{m}(x_{i}))\leq L(y_{i},F_{m-1}(x_{i}))$ - 1 ( $xi$ )) ${\displaystyle$ L(y_{i}), $F_{m}(x_{i}))\leq L(y_{i},F_{m-1}(x_{i}))}$ .

도함수의 함수 형태 증명

다음을 증명하려면 목표를 고려해야 합니다.

$O=\sum _{i=1}^{n}{L(y_{i},F_{m-1}(x_{i})+h_{m}(x_{i}))}$

Doing a Taylor expansion around the fixed point $F_{m-1}(x_{i})$ up to first order $O=\sum _{i=1}^{n}{L(y_{i},F_{m-1}(x_{i})+h_{m}(x_{i}))}\approx \sum _{i=1}^{n}{L(y_{i},F_{m-1}(x_{i}))+h_{m}(x_{i})\nabla _{F_{m-1}}L(y_{i},F_{m-1}(x_{i}))}+\ldots$ ${\displaystyle O=\sum _{i=1}^{n}{L(y_{i},F_{m-1}(x_{i})+h_{m}(x_{i}))$ $}\approx \sum _{i=1}^{n}{L(y_{i},F_{m-1}(x_{i}))+h_{m}(x_{i})\n$ $abla _{F_{m-1}}L(y_{i},F_{m-1}(x_{i}))}+\ldots }$

이제 w.r.t를 $h_{m}(x_{i})$ ${\displaystyle h_{m}(x_{i})}($ 으)로 미분하면 $h_{m}(x_{i})$ $\nabla _{F_{m-1}}L(y_{i},F_{m-1}(x_{i}))$ 번째 항의 도함수만 ∇ $\nabla _{F_{m-1}}L(y_{i},F_{m-1}(x_{i}))$ $\nabla _{F_{m-1}}L(y_{i},F_{m-1}(x_{i}))$ $\nabla _{F_{m-1}}L(y_{i},F_{m-1}(x_{i}))$ - $xi))$ ${\displaystyle$ \n $abla _{F_{m-1}}L(y_{i},F_{m-1}(x_{i}))}$ . 이것은 가장 가파른 오르막길의 방향이므로 가장 가파른 내리막길의 방향으로 이동하려면 반대(즉, 음수) 방향으로 이동해야 합니다.

또한 손실 함수가 최소값을 갖는 γ ${\displaystyle$ \gamma} 값을 $\gamma$ $\gamma$ γ ${\displaystyle$ \gamma}를 최적화할 수 있습니다.

$\gamma _{m}={\underset {\gamma }{\arg \min}}{\sum _{i=1}^{n}{L(y_{i}},F_{m}(x_{i})}}={\underset {\gamma }{\arg \min }}{\sum _{i=1}^{n}{L\left(y_{i},F_{m-1}(x_{i})-\gamma \nabla _{F_{m-1}}L(y_{i},F_{m-1}(x_{i}))\right)}}.$

연속적인 경우, 즉 $\mathbb {R}$ ${\$ 가 ${\mathcal {H}}$ R ${\$ 의 임의의 미분 가능 함수 집합인 경우 $\mathbb {R}$ 다음 방정식에 따라 모델을 업데이트할 것입니다.

F_{m}(x)=F_{m-1}(x)-\gamma _{m}\sum _{i=1}^{n}{\nabla _{F_{m-1}}L(y_{i},F_{m-1}(x_{i}))}

여기서 $\gamma _{m}$ γ m ${\displaystyle \$ gamma _{m}는 다음과 같이 정의된 단계 길이입니다.

\gamma _{m}={\underset {\gamma }{\arg \min}}{\sum _{i=1}^{n}{L\left(y_{i},F_{m-1}(x_{i})-\gamma \nabla _{F_{m-1}}L(y_{i},F_{m-1}(x_{i}))\right)}}.

그러나 이산의 경우, 즉

{\mathcal {H}}

H

{\mathcal {H}

가 유한한 경우 위의 방정식에 대한 선 검색을 통해

계수

γ을 계산할 수 있는

L

의 기울기에 가장 가까운 후보 함수

h

를 선택합니다. 이 접근 방식은 휴리스틱이므로 주어진 문제에 대한 정확한 해결책을 산출하는 것이 아니라 근사치를 산출합니다. 의사 코드에서 일반적인 그래디언트 부스팅 방법은 다음과 같습니다.^[5]^[2]

입력: 교육 세트 $\{(x_{i},y_{i})\}_{i=1}^{n},$ { $\{(x_{i},y_{i})\}_{i=1}^{n},$ ( $\{(x_{i},y_{i})\}_{i=1}^{n},$ $\{(x_{i},y_{i})\}_{i=1}^{n},$ $\{(x_{i},y_{i})\}_{i=1}^{n},$ = $\{(x_{i},y_{i})\}_{i=1}^{n},$ ${\displaystyle \{(x_{i}, y_{i})$ $\}_{i=1}^{n}},$ 미분 가능한 손실 $L(y,F(x)),$ L $L(y,F(x)),$ $L(y,F(x)),$ ${\displaystyle$ L $(y,$ F $(x)),$ 반복 $횟수$ M.

알고리즘:

일정한 값으로 모형 초기화:
$F_{0}(x)={\underset {\gamma }{\arg \min}}\sum _{i=1}^{n}L(y_{i},\gamma)$
For $m$ = 1 to $M$ :
1. 소위 의사 잔차 계산:
  $r_{im}=-\left[{\frac {\partial L(y_{i}),F(x_{i})}{\partial F(x_{i})}}\right]_{F(x)=F_{m-1}(x)}\quad {\mbox{for }}i=1,\ldots ,n.$
2. 스케일링 $h_{m}(x)$ ( $h_{m}(x)$ ${\displaystyle h_{m}(x)}($ x)}에서 닫힌 기본 학습자(또는 약한 학습자)를 의사 residuals에 맞춥니다. 즉, 훈련 세트 $\{(x_{i},r_{im})\}_{i=1}^{n}$ $\{(x_{i},r_{im})\}_{i=1}^{n}$ $\{(x_{i},r_{im})\}_{i=1}^{n}$ = $\{(x_{i},r_{im})\}_{i=1}^{n}$ ${\displaystyle \{(x_{i}, r_{im})}\$ $\{(x_{i},r_{im})\}_{i=1}^{n}$ _ ${i=1}^{n}}.$
3. 다음 1차원 최적화 문제를 해결하여 승수 $\gamma _{m}$ γ m ${\displaystyle \gamma$ _{m}를 계산합니다.
  $\gamma _{m}={\underset {\gamma }{\operatorname {arg\,min}}}\sum _{i=1}^{n}L\left(y_{i},F_{m-1}(x_{i})+\gamma h_{m}(x_{i})(x_{i})\right)$
4. 모델 업데이트:
  $F_{m}(x)=F_{m-1}(x)+\gamma _{m}h_{m}(x).$
출력 $F_{M}(x).$ $F_{M}(x).$ ) $F_{M}(x).$ . $F_{M}(x)$

그래디언트 트리 부스팅

그라디언트 부스팅은 일반적으로 기본 학습자로서 고정된 크기의 의사 결정 트리(특히 CART)와 함께 사용됩니다. 이 특별한 경우에 프리드먼은 각 기본 학습자의 적합성 품질을 향상시키는 그래디언트 부스팅 방법에 대한 수정을 제안합니다.

m번째 단계에서 일반 그라디언트 부스팅은 의사 잔차에 $h_{m}(x)$ 의사 결정 트리 $h_{m}(x)$ $h_{m}(x)$ 을(를) 적합시킵니다. $J_{m}$ ${\$ 를 $J_{m}$ 잎의 개수라고 합니다. 트리는 입력 공간을 $J_{m}$ ${\$ 개의 $J_{m}$ 서로 분리된 영역 R $R_{1m},\ldots ,R_{J_{m}m}$ $R_{1m},\ldots ,R_{J_{m}m}$ ${\$ 개로 분할하고 $R_{1m},\ldots ,R_{J_{m}m}$ 각 영역에서 일정한 값을 예측합니다. 지시자 표기법을 사용하여 입력 x에 대한 $h_{m}(x)$ $h_{m}(x)$ $h_{m}(x)$ $h_{m}(x)$ $h_{m}(x)$ 의 출력을 합으로 쓸 수 있습니다.

h_{m}(x)=\sum _{j=1}^{J_{m}}b_{jm}\mathbf {1} _{R_{jm}}(x),

$b_{jm}$ 서 $b_{jm}$ ${\$ 는 $b_{jm}$ $R_{jm}$ ${\$ 영역에서 예측된 값입니다 $R_{jm}$ ^[11]

그런 다음 계수 b $b_{jm}$ $b_{jm}$ $b_{jm}$ 에 일부 값 $\gamma _{m}$ γ m ${\displaystyle \gamma$ _{m}}을 곱하여 손실 함수를 최소화하도록 선 검색을 사용하여 선택하고 모델이 다음과 같이 업데이트됩니다.

F_{m}(x)=F_{m-1}(x)+\gamma _{m}h_{m}(x),\quad \gamma _{m}={\underset {\gamma }{\operatorname {arg\,min} }}\sum _{i=1}^{n}L(y_{i},F_{m-1}(x_{i})+\gamma h_{m}(x_{i})).

프리드먼은 이 알고리즘을 수정하여 전체 트리에 대한 $\gamma _{m}$ γ m ${\displaystyle$ $\$ gamma _{m} 대신 트리의 각 영역에 대해 별도의 최적 값 $\gamma _{jm}$ γ j ${\displaystyle \gamma$ _{jm}를 선택하도록 제안합니다. 그는 수정된 알고리즘을 "트리부스트"라고 부릅니다. 트리 피팅 절차의 $b_{jm}$ 계수 $b_{jm}$ $b_{jm}$ ${\$ 은(는) 간단히 폐기할 수 있으며 모델 업데이트 규칙은 다음과 같습니다.

F_{m}(x)=F_{m-1}(x)+\sum _{j=1}^{J_{m}}\gamma _{jm}\mathbf {1} _{R_{jm}}(x),\quad \gamma _{jm}={\underset {\gamma }{\operatorname {arg\,min} }}\sum _{x_{i}\in R_{jm}}L(y_{i},F_{m-1}(x_{i})+\gamma ).

나무의 크기

트리의 터미널 노드 수인 $J$ ${\displaystyle$ J $}$ 는 당면한 데이터 세트에 대해 조정할 수 있는 메서드의 매개 변수입니다. 모형 내 변수 간의 최대 허용 교호작용 수준을 제어합니다. $J=2$ = $J=2$ ${\displaystyle$ J= $2}($ decision 스텀프)에서는 변수 간의 상호 작용이 허용되지 않습니다. $J=3$ = 3 ${\displaystyle$ J= $3}$ 인 경우 모델에는 최대 두 변수 간의 교호작용 효과 등이 포함될 수 있습니다.

Hastie 등은 일반적으로 $4\leq J\leq 8$ $4\leq J\leq 8$ J $4\leq J\leq 8$ $4\leq J\leq 8$ ${\displaystyle 4\leq$ J $\leq 8}$ 이(가) 부스팅에 잘 작동하고 결과는 이 범위의 $J$ $J$ 선택에 상당히 둔감하며, $J=2$ = 2 ${\displaystyle$ J= $2}$ 은(는) 많은 응용 프로그램에 불충분하며, $J>10$ > $J>10$ $J>10$ 은(는) 필요하지 않을 것이라고 말합니다.

스플라인을 사용한 그라데이션 부스팅

기본 학습자로 스플라인을 사용하는 것은 그라디언트 부스팅 기술에서 자주 고려되어 왔으며, 이를 통해 복잡한 데이터 패턴을 보다 유연하고 정확하게 모델링할 수 있습니다. 이 접근 방식은 스플라인의 수학적 특성을 활용하여 특히 데이터의 비선형 관계를 처리할 때 그래디언트 부스팅 모델의 적응력과 효율성을 향상시킵니다. 예를 들어, 성분별 입방 평활화 스플라인은 특히 고차원 특성의 예측 변수를 다룰 때 '실용적이고 효율적인' 절차로 제안되었습니다.^[12] 예측 변수의 P-스플라인 함수도 고려되었습니다. 후자는 평활 스플라인과 유사한 예측 오류를 생성하지만 계산 측면에서는 더 유리합니다.^[13]

스플라인을 이용한 그래디언트 부스팅의 또 다른 구현은 기하학적으로 설계된 스플라인을 이용한 기능적 그래디언트 부스팅(FGB-GeDS)입니다.^[14] 이는 기본 학습자로서^[15] 일반 기하학적 설계(GeD) 스플라인을 사용하여 구성 요소별 그라디언트 부스팅을^[12]^[13] 적용합니다. GeDS는 조각별 선형 스플라인 적합성을 생성하는 로컬 적응형 매듭 삽입 체계를 기반으로 하는 자유 매듭 스플라인 회귀 방법으로, 이후 더 부드러운 고차 스플라인 적합성이 구축됩니다. 이러한 유형의 스플라인은 최소 매개변수(즉, 매듭 및 회귀 계수)를 사용하여 단순하고 복잡한 회귀 함수를 모두 정확하게 맞추는 효율성이 특징입니다. FGB-GeDS 기법은 GeDS 방법론을 강화하고 경쟁적인 그래디언트 부스팅 구현을 도입하여 정밀도와 간결성을 특징으로 하는 선형, 2차 및 3차 스플라인 피팅을 동시에 제공합니다.

정규화

훈련 세트를 너무 가깝게 맞추면 모델의 일반화 능력이 저하될 수 있습니다. 여러 소위 정규화 기법은 피팅 절차를 제한함으로써 이러한 과적합 효과를 감소시킵니다.

한 가지 자연스러운 정규화 매개변수는 그라디언트 부스팅 반복 횟수 M(즉, 기본 학습자가 의사 결정 트리일 때 모델의 트리 수)입니다. M을 높이면 훈련 세트의 오차가 줄어들지만 너무 높게 설정하면 과적합이 발생할 수 있습니다. M의 최적 값은 종종 별도의 유효성 검사 데이터 세트에 대한 예측 오류를 모니터링하여 선택됩니다. M을 제어하는 것 외에도 몇 가지 다른 정규화 기법이 사용됩니다.

또 다른 정규화 매개변수는 나무의 깊이입니다. 이 값이 높을수록 모형이 훈련 데이터를 과대 적합할 가능성이 높습니다.

수축

그래디언트 부스팅 방법의 중요한 부분은 축소에 의한 정규화이며, 이는 업데이트 규칙을 다음과 같이 수정하는 것으로 구성됩니다.

F_{m}(x)=F_{m-1}(x)+\nu \cdot \gamma _{m}h_{m}(x),\quad 0<\nu \leq 1,

여기서 매개 변수 $\nu$ ν ${\displaystyle$ \n $u}$ 을 $\nu$ (를) "학습률"이라고 합니다.

경험적으로 작은 학습률(예: $\nu <0.1$ ν $<$ 0.1 ${\displaystyle$ \n)을 사용하는 것으로 밝혀졌습니다. $u <0.1$ 는 축소 없이 그라디언트 부스팅에 비해 모델의 일반화 능력을 극적으로 향상시킵니다( $ν =$ 1 ${\displaystyle$ \n). $u =$ 1 $}).$ 그러나 학습 속도를 낮추면 더 많은 반복이 필요하기 때문에 학습 및 쿼리 중 계산 시간이 증가하는 대가를 치르게 됩니다.

확률적 구배 부스팅

그래디언트 부스팅이 도입된 직후 프리드먼은 브레이먼의 부트스트랩 집계("배깅") 방법에 동기를 부여하여 알고리즘에 약간의 수정을 제안했습니다.^[6] 구체적으로, 그는 알고리즘의 각 반복에서 기본 학습자가 교체 없이 무작위로 그려진 훈련 세트의 하위 샘플에 맞아야 한다고 제안했습니다.^[17] 프리드먼은 이 수정을 통해 그래디언트 부스팅의 정확도가 크게 향상되는 것을 관찰했습니다.

부분 샘플 크기는 훈련 세트 크기의 $f$ 일정한 $분수$ f ${\displaystyle$ f $}$ 입니다. $f=1$ = $f=1$ ${\displaystyle$ f= $1}$ 인 $f=1$ 경우 알고리즘은 위에서 설명한 것과 동일하고 결정론적입니다. $f$ $f$ 값이 작으면 알고리즘에 무작위성이 도입되고 $f$ 과적합을 방지하여 일종의 정규화 역할을 합니다. 또한 회귀 트리는 각 반복에서 더 작은 데이터 세트에 맞게 조정되어야 하기 때문에 알고리즘이 더 빨라집니다. 프리드먼은^[6] $0.5\leq f\leq 0.8$ $0.5\leq f\leq 0.8$ $0.5\leq f\leq 0.8$ $0.5\leq f\leq 0.8$ 0 $0.5\leq f\leq 0.8$ ${\displaystyle$ 0 $.5\leq$ f $\leq 0.8}$ 이 $0.5\leq f\leq 0.8$ 작고 중간 크기의 훈련 세트에 대해 좋은 결과를 가져온다는 것을 얻었습니다. 따라서 $f$ $f$ 는 일반적으로 0.5로 설정되며 $f$ , 이는 훈련 세트의 절반이 각 기본 학습자를 구축하는 데 사용된다는 것을 의미합니다.

또한 백깅과 마찬가지로 서브샘플링을 사용하면 다음 기본 학습자의 구축에 사용되지 않은 관찰에 대한 예측을 평가하여 예측 성능 향상의 아웃백 오류를 정의할 수 있습니다. 아웃오브백 추정치는 독립적인 검증 데이터 세트의 필요성을 방지하는 데 도움이 되지만 실제 성능 향상과 최적의 반복 횟수를 과소평가하는 경우가 많습니다.^[18]^[19]

잎의 관측치 수

그래디언트 트리 부스팅 구현은 종종 트리의 터미널 노드에서 최소 관측치 수를 제한하여 정규화를 사용합니다. 이 수보다 적은 수의 훈련 집합 인스턴스를 포함하는 노드로 이어지는 모든 분할을 무시하여 트리 구축 프로세스에 사용됩니다.

이 한계를 적용하면 잎에서 예측의 분산을 줄이는 데 도움이 됩니다.

트리의 복잡성을 벌점화합니다.

그래디언트 부스트 트리에 대한 또 다른 유용한 정규화 기술은 학습된 모델의 모델 복잡성에 불이익을 주는 것입니다.^[20] 모델 복잡성은 학습된 트리의 잎의 비율로 정의할 수 있습니다. 손실과 모델 복잡성의 공동 최적화는 임계값만큼 손실을 줄이지 못하는 분기를 제거하는 사후 가지치기 알고리즘에 해당합니다. 리프 값에 대한 $\ell _{2}$ ℓ 2 ${\displaystyle \ell$ _{2}} 페널티와 같은 다른 종류의 정규화도 과적합을 방지하기 위해 추가할 수 있습니다.

사용.

그래디언트 부스팅은 순위 정하기 학습 분야에서 사용할 수 있습니다. 상용 웹 검색 엔진 야후와^[21] 얀덱스는^[22] 기계 학습 순위 엔진에 그래디언트 부스팅의 변형을 사용합니다. 그래디언트 부스팅은 고에너지 물리학에서도 데이터 분석에 활용됩니다. 대형 강입자 충돌기(LHC)에서 그래디언트 부스팅 심층 신경망(DNN)의 변형은 힉스 보손을 발견하는 데 사용된 데이터 세트에 대한 비기계 학습 방법 분석 결과를 재현하는 데 성공했습니다.^[23] 그래디언트 부스팅 결정 트리는 토양 및 지질 연구에도 적용되었습니다. 예를 들어 사암 저장소의 품질 평가.^[24]

이름

방법은 다양한 이름으로 진행됩니다. 프리드먼은 자신의 회귀 기법을 "GBM" (Gradient Boosting Machine)이라고 소개했습니다.^[5] 메이슨, 백스터 등은 알고리즘의 일반화된 추상적 클래스를 "기능적 그라디언트 부스팅"이라고 설명했습니다.^[7]^[8] Friedman 등은 그래디언트 부스트 모델의 발전을 MART(^[25]Multiple Additive Regression Tree)로 설명하고 Elith 등은 이러한 접근 방식을 BRT(Boosted Regression Tree)로 설명합니다.^[26]

R에 대한 인기 있는 오픈 소스 구현은 "일반화된 부스팅 모델"이라고 부르지만,^[18] 이 작업을 확장하는 패키지는 BRT를 사용합니다.^[27] 또 다른 이름은 나무 기반 방법의 사용을 개척한 연구자 중 한 명인 Salford System의 Dan Steinberg가 초기 상업적으로 구현한 후 트리넷(TreeNet)입니다.^[28]

단점들

부스팅은 의사 결정 트리나 선형 회귀와 같은 기본 학습자의 정확도를 높일 수 있지만, 명료성과 해석 가능성을 희생시킵니다.^[1]^[29] 예를 들어, 의사결정 나무가 결정을 내리기 위해 가는 길을 따라가는 것은 사소하고 스스로 설명하는 것이지만, 수백, 수천 그루의 나무가 가는 길을 따라가는 것은 훨씬 더 어렵습니다. 성능과 해석 가능성을 모두 달성하기 위해 일부 모델 압축 기술을 사용하면 XGBoost를 동일한 의사 결정 함수에 근사하는 단일 "본 어게인" 의사 결정 트리로 변환할 수 있습니다.^[30] 또한 계산 수요가 더 높기 때문에 구현이 더 어려울 수 있습니다.

참고 항목

참고문헌

^ ^a ^b ^c Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. ISSN 1943-555X. S2CID 213782055.
^ ^a ^b ^c ^d ^e Hastie, T.; Tibshirani, R.; Friedman, J. H. (2009). "10. Boosting and Additive Trees". The Elements of Statistical Learning (2nd ed.). New York: Springer. pp. 337–384. ISBN 978-0-387-84857-0. Archived from the original on 2009-11-10.
^ Piryonesi, S. Madeh; El-Diraby, Tamer E. (2021-02-01). "Using Machine Learning to Examine Impact of Type of Performance Indicator on Flexible Pavement Deterioration Modeling". Journal of Infrastructure Systems. 27 (2): 04021005. doi:10.1061/(ASCE)IS.1943-555X.0000602. ISSN 1076-0342. S2CID 233550030.
^ Breiman, L. (June 1997). "Arcing The Edge" (PDF). Technical Report 486. Statistics Department, University of California, Berkeley.
^ ^a ^b ^c Friedman, J. H. (February 1999). "Greedy Function Approximation: A Gradient Boosting Machine" (PDF).
^ ^a ^b ^c Friedman, J. H. (March 1999). "Stochastic Gradient Boosting" (PDF).
^ ^a ^b Mason, L.; Baxter, J.; Bartlett, P. L.; Frean, Marcus (1999). "Boosting Algorithms as Gradient Descent" (PDF). In S.A. Solla and T.K. Leen and K. Müller (ed.). Advances in Neural Information Processing Systems 12. MIT Press. pp. 512–518.
^ ^a ^b Mason, L.; Baxter, J.; Bartlett, P. L.; Frean, Marcus (May 1999). "Boosting Algorithms as Gradient Descent in Function Space" (PDF). Archived from the original (PDF) on 2018-12-22.
^ Cheng Li. "A Gentle Introduction to Gradient Boosting" (PDF).
^ Lambers, Jim (2011–2012). "The Method of Steepest Descent" (PDF).
^ 참고: 일반적인 CART 트리의 경우 최소 제곱 손실을 사용하여 트리를 적합시키므로 $R_{jm}$ ${\$ 영역에 대한 $b_{jm}$ 계수 $b_{jm}$ ${\$ displaystyle $B_{jm}$ 는 $R_{jm}$ $R_{jm}$ ${\$ 의 모든 교육 인스턴스에서 평균을 낸 출력 변수 값과 같습니다 $R_{jm}$
^ ^a ^b Bühlmann, Peter; Yu, Bin (2003). "Boosting With the L2 Loss". Journal of the American Statistical Association. 98 (462). Taylor & Francis: 324–339. doi:10.1198/016214503000125.
^ ^a ^b Bühlmann, Peter; Hothorn, Torsten (2007). "Boosting Algorithms: Regularization, Prediction and Model Fitting". Statistical Science. 22 (4). Institute of Mathematical Statistics: 477–505. doi:10.1214/07-STS242.
^ Dimitrova, Dimitrina S.; Guillen, Emilio S.; Kaishev, Vladimir K.; Lattuada, Andrea; Verrall, Richard J. (2024). GeDS: Geometrically Designed Spline Regression. {{cite book}}: 알 수 없는 파라미터 note= 무시됨(도움말)
^ Kaishev, Vladimir K.; Dimitrova, Dimitrina S.; Haberman, Steven; Verrall, Richard J. (2016). "Geometrically designed, variable knot regression splines". Computational Statistics. 31 (3): 1079–1105. doi:10.1007/s00180-015-0621-7.
^ Dimitrova, D. S.; Kaishev, V. K.; Lattuada, A.; Verrall, R. J. (January 2023). "Geometrically designed variable knot splines in generalized (non-)linear models". Applied Mathematics and Computation. 436. Elsvier. doi:10.1016/j.amc.2022.127493.
^ 이는 교육 세트와 동일한 크기의 샘플을 사용하기 때문에 교체하여 샘플링하는 배깅과는 다릅니다.
^ ^a ^b 리지웨이, 그렉 (2007). 일반화된 부스트 모델: gbm 패키지에 대한 가이드입니다.
^ 더 나은 예측을 위한 그래디언트 부스팅 알고리즘 학습(R 내 코드 포함)
^ 톈치 첸. 부스트 트리 소개
^ Cossock, David and Zhang, Tong (2008). Bayes Optimal Subset Ranking Archived 2010-08-07, Wayback Machine에서 통계 분석 14페이지
^ 새로운 순위 모델 "Snezhinsk"에 대한 Yandex 기업 블로그 항목 Wayback Machine에서 아카이브된 2012-03-01(러시아어)
^ Lalchand, Vidhi (2020). "Extracting more from boosted decision trees: A high energy physics case study". arXiv:2001.06033 [stat.ML].
^ Ma, Longfei; Xiao, Hanmin; Tao, Jingwei; Zheng, Taiyi; Zhang, Haiqin (1 January 2022). "An intelligent approach for reservoir quality evaluation in tight sandstone reservoir using gradient boosting decision tree algorithm". Open Geosciences. 14 (1): 629–645. Bibcode:2022OGeo...14..354M. doi:10.1515/geo-2022-0354. ISSN 2391-5447.
^ Friedman, Jerome (2003). "Multiple Additive Regression Trees with Application in Epidemiology". Statistics in Medicine. 22 (9): 1365–1381. doi:10.1002/sim.1501. PMID 12704603. S2CID 41965832.
^ Elith, Jane (2008). "A working guide to boosted regression trees". Journal of Animal Ecology. 77 (4): 802–813. Bibcode:2008JAnEc..77..802E. doi:10.1111/j.1365-2656.2008.01390.x. PMID 18397250.
^ Elith, Jane. "Boosted Regression Trees for ecological modeling" (PDF). CRAN. Retrieved 31 August 2018.
^ "Exclusive: Interview with Dan Steinberg, President of Salford Systems, Data Mining Pioneer".
^ Wu, Xindong; Kumar, Vipin; Ross Quinlan, J.; Ghosh, Joydeep; Yang, Qiang; Motoda, Hiroshi; McLachlan, Geoffrey J.; Ng, Angus; Liu, Bing; Yu, Philip S.; Zhou, Zhi-Hua (2008-01-01). "Top 10 algorithms in data mining". Knowledge and Information Systems. 14 (1): 1–37. doi:10.1007/s10115-007-0114-2. hdl:10983/15329. ISSN 0219-3116. S2CID 2367747.
^ Sagi, Omer; Rokach, Lior (2021). "Approximating XGBoost with an interpretable decision tree". Information Sciences. 572 (2021): 522–542. doi:10.1016/j.ins.2021.05.055.

추가읽기

Boehmke, Bradley; Greenwell, Brandon (2019). "Gradient Boosting". Hands-On Machine Learning with R. Chapman & Hall. pp. 221–245. ISBN 978-1-138-49568-5.

외부 링크

[:1-1] Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. ISSN 1943-555X. S2CID 213782055.

[hastie-2] Hastie, T.; Tibshirani, R.; Friedman, J. H. (2009). "10. Boosting and Additive Trees". The Elements of Statistical Learning (2nd ed.). New York: Springer. pp. 337–384. ISBN 978-0-387-84857-0. Archived from the original on 2009-11-10.

[:0-3] Piryonesi, S. Madeh; El-Diraby, Tamer E. (2021-02-01). "Using Machine Learning to Examine Impact of Type of Performance Indicator on Flexible Pavement Deterioration Modeling". Journal of Infrastructure Systems. 27 (2): 04021005. doi:10.1061/(ASCE)IS.1943-555X.0000602. ISSN 1076-0342. S2CID 233550030.

[Breiman1997-4] Breiman, L. (June 1997). "Arcing The Edge" (PDF). Technical Report 486. Statistics Department, University of California, Berkeley.

[Friedman1999a-5] Friedman, J. H. (February 1999). "Greedy Function Approximation: A Gradient Boosting Machine" (PDF).

[Friedman1999b-6] Friedman, J. H. (March 1999). "Stochastic Gradient Boosting" (PDF).

[MasonBaxterBartlettFrean1999a-7] Mason, L.; Baxter, J.; Bartlett, P. L.; Frean, Marcus (1999). "Boosting Algorithms as Gradient Descent" (PDF). In S.A. Solla and T.K. Leen and K. Müller (ed.). Advances in Neural Information Processing Systems 12. MIT Press. pp. 512–518.

[MasonBaxterBartlettFrean1999b-8] Mason, L.; Baxter, J.; Bartlett, P. L.; Frean, Marcus (May 1999). "Boosting Algorithms as Gradient Descent in Function Space" (PDF). Archived from the original (PDF) on 2018-12-22.

[9] Cheng Li. "A Gentle Introduction to Gradient Boosting" (PDF).

[10] Lambers, Jim (2011–2012). "The Method of Steepest Descent" (PDF).

[11] 참고: 일반적인 CART 트리의 경우 최소 제곱 손실을 사용하여 트리를 적합시키므로 $R_{jm}$ ${\$ 영역에 대한 $b_{jm}$ 계수 $b_{jm}$ ${\$ displaystyle $B_{jm}$ 는 $R_{jm}$ $R_{jm}$ ${\$ 의 모든 교육 인스턴스에서 평균을 낸 출력 변수 값과 같습니다 $R_{jm}$

[BuhlmannYu2003-12] Bühlmann, Peter; Yu, Bin (2003). "Boosting With the L2 Loss". Journal of the American Statistical Association. 98 (462). Taylor & Francis: 324–339. doi:10.1198/016214503000125.

[BuhlmannHothorn2007-13] Bühlmann, Peter; Hothorn, Torsten (2007). "Boosting Algorithms: Regularization, Prediction and Model Fitting". Statistical Science. 22 (4). Institute of Mathematical Statistics: 477–505. doi:10.1214/07-STS242.

[GeDS2024-14] Dimitrova, Dimitrina S.; Guillen, Emilio S.; Kaishev, Vladimir K.; Lattuada, Andrea; Verrall, Richard J. (2024). GeDS: Geometrically Designed Spline Regression. {{cite book}}: 알 수 없는 파라미터 note= 무시됨(도움말)

[KaishevEtAl2016-15] Kaishev, Vladimir K.; Dimitrova, Dimitrina S.; Haberman, Steven; Verrall, Richard J. (2016). "Geometrically designed, variable knot regression splines". Computational Statistics. 31 (3): 1079–1105. doi:10.1007/s00180-015-0621-7.

[DimitrovaEtAl2023-16] Dimitrova, D. S.; Kaishev, V. K.; Lattuada, A.; Verrall, R. J. (January 2023). "Geometrically designed variable knot splines in generalized (non-)linear models". Applied Mathematics and Computation. 436. Elsvier. doi:10.1016/j.amc.2022.127493.

[17] 이는 교육 세트와 동일한 크기의 샘플을 사용하기 때문에 교체하여 샘플링하는 배깅과는 다릅니다.

[gbm-vignette-18] 리지웨이, 그렉 (2007). 일반화된 부스트 모델: gbm 패키지에 대한 가이드입니다.

[19] 더 나은 예측을 위한 그래디언트 부스팅 알고리즘 학습(R 내 코드 포함)

[20] 톈치 첸. 부스트 트리 소개

[21] Cossock, David and Zhang, Tong (2008). Bayes Optimal Subset Ranking Archived 2010-08-07, Wayback Machine에서 통계 분석 14페이지

[snezhinsk-22] 새로운 순위 모델 "Snezhinsk"에 대한 Yandex 기업 블로그 항목 Wayback Machine에서 아카이브된 2012-03-01(러시아어)

[23] Lalchand, Vidhi (2020). "Extracting more from boosted decision trees: A high energy physics case study". arXiv:2001.06033 [stat.ML].

[24] Ma, Longfei; Xiao, Hanmin; Tao, Jingwei; Zheng, Taiyi; Zhang, Haiqin (1 January 2022). "An intelligent approach for reservoir quality evaluation in tight sandstone reservoir using gradient boosting decision tree algorithm". Open Geosciences. 14 (1): 629–645. Bibcode:2022OGeo...14..354M. doi:10.1515/geo-2022-0354. ISSN 2391-5447.

[25] Friedman, Jerome (2003). "Multiple Additive Regression Trees with Application in Epidemiology". Statistics in Medicine. 22 (9): 1365–1381. doi:10.1002/sim.1501. PMID 12704603. S2CID 41965832.

[26] Elith, Jane (2008). "A working guide to boosted regression trees". Journal of Animal Ecology. 77 (4): 802–813. Bibcode:2008JAnEc..77..802E. doi:10.1111/j.1365-2656.2008.01390.x. PMID 18397250.

[27] Elith, Jane. "Boosted Regression Trees for ecological modeling" (PDF). CRAN. Retrieved 31 August 2018.

[28] "Exclusive: Interview with Dan Steinberg, President of Salford Systems, Data Mining Pioneer".

[29] Wu, Xindong; Kumar, Vipin; Ross Quinlan, J.; Ghosh, Joydeep; Yang, Qiang; Motoda, Hiroshi; McLachlan, Geoffrey J.; Ng, Angus; Liu, Bing; Yu, Philip S.; Zhou, Zhi-Hua (2008-01-01). "Top 10 algorithms in data mining". Knowledge and Information Systems. 14 (1): 1–37. doi:10.1007/s10115-007-0114-2. hdl:10983/15329. ISSN 0219-3116. S2CID 2367747.

[30] Sagi, Omer; Rokach, Lior (2021). "Approximating XGBoost with an interpretable decision tree". Information Sciences. 572 (2021): 522–542. doi:10.1016/j.ins.2021.05.055.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

Search