활성화 기능

로지스틱 활성화 함수

인공신경망에서 노드의 활성화 함수는 입력 또는 입력 세트가 주어진 노드의 출력을 정의한다.표준 집적회로는 입력에 따라 "ON"(1) 또는 "OFF"(0)가 될 수 있는 활성화 기능의 디지털 네트워크로 볼 수 있습니다.이것은 뉴럴 네트워크의 선형 퍼셉트론과 유사합니다.그러나 비선형 활성화 함수만이 이러한 네트워크가 소수의 노드만을 사용하여 중요하지 않은 문제를 계산할 수 있도록 하며, 이러한 활성화 함수를 ^[1]비선형성이라고 한다.

활성화 기능 분류

가장 일반적인 활성화 기능은 리지 기능, 방사형 기능 및 폴드 기능 등 세 가지 범주로 나눌 수 있습니다.

활성화 $함수$ f {\ $displaystyle$ $\lim _{|v|\to \infty }|\nabla f(v)|=0$ f $}$ 는 $f$ $\lim _{|v|\to \infty }|\nabla f(v)|=0$ $\lim _{|v|\to \infty }|\nabla f(v)|=0$ v $\lim _{|v|\to \infty }|\nabla f(v)|=0$ $\lim _{|v|\to \infty }|\nabla f(v)|=0$ $\lim _{|v|\to \infty }|\nabla f(v)|=0$ ( $\lim _{|v|\to \infty }|\nabla f(v)|=0$ $\lim _{|v|\to \infty }|\nabla f(v)|=0$ v ) $=$ 0 { \ $displaystyle$ \ $lim$ _ { $v \to$ \infty $}$ \ $sla$ f $(v)$ = $0$ 의 포화 상태에 있습니다.포화 상태가 아니라면 그것은 비포화이다.ReLU와 같은 비포화 활성화 기능은 소멸 ^[2]구배를 겪지 않기 때문에 포화 활성화 기능보다 나을 수 있습니다.

리지 활성화 기능

능선 함수는 입력 변수의 선형 조합에 작용하는 다변량 함수입니다.자주 사용되는 예는 다음과 같습니다.

$\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$ 활성화: $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$ ( $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$ ) $=$ + $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$ b ${\displaystyle$ \ $phi$ (\ $mathbf$ { $v}$ )= $a+\mathbf {v} '\mathbf {b}$ ,
ReLU $\phi (\mathbf {v} )=\max(0,a+\mathbf {v} '\mathbf {b} )$ : $\phi (\mathbf {v} )=\max(0,a+\mathbf {v} '\mathbf {b} )$ ( v ) $\phi (\mathbf {v} )=\max(0,a+\mathbf {v} '\mathbf {b} )$ = $\phi (\mathbf {v} )=\max(0,a+\mathbf {v} '\mathbf {b} )$ ( $\phi (\mathbf {v} )=\max(0,a+\mathbf {v} '\mathbf {b} )$ , $\phi (\mathbf {v} )=\max(0,a+\mathbf {v} '\mathbf {b} )$ + v $\phi (\mathbf {v} )=\max(0,a+\mathbf {v} '\mathbf {b} )$ b ) { $displaystyle \phi$ ( \ $mathbf { v$ } ) $=$ \ $max$ ( $0$ , $a$ + \ $mathbf$ { $v }$ ' \ $mathbf$ { $b }$ ) ,
중량값 $\phi (\mathbf {v} )=1_{a+\mathbf {v} '\mathbf {b} >0}$ : $\phi (\mathbf {v} )=1_{a+\mathbf {v} '\mathbf {b} >0}$ ( $\phi (\mathbf {v} )=1_{a+\mathbf {v} '\mathbf {b} >0}$ ) $\phi (\mathbf {v} )=1_{a+\mathbf {v} '\mathbf {b} >0}$ $\phi (\mathbf {v} )=1_{a+\mathbf {v} '\mathbf {b} >0}$ a + $\phi (\mathbf {v} )=1_{a+\mathbf {v} '\mathbf {b} >0}$ b $\phi (\mathbf {v} )=1_{a+\mathbf {v} '\mathbf {b} >0}$ > $\phi (\mathbf {v} )=1_{a+\mathbf {v} '\mathbf {b} >0}$ \ $displaystyle \phi$ ( \ $mathbf$ { $v$ } ) = $1$ _ { $a$ + \ $mathbf$ { $b }$ ' \ $mathbf$ { b } > $0$ } ,
로지스틱 $\phi (\mathbf {v} )=(1+\exp(-a-\mathbf {v} '\mathbf {b} ))^{-1}$ : : ( $\phi (\mathbf {v} )=(1+\exp(-a-\mathbf {v} '\mathbf {b} ))^{-1}$ ) $\phi (\mathbf {v} )=(1+\exp(-a-\mathbf {v} '\mathbf {b} ))^{-1}$ ( $\phi (\mathbf {v} )=(1+\exp(-a-\mathbf {v} '\mathbf {b} ))^{-1}$ + $\phi (\mathbf {v} )=(1+\exp(-a-\mathbf {v} '\mathbf {b} ))^{-1}$ $\phi (\mathbf {v} )=(1+\exp(-a-\mathbf {v} '\mathbf {b} ))^{-1}$ ( - a $\phi (\mathbf {v} )=(1+\exp(-a-\mathbf {v} '\mathbf {b} ))^{-1}$ - $\phi (\mathbf {v} )=(1+\exp(-a-\mathbf {v} '\mathbf {b} ))^{-1}$ b $\phi (\mathbf {v} )=(1+\exp(-a-\mathbf {v} '\mathbf {b} ))^{-1}$ ) - $\phi (\mathbf {v} )=(1+\exp(-a-\mathbf {v} '\mathbf {b} ))^{-1}$ ( \ $displaystyle \phi$ ( \ $mathbf { v$ } ) = ( $1$ + \ $expa$ - $\ mathbf$ { $v }$ ' \ $mathbf {$ b } $)^-1$ )

생물학적으로 영감을 받은 신경망에서 활성화 함수는 보통 ^[3]세포 내에서 활동 전위 발화 속도를 나타내는 추상화이다.가장 간단한 형태로, 이 함수는 2진수이다. 즉, 뉴런이 발화하고 있는지 아닌지이다. $\phi (\mathbf {v} )=U(a+\mathbf {v} '\mathbf {b} )$ 함수는 $\phi (\mathbf {v} )=U(a+\mathbf {v} '\mathbf {b} )$ ( $\phi (\mathbf {v} )=U(a+\mathbf {v} '\mathbf {b} )$ ) $\phi (\mathbf {v} )=U(a+\mathbf {v} '\mathbf {b} )$ ( $\phi (\mathbf {v} )=U(a+\mathbf {v} '\mathbf {b} )$ + $\phi (\mathbf {v} )=U(a+\mathbf {v} '\mathbf {b} )$ b $\phi (\mathbf {v} )=U(a+\mathbf {v} '\mathbf {b} )$ ) { $displaystyle \phi (\mathbf {v}$ ) = $U(a+\mathbf {v} '\mathbf {b$ 처럼 보입니다. $U$ 서U {\ $displaystyle$ U $}$ 는 $U$ 헤비사이드 스텝 함수입니다.

입력 전류가 증가함에 따라 발생하는 점화 속도의 증가를 반영하기 위해 양의 기울기 선을 사용할 수 있습니다. $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$ 함수는 $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$ ( $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$ ) $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$ + $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$ b \ $phi$ ( $\ mathbf$ { v } ) = a + \ $mathbf$ { v } ' \ $mathbf$ { b $} 。$

수정된 선형 단위 및 가우스 오류 선형 단위 활성화 함수

또한 뉴런은 일정 속도보다 빠르게 반응하지 못해 범위가 한정된 S자형 활성화 기능을 자극한다.

방사형 활성화 기능

RBF 네트워크에서는 RBF(Radial Basis Functions)라고 불리는 특별한 종류의 활성화 함수가 사용되며, 이는 범용 함수 근사치로 매우 효율적입니다.이러한 액티베이션 함수는 다양한 형태를 취할 수 있지만 일반적으로 다음 기능 중 하나로 볼 수 있습니다.

$\,\phi (\mathbf {v} )=\exp \left(-{\frac {\|\mathbf {v} -\mathbf {c} \|^{2}}{2\sigma ^{2}}}\right)$ : $\,\phi (\mathbf {v} )=\exp \left(-{\frac {\|\mathbf {v} -\mathbf {c} \|^{2}}{2\sigma ^{2}}}\right)$ ( $\,\phi (\mathbf {v} )=\exp \left(-{\frac {\|\mathbf {v} -\mathbf {c} \|^{2}}{2\sigma ^{2}}}\right)$ v ) $\,\phi (\mathbf {v} )=\exp \left(-{\frac {\|\mathbf {v} -\mathbf {c} \|^{2}}{2\sigma ^{2}}}\right)$ $\,\phi (\mathbf {v} )=\exp \left(-{\frac {\|\mathbf {v} -\mathbf {c} \|^{2}}{2\sigma ^{2}}}\right)$ $\,\phi (\mathbf {v} )=\exp \left(-{\frac {\|\mathbf {v} -\mathbf {c} \|^{2}}{2\sigma ^{2}}}\right)$ ( - $\,\phi (\mathbf {v} )=\exp \left(-{\frac {\|\mathbf {v} -\mathbf {c} \|^{2}}{2\sigma ^{2}}}\right)$ v - $\,\phi (\mathbf {v} )=\exp \left(-{\frac {\|\mathbf {v} -\mathbf {c} \|^{2}}{2\sigma ^{2}}}\right)$ $\,\phi (\mathbf {v} )=\exp \left(-{\frac {\|\mathbf {v} -\mathbf {c} \|^{2}}{2\sigma ^{2}}}\right)$ $\,\phi (\mathbf {v} )=\exp \left(-{\frac {\|\mathbf {v} -\mathbf {c} \|^{2}}{2\sigma ^{2}}}\right)$ 2 ) $=$ \ $exp$ \ $phi ($ \ $mathbf$ { $v$ } - \ $mathbf$ { $c$ } \ ^ { $2$ \ $right }$
$\,\phi (\mathbf {v} )={\sqrt {\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}}}$ 사분율: $\,\phi (\mathbf {v} )={\sqrt {\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}}}$ ( $\,\phi (\mathbf {v} )={\sqrt {\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}}}$ ) $\,\phi (\mathbf {v} )={\sqrt {\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}}}$ v - $\,\phi (\mathbf {v} )={\sqrt {\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}}}$ 2 + $\,\phi (\mathbf {v} )={\sqrt {\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}}}$ ( \ $displaystyle$ \ , $\ phi$ ) $= sq$ rt $\$ \ \ $mathbf {$ $v }$ - \ $mathbf$ { c } \ $^$ { 2 + $a^$ { $2$ $}}}}}}:$
역삼원법: $\,\phi (\mathbf {v} )=\left(\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}\right)^{-{\frac {1}{2}}}$ ( $\,\phi (\mathbf {v} )=\left(\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}\right)^{-{\frac {1}{2}}}$ ) $\,\phi (\mathbf {v} )=\left(\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}\right)^{-{\frac {1}{2}}}$ ( $\,\phi (\mathbf {v} )=\left(\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}\right)^{-{\frac {1}{2}}}$ v - $\,\phi (\mathbf {v} )=\left(\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}\right)^{-{\frac {1}{2}}}$ 2 + $a$ ) $\,\phi (\mathbf {v} )=\left(\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}\right)^{-{\frac {1}{2}}}$ - 1 $\,\phi (\mathbf {v} )=\left(\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}\right)^{-{\frac {1}{2}}}$ ( $\,\phi (\mathbf {v} )=\left(\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}\right)^{-{\frac {1}{2}}}$ \ $displaystyle$ \ , \ $phi$ ( \ $mathbf$ { $v$ } ) $=$ \ $left$ ( \ \ $mathbf$ { $v }$ - \ $mathbf {$ $c$ } + a^ { $2$ ) $}\right)^{-{\frac {1}{2}}}}}$
다조화 스플라인

$\mathbf {c}$ 서 c $\mathbf {c}$ {c $}$ 는 함수 중심을 나타내는 $a$ 이고 {\ $displaystyle$ a $}$ 및 $a$ ${\$ {\ $displaystyle \displaystyle}$ 은 $\sigma$ 반지름의 확산에 영향을 미치는 파라미터입니다.

폴딩 활성화 기능

접이식 활성화 기능은 컨볼루션 뉴럴 네트워크의 풀링 레이어 및 멀티클래스 분류 네트워크의 출력 레이어에서 광범위하게 사용된다.이러한 활성화는 평균, 최소 또는 최대를 취하는 것과 같은 입력에 대한 집계를 수행합니다.멀티클래스 분류에서는 softmax 액티베이션이 자주 사용됩니다.