평활 최대값

수학에서 최대 기능 최대(x1,…,)n)에, 인덱싱 된 가족 x1,..., 숫자의 xn의 원활한 최대는 매끈매끈한 근사,{\displaystyle \max(x_{1},\ldots{n,x_}),}α(x1,…,)n){\displaystyle m_{\alpha}(x_{1},\ldots{n,x_})} 같은 tha도 기능은 파라메트릭 가족이라는 것을 뜻한다.t $α$ 마다 함수 $m_{\alpha }$ $m_{\alpha }$ ${\$ 은 $m_{\alpha }$ (는) 매 α $m_{\alpha }\max$ 에 최대 $m_{\alpha }\to \max$ 함수 $m_{\alpha }\to \max$ $m_{\alpha }\to \max$ → $\alpha \to \infty$ → $\alpha \to \infty$ ∞ ${\displaysty \alpha \to \fto \$ fto }으로 수렴한다. 부드러운 최소의 개념은 유사하게 정의된다 $\alpha \to \infty$ In many cases, a single family approximates both: maximum as the parameter goes to positive infinity, minimum as the parameter goes to negative infinity; in symbols, $m_{\alpha }\to \max$ as $\alpha \to \infty$ and $m_{\alpha }\to \min$ as $\alpha \to -\infty$ $\alpha \to -\infty$ - $∞[\displaystyle \alpha \to$ - $\infit$ $\alpha \to -\infty$ 이 용어는 파라메트리화 계열의 일부일 필요 없이 최대값과 비슷하게 동작하는 특정 매끄러운 기능에 느슨하게 사용될 수도 있다.

예

다양한 파라미터 값에 대한 (-x, x) 대 x의 최대 평활값.

\alpha

\alpha

=0.5의 경우 매우 부드러우며,

\alpha

\alpha

=8의 경우 더 선명하다.

매개변수 $\alpha >0$ > $\alpha >0$ $\alpha >0$ 의 큰 양의 경우 $\alpha >0$ 다음 공식은 최대 함수의 부드럽고 서로 다른 근사값이다.절대값이 큰 파라미터의 음수 값은 최소값과 근사하다.

{\displaystyle {\mathcal{S}_{\alpha }(x_{1},\ldots,x_{n})={\frac {\sum_{i=1}x_{i}e^{\sum _{i=1}{i}}{i=1}^{n}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}.

${\mathcal {S}}_{\alpha }$ ${\mathcal {S}}_{\alpha }$ ${\$ 에는 다음과 같은 속성이 있다 ${\mathcal {S}}_{\alpha }$ .

${\mathcal {S}}_{\alpha }\to \max$ ${\mathcal {S}}_{\alpha }\to \max$ → ${\mathcal {S}}_{\alpha }\to \max$ ${\displaystyle {\mathcal {S}_{\alpha }\to$ \ft} ${\mathcal {S}}_{\alpha }\to \max$ $\alpha \to \infty$ → $\alpha \to \infty$ $\alpha \to \fty}$
${\mathcal {S}}_{0}$ ${\mathcal {S}}_{0}$ ${\$ 은 ${\mathcal {S}}_{0}$ (는) 입력의 산술 평균이다.
${\mathcal {S}}_{\alpha }\to \min$ ${\mathcal {S}}_{\alpha }\to \min$ → ${\displaystyle {\mathcal {S}_{\alpha }\to$ $\ft$ }\ $to$ \inflt } $\$ min ${\mathcal {S}}_{\alpha }\to \min$ $\alpha \to -\infty$ → - $\alpha \to -\infty$ display {\ $displaystyle$ \ $alpha$ \to_\ $inft}$

${\mathcal {S}}_{\alpha }$ ${\$ 의 구배는 소프트맥스와 밀접하게 관련되어 ${\mathcal {S}}_{\alpha }$ 있으며 다음과 같이 주어진다.

\nabla _{x_{i}}{\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n})={\frac {e^{\alpha x_{i}}}{\sum _{j=1}^{n}e^{\alpha x_{j}}}}[1+\alpha (x_{i}-{\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n}))].

이것은 소프트맥스 기능을 구배 강하를 사용하는 최적화 기법에 유용하게 만든다.

LogSumExp

또 다른 부드러운 최대값은 LogSumExp:

\mathrm {LSE} _{\alpha }(x_{1},\ldots,x_{n})=(1/\alpha )\log(\alpha x_{1}+\ldots +\ext(\alpha x_{n})}}}}

$x_{i}$ 은 또한 x $x_{i}$ ${\$ 가 모두 음수가 아닌 경우에도 $x_{i}$ 정규화될 수 있으며, 도메인 $[0,\infty )^{n}$ [ $[0,\infty )^{n}$ $[0,\infty )^{n}$ ) $[0,\infty )^{n}$ ${\$ 과 $[0,\infty )^{n}$ $[0,\infty )$ 범위 [ $[0,\infty )$ $){\displaystysty [0,\infty )}$ 을 갖는 함수가 있다 $[0,\infty )$

g(x_{1},\ldots ,x_{n}=\log(\exp(x_{1})+\ldots +\exp(x_{n}-)(n-1)

$(n-1)$ - $(n-1)$ ) $(n-1)$ 용어는 $(n-1)$ $\exp(0)=1$ $\exp(0)=1$ ( $\exp(0)=1$ ) $\exp(0)=1$ = 1 ${\displaystyle$ $\$ $exp(0)=1$ }을 $\exp(0)=1$ $($ 를) 취소하여 수정하고, 모든 $x_{i}$ i ${\$ x_ ${i$ }가 $\log 1=0$ $x_{i}$ 0인 $경우$ = $0을($ 를)로 수정한다.

p-Norm

또 다른 부드러운 최대값은 p-norm이다.

(x_{1},\ldots,x_{n}) _{p}=\왼쪽(x_{1}^{p}+\cdots + x_{n} ^{p}\right)^{1/p}}{1/p}

( x $||(x_{1},\ldots ,x_{n})||_{\infty }=\max _{1\leq i\leq n}|x_{i}|$ , $||(x_{1},\ldots ,x_{n})||_{\infty }=\max _{1\leq i\leq n}|x_{i}|$ … , $||(x_{1},\ldots ,x_{n})||_{\infty }=\max _{1\leq i\leq n}|x_{i}|$ $||(x_{1},\ldots ,x_{n})||_{\infty }=\max _{1\leq i\leq n}|x_{i}|$ ) $||(x_{1},\ldots ,x_{n})||_{\infty }=\max _{1\leq i\leq n}|x_{i}|$ = $||(x_{1},\ldots ,x_{n})||_{\infty }=\max _{1\leq i\leq n}|x_{i}|$ $||(x_{1},\ldots ,x_{n})||_{\infty }=\max _{1\leq i\leq n}|x_{i}|$ $||(x_{1},\ldots ,x_{n})||_{\infty }=\max _{1\leq i\leq n}|x_{i}|$ $||(x_{1},\ldots ,x_{n})||_{\infty }=\max _{1\leq i\leq n}|x_{i}|$ $||(x_{1},\ldots ,x_{n})||_{\infty }=\max _{1\leq i\leq n}|x_{i}|$ n $||(x_{1},\ldots ,x_{n})||_{\infty }=\max _{1\leq i\leq n}|x_{i}|$ i $displaystyle (x_{1},\ldots,x_{n}) _{\nft }=\max _{1\leq i\leq n} x_{i}}$ } }을 $||(x_{1},\ldots ,x_{n})||_{\infty }=\max _{1\leq i\leq n}|x_{i}|$ $p\to \infty$ → $∞\\displaystyp\to$

p-norm의 장점은 그것이 표준이라는 것이다.As such it is "scale invariant" (homogeneous): $(\lambda x_{1},\ldots ,\lambda x_{n}) _{p}= \lambda \times (x_{1},\ldots ,x_{n}) _{p}$ , and it satisfies the triangular inequality.

수치적 방법에 사용

평활함수의 기타 선택사항

{\mathcal {max}_{\max}}(x_{1}+x_{2})=\left(x_{1}-x_{2})+{\sqrt {(x_{1}-x_{2})^{2}+\i1\right)/2

^[1]

여기서 $\alpha \to 0$ → $\alpha \to 0$ ${\displaystyle \alpha \to$ 0 $}$ 은 $\alpha \to 0$ 매개 변수다.

참고 항목

참조

^ Biswas, Koushik; Kumar, Sandeep; Banerjee, Shilpak; Ashish Kumar Pandey (2021). "SMU: Smooth activation function for deep networks using smoothing maximum technique". arXiv:2111.04682.

https://www.johndcook.com/soft_maximum.pdf

M. 랑게, D. 뮐케, O. 홀츠, T.Proc에서 Villmann은 "경사로 기반 학습 벡터 정량화를 위한 lp-norms의 적용 및 그 부드러운 근사치"를 인용했다. ESANN, 2014년 4월, 페이지 271-276 (https://www.elen.ucl.ac.be/Proceedings/esann/esannpdf/es2014-153.pdf)

[1] Biswas, Koushik; Kumar, Sandeep; Banerjee, Shilpak; Ashish Kumar Pandey (2021). "SMU: Smooth activation function for deep networks using smoothing maximum technique". arXiv:2111.04682.

[1]

Search