스위시 함수

Swish function

스위시함수다음과 같이 정의되는 수학함수다.

[1]

여기서 β는 모델에 따라 상수 또는 트레인 가능한 매개변수 중 하나이다.β = 1의 경우 함수는 강화학습에 사용되는 지그모이드 가중 선형단위(SiL) 기능과 동등해지는 반면, [2][1]β = 0의 경우 함수는 축척 선형함수 f(x) = x/2로 변한다.[1]β → ∞으로 sigmoid 성분은 0-1 함수에 접근하므로 swish는 ReLU 함수처럼 된다.따라서 선형 함수와 ReLU 함수 사이에 비선형적으로 보간하는 스무딩 함수로 볼 수 있다.[1]이 함수는 비단조성을 사용하며, 미쉬와[3] 피쉬와 같은 속성을 가진 다른 활성화 함수의 제안에 영향을 미쳤을 수 있다.[4]

적용들

구글 연구진은 2017년 이미지넷 데이터를 분석한 결과 이 기능을 인공신경망에서 활성화 기능으로 활용하면 성능이 향상되는 데 비해 르루와 시그모이드 기능이 향상된다고 주장했다.[1]이러한 개선의 한 가지 이유는 스위시 기능이 백프로포메이션사라지는 그라데이션 문제를 완화하는데 도움이 되기 때문이라고 생각된다.[5]

참조

  1. ^ a b c d e Ramachandran, Prajit; Zoph, Barret; Le, Quoc V. (2017-10-27). "Searching for Activation Functions". arXiv:1710.05941v2 [cs.NE].
  2. ^ Elfwing, Stefan; Uchibe, Eiji; Doya, Kenji (2017-11-02). "Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning". arXiv:1702.03118v3 [cs.LG].
  3. ^ Misra, Diganta (2019). "Mish: A Self Regularized Non-Monotonic Neural Activation Function". arXiv:1908.08681 [cs.LG].
  4. ^ Naveen, Philip (2021). "Phish: A Novel Hyper-Optimizable Activation Function". TechRxiv. doi:10.36227/techrxiv.17283824. S2CID 245415753.
  5. ^ Serengil, Sefik Ilkin (2018-08-21). "Swish as Neural Networks Activation Function". Machine Learning, Math. Archived from the original on 2020-06-18. Retrieved 2020-06-18.