활성화 기능

Activation function
로지스틱 활성화 함수

인공신경망에서 노드의 활성화 함수는 입력 또는 입력 세트가 주어진 노드의 출력을 정의한다.표준 집적회로는 입력에 따라 "ON"(1) 또는 "OFF"(0)가 될 수 있는 활성화 기능의 디지털 네트워크로 볼 수 있습니다.이것은 뉴럴 네트워크의 선형 퍼셉트론과 유사합니다.그러나 비선형 활성화 함수만이 이러한 네트워크가 소수의 노드만을 사용하여 중요하지 않은 문제를 계산할 수 있도록 하며, 이러한 활성화 함수를 [1]비선형성이라고 한다.

활성화 기능 분류

가장 일반적인 활성화 기능은 리지 기능, 방사형 기능 및 폴드 기능 등 세 가지 범주로 나눌 수 있습니다.

활성화 f {\f v ( v ) 0 { \ \_ { \infty \ f=포화 상태에 있습니다.포화 상태가 아니라면 그것은 비포화이다.ReLU와 같은 비포화 활성화 기능은 소멸 [2]구배를 겪지 않기 때문에 포화 활성화 기능보다 나을 수 있습니다.

리지 활성화 기능

능선 함수는 입력 변수의 선형 조합에 작용하는 다변량 함수입니다.자주 사용되는 예는 다음과 같습니다.

  • 활성화: ( ) + b \(\ { )= ,
  • ReLU : ( v )=( , + v b ) { ( \ } ) \ ( , + \ { ' \ {) ,
  • 중량값 : ( ) a + b> \ ( \ { } ) =_ { + \ { ' \ { b } > } ,
  • 로지스틱 : : () ( + ( - a- b) - ( \ ( \ } ) = ( + \ - { ' \ b } )

생물학적으로 영감을 받은 신경망에서 활성화 함수는 보통 [3]세포 내에서 활동 전위 발화 속도를 나타내는 추상화이다.가장 간단한 형태로, 이 함수는 2진수이다. 즉, 뉴런이 발화하고 있는지 아닌지이다. 함수는 ( ) ( + b) { ) =처럼 보입니다. U {\ U 헤비사이드 스텝 함수입니다.

입력 전류가 증가함에 따라 발생하는 점화 속도의 증가를 반영하기 위해 양의 기울기 선을 사용할 수 있습니다. 함수는 ( ) + b \ ( { v } ) = a + \{ v } ' \ { b

수정된 선형 단위 및 가우스 오류 선형 단위 활성화 함수

또한 뉴런은 일정 속도보다 빠르게 반응하지 못해 범위가 한정된 S자형 활성화 기능을 자극한다.

방사형 활성화 기능

RBF 네트워크에서는 RBF(Radial Basis Functions)라고 불리는 특별한 종류의 활성화 함수가 사용되며, 이는 범용 함수 근사치로 매우 효율적입니다.이러한 액티베이션 함수는 다양한 형태를 취할 수 있지만 일반적으로 다음 기능 중 하나로 볼 수 있습니다.

  • : (v ) ( -v - 2 ) \ \ \ { } - \ { } \ ^ {\
  • 사분율: ( ) v - 2 + ( \ \ , ) rt \ \ - \ { c } \ { 2 + {
  • 역삼원법: ( ) (v - 2 + )- 1 (\ \ , \ ( \ { } ) \ ( \ \ { - \ } + a^ { )
  • 다조화 스플라인

서 c {c는 함수 중심을 나타내는 이고 {\ a {\ 반지름의 확산에 영향을 미치는 파라미터입니다.

폴딩 활성화 기능

접이식 활성화 기능은 컨볼루션 뉴럴 네트워크의 풀링 레이어 및 멀티클래스 분류 네트워크의 출력 레이어에서 광범위하게 사용된다.이러한 활성화는 평균, 최소 또는 최대를 취하는 것과 같은 입력에 대한 집계를 수행합니다.멀티클래스 분류에서는 softmax 액티베이션이 자주 사용됩니다.

활성화 기능 비교

많은 활성화 기능이 있습니다.힌튼 외 연구진의 2012년 자동 음성 인식에 관한 논문은 로지스틱 Sigmoid 활성화 [4]기능을 사용한다.2012년의 AlexNet 컴퓨터 비전 아키텍처에서는 ReLU 액티베이션 기능이 사용되며, 2015년의 컴퓨터 비전 아키텍처 ResNet도 마찬가지입니다.2018년식 언어 처리 모델인 BERT는 부드러운 버전의 ReLU인 [5]GELU를 사용합니다.

경험적 성과 외에도 활성화 함수는 서로 다른 수학적 특성을 가지고 있다.

비선형
활성화 함수가 비선형일 경우, 2층 뉴럴 네트워크가 범용 함수 [6]근사치임을 증명할 수 있습니다.이것은 보편적 근사 정리라고 알려져 있다.ID 활성화 함수가 이 속성을 충족하지 않습니다.여러 레이어가 아이덴티티 액티베이션 기능을 사용하는 경우 네트워크 전체는 단일 레이어 모델과 동일합니다.
범위
활성화 함수의 범위가 유한할 경우 패턴 표시가 제한된 체중에만 유의하게 영향을 미치기 때문에 구배 기반 훈련 방법이 더 안정적인 경향이 있다.범위가 무한할 경우 패턴 표시가 대부분의 체중에 큰 영향을 미치기 때문에 일반적으로 훈련이 더 효율적입니다.후자의 경우 일반적으로 더 적은 학습률이 필요합니다.[citation needed]
지속적 차별화 가능
속성은 구배 기반 최적화 방식을 활성화하기 위해 바람직합니다(ReLU는 지속적으로 차별화되지 않으며 구배 기반 최적화에 문제가 있지만 여전히 가능합니다).바이너리 스텝액티베이션 함수는 0에서는 미분할 수 없고 다른 모든 값에 대해0으로 미분되므로 그라데이션 기반 메서드는 이 [7]함수로 진행할 수 없습니다.

이러한 특성은 성능에 결정적으로 영향을 주지 않으며, 유용할 수 있는 유일한 수학적 특성도 아닙니다.예를 들어 softplus의 엄격한 양의 범위는 가변 자동 인코더의 변동을 예측하는 데 적합합니다.

활성화 함수 표

다음 표에서는 이전 레이어에서 한 겹 x의 함수인 여러 활성화 함수의 속성을 비교합니다.

이름. 줄거리. 함수 (x) { g g{\ g , () { g의 도함수 범위 연속 순서
신원 Activation identity.svg
바이너리 스텝 Activation binary step.svg
로지스틱, Sigmoid 또는 소프트 스텝 Activation logistic.svg
쌍곡선 탄젠트(tanh) Activation tanh.svg
정류 선형 장치(ReLU)[8] Activation rectified linear.svg
가우스 오차 선형 단위(GELU)[5] Visualization of the Gaussian Error Linear Unit (GELU)
소프트플러스[9] Activation softplus.svg
지수 선형 단위(ELU)[10] Activation elu.svg
\alpha를 지정합니다.
스케일링 지수 선형 단위(SELU)[11] Activation selu.png
α 1.의 경우
누출 수리 선형 장치(누출 ReLU)[12] Activation prelu.svg
파라메트릭 정류 선형 장치(PRe)LU)[13] Activation prelu.svg
\alpha를 지정합니다.
Sigmoid 선형 단위(SiLU,[5] Sigmoid 수축,[14] SiL [15]또는 Swish-1[16]) Swish Activation Function
가우스 Activation gaussian.svg

다음 표에는 이전 레이어에서 가져온 단일 폴드 x의 기능이 아닌 활성화 기능이 나열되어 있습니다.

이름. 식, i ( ) { g { i} \ vac \ { } \ right} 파생상품,( ) j(\ {\ x_ 범위 연속 순서
소프트맥스 i j x (\ {\_ {i = 1, …, J) [1][2]
최대[17] 출력
^ 여기서 j \ _ { }는 Kronecker 델타입니다.
^ 예를 들어 j는 이전 뉴럴 네트워크 계층의 커널 수를 통해 반복되는 반면 i는 현재 계층의 커널 수를 통해 반복될 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Hinkelmann, Knut. "Neural Networks, p. 7" (PDF). University of Applied Sciences Northwestern Switzerland. Archived from the original (PDF) on 2018-10-06. Retrieved 2018-10-06.
  2. ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017-05-24). "ImageNet classification with deep convolutional neural networks". Communications of the ACM. 60 (6): 84–90. doi:10.1145/3065386. ISSN 0001-0782.
  3. ^ Hodgkin, A. L.; Huxley, A. F. (1952-08-28). "A quantitative description of membrane current and its application to conduction and excitation in nerve". The Journal of Physiology. 117 (4): 500–544. doi:10.1113/jphysiol.1952.sp004764. PMC 1392413. PMID 12991237.
  4. ^ Hinton, Geoffrey; Deng, Li; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara; Kingsbury, Brian (2012). "Deep Neural Networks for Acoustic Modeling in Speech Recognition". IEEE Signal Processing Magazine. 29 (6): 82–97. doi:10.1109/MSP.2012.2205597. S2CID 206485943.
  5. ^ a b c Hendrycks, Dan; Gimpel, Kevin (2016). "Gaussian Error Linear Units (GELUs)". arXiv:1606.08415 [cs.LG].
  6. ^ Cybenko, G. (December 1989). "Approximation by superpositions of a sigmoidal function". Mathematics of Control, Signals, and Systems. 2 (4): 303–314. doi:10.1007/BF02551274. ISSN 0932-4194. S2CID 3958369.
  7. ^ Snyman, Jan (3 March 2005). Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms. Springer Science & Business Media. ISBN 978-0-387-24348-1.
  8. ^ Nair, Vinod; Hinton, Geoffrey E. (2010), "Rectified Linear Units Improve Restricted Boltzmann Machines", 27th International Conference on International Conference on Machine Learning, ICML'10, USA: Omnipress, pp. 807–814, ISBN 9781605589077
  9. ^ Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). "Deep sparse rectifier neural networks" (PDF). International Conference on Artificial Intelligence and Statistics.
  10. ^ Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015-11-23). "Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)". arXiv:1511.07289 [cs.LG].
  11. ^ Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (2017-06-08). "Self-Normalizing Neural Networks". Advances in Neural Information Processing Systems. 30 (2017). arXiv:1706.02515. Bibcode:2017arXiv170602515K.
  12. ^ Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (June 2013). "Rectifier nonlinearities improve neural network acoustic models". Proc. ICML. 30 (1). S2CID 16489696.
  13. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015-02-06). "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification". arXiv:1502.01852 [cs.CV].
  14. ^ Atto, Abdourrahmane M.; Pastor, Dominique; Mercier, Grégoire (2008), "Smooth sigmoid wavelet shrinkage for non-parametric estimation" (PDF), 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, doi:10.1109/ICASSP.2008.4518347, S2CID 9959057
  15. ^ Elfwing, Stefan; Uchibe, Eiji; Doya, Kenji (2018). "Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning". Neural Networks. 107: 3–11. arXiv:1702.03118. doi:10.1016/j.neunet.2017.12.012. PMID 29395652. S2CID 6940861.
  16. ^ Ramachandran, Prajit; Zoph, Barret; Le, Quoc V (2017). "Searching for Activation Functions". arXiv:1710.05941 [cs.NE].
  17. ^ Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (2013). "Maxout Networks". JMLR Workshop and Conference Proceedings. 28 (3): 1319–1327. arXiv:1302.4389. Bibcode:2013arXiv1302.4389G.