피드포워드 뉴럴 네트워크

Feedforward neural network
피드포워드 네트워크에서는 정보는 항상 한 방향으로 이동하며 절대 뒤로 이동하지 않습니다.

피드포워드 뉴럴 네트워크(FNN)는 노드 간의 접속이 [1]사이클을 형성하지 않는 인공 뉴럴 네트워크입니다.따라서, 그것은 그 후손인 반복 신경 네트워크와는 다릅니다.

피드포워드 뉴럴 네트워크는 [2]인공 뉴럴 네트워크의 최초이자 가장 단순한 형태였다.이 네트워크에서는 정보는 입력 노드, 숨겨진 노드(있는 경우) 및 출력 노드로 한 방향으로만 이동합니다.네트워크에는 [1]사이클이나 루프가 없습니다.

단층 퍼셉트론

가장 단순한 종류의 뉴럴 네트워크는 단일 레이어 출력 노드로 구성된 단일 레이어 퍼셉트론 네트워크입니다. 입력은 일련의 가중치를 통해 출력에 직접 공급됩니다.가중치와 입력의 곱의 합계는 각 노드에서 계산되며, 값이 일부 임계값(일반적으로 0)보다 크면 뉴런이 작동하여 활성화된 값(일반적으로 1)을 취합니다.그렇지 않으면 비활성화된 값(일반적으로 -1)을 취합니다.이러한 활성화 기능을 가진 뉴런은 인공 뉴런 또는 선형 역치 단위라고도 불립니다.문헌에서 perceptron이라는 용어는 종종 이러한 단위 중 하나로 구성된 네트워크를 가리킵니다.비슷한 뉴런이 1940년대에 워렌 맥컬록과 월터 피츠에 의해 설명되었다.

퍼셉트론은 임계값이 둘 사이에 있는 한 활성화 및 비활성화 상태에 대한 임의의 값을 사용하여 생성할 수 있습니다.

퍼셉트론은 보통 델타 규칙이라고 불리는 단순한 학습 알고리즘에 의해 훈련될 수 있습니다.계산된 출력과 샘플 출력 데이터 사이의 오차를 계산하고 이를 사용하여 가중치를 조정하여 경사 강하 형태를 구현한다.

단층 퍼셉트론은 선형으로 분리 가능한 패턴만 학습할 수 있다; 1969년에 마빈 민스키시모어 페퍼트는 퍼셉트론이라는 제목의 유명한 논문에서 단층 퍼셉트론 네트워크가 XOR 함수를 학습하는 것이 불가능하다는 것을 보여주었다(그렇지만, 다층 퍼셉트론은 어떤 가능성을 만들어 낼 수 있는 것으로 알려져 있다).ible boolean 함수).

단일 임계값 유닛의 계산 능력은 상당히 제한적이지만, 병렬 임계값 유닛의 네트워크는 실수의 콤팩트한 간격에서 간격 [-1,1]까지 연속 함수를 근사할 수 있는 것으로 나타났습니다.이 결과는 Peter Auer, Harald BurgsteinerWolfgang Maass "퍼셉트론의 단일 층으로 구성된 매우 단순한 보편적 근사치에 대한 학습 규칙"[3]에서 찾을 수 있다.

단층 뉴럴 네트워크는 스텝 함수 대신 연속 출력을 계산할 수 있다.일반적인 선택은 이른바 로지스틱 함수입니다.

이 옵션을 선택하면 단일 계층 네트워크는 통계 모형화에 널리 사용되는 로지스틱 회귀 모형과 동일합니다.로지스틱 함수는 S자형 그래프가 그리스 문자 Sigma의 마지막 소문자와 비슷하기 때문에 Sigmoid 함수라고 하는 함수군 중 하나입니다.연속 유도체를 가지고 있어 역전파에 사용할 수 있습니다.이 함수는 도함수가 쉽게 계산되기 때문에 선호된다.

( ( ) () ( - () { f' (x) }

(ff가 의 미분방정식을 만족한다는 사실은 체인규칙을 적용하면 쉽게 알 수 있다.)

단층 뉴럴 네트워크 활성화 기능이 모듈로 1이면 단일 뉴런으로 XOR 문제를 해결할 수 있다.

다층 퍼셉트론

XOR를 계산할 수 있는 2층 뉴럴 네트워크.뉴런 내의 숫자는 각 뉴런의 명시적 역치를 나타냅니다. (모든 뉴런이 같은 역치를 가지도록 인수분해 될 수 있습니다, 보통 1).화살표에 주석을 다는 숫자는 입력의 무게를 나타냅니다.이 넷은 임계값에 도달하지 않은 경우 0(-1이 아님)이 출력되는 것을 전제로 하고 있습니다.입력의 하위 계층이 항상 실제 뉴럴 네트워크 계층으로 간주되는 것은 아닙니다.

이 클래스의 네트워크는, 복수의 연산 유닛의 레이어로 구성되어 있습니다.보통 피드 포워드 방식으로 상호 접속됩니다.한 층의 각 뉴런은 다음 층의 뉴런에 대한 연결 방향을 가지고 있다.많은 어플리케이션에서 이들 네트워크의 유닛은 활성화 함수로 Sigmoid 함수를 적용합니다.그러나 S자형 활성화 함수는 작은 범위를 벗어나는 매우 작은 파생 값을 가지며 사라짐 구배 문제로 인해 심층 신경망에서는 잘 작동하지 않습니다.사라지는 구배 문제를 완화하고 심층 네트워크를 훈련시킬 수 있는 S자형 활성화 함수에 대한 대안이 [4][5][6]제안되었습니다.

뉴럴 네트워크에 대한 보편적 근사 정리는 실수의 간격을 실수의 출력 간격에 매핑하는 모든 연속 함수는 오직 하나의 숨겨진 층을 가진 다층 퍼셉트론에 의해 임의로 가깝게 근사될 수 있다고 말한다.이 결과는 S자형 기능 등 광범위한 활성화 기능에 적용됩니다.

멀티레이어 네트워크는 다양한 학습 기법을 사용합니다.가장 일반적인 것은 백프로그래피션입니다.여기서 출력값을 정답과 비교하여 몇 가지 정의된 오류함수의 값을 계산한다.다양한 기술에 의해 오류는 네트워크를 통해 피드백됩니다.알고리즘은 이 정보를 사용하여 에러 함수의 값을 약간 줄이기 위해 각 접속의 무게를 조정합니다.이 프로세스를 충분히 많은 트레이닝 사이클 동안 반복하면 네트워크는 보통 계산 오차가 적은 상태로 수렴됩니다.이 경우 네트워크는 특정 타깃 기능을 학습했다고 할 수 있습니다.가중치를 적절히 조정하기 위해 구배 강하라고 하는 비선형 최적화를 위한 일반적인 방법을 적용한다.이것에 대해서, 네트워크는 네트워크의 가중치에 관해서 에러 함수의 도함수를 계산해, 에러가 감소하도록 웨이트를 변경한다(따라서 에러 함수의 표면은 내리막길이 된다).따라서 백 전파는 다른 액티베이션 기능을 가진 네트워크에서만 적용할 수 있습니다.

일반적으로 네트워크를 훈련용 샘플로 사용하지 않은 샘플에서도 좋은 성능을 발휘하도록 가르치는 문제는 추가 기술이 필요한 매우 미묘한 문제입니다.이는 매우 제한된 수의 교육 샘플만 사용할 [7]수 있는 경우에 특히 중요합니다.위험한 것은 네트워크가 트레이닝 데이터를 초과하여 데이터를 생성하는 진정한 통계 프로세스를 캡처하지 못한다는 것입니다.계산학습이론은 제한된 양의 데이터에 대한 분류기 훈련과 관련이 있다.뉴럴 네트워크의 맥락에서, 얼리 스톱이라고 불리는 단순한 휴리스틱은 종종 네트워크가 훈련 세트에 포함되지 않은 예에 잘 일반화되도록 보장합니다.

역전파 알고리즘의 다른 일반적인 문제로는 컨버전스 속도와 에러 함수의 로컬 최소치에 도달할 가능성이 있습니다.오늘날 다층 퍼셉트론의 역방향 전파를 많은 기계학습 태스크에서 선택하는 도구로 만드는 실용적인 방법이 있습니다.

또한 어떤 매개체에 의해 조절된 일련의 독립적인 신경망을 사용할 수 있습니다. 뇌에서 일어나는 것과 유사한 행동입니다.이 뉴런들은 분리해서 큰 일을 처리할 수 있고, 그 결과들은 마침내 [8]결합될 수 있다.

기타 피드포워드 네트워크

보다 일반적으로 방향 비순환 그래프는 피드포워드 네트워크에 사용할 수 있으며, 일부 노드(부모 없음)는 입력으로 지정되고 일부 노드(자녀 없음)는 출력으로 지정됩니다.이것들은, 출력으로부터 레이어를 거꾸로 카운트 하거나 입력으로부터 레이어를 전진시키는, 일부의 엣지가 레이어를 건너뛰는 다층 네트워크로 간주할 수 있습니다.다양한 활성화 기능을 사용할 수 있으며, 컨볼루션 뉴럴 네트워크와 같이 체중 사이에 관계가 있을 수 있습니다.

다른 피드포워드 네트워크의 로는 다른 활성화 함수를 사용하는 레이디얼 베이스 함수 네트워크가 있습니다.

때때로 다층 퍼셉트론은 피드포워드 신경망을 참조하기 위해 느슨하게 사용되는 반면, 다른 경우에는 특정 퍼셉트론(예를 들어, 특정 활성화 기능, 완전히 연결된 레이어 또는 퍼셉트론 알고리즘에 의해 훈련됨)으로 제한된다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b Zell, Andreas (1994). Simulation Neuronaler Netze [Simulation of Neural Networks] (in German) (1st ed.). Addison-Wesley. p. 73. ISBN 3-89319-554-8.
  2. ^ Schmidhuber, Jürgen (2015-01-01). "Deep learning in neural networks: An overview". Neural Networks. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. ISSN 0893-6080. PMID 25462637. S2CID 11715509.
  3. ^ Auer, Peter; Harald Burgsteiner; Wolfgang Maass (2008). "A learning rule for very simple universal approximators consisting of a single layer of perceptrons" (PDF). Neural Networks. 21 (5): 786–795. doi:10.1016/j.neunet.2007.12.036. PMID 18249524. Archived from the original (PDF) on 2011-07-06. Retrieved 2009-09-08.
  4. ^ Ramachandran, Prajit; Zoph, Barret; Le, Quoc V. (2017-10-27). "Searching for Activation Functions". arXiv:1710.05941 [cs.NE].
  5. ^ Noel, Mathew Mithra; L, Arunkumar; Trivedi, Advait; Dutta, Praneet (2021-09-04). "Growing Cosine Unit: A Novel Oscillatory Activation Function That Can Speedup Training and Reduce Parameters in Convolutional Neural Networks". arXiv:2108.12943 [cs.LG].
  6. ^ Noel, Matthew Mithra; Bharadwaj, Shubham; Muthiah-Nakarajan, Venkataraman; Dutta, Praneet; Amali, Geraldine Bessie (2021-11-07). "Biologically Inspired Oscillating Activation Functions Can Bridge the Performance Gap between Biological and Artificial Neurons". arXiv:2111.04020 [cs.NE].
  7. ^ Roman M. Balabin; Ravilya Z. Safieva; Ekaterina I. Lomakina (2007). "Comparison of linear and nonlinear calibration models based on near infrared (NIR) spectroscopy data for gasoline properties prediction". Chemometr Intell Lab. 88 (2): 183–188. doi:10.1016/j.chemolab.2007.04.006.
  8. ^ Tahmasebi, Pejman; Hezarkhani, Ardeshir (21 January 2011). "Application of a Modular Feedforward Neural Network for Grade Estimation". Natural Resources Research. 20 (1): 25–32. doi:10.1007/s11053-011-9135-3. S2CID 45997840.

외부 링크