다층 퍼셉트론

Multilayer perceptron

Multilayer Perceptron(MLP; 다층 퍼셉트론)은 피드포워드 인공신경망(ANN)의 완전 접속 클래스입니다.MLP라는 용어는 애매모호하게 사용되며, 피드포워드 ANN을 의미하기도 합니다.또, 복수의 퍼셉트론의 레이어(임계값의 액티베이션이 있는)로 구성되어 있는 네트워크를 엄밀하게 나타내기도 합니다.「 Termology 」를 참조해 주세요.다층 퍼셉트론은 구어체로 [1]"바닐라" 뉴럴 네트워크라고 불리기도 하는데, 특히 단일 숨겨진 레이어를 가지고 있을 때는 더욱 그렇습니다.

MLP는 입력층, 은닉층출력층의 적어도 3개의 노드로 구성됩니다.입력 노드를 제외하고 각 노드는 비선형 활성화 함수를 사용하는 뉴런이다.MLP는 [2][3]역전파라고 불리는 지도 학습 기술을 훈련에 활용합니다.다중 레이어와 비선형 활성화는 MLP와 선형 퍼셉트론을 구분합니다.선형으로 분리할 [4]없는 데이터를 구별할 수 있습니다.

이론.

활성화 기능

만약 다층 퍼셉트론이 모든 뉴런에 선형 활성화 함수, 즉 가중 입력을 각 뉴런의 출력에 매핑하는 선형 함수를 가지고 있다면, 선형 대수는 임의의 수의 층이 2층 입출력 모델로 환원될 수 있음을 보여준다.MLP에서 일부 뉴런은 생물학적 뉴런의 활동 전위 또는 발화 빈도를 모델링하기 위해 개발된 비선형 활성화 함수를 사용합니다.

역사적으로 일반적인 두 가지 활성화 함수는 모두 S자형이며, 다음과 같이 설명됩니다.

러닝의 최근 개발에서 정류 선형 단위(ReLU)는 Sigmoid와 관련된 수치 문제를 극복하기 위한 가능한 방법 중 하나로 더 자주 사용됩니다.

첫 번째는 -1부터 1까지의 쌍곡선 탄젠트이고, 다른 하나는 모양은 비슷하지만 범위는 0부터 1까지의 로지스틱 함수입니다. i)의 이며, i})는 입력 연결의 가중치 합입니다.정류기소프트플러스 기능을 포함한 대체 활성화 기능이 제안되었습니다.보다 전문적인 활성화 기능에는 방사형 기반 기능(방사형 기반 네트워크, 또 다른 등급의 감독된 뉴럴 네트워크 모델에 사용됨)이 포함됩니다.

레이어

MLP는 비선형 활성화 노드의 3개 이상의 레이어(입력 레이어 및 1개 이상의 숨겨진 레이어를 가진 출력 레이어)로 구성됩니다.MLP는 완전히 연결되어 있기 때문에 1개의 레이어 내의 각 노드는 다음 레이어 내의 모든 노드에 특정 연결됩니다.

학습

퍼셉트론에서 각 데이터 처리 후 예상되는 결과 대비 출력 오류량에 따라 접속 가중치를 변경함으로써 학습이 이루어진다.이것은 지도 학습의 한 예이며, 선형 퍼셉트론에서 최소 평균 제곱 알고리즘의 일반화인 역전파를 통해 수행됩니다.

데이터 포인트훈련 예)의 출력 j{j 오류 정도를 ( - ( { (n)= ( = ( display y displaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplay 。퍼셉트론에 의해 생산됩니다.다음으로 노드 가중치는 출력 전체의 오류를 최소화하는 보정을 기반으로 조정할 수 있습니다.

( ) 2 j 2( { ( _ { j } e { ( n )

경사 강하를 사용하여 각 체중의 변화는

서 y 이전 뉴런의 출력이고{\(\ 가중치가 진동 없이 반응으로 빠르게 수렴되도록 하기 위해 선택된 학습 속도입니다.

계산되는 도함수는 유도 로컬 vjj에 따라 달라지며, 그 자체는 다릅니다.출력 노드의 경우 이 파생상품을 다음과 같이 단순화할 수 있음을 쉽게 증명할 수 있습니다.

여기서 { \ ^ { \ }}은 위에서 설명한 활성화 함수의 파생물이며, 그 자체는 변하지 않습니다.분석은 숨겨진 노드에 대한 가중치의 변화에 대해 더 어렵지만, 관련 파생상품이 다음과 같은 것을 보여줄 수 있다.

( ) )vj( n ) - ( ) k ( ) j ( style - { \ { \{ ( n ) \ ( n )

이는출력층을 무게 변화에 따라 달라집니다따라서 은닉층의 가중치를 변경하기 위해 출력층의 가중치는 활성화 함수의 도함수에 따라 변화하며, 따라서 이 알고리즘은 활성화 [5]함수의 역전파를 나타낸다.

용어.

"다층 퍼셉트론"이라는 용어는 여러 층을 가진 단일 퍼셉트론을 지칭하지 않는다.오히려 여러 층으로 구성된 퍼셉트론을 포함하고 있습니다.또 하나의 대안은 "다층 퍼셉트론 네트워크"입니다.게다가 MLP "퍼셉트론"은 가능한 한 엄격한 의미에서 퍼셉트론이 아니다.진정한 퍼셉트론은 공식적으로 헤비사이드 단계 기능과 같은 역치 활성화 기능을 사용하는 인공 뉴런의 특별한 경우이다.MLP 퍼셉트론은 임의의 활성화 기능을 사용할 수 있습니다.진정한 퍼셉트론은 바이너리 분류를 수행하고, MLP 뉴런은 활성화 함수에 따라 분류 또는 회귀를 자유롭게 수행할 수 있습니다.

"다층 퍼셉트론"이라는 용어는 나중에 임의로 정의된 인공 뉴런으로 구성될 수 있고 퍼셉트론이 아닌 노드/레이어의 성질에 관계없이 적용되었다.이러한 해석은 일반적으로 인공 뉴런을 의미하는 "perceptron"의 정의가 느슨해지는 것을 피한다.

적용들

MLP는 확률적으로 문제를 해결할 수 있는 능력으로 연구에 유용하며, 이는 종종 적합성 근사치와 같은 매우 복잡한 문제에 대한 대략적인 해결책을 가능하게 한다.

MLP는 Cybenko의 [4]정리에 의해 나타나는 범용 함수 근사치이므로 회귀 분석을 통해 수학적 모델을 만드는 데 사용할 수 있습니다.응답 변수가 범주형일 때 분류는 회귀의 특정 경우이므로 MLP는 좋은 분류 알고리즘을 만듭니다.

MLP는 음성 인식, 이미지 인식, 기계 번역 소프트웨어 [6]다양한 분야에서 응용 프로그램을 찾아내는 1980년대에 널리 보급된 머신 러닝 솔루션이었지만, 그 후 훨씬 단순하고[7] 관련성이 높은 서포트 벡터 머신과의 강력한 경쟁에 직면했습니다.딥러닝의 성공으로 역전파 네트워크에 대한 관심이 돌아왔다.

레퍼런스

  1. ^ 헤스티, 트레버.티비라니, 로버트프리드먼, 제롬통계학 학습의 요소: 데이터 마이닝, 추론 및 예측.스프링거, 뉴욕, 뉴욕, 2009년
  2. ^ 로젠블랫, 프랭크x. 신경역학의 원리:퍼셉트론과 뇌 메커니즘 이론.스파르탄 북스, 워싱턴 DC, 1961년
  3. ^ 루멜하트, 데이비드 E., 제프리 E.힌튼, 그리고 R. J. 윌리엄스."오류 전파를 통한 내부 표현 학습"데이비드 E.Rumelhart, James L. McCleland, 그리고 PDP 연구 그룹입니다.(편집자), 병렬분산처리 : 인지 미세구조 탐구, 제1권 : 기초.MIT 프레스, 1986.
  4. ^ a b Cybenko, G. 1989S자형 함수 Mathematics of Control, Signals, and Systems, 2(4), 303–314의 중첩에 의한 근사치.
  5. ^ Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation (2 ed.). Prentice Hall. ISBN 0-13-273350-1.
  6. ^ 뉴럴 네트워크.II. 그들은 무엇이며, 왜 모든 사람들이 지금 그들에게 관심을 가지고 있는가?Wasserman, P.D.; Schwartz, T.; 페이지: 10-15; IEEE Expert, 1988, 제3권, 제1호
  7. ^ R. 콜로버와 S.Bengio (2004년).Perceptron, MLP 및 SVM 간의 링크. Proc.국제 회의머신 러닝(ICML)을 참조해 주세요.

외부 링크