퍼셉트론

기계 학습에서 퍼셉트론(또는 McCulloch-Pitts neuron)은 이진 분류기의 지도 학습을 위한 알고리즘입니다.이진 분류기는 숫자 벡터로 표현되는 입력이 특정 클래스에 속하는지 여부를 결정할 수 있는 함수입니다.^[1]선형 분류기의 한 유형, 즉 특징 벡터와 가중치의 집합을 결합한 선형 예측 함수를 기반으로 예측을 수행하는 분류 알고리즘입니다.

역사

퍼셉트론은 1943년 워렌 맥컬로치와 월터 피츠에 의해 발명되었습니다.^[5]최초의 하드웨어 구현은 1957년 프랭크 로젠블랫(Frank Rosenblatt)에 의해 코넬 항공 연구소(Cornell Aeronautical Laboratory)에서 제작된 마크 아이 퍼셉트론(Mark I Perceptron) 기계로,^[6] 미국 해군 연구소의 정보 시스템 지부와 로마 항공 개발 센터가 자금을 지원했습니다.그것은 1960년 6월 23일에 처음으로 공개적으로 시연되었습니다.^[7]이 기계는 "1963년부터 1966년까지 미국 국립 사진 해석 센터(National Photographic Interpretation Center)가 이 알고리즘을 사진 해석에 유용한 도구로 개발하기 위해 4년간의 비밀스러운 NPIC 노력의 일부"였습니다.^[8]

Rosenblatt는 1958년 논문에서 퍼셉트론의 세부사항을 설명했습니다.^[9]그의 지각자 조직은 세 종류의 세포("단위")로 구성되어 있습니다.AI, AII, R은 "투영", "연관", "반응"을 의미합니다.

마크 I 퍼셉트론 기계

퍼셉트론은 프로그램이 아닌 기계로 개발되었으며, IBM 704용 소프트웨어에 최초로 구현된 반면, 이후 맞춤형 하드웨어에 이미지 인식을 위해 설계된 "Mark I 퍼셉트론"으로 구현되었습니다.그 기계는 현재 스미스소니언 국립 미국 역사 박물관에 있습니다.^[10]

마크 1 퍼셉트론은 3개의 레이어를 가지고 있습니다.

20x20 그리드에 배열된 400개의 광전지 배열로, "센서 유닛"(S-유닛) 또는 "입력 망막"이라고 명명됩니다.각 S유닛은 최대 40대의 A유닛에 연결할 수 있습니다.
512개의 퍼셉트론으로 이루어진 숨겨진 층으로, "연관 단위"(A-units)라고 이름 붙여졌습니다.
8개의 퍼셉트론으로 구성된 출력 레이어를 "응답 유닛"(R-유닛)이라고 합니다.

로젠블랫은 자신이 실험한 다른 퍼셉트론 모델과 구별하기 위해 이 3층 퍼셉트론 네트워크를 알파 퍼셉트론이라고 불렀습니다.^[7]

S-유닛은 플러그보드(사진 참조)를 통해 무작위로(난수표에 따라) A-유닛에 연결되어 "퍼셉트론의 특별한 의도적 편향을 제거"합니다.연결 가중치는 학습되지 않고 고정되어 있습니다.Rosenblatt는 망막이 시각 피질과 무작위로 연결되어 있다고 믿었기 때문에 무작위 연결에 대해 단호했습니다. 그리고 그의 퍼셉트론 기계가 인간의 시각적 인식과 닮기를 원했습니다.^[11]

A-유닛은 R-유닛에 연결되어 있으며 조정 가능한 가중치는 전위차계로 부호화되어 있으며, 학습 중 가중치 업데이트는 전기 모터에 의해 수행되었습니다.^[2]^{: 193}하드웨어에 대한 자세한 내용은 작업자 설명서에 나와 있습니다.^[12]

1958년 미국 해군에 의해 조직된 기자 회견에서, 로젠블랫은 퍼셉트론에 대해 언급했는데, 이 퍼셉트론은 신생 인공지능 커뮤니티 사이에서 뜨거운 논란을 일으켰습니다. 뉴욕 타임즈는 퍼셉트론이 "해군이 걷고, 말하고, 볼 수 있을 것으로 기대하는 전자 컴퓨터의 배아"라고 보도했습니다.글을 쓰고, 자신을 복제하고, 자신의 존재를 의식합니다."^[13]

Rosenblatt는 Principle of Neurodynamics(1962)에서 Perceptron 기계의 많은 변형에 대한 자신의 실험을 설명했습니다.변형은 다음과 같습니다.

"교차 coupling"(같은 층에 있는 장치들 사이의 연결)일 가능성이 있습니다.
"백-coupling"(이후 계층의 장치에서 이전 계층의 장치로 연결),
마지막 두 개의 층이 조정 가능한 가중치를 갖는 4층 퍼셉트론(따라서 적절한 다층 퍼셉트론),
시간 delays을 퍼셉트론 유닛에 통합하여 순차적 데이터 처리를 가능하게 합니다.
오디오 분석(영상 instead)

이 기계는 1967년 코넬에서 스미소니언으로 운송되었고, 해군 연구국에 의해 관리된 정부 이전에 따라 운송되었습니다.^[8]

퍼셉트론 (1969)

비록 퍼셉트론이 처음에는 유망한 것처럼 보였지만, 퍼셉트론이 많은 종류의 패턴을 인식하도록 훈련될 수 없다는 것이 빠르게 증명되었습니다.이로 인해 신경망 연구 분야가 수년간 정체되어 있다가, 두 개 이상의 층을 가진 피드포워드 신경망(다층 퍼셉트론이라고도 함)이 한 층을 가진 퍼셉트론(단층 퍼셉트론이라고도 함)보다 처리 능력이 더 뛰어나다는 사실이 인정되었습니다.

단층 퍼셉트론은 선형적으로 분리 가능한 패턴만 학습할 수 있습니다.^[14]일부 단계 활성화 기능이 있는 분류 작업의 경우, 단일 노드에 패턴을 구성하는 데이터 점을 나누는 단일 선이 있습니다.더 많은 노드가 더 많은 분할선을 만들 수 있지만, 더 복잡한 분류를 형성하기 위해서는 어떻게든 그 선들을 결합해야 합니다.두 번째 지각 층 또는 선형 노드는 그렇지 않으면 분리할 수 없는 많은 문제를 해결하기에 충분합니다.

1969년, 마빈 민스키와 시모어 파퍼트가 쓴 퍼셉트론이라는 제목의 유명한 책은 이러한 계층의 네트워크가 XOR 함수를 배우는 것이 불가능하다는 것을 보여주었습니다.그들은 또한 비슷한 결과가 다층 퍼셉트론 네트워크에 적합할 것이라고 추측했다고 종종 (잘못) 믿습니다.그러나 민스키와 파퍼트 모두 다층 퍼셉트론이 XOR 함수를 생성할 수 있다는 것을 이미 알고 있었기 때문에 이것은 사실이 아닙니다.(자세한 내용은 Perceptrons(책) 페이지 참조)그럼에도 불구하고, 자주 인용되는 민스키/페이퍼트 텍스트는 신경망 연구에 대한 관심과 자금을 크게 감소시켰습니다.뉴럴 네트워크 연구가 1980년대에 부활하기까지 10년이 더 걸렸습니다.^[14]이 텍스트는 1987년에 "Perceptrons - Expanded Edition"으로 재인쇄되어 원본 텍스트의 일부 오류가 표시되고 수정되었습니다.

후속작업

Rosenblatt는 자금이 줄었음에도 불구하고 퍼셉트론 연구를 계속했습니다.마지막 시도는 1961년에서 1967년 사이에 지어진 토버모리였습니다.그것은 4단과 12,000개의 무게를 가지고 있었습니다.완성될 무렵에는 디지털 컴퓨터의 시뮬레이션이 목적에 맞게 제작된 퍼셉트론 기계보다 더 빨라졌습니다.^[15]그는 1971년 보트 사고로 사망했습니다.

커널 퍼셉트론 알고리즘은 1964년 Aizerman 등에 의해 이미 도입되었습니다.^[16]일반적인 분리 불가능한 경우의 퍼셉트론 알고리즘에 대한 마진 경계 보장은 Freund와 Schapire(1998)가 처음으로,^[1] 그리고 최근에는 이전 결과를 확장하고 새로운 L1 경계를 제공하는 Mohri와 Rostamizadeh(2013)에 의해 제공되었습니다.^[17]

퍼셉트론은 생물학적 뉴런의 단순화된 모델입니다.신경 행동을 완전히 이해하기 위해서는 생물학적 뉴런 모델의 복잡성이 종종 요구되지만, 연구에 따르면 퍼셉트론과 같은 선형 모델이 실제 뉴런에서 볼 수 있는 행동을 생성할 수 있다고 합니다.^[18]

모든 이진 함수 및 학습 동작에 대한 의사결정 경계의 솔루션 공간은 에서 연구됩니다.

정의.

적절한 가중치가 입력에 적용되고 결과적으로 가중된 합은 출력 o를 생성하는 함수로 전달됩니다.

현대적인 의미에서 퍼셉트론은 입력 $\mathbf {x}$ ${\$ 실제 값 벡터)를 출력 값 $f(\mathbf {x} )$ $f(\mathbf {x} )$ ${\displaystyle$ f $(\mathbf {x})}($ 단일 이진 값)에 매핑하는 함수인 임계값 함수라는 이진 분류기를 학습하는 알고리즘입니다.

f(\mathbf {x})=\theta (\mathbf {w} \cdot \mathbf {x} +b)

where $\theta$ is the heaviside step-function, $\mathbf {w}$ is a vector of real-valued weights, $\mathbf {w} \cdot \mathbf {x}$ is the dot product $\sum _{i=1}^{m}w_{i}x_{i}$ ,여기서 $m$ 은 지각자에 대한 입력의 수이고, $b$ 는 편향입니다.편향은 의사결정 경계를 원점에서 멀리 이동시키고 입력 값에 의존하지 않습니다.

동치로 $\mathbf {w} \cdot \mathbf {x} +b=(\mathbf {w} ,b)\cdot (\mathbf {x} ,1)$ ⋅ x + $b$ = $\mathbf {w} \cdot \mathbf {x} +b=(\mathbf {w} ,b)\cdot (\mathbf {x} ,1)$ ( w, b ) ⋅ ( x, 1) {\displaystyle \mathbf {w} \cdot \mathbf {x} + b= (\mathbf {w}, b)\cdot (\mathbf {x}, 1)}이므로,바이어스 항 $b$ $b$ 를 $b$ $\mathbf {w} _{m+1}$ 가중치 $\mathbf {w} _{m+1}$ + 1 $\mathbf {w} _{m+1}$ {\ $displaystyle {w} _$ {m $+1}$ 로 추가하고 각 입력 x $\mathbf {w} _{m+1}$ ${\$ 에 $1$ $좌표$ 1 ${\displaystyle$ 1 $}$ 을 추가한 $다음$ 원점을 $\mathbf {x}$ 지나는 선형 분류기로 쓸 수 있습니다.

f(\mathbf {x} )=\theta (\mathbf {w} \cdot \mathbf {x} )

${\displaystyle f(\mathbf {x})}($ 또는 1)의 이진 값은 $\mathbf {x}$ ${\$ 에 대해 양수 또는 음수 인스턴스로 이진 $\mathbf {x}$ 분류를 수행하는 데 사용됩니다.공간적으로 편향은 평면 결정 경계의 위치(방향은 아니지만)를 이동합니다.

신경망의 맥락에서 퍼셉트론은 헤비사이드 스텝 기능을 활성화 기능으로 사용하는 인공 뉴런입니다.퍼셉트론 알고리즘은 다층 퍼셉트론과 구별하기 위해 단층 퍼셉트론이라고도 하는데, 이는 더 복잡한 신경망의 잘못된 명칭입니다.선형 분류기로서 단층 퍼셉트론은 가장 간단한 피드포워드 신경망입니다.

표현력

정보이론

정보 이론의 관점에서 볼 때, 입력이 K개인 단일 퍼셉트론은 2K 비트의 정보 용량을 갖습니다.^[20]이 결과는 Thomas Cover 덕분입니다.^[21]

구체적으로 $T(N,K)$ $T(N,K)$ ${\displaystyle T(N,$ K $)}$ 를 $T(N,K)$ K차원에서 N개의 점을 선형적으로 분리하는 방법의 개수라고 하면,

T(N,K)=\left\{\begin{array}{cc}2^{N}&K\geq N\2\sum _{k=0}^{K-1}\left({begin{array}{c}N-1\k\end{array}}\right)&K<N\end{array}}\right.

K가 클 때

T(N,K)/2^{N}

(

T(N,K)/2^{N}

K

T(N,K)/2^{N}

/

T(N,K)/2^{N}

N

{\

T

(N,

K) /

2^{N}

N\leq 2K

N\leq 2K

N\leq 2K

N\leq 2K

N\leq 2K

일 때 1에 매우

T(N,K)/2^{N}

가깝지만

N\leq 2K

N

N>2K

> 2

N>2K

{\displaystyle

N

>2K}

일 때 0에 매우 가깝습니다

N>2K

즉,

N\leq 2K

의

N\leq 2K

N\leq 2K

은

N\leq 2K

N ≤

2K

{\

displaystyle

N\

leq 2K}

일 때 N 점에 대한 이진 레이블의 무작위 할당을 거의 확실히 기억할 수 있지만,

N\leq 2K

N

N>2K

>

N>2K

N>2K

일 때는 거의 확실히 기억할 수 없습니다

N>2K

부울함수

이진 입력에서만 작동하는 경우 퍼셉트론을 선형 분리 가능한 부울 함수 또는 임계값 부울 함수라고 합니다.n개 입력에서 임계값 부울 함수의 수열은 OEIS A000609입니다.값은 $n=9$ = $n=9$ ${\$ displaystyle n = 9} 경우까지만 정확히 알 수 있습니다.크기 순서는 정확히 알 수 있습니다. 상한 $2^{n^{2}-n\log _{2}n+O(n)}$ $n$ 2 - $2^{n^{2}-n\log _{2}n+O(n)}$ n $2^{n^{2}-n\log _{2}n+O(n)}$ $2^{n^{2}-n\log _{2}n+O(n)}$ ⁡ n $2^{n^{2}-n\log _{2}n+O(n)}$ + $2^{n^{2}-n\log _{2}n+O(n)}$ $2^{n^{2}-n\log _{2}n-O(n)}$ ( n ) {\ $displaystyle 2^{n$ ^{2} - $n\log _{2}$ n + O ( n )} 및 하한 2 n 2 - n 로그 2 ⁡ n - O ( n ) {\displaystyle 2^{n^{2} - n\log _{2} n - O ( n )}.

임의의 부울 선형 임계값 함수는 정수 가중치만으로 구현할 수 있습니다.또한 단일 정수 가중치 매개 변수를 표현하는 데 필요하고 충분한 비트 수는 $\Theta (n\ln n)$ θ $\Theta (n\ln n)$ ⁡n) ${\displaystyle$ \Theta $\Theta (n\ln n)$ n\lnn)}입니다.

보편근사정리

하나의 지각자가 어떤 반공간이라도 분류하는 법을 배울 수 있습니다.부울 배타적 문제(유명한 "XOR 문제")와 같은 선형적으로 분리할 수 없는 벡터는 풀 수 없습니다.

숨겨진 레이어가 하나 있는 퍼셉트론 네트워크는 임의로 콤팩트한 서브셋을 가깝게 분류하는 것을 배울 수 있습니다.마찬가지로 콤팩트하게 지원되는 연속 함수도 임의로 근사할 수 있습니다.이것은 본질적으로 조지 사이벤코와 커트 호닉이 정리한 특별한 경우입니다.

접속성 국소 퍼셉트론

Perceptrons(Minsky and Papert, 1969)는 다양한 부울 함수를 학습하는 데 필요한 퍼셉트론 네트워크의 종류를 연구했습니다.

Mark I Perceptron 기계와 유사하게 $n$ 의 $n$ 개의 입력 $n$ 장치, 1개의 은닉 계층, 1개의 출력이 있는 Perceptron 네트워크를 고려합니다.유형 $f:2^{n}\to 2$ 2 $f:2^{n}\to 2$ → $f:2^{n}\to 2$ {\ $displaystyle$ $f:2^{n}\to 2}$ 의 부울 함수를 계산합니다 $f:2^{n}\to 2$ 은닉 계층의 각 유닛이 최대 $k$ 의 $k$ 개의 $k$ 입력 유닛에 연결되도록 퍼셉트론 네트워크가 존재하는 경우 $k$ 이들은 $k$ 의 차수 {\ $displaystyle$ k $}$ 의 연속적인 $로컬$ 함수를 호출합니다.

정리.(정리 3.1.1):패리티 함수는 $n차$ $n$ 의 연속적으로 로컬입니다 $n$

정리.(섹션 5.5):연결 함수는 $\Omega (n^{1/2})$ ω( $\Omega (n^{1/2})$ 1 $\Omega (n^{1/2})$ 2) ${\displaystyle \Omega($ n $\Omega (n^{1/2})$ 1/2})} 순서의 연속적으로 로컬입니다.

단층 퍼셉트론의 학습 알고리즘

아래는 단일 출력 유닛을 갖는 단일 레이어 퍼셉트론에 대한 학습 알고리즘의 예시입니다.출력 단위가 여러 개인 단층 퍼셉트론의 경우, 한 출력 단위의 가중치가 다른 모든 출력 단위와 완전히 별개이기 때문에 각 출력 단위에 대해 동일한 알고리즘을 실행할 수 있습니다.

은닉 계층이 존재하는 다층 퍼셉트론의 경우 역전파와 같은 보다 정교한 알고리즘을 사용해야 합니다.활성화 함수 또는 퍼셉트론에 의해 모델링되는 기본 프로세스가 비선형인 경우, 활성화 함수가 미분 가능한 한 델타 규칙과 같은 대체 학습 알고리즘을 사용할 수 있습니다.그럼에도 불구하고, 아래 단계에서 설명된 학습 알고리즘은 비선형 활성화 함수를 가진 다층 퍼셉트론에 대해서도 종종 작동할 것입니다.

인공 신경망에서 여러 개의 퍼셉트론이 결합되면 각 출력 뉴런은 다른 모든 뉴런과 독립적으로 작동하므로 각 출력을 학습하는 것을 분리하여 고려할 수 있습니다.

정의들

먼저 몇 가지 변수를 정의합니다.

$r$ $r$ 은 $r$ 지각자의 학습 속도입니다.학습률은 보통 1보다 작도록 선택되는 양수입니다.값이 클수록 가중치의 변동성이 커질 가능성이 큽니다.
$y=f(\mathbf {z} )$ = $y=f(\mathbf {z} )$ ( $z$ ) {\ $displaystyl$ $y=f(\mathbf {z} )$ y = f(\mathbf ${z})}$ 은(는) 입력 벡터 z {\displaystyle \mathbf {z}}에 대한 퍼셉트론의 출력을 나타냅니다.
$D=\{(\mathbf {x} _{1},d_{1}),\dots ,(\mathbf {x} _{s},d_{s})\}$ = $D=\{(\mathbf {x} _{1},d_{1}),\dots ,(\mathbf {x} _{s},d_{s})\}$ { ( $D=\{(\mathbf {x} _{1},d_{1}),\dots ,(\mathbf {x} _{s},d_{s})\}$ x $1,$ d 1 ) , … , ( x s, ds ) } {\displaysty $D=\{(\mathbf {x} _{1},d_{1}),\dots ,(\mathbf {x} _{s},d_{s})\}$ e D=\{(\mathbf {x} _{1}, d_{1} $D=\{(\mathbf {x} _{1},d_{1}),\dots ,(\mathbf {x} _{s},d_{s})\}$ dots ,(\mathbf {x} _{s}, d_{s}\}}는 s {\displaystyle s} 샘플의 훈련 집합입니다. 여기서:
- $\mathbf {x} _{j}$ $\mathbf {x} _{j}$ ${\$ 는 $\mathbf {x} _{j}$ $n$ $n$ 차원 $n$ 입력 벡터입니다.
- $d_{j}$ ${\$ 는 $d_{j}$ 해당 입력에 대한 퍼셉트론의 원하는 출력 값입니다.

기능의 값은 다음과 같습니다.

$x_{j,i}$ $x_{j,i}$ $x_{j,i}$ ${\$ 는 $x_{j,i}$ $j$ $j$ 번째 $j$ 훈련 입력 벡터의 $i$ $i$ 번째 $i$ 피쳐의 값입니다.
$x_{j,0}=1$ $x_{j,0}=1$ $x_{j,0}=1$ = $x_{j,0}=1$ ${\$ displaystyle x_ $x_{j,0}=1$ j,0}=1}입니다.

가중치를 나타내는 방법:

$w_{i}$ ${\$ 는 $w_{i}$ 가중치 벡터의 $i$ $i$ 번째 $i$ 값이며, $i$ 에i {\ $displaystyle$ i}번째 $i$ 입력 피쳐의 값을 곱합니다.
$x_{j,0}=1$ $x_{j,0}=1$ $x_{j,0}=1$ = $x_{j,0}=1$ ${\$ $displaystyle$ x_{j,0}=1}이기 때문에 w0 {\ $displaystyle$ w_{0}는 바이어스 상수 b {\displaystyle b} 대신 사용하는 바이어스입니다.

$\mathbf {w}$ ${\$ 의 시간 의존성을 나타내기 위해 다음을 사용합니다 $\mathbf {w}$

$w_{i}(t)$ $w_{i}(t)$ 는 $i$ ${\displaystyle$ t $} 시간$ 에서 가중치 i $i$ 입니다 $w_{i}(t)$ $t$

스텝스

가중치를 초기화합니다.가중치는 0 또는 작은 랜덤 값으로 초기화될 수 있습니다.아래 예제에서는 0을 사용합니다.
교육 세트 $D$ 의 각 예제 $j$ 에 대해 입력 $\mathbf {x} _{j}$ $\mathbf {x} _{j}$ ${\$ 및 원하는 $\mathbf {x} _{j}$ $d_{j}$ $d_{j}$ ${\$ 에 대해 다음 단계를 수행합니다 $d_{j}$
1. 실제 출력을 계산합니다.
  ${\begin{aligned}y_{j}(t)&=f[\mathbf {w}(t)\cdot \mathbf {x}_{j}]\\&=f[w_{0}(t)x_{j,0}+w_{1}(t)x_{j,1}+w_{2}(t)x_{j,2}+\dotsb +w_{n}(t)x_{j,n}]\end{aligned}$
2. 가중치 업데이트:
  $w_{i}(t+1)=w_{i}(t)\;{\boldsymbol {+}}\;r\cdot (d_{j}-y_{j}(t))x_{j,i}$ , for all features $0\leq i\leq n$ , $r$ is the learning rate.
오프라인 학습의 경우 반복 오류 ${\frac {1}{s}}\sum _{j=1}^{s}|d_{j}-y_{j}(t)|$ ${\frac {1}{s}}\sum _{j=1}^{s}|d_{j}-y_{j}(t)|$ ∑ j = 1 ${\frac {1}{s}}\sum _{j=1}^{s}|d_{j}-y_{j}(t)|$ s ${\frac {1}{s}}\sum _{j=1}^{s}|d_{j}-y_{j}(t)|$ j - y j ( t ) {\displaystyle {\frac {1}{s}}\sum _{j=1}^{s} d_{j}-y_{j}(t) γ이(가) 사용자 지정 오류 임계값 gamma {\displaystyle \j}보다 작거나 미리 지정된 수의 반복이 완료될 때까지 두 번째 단계를 반복할 수 있습니다.여기서 s는 다시 표본 집합의 크기입니다.

알고리즘은 2b 단계에서 모든 훈련 샘플 후 가중치를 업데이트합니다.

선형적으로 분리 가능한 데이터 세트에서 하나의 퍼셉트론의 수렴

단일 퍼셉트론은 선형 분류기입니다.모든 입력 벡터가 올바르게 분류되어야 안정된 상태에 도달할 수 있습니다.훈련 집합 $D$ 가 선형적으로 분리할 수 없는 경우, 즉 양의 예제를 초평면에 의해 음의 예제에서 분리할 수 없는 경우, 알고리즘은 해가 없으므로 수렴하지 않습니다.따라서 훈련 세트의 선형 분리 가능성이 선험적으로 알려지지 않은 경우 아래의 훈련 변형 중 하나를 사용해야 합니다.수렴 정리에 대한 상세한 분석과 확장은 Perceptrons(1969)의 11장에 있습니다.

Linear separability is testable in time $\min(O(n^{d/2}),O(d^{2n}),O(n^{d-1}\ln n))$ , where $n$ is the number of data points, and $d$ is the dimension of each point.^[23]

훈련 세트가 선형적으로 분리 가능하다면, 지각자는 유한하게 많은 실수를 한 후에 수렴할 것이 보장됩니다.^[24]그 정리는 Rosenblatt et al.에 의해 증명되었습니다.

퍼셉트론 수렴 정리 — ${\textstyle \max _{(x,y)\in D}\|x\|_{2}=R}$ ( ${\textstyle \max _{(x,y)\in D}\|x\|_{2}=R}$ ${\textstyle \max _{(x,y)\in D}\|x\|_{2}=R}$ ∈ ${\textstyle \max _{(x,y)\in D}\|x\|_{2}=R}$ ‖ ${\textstyle \max _{(x,y)\in D}\|x\|_{2}=R}$ ‖ $2$ ${\textstyle D}$ = R {\ $textstyle \max$ _{(x,y)\ $in$ D}\ x\_{2}=R ${\textstyle w^{*}}$ 와 같은 데이터 $집합$ ${\textstyle D}$ ${\$ $textstyle$ $w$ $^{*}$ 가 주어지며, 여백 ${\textstyle w^{*}}$ γ ${\textstyle w^{*}}$ {\textstyle \gamma ${\textstyle \gamma }$

\gamma :=\min _{(x,y)\in D}y(w^{*}\cdot x)

그런 다음 퍼셉트론 0-1 학습 알고리듬은 모든 학습 속도 및 데이터 세트에서 샘플링하는 모든 방법에 대해 최대 ( ${\textstyle (R/\gamma )^{2}}$ ${\textstyle (R/\gamma )^{2}}$ γ ) 2 ${\textstyle (R/\gamma$ )^{2}}개의 실수를 한 후 수렴됩니다.

다음의 간단한 증명은 Novikoff(1962)에 의한 것입니다.증명의 개념은 가중치 벡터가 음의 점 곱을 가지는 방향으로 항상 유계된 양으로 조정되므로 $O ($ √t) 위에서 유계될 수 있다는 $것$ 입니다. 여기서 t는 가중치 벡터의 변경 횟수입니다.그러나, $만약$ (알 수 없는) 만족스러운 무게 벡터가 존재한다면, 모든 변화는 입력 벡터에만 의존하는 양만큼 이 (알 수 없는) 방향으로 진행되기 때문에 O $(t)$ 에 의해 경계지어질 수도 있습니다.

증명

Suppose at step ${\textstyle t}$ , the perceptron with weight ${\textstyle w_{t}}$ makes a mistake on data point ${\textstyle (x,y)}$ , then it updates to ${\textstyle w_{t+1}=w_{t}+r(y-f_{w_{t}}(x))x}$ .

${\textstyle y=0}$ = ${\textstyle y=0}$ ${\$ textstyle y=0}인 경우 인수는 대칭이므로 생략합니다.

WLOG, ${\textstyle y=1}$ , then ${\textstyle f_{w_{t}}(x)=0}$ , ${\textstyle f_{w^{*}}(x)=1}$ , and ${\textstyle w_{t+1}=w_{t}+rx}$ .

가정에 따라 마진이 있는 분리는 다음과 같습니다.

w^{*}\cdot x\geq \gamma

따라서,

w^{*}\cdot w_{t+1}-w^{*}\cdot w_{t}=w^{*}\cdot (rx)\geq r\gamma

또한.

\ w_{t+1}\ _{2}^{2}-\ w_{t}\ _{2}^{2}=\ w_{t}+rx\ _{2}^{2}-\ w_{t}\ _{2}^{2}=2r(w_{t}\cdot x)+r^{2}\ x\ _{2}^{2}

그리고 퍼셉트론이 실수를 했기 때문에

{\textstyle w_{t}\cdot x\leq 0}

⋅ x ≤ 0 {\

textstyle w_{t}\cdot

x

{\textstyle w_{t}\cdot x\leq 0}

leq 0}.

\ w_{t+1}\ _{2}^{2}-\ w_{t}\ _{2}^{2}\leq \ x\ _{2}^{2}\leq r^{2}}R^{2}

${\textstyle w_{0}=0}$ ${\textstyle w_{0}=0}$ = ${\textstyle w_{0}=0}$ ${\$ textstyle w_{0}=0}에서 시작했으므로 N개의 {\textstyle N}개의 실수를 한 후,

\w\_{2}\leq {\sqrt {Nr^{2}R^{2}}}

하지만 또한

\ w\_{2}\geq w\cdot w^{*}\geq Nr\gamma

이 둘을 합하면 ${\textstyle N\leq (R/\gamma )^{2}}$ ${\textstyle N\leq (R/\gamma )^{2}}$ ( ${\textstyle N\leq (R/\gamma )^{2}}$ / ${\textstyle N\leq (R/\gamma )^{2}}$ γ ) 2 {\textstyle $N\leq$ (R $/\gamma$ )^{2}}가 됩니다.

퍼셉트론 알고리즘은 선형적으로 분리 가능한 훈련 세트의 경우 일부 솔루션에 수렴하는 것이 보장되지만, 여전히 임의의 솔루션을 선택할 수 있으며 문제는 다양한 품질의 많은 솔루션을 인정할 수 있습니다.^[25]오늘날 선형 지지-벡터 기계로 더 잘 알려진 최적 안정성의 지각자는 이 문제를 해결하기 위해 설계되었습니다(Krauth and Mezard, 1987).^[26]

퍼셉트론 사이클링 정리

데이터 세트가 선형적으로 분리할 수 없는 경우, 단일 지각자가 수렴할 방법이 없습니다.하지만 우리는^[27] 여전히.

퍼셉트론 사이클링 정리 — 데이터 $집합$ D{\ $displaystyle D}$ 에 $D$ 한정된 점만 있는 경우 상한 개수 $M$ $M$ 이(가) 존재합니다 $M$ 임의의 시작 가중치 벡터 w $w_{0}$ $w_{0$ 에 대하여 $w_{t}$ 가중치 벡터 $w_{t}$ w {\ $displaystyle$ w_ ${t}}$ 가 ‖ $w$ ‖ w 0 + M ${\displaystyle$ \w_{t}\ \leq \w_{0}\ +M}로 경계를 이루는 표준 값을 갖습니다.

이것은 브래들리 에프론이^[28] 먼저 증명했습니다.

부울 함수 학습

$x$ $x$ 가 $\{-1,+1\}^{n}$ $\{-1,+1\}^{n}$ n ${\displaystyle \{-1,$ $+1\}^{n},$ 즉 원점에 중심을 둔 n차원 하이퍼큐브의 정점이고 $y=\theta (x_{i})$ = $y=\theta (x_{i})$ θ $y=\theta (x_{i})$ (xi) {\displaystyle y=\theta (x_{i})}인 데이터 집합을 생각해 보십시오.즉, 양의 $x_{i}$ 가 $x_{i$ 인 모든 데이터 점은 $y=1$ = 1 ${\$ displaystyle y=1}이고, 그 반대도 마찬가지입니다.퍼셉트론 수렴 정리에 의해 퍼셉트론은 최대 $n$ 의 $n$ 개의 실수를 $n$ 한 후에 수렴됩니다.

만약 우리가 같은 작업을 수행하기 위해 논리 프로그램을 작성한다면, 각각의 양의 예는 좌표 중 하나가 맞는 것을 보여주고, 각각의 음의 예는 그것의 보완이 양의 예임을 보여줍니다.알려진 모든 긍정적인 예를 수집함으로써 우리는 결국 데이터 세트가 학습되는 하나의 좌표를 제외한 모든 좌표를 제거합니다.^[29]

이 경계는 최악의 경우에 대해 점근적으로 엄격합니다.최악의 경우, 첫 번째로 제시된 예제는 완전히 새로운 것으로 $n$ 의 ${\displaystyle$ n $}$ 비트의 $n$ 정보를 제공하지만, 각 후속 예제는 이전 예제와 최소한으로 다르며 각각 1비트씩 제공합니다. $n+1$ + $n+1$ {\ $displaystyle n+$ 1 $n+1$ $2n$ }개의 예제를 수행한 후에는 퍼셉트론( $2n$ 의 ${\$ $displaystyle 2n$ $}$ 개의 $2n$ 정보)에 $2n$ 2개의 {\ $displaystyle$ 2n} $개$ 의 정보가 있습니다.^[20]

그러나 첫 번째 예제는 $n$ 비트, 두 번째 $n/2$ $n/2$ 비트를 $n$ 하고 총 $O(\ln n)$ ⁡ n) {\ $displaystyle$ O(\lnn)}개의 예제를 사용하는 등 랜덤으로 균일하게 예제를 제공하면 기대 측면에서 빠듯하지 않습니다.

변형

래칫을 사용한 포켓 알고리즘(Gallant, 1990)은 지금까지 본 최고의 솔루션을 "주머니에" 보관함으로써 퍼셉트론 학습의 안정성 문제를 해결합니다.그런 다음 포켓 알고리즘은 마지막 솔루션이 아닌 포켓에 있는 솔루션을 반환합니다.또한 분리할 수 없는 데이터 세트에도 사용할 수 있습니다. 여기서 목적은 오분류의 수가 적은 지각자를 찾는 것입니다.그러나 이러한 해결책은 순전히 확률적으로 나타나며 따라서 포켓 알고리즘은 학습 과정에서 점진적으로 접근하지 않으며 주어진 학습 단계 수 내에 나타나는 것이 보장되지도 않습니다.

Maxover 알고리즘(Wendemuth, 1995)은 데이터 세트의 선형 분리 가능성에 대한 (사전) 지식과 관계없이 수렴할 것이라는 점에서 "강력"합니다.^[30]선형적으로 분리 가능한 경우 최적의 안정성(클래스 간 최대 마진)을 가지고도 원하는 경우 훈련 문제를 해결할 수 있습니다.분리할 수 없는 데이터 세트의 경우, 잘못된 분류가 적은 솔루션을 반환합니다.모든 경우에 알고리즘은 이전 상태를 기억하지 않고 확률적 점프 없이 학습 과정에서 점차 솔루션에 접근합니다.컨버전스는 분리 가능한 데이터 세트의 글로벌 최적성과 분리 불가능한 데이터 세트의 로컬 최적성입니다.

투표된 퍼셉트론(Freund and Schapire, 1999)은 다중 가중 퍼셉트론을 사용하는 변형입니다.알고리즘은 예제가 잘못 분류될 때마다 새로운 퍼셉트론을 시작하여 마지막 퍼셉트론의 최종 가중치로 가중치 벡터를 초기화합니다.또한 각 퍼셉트론에는 하나의 예를 잘못 분류하기 전에 정확하게 분류하는 수에 해당하는 다른 가중치가 부여되며, 마지막에 출력은 모든 퍼셉트론에 대한 가중 투표가 됩니다.

분리 가능한 문제에서 퍼셉트론 훈련은 클래스 간 최대 분리 마진을 찾는 것도 목표로 할 수 있습니다.Min-Over 알고리즘(Krauth and Mezard, 1987)^[26] 또는 AdaTron(Anlauf and Biehl, 1989)^[31]과 같은 반복 훈련 및 최적화 체계를 통해 최적 안정성의 지각론을 결정할 수 있습니다.AdaTron은 해당 2차 최적화 문제가 볼록하다는 사실을 사용합니다.커널 트릭과 함께 최적 안정성의 지각자는 서포트 벡터 머신의 개념적 토대입니다.

$\alpha$ $\alpha$ - perceptron은 $\alpha$ 또한 고정된 랜덤 가중치의 사전 처리 계층을 사용하고 임계값 출력 단위를 사용했습니다.이를 통해 퍼셉트론은 아날로그 패턴을 이진 공간에 투영하여 분류할 수 있었습니다.실제로, 충분히 높은 차원의 투영 공간의 경우, 패턴은 선형적으로 분리 가능해질 수 있습니다.

다중 레이어를 사용하지 않고 비선형 문제를 해결하는 또 다른 방법은 고차 네트워크(sigma-pi unit)를 사용하는 것입니다.이러한 유형의 네트워크에서 입력 벡터의 각 요소는 곱셈 입력(2차)의 각 쌍별 조합으로 확장됩니다.이를 n-order 네트워크로 확장할 수 있습니다.

그러나 모든 교육 데이터를 완벽하게 분류하는 것이 최선의 분류기는 아니라는 것을 명심해야 합니다.실제로 데이터가 등변 가우스 분포에서 나온다는 사전 제약 조건이 있다면 입력 공간에서의 선형 분리가 최적이며 비선형 솔루션이 과적합됩니다.

다른 선형 분류 알고리즘으로는 Winnow, 서포트 벡터 머신, 로지스틱 회귀 등이 있습니다.

다급 퍼셉트론

선형 분류기를 훈련하는 대부분의 다른 기술과 마찬가지로, 지각자는 자연스럽게 다중 클래스 분류에 일반화됩니다.여기서 입력 $x$ $x$ 및 출력 $x$ $y$ $y$ 는 $y$ 임의의 집합에서 가져옵니다.특징 표현 함수 $f(x,y)$ ( $f(x,y)$ $f(x,y)$ ) $f(x,y)$ 는 가능한 각 입력/출력 쌍을 유한 차원 실제 값 특징 벡터에 매핑합니다 $f(x,y)$ .이전과 마찬가지로 피쳐 벡터에 가중치 벡터 $w$ $w$ 가 곱해지지만 $w$ 이제는 결과 점수를 사용하여 여러 가능한 출력 중에서 선택합니다.

{\hat {y}}=\operator name {argmax} _{y}f(x,y)\cdot w.

예제에서 다시 학습을 반복하여 각각의 출력을 예측하고 예측된 출력이 목표와 일치할 때 가중치를 변경하지 않고 유지하며 목표와 일치하지 않을 때는 가중치를 변경합니다.업데이트 내용은 다음과 같습니다.

w_{t+1}=w_{t}+f(x,y)-f(x,{\hat {y}}).

$x$ 다중 클래스 피드백 공식은 x {\ $displaystyle x}$ 이(가) 실제 값 벡터이고y {\ $displaystyle y}$ 이 $\{0,1\}$ $y$ ) { $,$ 1} {\displaystyle $\{0,1\}}$ 중에서 선택되고 $\{0,1\}$ $f(x,y)=yx$ y $f(x,y)=yx$ = y $f(x,y)=yx$ ${\$ displaystyle f(x,y)=yx}일 때 원래 퍼셉트론으로 줄어듭니다.

특정 문제의 경우 ${\displaystyle$ y}가 매우 크거나 심지어 무한 집합에서 $y$ 되더라도 ${\$ displaystyle y $\mathrm {argmax} _{y}f(x,y)\cdot w$ ${\displaystyle$ { $argmax} _{$ y}f $($ x $,y)\$ cdot w}인 $\mathrm {argmax} _{y}f(x,y)\cdot w$ ⋅를 효율적으로 찾을 수 있도록 입출력 표현 및 기능을 선택할 수 있습니다.

2002년 이후, 퍼셉트론 훈련은 부분 음성 태깅 및 구문 분석과 같은 작업을 위한 자연어 처리 분야에서 인기를 얻고 있습니다(Collins, 2002).또한 분산 컴퓨팅 환경에서 대규모 기계 학습 문제에도 적용되었습니다.^[32]

참고문헌

^ ^a ^b Freund, Y.; Schapire, R. E. (1999). "Large margin classification using the perceptron algorithm" (PDF). Machine Learning. 37 (3): 277–296. doi:10.1023/A:1007662407062. S2CID 5885617.
^ ^a ^b Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. ISBN 0-387-31073-8.
^ Hecht-Nielsen, Robert (1991). Neurocomputing (Reprint. with corrections ed.). Reading (Mass.) Menlo Park (Calif.) New York [etc.]: Addison-Wesley. p. 6, Figure 1.3 caption. ISBN 978-0-201-09355-1.
^ Block, H. D. (1962-01-01). "The Perceptron: A Model for Brain Functioning. I". Reviews of Modern Physics. 34 (1): 123–135. doi:10.1103/RevModPhys.34.123. ISSN 0034-6861.
^ McCulloch, W; Pitts, W (1943). "A Logical Calculus of Ideas Immanent in Nervous Activity". Bulletin of Mathematical Biophysics. 5 (4): 115–133. doi:10.1007/BF02478259.
^ Rosenblatt, Frank (1957). "The Perceptron—a perceiving and recognizing automaton". Report 85-460-1. Cornell Aeronautical Laboratory.
^ ^a ^b Nilsson, Nils J. (2009). "4.2.1. Perceptrons". The Quest for Artificial Intelligence. Cambridge: Cambridge University Press. ISBN 978-0-521-11639-8.
^ ^a ^b O’Connor, Jack (2022-06-21). "Undercover Algorithm: A Secret Chapter in the Early History of Artificial Intelligence and Satellite Imagery". International Journal of Intelligence and CounterIntelligence: 1–15. doi:10.1080/08850607.2022.2073542. ISSN 0885-0607. S2CID 249946000.
^ Rosenblatt, F. (1958). "The perceptron: A probabilistic model for information storage and organization in the brain". Psychological Review. 65 (6): 386–408. doi:10.1037/h0042519. ISSN 1939-1471.
^ "Perceptron , Mark I". National Museum of American History. Retrieved 2023-10-30.
^ Anderson, James A.; Rosenfeld, Edward, eds. (2000). Talking Nets: An Oral History of Neural Networks. The MIT Press. doi:10.7551/mitpress/6626.003.0004. ISBN 978-0-262-26715-1.
^ Hay, John Cameron (1960). Mark I perceptron operators' manual (Project PARA) /. Buffalo: Cornell Aeronautical Laboratory.
^ Olazaran, Mikel (1996). "A Sociological Study of the Official History of the Perceptrons Controversy". Social Studies of Science. 26 (3): 611–659. doi:10.1177/030631296026003005. JSTOR 285702. S2CID 16786738.
^ ^a ^b Sejnowski, Terrence J. (2018). The Deep Learning Revolution. MIT Press. p. 47. ISBN 978-0-262-03803-4.
^ 나기, 조지."신경망-그때 그리고 지금." 신경망에서의 IEEE 트랜잭션 2.2 (1991): 316-318
^ Aizerman, M. A.; Braverman, E. M.; Rozonoer, L. I. (1964). "Theoretical foundations of the potential function method in pattern recognition learning". Automation and Remote Control. 25: 821–837.
^ Mohri, Mehryar; Rostamizadeh, Afshin (2013). "Perceptron Mistake Bounds". arXiv:1305.0208 [cs.LG].
^ Cash, Sydney; Yuste, Rafael (1999). "Linear Summation of Excitatory Inputs by CA1 Pyramidal Neurons". Neuron. 22 (2): 383–394. doi:10.1016/S0896-6273(00)81098-3. PMID 10069343.
^ Liou, D.-R.; Liou, J.-W.; Liou, C.-Y. (2013). Learning Behaviors of Perceptron. iConcept Press. ISBN 978-1-477554-73-9.
^ ^a ^b MacKay, David (2003-09-25). Information Theory, Inference and Learning Algorithms. Cambridge University Press. p. 483. ISBN 9780521642989.
^ Cover, Thomas M. (June 1965). "Geometrical and Statistical Properties of Systems of Linear Inequalities with Applications in Pattern Recognition". IEEE Transactions on Electronic Computers. EC-14 (3): 326–334. doi:10.1109/PGEC.1965.264137. ISSN 0367-7508.
^ ^a ^b Šíma, Jiří; Orponen, Pekka (2003-12-01). "General-Purpose Computation with Neural Networks: A Survey of Complexity Theoretic Results". Neural Computation. 15 (12): 2727–2778. doi:10.1162/089976603322518731. ISSN 0899-7667.
^ "Introduction to Machine Learning, Chapter 3: Perceptron". openlearninglibrary.mit.edu. Retrieved 2023-10-27.
^ Novikoff, Albert J. (1963). "On convergence proofs for perceptrons". Office of Naval Research.
^ Bishop, Christopher M (2006-08-17). "Chapter 4. Linear Models for Classification". Pattern Recognition and Machine Learning. Springer Science+Business Media, LLC. p. 194. ISBN 978-0387-31073-2.
^ ^a ^b Krauth, W.; Mezard, M. (1987). "Learning algorithms with optimal stability in neural networks". Journal of Physics A: Mathematical and General. 20 (11): L745–L752. Bibcode:1987JPhA...20L.745K. doi:10.1088/0305-4470/20/11/013.
^ Block, H. D.; Levin, S. A. (1970). "On the boundedness of an iterative procedure for solving a system of linear inequalities". Proceedings of the American Mathematical Society. 26 (2): 229–235. doi:10.1090/S0002-9939-1970-0265383-5. ISSN 0002-9939.
^ 에프론, 브래들리"분리할 수 없는 상황에서의 지각자 교정 절차"로마 에어 데브. 센터 테크. Doc. 파충류 (1964).
^ ^a ^b Simon, Herbert A.; Laird, John E. (2019-08-13). "Limits on Speed of Concept Attainment". The Sciences of the Artificial, reissue of the third edition with a new introduction by John Laird (Reissue ed.). Cambridge, Massachusetts London, England: The MIT Press. ISBN 978-0-262-53753-7.
^ Wendemuth, A. (1995). "Learning the Unlearnable". Journal of Physics A: Mathematical and General. 28 (18): 5423–5436. Bibcode:1995JPhA...28.5423W. doi:10.1088/0305-4470/28/18/030.
^ Anlauf, J. K.; Biehl, M. (1989). "The AdaTron: an Adaptive Perceptron algorithm". Europhysics Letters. 10 (7): 687–692. Bibcode:1989EL.....10..687A. doi:10.1209/0295-5075/10/7/014. S2CID 250773895.
^ McDonald, R.; Hall, K.; Mann, G. (2010). "Distributed Training Strategies for the Structured Perceptron" (PDF). Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL. Association for Computational Linguistics. pp. 456–464.

추가열람

아이저먼, M.A. 그리고 브레이버먼, E.M. 그리고 레브 I. 로조노어.패턴 인식 학습에서의 잠재적 기능 방법의 이론적 토대자동화 및 원격 제어, 25:821–837, 1964.
Rosenblatt, Frank (1958), Perceptron: 뇌의 정보 저장과 조직을 위한 확률론적 모델, 코넬 항공 연구소, 심리학 리뷰, v65, No. 6, pp. 386-408. doi:10.1037/h0042519.
Rosenblatt, Frank (1962), 신경역학 원리워싱턴 DC: 스파르탄 북스.
민스키, M. L. 그리고 파퍼트, S. A. 1969.퍼셉트론.케임브리지, 매사추세츠: MIT 출판사.
갤런트, S. I. (1990)퍼셉트론 기반 학습 알고리즘.IEEE Transactions on Neural Networks, vol. 1, no. 2, pp. 179–191.
올라자란 로드리게스, 호세 미겔.뉴럴 네트워크 연구의 역사 사회학.박사 학위 논문.1991년 에든버러 대학교
모흐리, 메흐랴르, 로스타미자데, 아프신(2013).Perceptron Missue Bounds arXiv:1305.0208, 2013
노비코프, A. B. (1962)퍼셉트론에 대한 수렴 증명에 대해.오토마타의 수학 이론에 관한 심포지엄, 12, 615-622브루클린 폴리테크닉 대학.
Widrow, B., Lehr, M.A., "적응 신경 네트워크의 30년: Perceptron, Madaline, and Backpropagation", Proc. IEEE, vol 78, no 9, pp. 1415–1442, (1990).
콜린스, M. 2002.숨겨진 마르코프 모델에 대한 차별적 훈련 방법: 자연어 처리에서의 경험적 방법에 관한 회의(EMNLP '02)의 회보에서 퍼셉트론 알고리즘에 대한 이론 및 실험
Yin, Hongfeng (1996), Perceptron 기반 알고리즘과 분석, 스펙트럼 라이브러리, Concordia University, 캐나다

외부 링크

MATLAB에 구현된 이진 낸드 기능 학습용 퍼셉트론
3장 가중 네트워크 - 신경망의 퍼셉트론 및 4장 퍼셉트론 학습 - 라울 로하스에 의한 체계적 소개 (ISBN 978-3-540-60505-8)
퍼셉트론의 역사
다층 퍼셉트론의 수학
sickit-learn을 이용한 퍼셉트론 모델 적용 - https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Perceptron.html

[largemargin-1] Freund, Y.; Schapire, R. E. (1999). "Large margin classification using the perceptron algorithm" (PDF). Machine Learning. 37 (3): 277–296. doi:10.1023/A:1007662407062. S2CID 5885617.

[bishop-2] Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. ISBN 0-387-31073-8.

[3] Hecht-Nielsen, Robert (1991). Neurocomputing (Reprint. with corrections ed.). Reading (Mass.) Menlo Park (Calif.) New York [etc.]: Addison-Wesley. p. 6, Figure 1.3 caption. ISBN 978-0-201-09355-1.

[4] Block, H. D. (1962-01-01). "The Perceptron: A Model for Brain Functioning. I". Reviews of Modern Physics. 34 (1): 123–135. doi:10.1103/RevModPhys.34.123. ISSN 0034-6861.

[5] McCulloch, W; Pitts, W (1943). "A Logical Calculus of Ideas Immanent in Nervous Activity". Bulletin of Mathematical Biophysics. 5 (4): 115–133. doi:10.1007/BF02478259.

[6] Rosenblatt, Frank (1957). "The Perceptron—a perceiving and recognizing automaton". Report 85-460-1. Cornell Aeronautical Laboratory.

[:0-7] Nilsson, Nils J. (2009). "4.2.1. Perceptrons". The Quest for Artificial Intelligence. Cambridge: Cambridge University Press. ISBN 978-0-521-11639-8.

[:1-8] O’Connor, Jack (2022-06-21). "Undercover Algorithm: A Secret Chapter in the Early History of Artificial Intelligence and Satellite Imagery". International Journal of Intelligence and CounterIntelligence: 1–15. doi:10.1080/08850607.2022.2073542. ISSN 0885-0607. S2CID 249946000.

[9] Rosenblatt, F. (1958). "The perceptron: A probabilistic model for information storage and organization in the brain". Psychological Review. 65 (6): 386–408. doi:10.1037/h0042519. ISSN 1939-1471.

[10] "Perceptron , Mark I". National Museum of American History. Retrieved 2023-10-30.

[11] Anderson, James A.; Rosenfeld, Edward, eds. (2000). Talking Nets: An Oral History of Neural Networks. The MIT Press. doi:10.7551/mitpress/6626.003.0004. ISBN 978-0-262-26715-1.

[12] Hay, John Cameron (1960). Mark I perceptron operators' manual (Project PARA) /. Buffalo: Cornell Aeronautical Laboratory.

[Olazaran-13] Olazaran, Mikel (1996). "A Sociological Study of the Official History of the Perceptrons Controversy". Social Studies of Science. 26 (3): 611–659. doi:10.1177/030631296026003005. JSTOR 285702. S2CID 16786738.

[Sejnowski-14] Sejnowski, Terrence J. (2018). The Deep Learning Revolution. MIT Press. p. 47. ISBN 978-0-262-03803-4.

[15] 나기, 조지."신경망-그때 그리고 지금." 신경망에서의 IEEE 트랜잭션 2.2 (1991): 316-318

[16] Aizerman, M. A.; Braverman, E. M.; Rozonoer, L. I. (1964). "Theoretical foundations of the potential function method in pattern recognition learning". Automation and Remote Control. 25: 821–837.

[17] Mohri, Mehryar; Rostamizadeh, Afshin (2013). "Perceptron Mistake Bounds". arXiv:1305.0208 [cs.LG].

[18] Cash, Sydney; Yuste, Rafael (1999). "Linear Summation of Excitatory Inputs by CA1 Pyramidal Neurons". Neuron. 22 (2): 383–394. doi:10.1016/S0896-6273(00)81098-3. PMID 10069343.

[19] Liou, D.-R.; Liou, J.-W.; Liou, C.-Y. (2013). Learning Behaviors of Perceptron. iConcept Press. ISBN 978-1-477554-73-9.

[:2-20] MacKay, David (2003-09-25). Information Theory, Inference and Learning Algorithms. Cambridge University Press. p. 483. ISBN 9780521642989.

[21] Cover, Thomas M. (June 1965). "Geometrical and Statistical Properties of Systems of Linear Inequalities with Applications in Pattern Recognition". IEEE Transactions on Electronic Computers. EC-14 (3): 326–334. doi:10.1109/PGEC.1965.264137. ISSN 0367-7508.

[:4-22] Šíma, Jiří; Orponen, Pekka (2003-12-01). "General-Purpose Computation with Neural Networks: A Survey of Complexity Theoretic Results". Neural Computation. 15 (12): 2727–2778. doi:10.1162/089976603322518731. ISSN 0899-7667.

[23] "Introduction to Machine Learning, Chapter 3: Perceptron". openlearninglibrary.mit.edu. Retrieved 2023-10-27.

[24] Novikoff, Albert J. (1963). "On convergence proofs for perceptrons". Office of Naval Research.

[25] Bishop, Christopher M (2006-08-17). "Chapter 4. Linear Models for Classification". Pattern Recognition and Machine Learning. Springer Science+Business Media, LLC. p. 194. ISBN 978-0387-31073-2.

[KrauthMezard87-26] Krauth, W.; Mezard, M. (1987). "Learning algorithms with optimal stability in neural networks". Journal of Physics A: Mathematical and General. 20 (11): L745–L752. Bibcode:1987JPhA...20L.745K. doi:10.1088/0305-4470/20/11/013.

[27] Block, H. D.; Levin, S. A. (1970). "On the boundedness of an iterative procedure for solving a system of linear inequalities". Proceedings of the American Mathematical Society. 26 (2): 229–235. doi:10.1090/S0002-9939-1970-0265383-5. ISSN 0002-9939.

[28] 에프론, 브래들리"분리할 수 없는 상황에서의 지각자 교정 절차"로마 에어 데브. 센터 테크. Doc. 파충류 (1964).

[:3-29] Simon, Herbert A.; Laird, John E. (2019-08-13). "Limits on Speed of Concept Attainment". The Sciences of the Artificial, reissue of the third edition with a new introduction by John Laird (Reissue ed.). Cambridge, Massachusetts London, England: The MIT Press. ISBN 978-0-262-53753-7.

[30] Wendemuth, A. (1995). "Learning the Unlearnable". Journal of Physics A: Mathematical and General. 28 (18): 5423–5436. Bibcode:1995JPhA...28.5423W. doi:10.1088/0305-4470/28/18/030.

[31] Anlauf, J. K.; Biehl, M. (1989). "The AdaTron: an Adaptive Perceptron algorithm". Europhysics Letters. 10 (7): 687–692. Bibcode:1989EL.....10..687A. doi:10.1209/0295-5075/10/7/014. S2CID 250773895.

[32] McDonald, R.; Hall, K.; Mann, G. (2010). "Distributed Training Strategies for the Structured Perceptron" (PDF). Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL. Association for Computational Linguistics. pp. 456–464.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[20]

[21]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

Search