보편 근사 정리
Universal approximation theorem인공 신경망의 수학적 이론에서, 보편적 근사 정리는 주어진 관심 함수 공간 내에서 알고리즘으로 생성된 함수 클래스의 밀도를 확립하는 결과이다[1][2].전형적으로, 이러한 결과는 두 유클리드 공간 사이의 연속 함수 공간에 대한 피드포워드 구조의 근사 능력에 관한 것이며, 근사치는 콤팩트 수렴 위상에 관한 것이다.
그러나, 비유클리드[3] 공간과 일반적으로 사용되는 다른 아키텍처, 그리고 보다 일반적으로는, 컨볼루션 뉴럴 네트워크(CNN)[4][5] 아키텍처, 방사형 기저 함수,[6] 또는 특정 [7]속성을 가진 뉴럴 네트워크와 같은 알고리즘으로 생성된 함수 집합 사이에는 다양한 결과도 있다.대부분의 범용 근사 정리는 두 개의 클래스로 해석할 수 있다.첫 번째는 임의의 수의 인공 뉴런("임의 폭")을 가진 신경 네트워크의 근사 능력을 수량화하고, 두 번째는 제한된 수의 인공 뉴런("임의 깊이")을 포함하는 임의의 수의 숨겨진 레이어를 가진 경우에 초점을 맞춘다.
보편적 근사 정리는 신경망이 적절한 가중치가 주어졌을 때 다양한 흥미로운 기능을 나타낼 수 있다는 것을 의미한다.반면, 일반적으로 가중치에 대한 구조를 제공하는 것이 아니라 그러한 구성이 가능하다는 것을 명시한다.
역사
임의 너비 케이스의 첫 번째 버전 중 하나는 1989년 조지 사이벤코에 의해 S자형 활성화 [8]함수에 대해 증명되었다.Kurt Hornik, Maxwell Stinchcombe 및 Halbert White는 1989년에 숨겨진 레이어가 하나밖에 없는 다층 피드포워드 네트워크가 범용 근사치임을 [1]증명했습니다.Hornik은 또한 1991년에 활성화[9] 함수의 특정 선택이 아니라 신경 네트워크가 범용 근사치가 될 수 있는 가능성을 제공하는 다층 피드포워드 아키텍처 그 자체라는 것을 보여주었다.1993년[10] Moshe Leshno et al, 1999년 이후[11] Allan Pinkus는 보편적 근사 특성이 비다항 활성화 함수를 갖는 것과 동등하다는 것을 보여주었다.
2017년 [12]저우루 외 연구진, 2018년 [13]보리스 하닌과 마크 셀케, 2020년 패트릭 [14]키저와 테리 라이온스 등 다수의 저자에 의해 임의 깊이 사례도 연구됐다.그 결과 레이어당 최소 폭은 잔여 네트워크에[15][16] 대해 2020년에 개선되었습니다.
이 정리에는 [10]불연속 활성화 함수, [14]비콤팩트 도메인,[17] 인증 가능한 네트워크, [18]랜덤 뉴럴 네트워크, 대체 네트워크 아키텍처 및 [14][19]토폴로지와 같은 몇 가지 확장이 존재합니다.
임의의 폭의 대소문자
임의의 폭과 유계 깊이에 대한 보편적 근사 정리의 고전적인 형태는 다음과 같다.[8][9][20][21]그것은[11] 조지 시벤코와 커트 호닉의 고전적인 결과를 확장한다.
보편 근사 정리:( , ) { C ( , } X( \ X) ~( \ Y의 연속 함수 세트를 나타냅니다.\ ( \ } , \ { ) \ 는 x 의각 에 \ \ displaystylex 를 .
모든 n를 위해서만 만약 만약 ∈ N{\displaystylen\in \mathbb{N}그리고 σ{\displaystyle \sigma}}, m∈ N{\displaystylem\in \mathbb{N}}다항식지 않다, 콤팩트한 K⊆ Rn{\displaystyle K\subseteq \mathbb{R}^{n}}, f∈ C(K, Rm),ε>0{f\in C(K,\mathbb{R}^{m}),\varepsi\displaystyle.오랜> N\ k \ , × \ A \ {\ n , \ b \ mathbbb { , C × \ C。
어디에
ff는 첫 번째 레이어에 동일한 구조를 사용하고 이후 레이어에 대한 동일함수를 근사함으로써 더 깊은 네트워크에서도 근사할 수 있습니다.
임의의 대소문자
이 정리의 '이중' 버전은 유계 폭과 임의 깊이의 네트워크를 고려합니다.2017년 [12]Zhou Lu 등에 의해 임의 깊이 사례에 대한 보편적 근사 정리의 변형이 입증되었다.이들은 ReLU 활성화 기능을 갖춘 폭 n+4의 네트워크는 네트워크 깊이가 증가하면 L 거리에 n차원 입력 공간에서 르베그 적분 가능 함수에 근접할 수 있음을 보여주었다.또한 폭이 n보다 작거나 같으면 르베그 적분 가능 함수의 근사치에 대한 이 일반적인 표현력이 상실된 것으로 나타났다.같은[12] 논문에서 폭 n+1의 ReLU 네트워크는 n차원 입력 변수의 [22]연속 함수에 근접하기에 충분하다는 것을 보여주었습니다.다음 미세 조정은 그러한 근사치가 가능하고 예상되는 [23]최적의 최소 폭을 지정합니다.
범용 근사 정리(L1 거리, ReLU 활성화, 임의 깊이, 최소 폭).어떤 Bochner–Lebesguep-integrable 기능은 6.2.1f:Rn→ Rm{\displaystyle f:\mathbb{R}^{n}\rightarrow \mathbb{R}^{m}}과 어떤 ϵ>0{\displaystyle \epsilon>0}, 폭의fully-connected ReLU 네트워크 F{F\displaystyle}정확히 m 해야)max{n+1, m}{\displaystyle d_{m}=\ma 존재한다.x\{{n충족
- ( ) -F( x) d x < \ \_ { \ { R } ^ { n } \\ f ( \ ^ { p } \{ d < \
게다가 함수 f∈ 나는 p가 폭이 없fully-connected ReLU 네트워크 dm미만일 때({\displaystylef\in L^{p}(\mathbb{R}^{n},\mathbb{R}^{m})}과 몇몇ϵ>0{\displaystyle \epsilon>0},)max{n+1, m}{\displaystyle d_{m}=\max\{{n+1},m\}}sati 존재한다.sfying위의 근사 한계.
함께, 의 중심 결과는 유계폭을 가진 네트워크에 대해 다음과 같은 보편적 근사 정리를 산출합니다.
범용 근사 정리(비아핀 활성화, 임의 깊이, 제한된 폭)X {를 R^{의 콤팩트 서브셋이라고 : RR(\ \displaystyle {R\mathb {을 적어도 하나의 비파생함수로 연속함수로서 적어도 1개 이상 미분할 수 있다. d : + + {로 입력 뉴런, {\ 출력 뉴런, D++ + D + 의 레이어 각각 의 수를 가진 피드포워드 뉴럴 네트워크의 공간을 나타냅니다정말 숨겨진 뉴런입니다. 그리고 어떤 ε한;0{\displaystyle \varepsilon>0}과 f∈ 입력층 ϕ{\displaystyle \phi}과 활성화 함수σ{\displaystyle \sigma}과 모든 출력 뉴런 활성화 기능과 신분을 가지고 있고 출력층 ρ{\displaystyle \rho}이 C(X, RD. ){) f C{^^^^^^^^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^^ ^ : } 。
유계 폭, 임의 깊이 사례에 대한 특정 필수 조건이 확립되었지만, 알려진 충분 조건과 필수 [12][13][24]조건 사이에는 여전히 격차가 있다.
그래프 입력
그래프(또는 그래프 동형성 클래스)에서 유용한 범용 함수 근사치를 달성하는 것은 오랫동안 문제가 되어 왔다.일반적인 그래프 컨볼루션 뉴럴 네트워크(GCN 또는 GNN)는 바이스페일러-레만 그래프 동형성 [25]테스트만큼 차별적으로 만들 수 있다.2020,[26]에서 보편적인 근사 정리 결과 Brüel-Gabrielsson이 특정injective 속성을 가지고 그래프 표현 평면 그래프와 무한한 그래프에 제한된 보편적인function 근사에 대해 대체로 함수 근사에 충분하다 보여 주고, 동반 1O({\displaystyle O(}#으로 설립되었다.edges× (\}# - 벤치마크 컬렉션에서 최첨단 방식으로 수행되었습니다.
양자 컴퓨팅
양자 신경망은 양자 논리 게이트의 조합에 기초한 양자 퍼셉트론에서 변형 양자 회로에 이르기까지 회로 양자 컴퓨터에 대한 다른 수학적 도구로 표현될 수 있습니다.변이 양자 회로는 파라메트릭 회로에 기초하고 있으며, 뉴럴 네트워크를 수반하지 않습니다.대신 양자 퍼셉트론은 각 노드의 역치 거동이 양자 상태의 붕괴, 즉 측정 프로세스를 수반하지 않는 한 피드 포워드 뉴럴 네트워크의 동일한 구조를 가진 양자 뉴럴 네트워크의 설계를 가능하게 한다.2022년에는 양자 신경망의 활성화 기능 거동을 제공하는 측정 없는 빌딩 블록이 [27]설계되었다.양자 회로는 큐비트와 관련된 -1 ~ +1 사이의 간격에서 스쿼시 함수의 임의 근사치를 반환합니다.이러한 임의 양자 활성화 함수를 설계하는 방법은 일반적으로 양자 다중 수용체 및 양자 피드 포워드 뉴럴 네트워크를 가능하게 한다.
「 」를 참조해 주세요.
레퍼런스
- ^ a b Hornik, Kurt; Stinchcombe, Maxwell; White, Halbert (1989). Multilayer Feedforward Networks are Universal Approximators (PDF). Neural Networks. Vol. 2. Pergamon Press. pp. 359–366.
- ^ Balazzs Csanád Csaji(2001) 인공 신경망을 사용한 근사치; 과학부; Eötvös Loránd 대학교, 헝가리
- ^ Kratsios, Anastasis; Bilokopytov, Eugene (2020). Non-Euclidean Universal Approximation (PDF). Advances in Neural Information Processing Systems. Vol. 33. Curran Associates.
- ^ Zhou, Ding-Xuan (2020). "Universality of deep convolutional neural networks". Applied and Computational Harmonic Analysis. 48 (2): 787–794. arXiv:1805.10769. doi:10.1016/j.acha.2019.06.004. S2CID 44113176.
- ^ Heinecke, Andreas; Ho, Jinn; Hwang, Wen-Liang (2020). "Refinement and Universal Approximation via Sparsely Connected ReLU Convolution Nets". IEEE Signal Processing Letters. 27: 1175–1179. Bibcode:2020ISPL...27.1175H. doi:10.1109/LSP.2020.3005051. S2CID 220669183.
- ^ Park, J.; Sandberg, I. W. (1991). "Universal Approximation Using Radial-Basis-Function Networks". Neural Computation. 3 (2): 246–257. doi:10.1162/neco.1991.3.2.246. PMID 31167308. S2CID 34868087.
- ^ Yarotsky, Dmitry (2021). "Universal Approximations of Invariant Maps by Neural Networks". Constructive Approximation. arXiv:1804.10306. doi:10.1007/s00365-021-09546-1. S2CID 13745401.
- ^ a b Cybenko, G. (1989). "Approximation by superpositions of a sigmoidal function". Mathematics of Control, Signals, and Systems. 2 (4): 303–314. CiteSeerX 10.1.1.441.7873. doi:10.1007/BF02551274. S2CID 3958369.
- ^ a b Hornik, Kurt (1991). "Approximation capabilities of multilayer feedforward networks". Neural Networks. 4 (2): 251–257. doi:10.1016/0893-6080(91)90009-T.
- ^ a b Leshno, Moshe; Lin, Vladimir Ya.; Pinkus, Allan; Schocken, Shimon (January 1993). "Multilayer feedforward networks with a nonpolynomial activation function can approximate any function". Neural Networks. 6 (6): 861–867. doi:10.1016/S0893-6080(05)80131-5. S2CID 206089312.
- ^ a b Pinkus, Allan (January 1999). "Approximation theory of the MLP model in neural networks". Acta Numerica. 8: 143–195. Bibcode:1999AcNum...8..143P. doi:10.1017/S0962492900002919.
- ^ a b c d Lu, Zhou; Pu, Homgming; Wang, Feicheng; Hu, Zhiqiang; Wang, Liwei (2017). "The Expressive Power of Neural Networks: A View from the Width". Advances in Neural Information Processing Systems. Curran Associates. 30: 6231–6239. arXiv:1709.02540.
- ^ a b Hanin, Boris; Sellke, Mark (March 2019). "Approximating Continuous Functions by ReLU Nets of Minimal Width". Mathematics. MDPI. 7 (10): 992. arXiv:1710.11278. doi:10.3390/math7100992.
- ^ a b c d Kidger, Patrick; Lyons, Terry (July 2020). Universal Approximation with Deep Narrow Networks. Conference on Learning Theory. arXiv:1905.08539.
- ^ Park, Sejun; Yun, Chulhee; Lee, Jaeho; Shin, Jinwoo (October 2020). Minimum Width for Universal Approximation. Conference on Learning Theory. arXiv:1905.08539.
- ^ Tabuada, Paulo; Gharesifard, Bahman (2020). Universal Approximation Power of Deep Residual Neural Networks via Nonlinear Control Theory. ICLR. arXiv:2007.06007.
- ^ Baader, Maximilian; Mirman, Matthew; Vechev, Martin (2020). Universal Approximation with Certified Networks. ICLR.
- ^ Gelenbe, Erol; Mao, Zhi Hong; Li, Yan D. (1999). "Function approximation with spiked random networks". IEEE Transactions on Neural Networks. 10 (1): 3–9. doi:10.1109/72.737488.
- ^ Lin, Hongzhou; Jegelka, Stefanie (2018). ResNet with one-neuron hidden layers is a Universal Approximator. Advances in Neural Information Processing Systems. Vol. 30. Curran Associates. pp. 6169–6178.
- ^ 헤이킨, 사이먼(1998).뉴럴 네트워크: 종합 재단, 제2권, 프렌티스 홀.아이 에스비엔 0-13-273350-1.
- ^ 하소운, M.(1995년)인공 신경망을 이용한 MIT출판사의 개요, 48p..
- ^ 한인, B(2018년).ReLU 네츠 미니멀리즘의 굵기.arXiv 예고 arXiv:1710.11278에 의해 연속 기능 Approximating.
- ^ Park, Yun, Lee, Shin, Sejun, Chulhee, Jaeho, Jinwoo (2020-09-28). "Minimum Width for Universal Approximation". ICLR. arXiv:2006.08859.
{{cite journal}}
:CS1 maint:복수의 이름:작가들(링크)을 열거한다. - ^ Johnson, Jesse (2019). Deep, Skinny Neural Networks are not Universal Approximators. International Conference on Learning Representations.
- ^ Xu, Keyulu; Hu, Weihua; Leskovec, Jure; Jegelka, Stefanie (2019). How Powerful are Graph Neural Networks?. International Conference on Learning Representations.
- ^ Brüel-Gabrielsson, Rickard (2020). Universal Function Approximation on Graphs. Advances in Neural Information Processing Systems. Vol. 33. Curran Associates.
- ^ Maronese, Marco; Destri, Claudio; Prati, Enrico (2022). "Quantum activation functions for quantum neural networks". Quantum Information Processing. Springer. 21 (4): 1-24. arXiv:2201.03700. doi:10.1007/s11128-022-03466-0.