알렉스넷

AlexNet
LeNet과 AlexNet의 컨볼루션, 풀링 및 고밀도 레이어 비교
(AlexNet 이미지 사이즈는 224x224x3이 아닌 227x227x3이어야 합니다.그러면 계산이 올바르게 됩니다.원래 논문은 다른 숫자를 말했지만 테슬라 컴퓨터 비전 책임자인 Andrej Karpathy는 227x227x3일 것이라고 말했다.다음 회전수는 스트라이드 4:55x55x96(54x54x96이 아닌 11x11이어야 합니다.예를 들어 [(입력 폭 227 - 커널 폭 11) / 스트라이드 4] + 1 = [(227 - 11) / 4] + 1 = 55로 계산됩니다.커널 출력은 폭과 길이가 같기 때문에 면적은 55x55입니다).

AlexNet은 Alex KrizhevskyIlya Sutskever[1][2]Geoffrey Hinton협력하여 설계한 CNN(Convolutional Neural Network) 아키텍처의 이름입니다.

AlexNet은 2012년 [3]9월 30일 ImageNet 대규모 비주얼 인식 챌린지에 참가했습니다.네트워크는 상위 5개 에러 15.3%를 달성했습니다.이것은 2위보다 10.8%포인트 이상 낮은 수치입니다.원래 논문의 주요 결과는 모델의 깊이가 고성능에 필수적이라는 것이었습니다. 계산 비용이 많이 들었지만 훈련 [2]중 그래픽 처리 장치(GPU)를 사용했기 때문에 실현 가능했습니다.

역사적 맥락

AlexNet은 이미지 인식 콘테스트에서 우승한 CNN의 빠른 GPU 구현이 처음은 아니었다.K의 GPU에 관한 CNN.첼라필라 등([4]2006)는 CPU에 대한 동등한 구현보다 4배 빨랐다.IDSIA의 Dan Cireșan et al. (2011)의 심층 CNN은 이미 60배[5] 빨랐고 2011년 8월에 [6]초인적인 퍼포먼스를 달성했다.2011년 5월 15일부터 2012년 9월 10일까지 CNN은 4개의 이미지 [7][8]대회에서 우승했다.또, 복수의 이미지 [9]데이타베이스에 관한 문헌상 최고의 퍼포먼스도 큰폭으로 향상했습니다.

AlexNet지에 [2]의하면, Cire'an의 초기 넷은 「어느 정도 비슷하다」라고 한다.둘 다 원래 GPU 지원용으로 CUDA를 사용하여 작성되었습니다.사실, 두 가지 모두 사실 "네오코그니트론"[12][13]이라 불리는 후쿠시마 쿠니히코 원래의 CNN 아키텍처의 변형에 역전파 알고리즘을 적용한 얀 레쿤 외 연구진(1989)[10][11]에 의해 도입된 CNN 설계의 변형일 뿐이다.이 아키텍처는 나중에 J. Weng의 [14][8]max-pooling이라는 방법으로 수정되었습니다.

2015년에 AlexNet은 Microsoft Research Asia의 매우 깊은 CNN에 의해 100개 이상의 레이어로 압도되어 ImageNet 2015 [15]콘테스트에서 우승했습니다.

네트워크 설계

AlexNet에는 8개의 레이어가 포함되어 있습니다.첫 번째 5개의 레이어는 컨볼루션 레이어이며, 그 중 일부는 최대 풀링 레이어이며, 마지막 3개는 완전히 연결된 [2]레이어입니다.비포화 ReLU 활성화 기능을 사용하여 tanhsigmoid[2]비해 향상된 교육 성능을 보였습니다.

영향을 주다

AlexNet은 컴퓨터 비전으로 발행되는 가장 영향력 있는 논문 중 하나로 여겨지고 있으며, 딥 [16]러닝을 가속화하기 위해 CNN과 GPU를 사용하여 발행되는 많은 논문들을 촉진하고 있습니다.Google Scholar에 따르면 2021년 현재 AlexNet 논문은 8만 번 이상 인용되고 있습니다.

레퍼런스

  1. ^ Gershgorn, Dave (26 July 2017). "The data that transformed AI research—and possibly the world". Quartz.
  2. ^ a b c d e Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017-05-24). "ImageNet classification with deep convolutional neural networks" (PDF). Communications of the ACM. 60 (6): 84–90. doi:10.1145/3065386. ISSN 0001-0782. S2CID 195908774.
  3. ^ "ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012)". image-net.org.
  4. ^ Kumar Chellapilla; Sid Puri; Patrice Simard (2006). "High Performance Convolutional Neural Networks for Document Processing". In Lorette, Guy (ed.). Tenth International Workshop on Frontiers in Handwriting Recognition. Suvisoft.
  5. ^ Cireșan, Dan; Ueli Meier; Jonathan Masci; Luca M. Gambardella; Jurgen Schmidhuber (2011). "Flexible, High Performance Convolutional Neural Networks for Image Classification" (PDF). Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two. 2: 1237–1242. Retrieved 17 November 2013.
  6. ^ "IJCNN 2011 Competition result table". OFFICIAL IJCNN2011 COMPETITION. 2010. Retrieved 2019-01-14.
  7. ^ Schmidhuber, Jürgen (17 March 2017). "History of computer vision contests won by deep CNNs on GPU". Retrieved 14 January 2019.
  8. ^ a b Schmidhuber, Jürgen (2015). "Deep Learning". Scholarpedia. 10 (11): 1527–54. CiteSeerX 10.1.1.76.1541. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.
  9. ^ Cireșan, Dan; Meier, Ueli; Schmidhuber, Jürgen (June 2012). Multi-column deep neural networks for image classification. 2012 IEEE Conference on Computer Vision and Pattern Recognition. New York, NY: Institute of Electrical and Electronics Engineers (IEEE). pp. 3642–3649. arXiv:1202.2745. CiteSeerX 10.1.1.300.3283. doi:10.1109/CVPR.2012.6248110. ISBN 978-1-4673-1226-4. OCLC 812295155. S2CID 2161592.
  10. ^ LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W.; Jackel, L. D. (1989). "Backpropagation Applied to Handwritten Zip Code Recognition" (PDF). Neural Computation. MIT Press - Journals. 1 (4): 541–551. doi:10.1162/neco.1989.1.4.541. ISSN 0899-7667. OCLC 364746139.
  11. ^ LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). "Gradient-based learning applied to document recognition" (PDF). Proceedings of the IEEE. 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552. doi:10.1109/5.726791. S2CID 14542261. Retrieved October 7, 2016.
  12. ^ Fukushima, K. (2007). "Neocognitron". Scholarpedia. 2 (1): 1717. Bibcode:2007SchpJ...2.1717F. doi:10.4249/scholarpedia.1717.
  13. ^ Fukushima, Kunihiko (1980). "Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position" (PDF). Biological Cybernetics. 36 (4): 193–202. doi:10.1007/BF00344251. PMID 7370364. S2CID 206775608. Retrieved 16 November 2013.
  14. ^ Weng, J; Ahuja, N; Huang, TS (1993). "Learning recognition and segmentation of 3-D objects from 2-D images". Proc. 4th International Conf. Computer Vision: 121–128.
  15. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Deep Residual Learning for Image Recognition". 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1. S2CID 206594692.
  16. ^ Deshpande, Adit. "The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3)". adeshpande3.github.io. Retrieved 2018-12-04.