AI 액셀러레이터

AI accelerator

AI 액셀러레이터는 인공지능 및 기계학습 애플리케이션을 가속하기 위해 설계된 특수 하드웨어[1] 액셀러레이터 또는 컴퓨터 시스템의[2][3] 한 종류로, 인공신경 네트워크와 기계 비전을 포함합니다.일반적인 응용 프로그램에는 로봇 공학, 사물 인터넷 및 기타 데이터 집약적 또는 센서 구동 [4]작업을 위한 알고리즘이 포함됩니다.많은 경우 다핵심 설계로 일반적으로 정밀도가 낮은 산술, 새로운 데이터 흐름 아키텍처 또는 메모리 내 컴퓨팅 기능에 중점을 두고 있습니다.2018년 기준으로 일반적인 AI 집적회로 에는 수십억 의 MOSFET 트랜지스터가 [5]포함되어 있습니다.이 카테고리의 디바이스에는 벤더 고유의 용어가 다수 존재하며, 이 테크놀로지는 지배적인 설계가 없는 새로운 테크놀로지입니다.

역사

컴퓨터 시스템은 종종 코프로세서라고 불리는 특수한 작업을 위한 특수 목적의 가속기로 CPU를 보완해 왔습니다.주목되는 애플리케이션 고유의 하드웨어 유닛에는 그래픽스, 사운드 카드, 그래픽 처리 장치 및 디지털 신호 프로세서가 포함됩니다.2010년대에 딥러닝 인공지능 워크로드가 급증함에 따라 이러한 작업을 가속화하기 위해 기존 제품에서 전문 하드웨어 유닛을 개발하거나 채택했습니다.

초기 시도

인텔의 ETANN 80170NX와[6] 같은 첫 번째 시도는 신경 함수를 계산하기 위해 아날로그 회로를 통합했습니다.그 후 Nestor/Intel Ni1000 등의 올 디지털 칩이 등장했습니다.1993년부터 디지털 신호 프로세서는 광학 문자 인식 소프트웨어를 [7]가속하는 뉴럴 네트워크 가속기로 사용되었다.1990년대에는 뉴럴 네트워크 [8][9][10]시뮬레이션을 포함한 다양한 애플리케이션을 대상으로 한 워크스테이션용 병렬 높은 처리량 시스템을 구축하려는 시도도 있었다.FPGA 기반 가속기도 1990년대에 추론 및 [12]훈련을 위해[11] 처음 탐색되었다.스마트폰은 2015년 [13][14]퀄컴 스냅드래곤 820부터 AI 가속기를 탑재하기 시작했다.

이종 컴퓨팅

이기종 컴퓨팅이란, 1개의 시스템, 또는 1개의 칩에 복수의 전용 프로세서를 짜넣는 것을 말합니다.각 프로세서는 특정 유형의 작업에 최적화되어 있습니다.Cell[15] 마이크로프로세서와 같은 아키텍처는 AI 액셀러레이터와 상당히 중복되는 특징을 가지고 있습니다.예를 들어 패킹된 저정밀 산술, 데이터 흐름 아키텍처, 지연 시간보다 '스루풋'을 우선시합니다.셀 마이크로프로세서는 이후 [19][20][21]AI를 포함한 많은[16][17][18] 작업에 적용되었다.

2000년대에 CPU는 비디오 및 게임 워크로드에 의해 구동되는 SIMD 유닛의 이 넓어졌으며, 또한 패킹된 저정밀 데이터 [22]타입의 지원도 증가했습니다.CPU 성능 향상으로 AI 워크로드 실행에도 활용되고 있다.CPU는 소규모 또는 중간 규모의 병렬 처리를 가진 DNN을 갖춘 DNN, 스파스 DNN 및 저배치 크기 시나리오에서 우수합니다.

GPU 사용

그래픽 처리 장치(GPU)는 이미지 조작 및 로컬 이미지 속성 계산을 위한 특수 하드웨어입니다.신경 네트워크와 이미지 조작의 수학적 기초는 매트릭스를 수반하는 유사하고 당혹스러울 정도로 병렬적인 작업이며, GPU가 기계 학습 [23][24][25]작업에 점점 더 많이 사용되게 한다.2016년 현재 GPU는 AI 작업에 인기가 있으며, 자가운전 [27]자동차 등의 장치에서의 훈련과 추론을 위해[26] 딥러닝을 촉진하는 방향으로 계속 진화하고 있습니다.Nvidia NVLink 등의 GPU 개발자는 AI가 얻을 [28]수 있는 데이터 흐름 워크로드의 종류에 대한 추가 연결 기능을 개발하고 있습니다.GPU가 AI 가속화에 점점 더 적용되면서 GPU 제조업체들은 이러한 [29][30]작업을 더욱 가속화하기 위해 뉴럴 네트워크 전용 하드웨어를 통합했다.텐서 코어는 뉴럴 [30]네트워크의 훈련 속도를 높이기 위한 것입니다.

FPGA 사용

딥 러닝 프레임워크는 아직 진화하고 있기 때문에 커스텀 하드웨어를 설계하기가 어렵습니다.Field-Programmable Gate Array(FPGA; 필드 프로그래머블 게이트 어레이)와 같은 재구성 가능한 장치를 사용하면 하드웨어, 프레임워크 및 소프트웨어를 서로 [31][11][12][32]함께 쉽게 진화시킬 수 있습니다.

MS는 [33]추론을 가속화하기 위해 FPGA 칩을 사용했다.

전용 AI 액셀러레이터 ASIC의 등장

GPU와 FPGA는 AI 관련 태스크에서 CPU보다 훨씬 뛰어난[quantify] 성능을 발휘하지만, 보다 구체적인 설계에서는 애플리케이션 고유의 집적회로(ASIC)[citation needed]를 통해 최대 10배의 효율성을[34][35] 얻을 수 있습니다.이러한 가속기는 최적화된 메모리 사용[citation needed]저정밀 산술의 사용과 같은 전략을 사용하여 계산을 가속화하고 [36][37]계산 처리량을 증가시킵니다.AI 액셀러레이션을 사용하는 저정밀 부동소수점 형식에는 반정밀 부동소수점 [38][39][40][41][42][43][44]형식과 bfloat16 부동소수점 형식이 있습니다.구글, 퀄컴, 아마존, 애플, 페이스북, AMD, 삼성 같은 회사들은 모두 그들만의 AI ASIC를 [45][46][47][48][49][50]설계하고 있다.Cerebras Systems는 딥러닝 [51][52]워크로드를 지원하기 위해 업계 최대 프로세서인 2세대 웨이퍼 스케일 엔진(WSE-2)을 기반으로 한 전용 AI 액셀러레이터도 구축했다.

인메모리 컴퓨팅 아키텍처

2017년 6월, IBM 연구진은 이기종 컴퓨팅 대규모 병렬 [53]시스템에 대한 접근 방식을 일반화할 목적으로 인메모리 컴퓨팅 및 위상 변화 메모리 어레이를 기반으로 하는 Von Neumann 아키텍처와 대조적인 아키텍처를 발표했습니다.2018년 10월, IBM 연구진은 심층 신경망[54]가속화하기 위해 인메모리 프로세싱을 기반으로 한 아키텍처를 발표하였습니다.시스템은 상변화 메모리 [55]어레이를 기반으로 합니다.

아날로그 저항성 메모리를 탑재한 인메모리 컴퓨팅

2019년, Politecnico di Milano 연구진은 한 번의 연산을 통해 수십 나노초 안에 선형 방정식 시스템을 푸는 방법을 발견했다.이 알고리즘은 Ohm의 법칙과 Kirchhoff의 법칙을 사용하여 매트릭스-벡터 곱셈을 한 번에 수행하여 시간과 에너지의 높은 효율로 성능을 발휘하는 아날로그 저항성 메모리를 갖춘 인메모리 컴퓨팅을 기반으로 합니다.연구원들은 교차점 저항성 메모리를 가진 피드백 회로가 선형 방정식, 행렬 고유 벡터, 미분 방정식과 같은 대수적 문제를 단 한 단계로 해결할 수 있다는 것을 보여주었다.이러한 접근방식은 디지털 [56]알고리즘에 비해 계산 시간을 획기적으로 향상시킵니다.

원자박형반도체

2020년 Marega 등은 플로팅 게이트 전계효과 트랜지스터(FGFET)[57]에 기반한 로직 인 메모리 소자와 회로를 개발하기 위한 대규모 활성 채널 재료를 사용한 실험을 발표했다.이러한 원자적으로 얇은 반도체는 로직 연산과 데이터 스토리지 모두에 동일한 기본 장치 구조가 사용되는 에너지 효율적인 기계 학습 애플리케이션에 유망한 것으로 간주됩니다.저자들은 [57]이황화 몰리브덴 반도체와 같은 2차원 물질을 사용했다.

집적 포토닉 텐서 코어

2021년 J. Feldmann 등은 병렬 컨볼루션 [58]처리를 위한 통합 광전자 하드웨어 가속기를 제안했다.저자들은 전자 광자에 비해 통합 광자의 두 가지 주요 장점인 (1) 주파수 조합과 함께 파장 분할 다중화를 통한 대규모 병렬 데이터 전송과 (2) 매우 빠른 데이터 변조 속도를 [58]식별한다.이 시스템은 초당 수조 개의 누적 다중 연산을 실행할 수 있으며, 이는 대량의 데이터를 사용하는 AI 애플리케이션에서 [58]통합 광자의 가능성을 나타냅니다.

명명법

2016년 현재 이 분야는 여전히 유동적이며, 벤더는 자사의 디자인과 API지배적인 디자인이 되기를 바라며 "AI 액셀러레이터"에 해당하는 자체 마케팅 용어를 추진하고 있습니다.이들 디바이스 간의 경계나 디바이스의 정확한 형태에 대해서는 합의가 이루어지지 않았습니다.다만, 이 새로운 공간을 메우는 것을 목적으로 하고 있는 몇개의 예는, 기능이 꽤 중복되고 있는 것을 분명히 하고 있습니다.

과거에 소비자용 그래픽 액셀러레이터가 등장했을 때 업계에서는 Nvidia가 자칭한 용어인 [59]GPU를 "그래픽 액셀러레이터"의 총칭으로 채택했습니다.이러한 용어는 Direct3D에 의해 제시된 모델을 실장하는 전체적인 파이프라인에 정착하기 전에 여러 형태를 취했습니다.

잠재적인 응용 프로그램

「 」를 참조해 주세요.

레퍼런스

  1. ^ "Intel unveils Movidius Compute Stick USB AI Accelerator". July 21, 2017. Archived from the original on August 11, 2017. Retrieved August 11, 2017.
  2. ^ "Inspurs unveils GX4 AI Accelerator". June 21, 2017.
  3. ^ Wiggers, Kyle (November 6, 2019) [2019], Neural Magic raises $15 million to boost AI inferencing speed on off-the-shelf processors, archived from the original on March 6, 2020, retrieved March 14, 2020
  4. ^ "Google Designing AI Processors". 구글은 자체 AI 액셀러레이터를 사용한다.
  5. ^ "13 Sextillion & Counting: The Long & Winding Road to the Most Frequently Manufactured Human Artifact in History". Computer History Museum. April 2, 2018. Retrieved July 28, 2019.
  6. ^ 존 C. 드보락:인텔의 80170 칩은 2021년 5월 16일에 취득된 PC 매거진 제9권 제10호(1990년 5월), 페이지 77, [1]에서 바퀴벌레의 이론적인 지능을 갖추고 있습니다.
  7. ^ "convolutional neural network demo from 1993 featuring DSP32 accelerator". YouTube.
  8. ^ "design of a connectionist network supercomputer".
  9. ^ "The end of general purpose computers (not)". YouTube.이 프레젠테이션에서는 Neural Net Accelerator에 대한 과거의 시도를 다루고, 최신 SLI GPGPU 프로세서 설정과 유사성을 언급하며, 범용 벡터 Accelerator가 (RISC-V hwacha 프로젝트와 관련하여) 전진하는 길이라고 주장합니다.NN은 조밀하고 희박한 매트릭스일 뿐이며, 여러 반복 알고리즘 중 하나라고 주장한다.
  10. ^ Ramacher, U.; Raab, W.; Hachmann, J.A.U.; Beichter, J.; Bruls, N.; Wesseling, M.; Sicheneder, E.; Glass, J.; Wurz, A.; Manner, R. (1995). Proceedings of 9th International Parallel Processing Symposium. pp. 774–781. CiteSeerX 10.1.1.27.6410. doi:10.1109/IPPS.1995.395862. ISBN 978-0-8186-7074-9. S2CID 16364797.
  11. ^ a b "Space Efficient Neural Net Implementation".
  12. ^ a b Gschwind, M.; Salapura, V.; Maischberger, O. (1996). "A Generic Building Block for Hopfield Neural Networks with On-Chip Learning". 1996 IEEE International Symposium on Circuits and Systems. Circuits and Systems Connecting the World. ISCAS 96. pp. 49–52. doi:10.1109/ISCAS.1996.598474. ISBN 0-7803-3073-0. S2CID 17630664.
  13. ^ "Qualcomm Helps Make Your Mobile Devices Smarter With New Snapdragon Machine Learning Software Development Kit". Qualcomm.{{cite web}}: CS1 maint :url-status (링크)
  14. ^ Rubin, Ben Fox. "Qualcomm's Zeroth platform could make your smartphone much smarter". CNET. Retrieved September 28, 2021.
  15. ^ Gschwind, Michael; Hofstee, H. Peter; Flachs, Brian; Hopkins, Martin; Watanabe, Yukio; Yamazaki, Takeshi (2006). "Synergistic Processing in Cell's Multicore Architecture". IEEE Micro. 26 (2): 10–24. doi:10.1109/MM.2006.41. S2CID 17834015.
  16. ^ De Fabritiis, G. (2007). "Performance of Cell processor for biomolecular simulations". Computer Physics Communications. 176 (11–12): 660–664. arXiv:physics/0611201. doi:10.1016/j.cpc.2007.02.107. S2CID 13871063.
  17. ^ Video Processing and Retrieval on Cell architecture. CiteSeerX 10.1.1.138.5133.
  18. ^ Benthin, Carsten; Wald, Ingo; Scherbaum, Michael; Friedrich, Heiko (2006). 2006 IEEE Symposium on Interactive Ray Tracing. pp. 15–23. CiteSeerX 10.1.1.67.8982. doi:10.1109/RT.2006.280210. ISBN 978-1-4244-0693-7. S2CID 1198101.
  19. ^ "Development of an artificial neural network on a heterogeneous multicore architecture to predict a successful weight loss in obese individuals" (PDF).
  20. ^ Kwon, Bomjun; Choi, Taiho; Chung, Heejin; Kim, Geonho (2008). 2008 5th IEEE Consumer Communications and Networking Conference. pp. 1030–1034. doi:10.1109/ccnc08.2007.235. ISBN 978-1-4244-1457-4. S2CID 14429828.
  21. ^ Duan, Rubing; Strey, Alfred (2008). Euro-Par 2008 – Parallel Processing. Lecture Notes in Computer Science. Vol. 5168. pp. 665–675. doi:10.1007/978-3-540-85451-7_71. ISBN 978-3-540-85450-0.
  22. ^ "Improving the performance of video with AVX". February 8, 2012.
  23. ^ "microsoft research/pixel shaders/MNIST".
  24. ^ "How GPU came to be used for general computation".
  25. ^ "ImageNet Classification with Deep Convolutional Neural Networks" (PDF).
  26. ^ "nvidia driving the development of deep learning". May 17, 2016.
  27. ^ "Nvidia introduces supercomputer for self driving cars". January 6, 2016.
  28. ^ "how nvlink will enable faster easier multi GPU computing". November 14, 2014.
  29. ^ "NVIDIA Jetson Platform에서의 딥 러닝 모델의 최적화된 구현에 관한 조사", 2019년
  30. ^ a b Harris, Mark (May 11, 2017). "CUDA 9 Features Revealed: Volta, Cooperative Groups and More". Retrieved August 12, 2017.
  31. ^ Sefat, Md Syadus; Aslan, Semih; Kellington, Jeffrey W; Qasem, Apan (August 2019). "Accelerating HotSpots in Deep Neural Networks on a CAPI-Based FPGA". 2019 IEEE 21st International Conference on High Performance Computing and Communications; IEEE 17th International Conference on Smart City; IEEE 5th International Conference on Data Science and Systems (HPCC/SmartCity/DSS): 248–256. doi:10.1109/HPCC/SmartCity/DSS.2019.00048. ISBN 978-1-7281-2058-4. S2CID 203656070.
  32. ^ "FPGA Based Deep Learning Accelerators Take on ASICs". The Next Platform. August 23, 2016. Retrieved September 7, 2016.
  33. ^ "Project Brainwave". Microsoft Research. Retrieved June 16, 2020.
  34. ^ "Google boosts machine learning with its Tensor Processing Unit". May 19, 2016. Retrieved September 13, 2016.
  35. ^ "Chip could bring deep learning to mobile devices". www.sciencedaily.com. February 3, 2016. Retrieved September 13, 2016.
  36. ^ "Deep Learning with Limited Numerical Precision" (PDF).
  37. ^ Rastegari, Mohammad; Ordonez, Vicente; Redmon, Joseph; Farhadi, Ali (2016). "XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks". arXiv:1603.05279 [cs.CV].
  38. ^ Khari Johnson (May 23, 2018). "Intel unveils Nervana Neural Net L-1000 for accelerated AI training". VentureBeat. Retrieved May 23, 2018. ...Intel will be extending bfloat16 support across our AI product lines, including Intel Xeon processors and Intel FPGAs.
  39. ^ Michael Feldman (May 23, 2018). "Intel Lays Out New Roadmap for AI Portfolio". TOP500 Supercomputer Sites. Retrieved May 23, 2018. Intel plans to support this format across all their AI products, including the Xeon and FPGA lines
  40. ^ Lucian Armasu (May 23, 2018). "Intel To Launch Spring Crest, Its First Neural Network Processor, In 2019". Tom's Hardware. Retrieved May 23, 2018. Intel said that the NNP-L1000 would also support bfloat16, a numerical format that’s being adopted by all the ML industry players for neural networks. The company will also support bfloat16 in its FPGAs, Xeons, and other ML products. The Nervana NNP-L1000 is scheduled for release in 2019.
  41. ^ "Available TensorFlow Ops Cloud TPU Google Cloud". Google Cloud. Retrieved May 23, 2018. This page lists the TensorFlow Python APIs and graph operators available on Cloud TPU.
  42. ^ Elmar Haußmann (April 26, 2018). "Comparing Google's TPUv2 against Nvidia's V100 on ResNet-50". RiseML Blog. Archived from the original on April 26, 2018. Retrieved May 23, 2018. For the Cloud TPU, Google recommended we use the bfloat16 implementation from the official TPU repository with TensorFlow 1.7.0. Both the TPU and GPU implementations make use of mixed-precision computation on the respective architecture and store most tensors with half-precision.
  43. ^ Tensorflow Authors (February 28, 2018). "ResNet-50 using BFloat16 on TPU". Google. Retrieved May 23, 2018.[영구 데드링크]
  44. ^ Joshua V. Dillon; Ian Langmore; Dustin Tran; Eugene Brevdo; Srinivas Vasudevan; Dave Moore; Brian Patton; Alex Alemi; Matt Hoffman; Rif A. Saurous (November 28, 2017). TensorFlow Distributions (Report). arXiv:1711.10604. Bibcode:2017arXiv171110604D. Accessed May 23, 2018. All operations in TensorFlow Distributions are numerically stable across half, single, and double floating-point precisions (as TensorFlow dtypes: tf.bfloat16 (truncated floating point), tf.float16, tf.float32, tf.float64). Class constructors have a validate_args flag for numerical asserts
  45. ^ "Google Reveals a Powerful New AI Chip and Supercomputer". MIT Technology Review. Retrieved July 27, 2021.
  46. ^ "What to Expect From Apple's Neural Engine in the A11 Bionic SoC – ExtremeTech". www.extremetech.com. Retrieved July 27, 2021.
  47. ^ "Facebook has a new job posting calling for chip designers".
  48. ^ "Facebook joins Amazon and Google in AI chip race". Financial Times. February 18, 2019.
  49. ^ Amadeo, Ron (May 11, 2021). "Samsung and AMD will reportedly take on Apple's M1 SoC later this year". Ars Technica. Retrieved July 28, 2021.
  50. ^ Smith, Ryan. "The AI Race Expands: Qualcomm Reveals "Cloud AI 100" Family of Datacenter AI Inference Accelerators for 2020". www.anandtech.com. Retrieved September 28, 2021.
  51. ^ Woodie, Alex (November 1, 2021). "Cerebras Hits the Accelerator for Deep Learning Workloads". Datanami. Retrieved August 3, 2022.
  52. ^ "Cerebras launches new AI supercomputing processor with 2.6 trillion transistors". VentureBeat. April 20, 2021. Retrieved August 3, 2022.
  53. ^ Abu Sebastian; Tomas Tuma; Nikolaos Papandreou; Manuel Le Gallo; Lukas Kull; Thomas Parnell; Evangelos Eleftheriou (2017). "Temporal correlation detection using computational phase-change memory". Nature Communications. 8 (1): 1115. arXiv:1706.00511. doi:10.1038/s41467-017-01481-9. PMC 5653661. PMID 29062022.
  54. ^ "A new brain-inspired architecture could improve how computers handle data and advance AI". American Institute of Physics. October 3, 2018. Retrieved October 5, 2018.
  55. ^ Carlos Ríos; Nathan Youngblood; Zengguang Cheng; Manuel Le Gallo; Wolfram H.P. Pernice; C. David Wright; Abu Sebastian; Harish Bhaskaran (2018). "In-memory computing on a photonic platform". arXiv:1801.06228 [cs.ET].
  56. ^ Zhong Sun; Giacomo Pedretti; Elia Ambrosi; Alessandro Bricalli; Wei Wang; Daniele Ielmini (2019). "Solving matrix equations in one step with cross-point resistive arrays". Proceedings of the National Academy of Sciences. 116 (10): 4123–4128. doi:10.1073/pnas.1815682116. PMC 6410822. PMID 30782810.
  57. ^ a b Marega, Guilherme Migliato; Zhao, Yanfei; Avsar, Ahmet; Wang, Zhenyu; Tripati, Mukesh; Radenovic, Aleksandra; Kis, Anras (2020). "Logic-in-memory based on an atomically thin semiconductor". Nature. 587 (2): 72–77. doi:10.1038/s41586-020-2861-0. PMC 7116757. PMID 33149289.
  58. ^ a b c Feldmann, J.; Youngblood, N.; Karpov, M.; et al. (2021). "Parallel convolutional processing using an integrated photonic tensor". Nature. 589 (2): 52–58. arXiv:2002.00281. doi:10.1038/s41586-020-03070-1. PMID 33408373. S2CID 211010976.
  59. ^ "NVIDIA launches the World's First Graphics Processing Unit, the GeForce 256".
  60. ^ "Design of a machine vision system for weed control". CiteSeerX 10.1.1.7.342. Archived (PDF) from the original on June 23, 2010. Retrieved July 29, 2021. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  61. ^ "Self-Driving Cars Technology & Solutions from NVIDIA Automotive". NVIDIA.
  62. ^ "movidius powers worlds most intelligent drone". March 16, 2016.
  63. ^ "Qualcomm Research brings server class machine learning to everyday devices–making them smarter [VIDEO]". October 2015.

외부 링크