대규모 병렬 프로세서 어레이

Massively parallel processor array

멀티퍼패스 프로세서 어레이(MPPA)라고도 불리는 대규모 병렬 프로세서 어레이는 수백 또는 수천 개의 CPURAM 메모리를 갖춘 대규모 병렬 어레이를 가진 집적회로입니다.이들 프로세서는 재구성 가능채널 상호 연결을 통해 서로 작업을 전달합니다.병렬로 동작하는 다수의 프로세서를 이용함으로써 MPPA 칩은 기존 칩보다 더 까다로운 작업을 수행할 수 있습니다.MPPA는 고성능 임베디드 시스템애플리케이션 개발을 위한 소프트웨어 병행 프로그래밍 모델을 기반으로 합니다.

아키텍처

MPPA는 MIMD(Multiple Instruction Streams, Multiple Data) 아키텍처입니다.분산 메모리는 글로벌하게 공유되지 않고 로컬로 액세스 됩니다.각 프로세서는 엄밀하게 캡슐화되어 자체 코드와 메모리에만 액세스합니다.프로세서간의 포인트 투 포인트 통신은, 설정 가능한 [1]인터커넥트로 직접 실현됩니다.

MPPA의 대규모 병렬 처리와 분산 메모리 MIMD 아키텍처는 프로세서가 적은 멀티코어 및 멀티코어 아키텍처와 구별되며, SMP 또는 기타 공유 메모리 아키텍처는 주로 범용 컴퓨팅을 목적으로 합니다.또한 HPC 애플리케이션에 사용되는 [2]SIMD 아키텍처를 사용하는 GPGPU와도 구별됩니다.

프로그래밍

MPPA 어플리케이션은 계층형 블록 다이어그램 또는 워크플로우로 표현하여 개발됩니다.기본 객체는 각각 자체 프로세서에서 병렬로 실행됩니다.마찬가지로 대용량 데이터 개체는 병렬 액세스로 분할되어 로컬 메모리에 배포될 수 있습니다.객체는 전용 채널의 병렬 구조를 통해 통신합니다.목표는 로컬 지연 시간을 최소화하고 성능 및 효율성을 최적화하면서 총 처리량을 극대화하는 것입니다.MPPA의 계산 모델Kahn 프로세스 네트워크 또는 통신 순차 프로세스(CSP)[3]와 유사합니다.

적용들

MPPA는 비디오 압축,[4][5] 이미지 처리,[6] 의료용 이미징, 네트워크 처리, 소프트웨어 정의 라디오 및 기타 컴퓨팅 집약적인 스트리밍 미디어 애플리케이션(FPGA, DSP 및/또는 ASIC 칩 사용)과 같은 고성능 임베디드 시스템과 데스크톱 컴퓨터서버 애플리케이션의 하드웨어 가속화에 사용됩니다.

기업에서 개발된 MPPA에는 Ambric, PicoChip, Intel,[7] IntellaSys, GreenArray, ASOCS, Tilera, Kalray, Cohistent Logix, TabulaAdapteva가 있습니다.Aspex(Ericson) Linedancer는 MPPA가 아닌 Massive wide SIMD Array라는 점에서 다릅니다.엄밀히 말하면, 3,000개의 게이트 코어 중 4096개 모두가 독자적인 Content-Addressable [8][9]Memory를 가지고 있기 때문에 SIMT로 인정될 수 있습니다.

대학에서 개발된 조립 MPPA에는 캘리포니아 대학 데이비스의 36코어[10]167코어[11] AsAP(Asynchronous Array of Simple Processors) 어레이, MIT의 16코어[12] RAW 어레이 및 Fudan University의 16코어[13] 및 24코어[14] 어레이가 포함됩니다.

중국 선웨이 프로젝트는 2016년 현재 세계에서 가장 빠른 [15][16]슈퍼컴퓨터인 TaihuLight 슈퍼컴퓨터용 260코어 SW26010 manycore 칩을 자체 개발했습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Mike Butts, "Massively Parallel Processor Array에서의 통신을 통한 동기화", IEEE Micro, vol.27, No.5, 2007년 9월/10월, IEEE Computer Society
  2. ^ Mike Buts, "Multicore and Massively Parallel Platforms and Moore's Law Scalability", 임베디드 시스템 컨퍼런스 진행 - 실리콘 밸리, 2008년 4월
  3. ^ Mike Buts, Brad Budlong, Paul Wasson, Ed White, "대규모 병렬 프로세서 어레이로 재구성 가능한 워크팜", FCCM, 2008년 4월, IEEE Computer Society
  4. ^ Laurent Bonetto, "임베디드 HD 비디오 및 이미징용 MPPA(Massively Parallel Processing Arrays)", 비디오/이미징 Design Line, 2008년 5월 16일, http://www.eetimes.com/document.asp?doc_id=1273823
  5. ^ Laurent Bonetto, "임베디드 HD 비디오 및 이미징용 MPPA(Massively Parallel Processing Arrays)", 비디오/이미징 Design Line, 2008년 7월 18일, http://www.eetimes.com/document.asp?doc_id=1273830
  6. ^ Paul Chen, "MPPA(Massively Parallel Processor Arrays)를 사용한 멀티모드 센서 처리", Programmable Logic Design Line, 2008년 3월 18일 http://www.pldesignline.com/howto/206904379
  7. ^ Vangal, Siram R., Jason Howard, Gregory Ruhl, Saurabh Dighe, Howard Wilson, James Tschanz, David Finance 등"65nm cmos의 80타일 서브100W 테라플롭스 프로세서"솔리드 스테이트 회로, IEEE 저널 43, No.1 (2008) : 29-41.
  8. ^ Krikelis, A. (1990). "Artificial Neural Network on a Massively Parallel Associative Architecture". International Neural Network Conference. p. 673. doi:10.1007/978-94-009-0643-3_39. ISBN 978-0-7923-0831-7.
  9. ^ https://core.ac.uk/download/pdf/25268094.pdf[베어 URL PDF]
  10. ^ Yu, Zhii, Michael Meuwsen, Ryan Apperson, Omar Sattari, Michael Lai, Jeremy Webb, Eric Work, Tunoosh Mohsenin, Mandeep Singh, Bevan Baas."DSP 애플리케이션용 단순한 프로세서의 비동기식 배열입니다."IEEE 국제고체회로회의, (ISSCC'06) , vol.49, 페이지 428-429. 2006.
  11. ^ Truong, Dean, Wayne Cheng, Tunoosh Mohsenin, Zhiy Yu, Toney Jacobson, Gouri Landge, Michael Meuwsen 등"프로세서 단위의 동적 공급 전압과 동적 클럭 주파수 스케일링을 갖춘 167 프로세서 65 nm 연산 플랫폼입니다."VLSI 회로에 관한 심포지엄, 2008년 페이지 22-23
  12. ^ Michael Bedford Taylor, Jason Kim, Jason Miller, David Wentzlaff, Fae Ghodrat, Ben Greenwald, Henry Hoffmann, Paul Johnson, Walter Lee, Arvind Sarf, Nathan Shnidman, Volker Strumpen, Saman Amarhing, Agaring, 16.솔리드 스테이트 회선 회의, 2003년 2월
  13. ^ Yu, Zhiy, Kaidi You, Ruijin Xiao, Heng Quan, Peng Oou, Yan Ying, Haofan Yang, Xiaoyang Zeng."메시지 전달 및 공유 메모리 코어 간 통신 메커니즘을 갖춘 800MHz 320mW 16코어 프로세서입니다."Solid-State Circuits Conference Digest of Technical Papers (ISSCC), 2012 IEEE International, 페이지 64-66.IEEE, 2012.
  14. ^ Ou, Peng, Jiajie Zhang, Heng Quan, Yi Li, Maofei He, Jheng Yu, Xueqi Yu 등. "11 Tb/s/W 패킷 제어 회로 교환식 이중 레이어 네트워크 온 칩 및 이종 어레이를 실행하는 65nm 39GOPS/W 프로세서입니다."Solid-State Circuits Conference Digest of Technical Papers (ISSCC), 2013 IEEE International, 페이지 56-57.IEEE, 2013.
  15. ^ Dongarra, Jack (June 20, 2016). "Report on the Sunway TaihuLight System" (PDF). www.netlib.org. Retrieved June 20, 2016.
  16. ^ Fu, Haohuan; Liao, Junfeng; Yang, Jinzhe; et al. (2016). "The Sunway TaihuLight Supercomputer: System and Applications". Sci. China Inf. Sci. 59 (7). doi:10.1007/s11432-016-5588-7.