Sunway SW26010

Sunway SW26010

SW26010상하이에 있는 National High Performance Integrated Circuit Design Center가 설계한 260코어 멀티코어 프로세서입니다.중국에서 설계64비트 RISC(Reduced Instruction Set Computing)[1] 아키텍처인 Sunway 아키텍처를 구현합니다.SW26010에는 64개의 CPE(Compute-Processing Elements) 클러스터가 8x8 배열되어 있습니다.CPE는 Single Instruction, Multiple Data(SIMD; 단일 명령, 다중 데이터) 명령을 지원하며 사이클당 8개의 2배 정밀 부동소수점 연산을 실행할 수 있습니다.각 클러스터에는 관리 [1]기능을 제공하는 Management Processing Element(MPE; 관리 처리 요소)라고 불리는 보다 일반적인 범용 코어가 부속되어 있습니다.각 클러스터에는 전용 DDR3 SDRAM 컨트롤러독자적인 주소 [2][3]공간이 있는 메모리 뱅크가 있습니다.CPU는 1.45GHz의 [4]클럭 속도로 동작합니다.

CPE 코어는 데이터용 스크래치패드 메모리 64KB, 명령용 스크래치패드 메모리 16KB를 갖추고 있어 기존의 캐시 [5]계층이 아닌 칩 상의 네트워크를 통해 통신합니다.MPE는 32KB의 L1 명령데이터 캐시와 256KB의 L2 [1]캐시를 갖춘 보다 전통적인 셋업을 갖추고 있습니다.마지막으로 온칩 네트워크는 칩을 외부에 연결하는 단일 시스템 상호 연결 인터페이스에 연결됩니다.

SW26010은 Sunway TaihuLight 슈퍼컴퓨터에 사용되고 있습니다.SUNWay TaihuLight 슈퍼컴퓨터는 2018년 3월부터 6월까지 TOP500 [6]프로젝트에서 세계에서 가장 빠른 슈퍼컴퓨터였습니다.시스템은 40,960 SW26010s를 사용하여 LINPACK 벤치마크에서 93.01 PFLOPS를 얻습니다.

후계 제품: SW26010P

SW26010P에는 6개의 코어 그룹(CG)이 있으며, 각 그룹에는 1개의 관리 처리 요소(MPE)와 1개의 8×8 컴퓨팅 처리 요소(CPE) 클러스터가 포함됩니다.각 CG에는 독자적인 메모리 컨트롤러(MC)가 있어 대역폭 51.2GB/s의 16GB DDR4 메모리에 접속할 수 있습니다.같은 CPE 클러스터 내의 2개의 CPE 간의 데이터 교환은 Remote Memory Access(RMA; 리모트메모리 액세스) 인터페이스를 통해 이루어집니다(이전 세대의 레지스터 통신 기능을 대체).각 CPE에는 256KB의 고속 로컬 데이터 메모리(LDM)가 있습니다.각 SW26010P 프로세서는 390개의 처리 [7]요소로 구성됩니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b c Dongarra, Jack (June 20, 2016). "Report on the Sunway TaihuLight System" (PDF). www.netlib.org. Retrieved June 20, 2016.
  2. ^ Fu, Haohuan; Liao, Junfeng; Yang, Jinzhe; et al. (2016). "The Sunway TaihuLight Supercomputer: System and Applications". Sci. China Inf. Sci. 59 (7). doi:10.1007/s11432-016-5588-7.
  3. ^ Trader, Tiffany (June 19, 2016). "China Debuts 93-Petaflops 'Sunway' with Homegrown Processors". HPC Wire. Retrieved 21 June 2016. Each core of the CPE has a single floating point pipeline that can perform 8 flops per cycle per core (64-bit floating point arithmetic) and the MPE has a dual pipeline each of which can perform 8 flops per cycle per pipeline (64-bit floating point arithmetic).
  4. ^ Hemsoth, Nicole (2016-06-20). "A Look Inside China's Chart-Topping New Supercomputer". The Next Platform. Retrieved 2016-06-20.
  5. ^ Lendino, Jamie (20 June 2016). "Meet the new world's fastest supercomputer: China's TaihuLight". Extremetech. Retrieved 21 June 2016. The TOP500 report said that the chip also lacks any traditional L1-L2-L3 cache, and instead has 12KB of instruction cache and 64KB “local scratchpad” that works sort of like an L1 cache.
  6. ^ "Top 500 The List: November 2016". TOP 500. 14 November 2016. Retrieved 26 November 2016.
  7. ^ Liu, Yong (Alexander); Liu, Xin (Lucy); Li, Fang (Nancy); Fu, Haohuan; Yang, Yuling; Song, Jiawei; Zhao, Pengpeng; Wang, Zhen; Peng, Dajia; Chen, Huarong; Guo, Chu; Huang, Heliang; Wu, Wenzhao; Chen, Dexun (2021). "Closing the "quantum supremacy" gap". Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. pp. 1–12. doi:10.1145/3458817.3487399. ISBN 9781450384421. S2CID 239036985.