멀티코어 프로세서

많은 코어 프로세서는 고도의 병렬 처리를 위해 설계된 특수한 종류의 멀티 코어 프로세서로, 다수의 심플하고 독립된 프로세서 코어(수십 개의 코어에서 수천 개 이상)를 포함하고 있습니다.많은 코어 프로세서가 임베디드 컴퓨터와 고성능 컴퓨팅에 광범위하게 사용되고 있습니다.

멀티코어 아키텍처와의 대조

많은 코어 프로세서는 처음부터 멀티 코어 프로세서와 구별됩니다.즉, 보다 높은 수준의 명시적 병렬 처리와 높은 스루풋(또는 낮은 전력 소비)을 실현하기 위해 최적화되어 레이텐시와 낮은 싱글 스레드 성능을 희생합니다.

반면 멀티코어 프로세서의 광범위한 범주는 일반적으로 병렬 코드와 시리얼 코드를 모두 효율적으로 실행하도록 설계되어 있기 때문에 높은 싱글 스레드 퍼포먼스(예를 들어 더 많은 실리콘을 순서 없는 실행에 할애, 더 깊은 파이프라인, 더 많은 슈퍼스칼라 실행 유닛, 더 크고 더 일반적인 캐시)에 중점을 두고 공유됩니다. 메모리이러한 기술은 런타임 리소스를 단일 스레드에서 암묵적 병렬화를 파악하는 데 사용합니다.싱글 코어 프로세서에서 지속적으로(하위 호환성이 있는) 진화한 시스템에서 사용됩니다.통상, 코어(2, 4, 8 등)는 소수이며, 이종 시스템의 멀티 코어 액셀러레이터(GPU 등)에 의해서 보완되는 경우가 있습니다.

동기

캐시 일관성은 멀티코어 프로세서의 확장을 제한하는 문제입니다.많은 코어 프로세서는 메시지 전달,^[1] 스크래치 패드 메모리, DMA,^[2] 파티션화된 글로벌주소 공간,^[3] 읽기 전용/비 일관 캐시 등의 방법으로 이를 우회할 수 있습니다.칩 및 로컬 메모리의 네트워크를 사용하는 manycore 프로세서는 소프트웨어의 태스크 공간 레이아웃을 명시적으로 최적화할 수 있는 기회를 제공합니다(^[4]TrueNorth용으로 개발된 툴링에서 볼 수 있습니다).

많은 코어 프로세서는 클러스터나 벡터 ^[5]프로세서 등의 고성능 컴퓨팅에서 유래한 테크놀로지와 (개념적으로) 더 많은 공통점을 가지고 있을 수 있습니다.

GPU는 여러 개의 셰이더 처리 장치를 가진 manycore 프로세서의 한 형태로 간주될 수 있으며, 높은 병렬 코드(높은 throughput, 그러나 단일 스레드 성능은 극히 낮음)에만 적합합니다.

적합한 프로그래밍 모델

manycore 시스템 클래스

특정 멀티코어 아키텍처

ZettaScaler [ 1 ], 일본 PEZY Computing 2048 코어 모듈
MIC(Many Integrated Core) 아키텍처를 갖춘 Xeon Phi 코프로세서
틸레라
Adapteva Epiphany Architecture(PGAS 스크래치패드 메모리를 사용하는 멀티코어 칩)
HyperX 아키텍처를 기반으로 한 100코어 DSP/GPP 프로세서인 일관성 있는 Logix hx3100 프로세서
Movidius Miriard 2 (멀티코어 비전 처리 유닛(VPU))
Kalray, 데이터 집약적인 태스크용 멀티코어 PCI-e 액셀러레이터
Teraflops Research Chip (메시지 전달을 사용하는 멀티코어 프로세서
TrueNorth, 칩 아키텍처에 멀티코어 네트워크를 탑재한 AI 액셀러레이터
친환경 어레이, 저전력 애플리케이션을 위한 메시지 전달을 사용하는 멀티코어 프로세서
Sunway SW26010은 260코어 멀티코어 프로세서를 탑재하여 슈퍼컴퓨터 Sunway TaihuLight 상위1대
- SW52020은 SW26010의 개량된^[8]^[9] 520코어 모델로 512비트 SIMD(반정밀 지원 추가)를 갖추고 있으며 엑사스케일 시스템(및 향후 10개의 엑사스케일 시스템)에 사용되는 프로토타입에 사용되고 있으며, 데이터센터 다이내믹스에 따르면 중국은 이미 2개의 엑사스케일 시스템을 비밀리에 보유하고 있는 것으로 알려져 있습니다.
Eyeriss는 임베디드 비전^[10] 애플리케이션용 컨볼루션 뉴럴 넷을 실행하도록 설계된 다코어 프로세서입니다.
멀티코어 AI 액셀러레이터 Graphcore

100만 이상의 CPU 코어를 탑재한 특정 멀티코어 컴퓨터

멀티코어 프로세서로 구축된 다수의 컴퓨터에는 100만 개 이상의 개별 CPU 코어가 있습니다.예를 들어 다음과 같습니다.

ExaScaler와 PEZY Computing이 개발한 슈퍼컴퓨터 Gyoukou (일본어: hepburnHepburn: gyoko, 여명등)는 총 2,048,000개의 프로세서와 1250개의 인텔 Xeon D 호스트 프로세서를 갖추고 있습니다.
SpiNaker는 Human Brain Project의 일부로 구축된 대규모 병렬(1M CPU 코어) 멀티코어 프로세서(ARM 기반)입니다.

5M 이상의 CPU 코어를 탑재한 특정 컴퓨터

슈퍼컴퓨터 중에는 CPU 코어가 백만 개가 넘고 심지어 500만 개가 5백만 개가 넘는 것도 있습니다.GPU와 같은 코프로세서가 있는 경우 코어카운트에 코어가 표시되지 않으면 타깃에 도달하는 컴퓨터가 상당히 많아집니다.

프런티어
후지쯔 A64FX ARM 기반의 코어를 채용한 일본 슈퍼컴퓨터 후가쿠는 총 7630,848대.
Sunway TaihuLight는 대규모 병렬(1,000만 CPU ^{[citation needed]}코어) 중국 슈퍼컴퓨터입니다.이 슈퍼컴퓨터는 커스텀 멀티코어 아키텍처를 채용한 세계에서 가장 빠른 슈퍼컴퓨터 중 하나입니다.2018년 11월 현재 세계에서 세 번째로 빠른 슈퍼컴퓨터인 중국 Sunway TaihuLight는 각각 256개의 코어를 포함하는 40,960개의 SW26010 manycore 프로세서에서 성능을 얻고 있습니다.

「」를 참조해 주세요.

레퍼런스

^ Mattson, Tim (January 2010). "The Future of Many Core Computing: A tale of two processors" (PDF).
^ Hendry, Gilbert; Kretschmann, Mark. "IBM Cell Processor" (PDF).
^ Olofsson, Andreas; Nordström, Tomas; Ul-Abdin, Zain (2014). "Kickstarting High-performance Energy-efficient Manycore Architectures with Epiphany". arXiv:1412.5538 [cs.AR].
^ Amir, Arnon (June 11, 2015). "IBM SyNAPSE Deep Dive Part 3". IBM Research. Archived from the original on 2021-12-21.
^ "cell architecture"."셀 아키텍처는 일반 마이크로프로세서에서 볼 수 있는 그 어떤 것과도 다릅니다.멀티프로세서 벡터 슈퍼컴퓨터에 가까운 설계입니다."
^ Rick Merritt (June 20, 2011), "OEMs show systems with Intel MIC chips", www.eetimes.com, EE Times
^ Barker, J; Bowden, J (2013). "Manycore Parallelism through OpenMP". OpenMP in the Era of Low Power Devices and Accelerators. IWOMP. Lecture Notes in Computer Science, vol 8122. Springer. doi:10.1007/978-3-642-40698-0_4.
^ Morgan, Timothy Prickett (2021-02-10). "A First Peek At China's Sunway Exascale Supercomputer". The Next Platform. Retrieved 2021-11-18.
^ Hemsoth, Nicole (2021-04-19). "China's Exascale Prototype Supercomputer Tests AI Workloads". The Next Platform. Retrieved 2021-11-18.
^ Chen, Yu-Hsin and Krishna, Tushar and Emer, Joel and Sze, Vivienne (2016). "Eyeriss: An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks". IEEE International Solid-State Circuits Conference, ISSCC 2016, Digest of Technical Papers. pp. 262–263.{{cite web}}: CS1 maint: 작성자 파라미터 사용(링크)

외부 링크

2010년 2월 19일에 발표된 Manycore 미래를 위한 솔루션 설계(슬라이드에 기재된 여러 개의 데드링크)
에어리스 건축

[1] Mattson, Tim (January 2010). "The Future of Many Core Computing: A tale of two processors" (PDF).

[2] Hendry, Gilbert; Kretschmann, Mark. "IBM Cell Processor" (PDF).

[3] Olofsson, Andreas; Nordström, Tomas; Ul-Abdin, Zain (2014). "Kickstarting High-performance Energy-efficient Manycore Architectures with Epiphany". arXiv:1412.5538 [cs.AR].

[4] Amir, Arnon (June 11, 2015). "IBM SyNAPSE Deep Dive Part 3". IBM Research. Archived from the original on 2021-12-21.

[5] "cell architecture"."셀 아키텍처는 일반 마이크로프로세서에서 볼 수 있는 그 어떤 것과도 다릅니다.멀티프로세서 벡터 슈퍼컴퓨터에 가까운 설계입니다."

[6] Rick Merritt (June 20, 2011), "OEMs show systems with Intel MIC chips", www.eetimes.com, EE Times

[7] Barker, J; Bowden, J (2013). "Manycore Parallelism through OpenMP". OpenMP in the Era of Low Power Devices and Accelerators. IWOMP. Lecture Notes in Computer Science, vol 8122. Springer. doi:10.1007/978-3-642-40698-0_4.

[8] Morgan, Timothy Prickett (2021-02-10). "A First Peek At China's Sunway Exascale Supercomputer". The Next Platform. Retrieved 2021-11-18.

[9] Hemsoth, Nicole (2021-04-19). "China's Exascale Prototype Supercomputer Tests AI Workloads". The Next Platform. Retrieved 2021-11-18.

[10] Chen, Yu-Hsin and Krishna, Tushar and Emer, Joel and Sze, Vivienne (2016). "Eyeriss: An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks". IEEE International Solid-State Circuits Conference, ISSCC 2016, Digest of Technical Papers. pp. 262–263.{{cite web}}: CS1 maint: 작성자 파라미터 사용(링크)

[1]

[2]

[3]

[4]

[5]

[7]

[8]

[9]

[10]

v t 병렬 컴퓨팅
일반	분산 컴퓨팅 병렬 컴퓨팅 대규모 병렬화 클라우드 컴퓨팅 하이 퍼포먼스 멀티프로세서 멀티코어 프로세서 GPGPU 컴퓨터 네트워크 수축기 어레이
레벨	조금 설명 실 작업 데이터. 기억 고리 파이프라인
멀티스레딩	일시적 동시(SMT) 투기적(SpMT) 프리엠프티브 협동조합 클러스터화 멀티스레드(CMT) 하드웨어 스카우트
이론.	PRAM 모델 PEM 모델 병렬 알고리즘 분석 암달의 법칙 구스타프슨의 법칙 비용 효율 카르프-플랫 미터법 속도를 줄이세요. 스피드업
요소들	과정 실 파이버전 명령 창 어레이 데이터 구조
코디네이션	멀티프로세서 메모리 일관성 캐시 일관성 캐시 무효화 장벽 동기 응용 프로그램 체크 포인트
프로그래밍	스트림 처리 데이터 흐름 프로그래밍 모델 암묵적 병렬화 명시적 병렬화 동시성 논블로킹 알고리즘
하드웨어	플린의 분류법 SISD SIMD 어레이 처리(SIMT) 파이프라인 처리 연관 처리 미스테리 MIMD 데이터 흐름 아키텍처 파이프라인 프로세서 슈퍼스칼라 프로세서 벡터 프로세서 멀티프로세서 대칭의 비대칭의 기억 공유했습니다. 분산된 분산 공유 UMA NUMA 혼수 상태 대규모 병렬 컴퓨터 컴퓨터 클러스터 그리드 컴퓨터 하드웨어 액셀러레이션
API	아테지 PX 부스트 예배당 HPX Charm++ 칠크 코어레이 포트란 쿠다 드라이어드 C++ AMP 글로벌 어레이 GPUO펜 MPI OpenMP OpenCL OpenHMPP 오픈 ACC 병렬 확장 PVM 스레드 뗏목 립 ROCM UPC TBB ZPL
문제	자동 병렬화 교착 상태 결정론적 알고리즘 민망할 정도로 평행하다 병렬 속도 저하 레이스 조건 소프트웨어 록아웃 확장성 기아
카테고리: 병렬 컴퓨팅

Search

멀티코어 프로세서

네임스페이스

더

목차

멀티코어 아키텍처와의 대조

동기

적합한 프로그래밍 모델

manycore 시스템 클래스

특정 멀티코어 아키텍처

100만 이상의 CPU 코어를 탑재한 특정 멀티코어 컴퓨터

5M 이상의 CPU 코어를 탑재한 특정 컴퓨터

「」를 참조해 주세요.

레퍼런스

외부 링크

Search

멀티코어 프로세서

멀티코어 아키텍처와의 대조

동기

적합한 프로그래밍 모델

manycore 시스템 클래스

특정 멀티코어 아키텍처

100만 이상의 CPU 코어를 탑재한 특정 멀티코어 컴퓨터

5M 이상의 CPU 코어를 탑재한 특정 컴퓨터

「 」를 참조해 주세요.

레퍼런스

외부 링크

「」를 참조해 주세요.