셀 마이크로프로세서 구현
Cell microprocessor implementations이 글은 주제를 잘 모르는 사람들에게 불충분한 맥락을 제공한다.(2020년 1월) (이 를 과 시기 |
최초의 상용 Cell 마이크로프로세서인 Cell BE는 Sony PlayStation 3를 위해 설계되었다.IBM은 Roadrunner 슈퍼 컴퓨터에서 사용할 수 있도록 PowerXCell 8i를 설계했다.[1]
실행
90nm CMOS의 초판 Cell
IBM은 이 과정에서 두 가지 다른 버전의 Cell, 즉 DD1로 지정된 초기 엔지니어링 샘플, 그리고 생산용으로 지정된 DD2로 지정된 향상된 버전과 관련된 정보를 발표했다.
지정 | 다이 영역 | 최초공개 | 강화 |
---|---|---|---|
DD1 | 221 mm2 | ISSCC 2005 | |
DD2 | 235 mm2 | 쿨 칩스 2005년 4월 | 향상된 PPE 코어 |
DD2의 주요 개선 사항은 더 큰 PPE 코어를 수용하기 위해 다이 길이를 약간 늘린 것으로, 이는 "더 많은 SIMD/벡터 실행 자원을 포함하고 있다"[1]고 보고되었다.IBM이 발표한 일부 예비 정보는 DD1 변종을 참조한다.결과적으로, 셀의 능력에 대한 일부 초기 저널리스트적 설명은 현재 생산 하드웨어와 다르다.
셀 평면도
Peter Hofstee 박사가 제공한 STI 프레젠테이션에 수반되는 파워포인트 자료에는 DD2 Cell 다이(Die)가 기능 단위 경계와 함께 과다하게 사용된 사진이 포함되어 있으며, 이 사진은 다음과 같이 기능 단위별 실리콘 영역 분해를 보여준다.
세포기능단위 | 면적(%) | 설명 |
---|---|---|
XDR 인터페이스 | 5.7 | Rambus 시스템 메모리에 대한 인터페이스 |
메모리 제어기 | 4.4 | 외부 메모리 및 L2 캐시 관리 |
512KiB L2 캐시 | 10.3 | PPE용 캐시 메모리 |
PPE 코어 | 11.1 | 파워PC 프로세서 |
시험하다 | 2.0 | 지정되지 않은 "테스트 및 디코딩 논리" |
EIB | 3.1 | 프로세서를 연결하는 요소 인터커넥트 버스 |
SPE (각각) × 8 | 6.2 | 시너지공동처리요소 |
I/O 컨트롤러 | 6.6 | 외부 I/O 논리 |
람부스 플렉스IO | 5.7 | I/O 핀에 대한 외부 신호 전달 |
SPE 평면도
IBM의 시너지 처리 요소의 수석 설계자인 Peter Hofstee를 포함한 IBM 엔지니어가 내부 SPE 구현에 관한 추가 세부사항을 IEEE 간행물에 공개하였다.[2]
이 문서에는 90nm SOI에서 구현한 2.54 × 5.81 mm SPE의 사진이 포함되어 있다.이 기술에서 SPE는 2100만 개의 트랜지스터를 포함하고 있으며, 이 중 1400만 개가 어레이(추정 레지스터 파일 및 로컬 스토어)에 포함되어 있으며 700만 개의 트랜지스터가 논리적인 것이다.이 사진은 기능 단위 경계를 초과하여 그 이름을 표시하기도 하는데, 기능 단위별 실리콘 면적의 내역은 다음과 같다.
SPU 기능 단위 | 면적(%) | 설명 | 파이프 |
---|---|---|---|
단정밀도 | 10.0 | 단일 정밀 FP 실행 단위 | 짝수 |
2배 정밀도 | 4.4 | 이중 정밀 FP 실행 단위 | 짝수 |
단순 고정. | 3.25 | 고정점실행단위 | 짝수 |
통제권을 발동하다 | 2.5 | 실행 단위 피드 | |
전진 매크로 | 3.75 | 실행 단위 피드 | |
GPR | 6.25 | 범용등록부 파일 | |
퍼머를 하다 | 3.25 | 퍼머 실행 단위 | 기묘한 |
가지를 치다 | 2.5 | 지사 실행 단위 | 기묘한 |
채널을 돌리다 | 6.75 | 채널 인터페이스(별도 블록 3개) | 기묘한 |
LS0-LS3 | 30.0 | 로컬 스토어 64KiB 블록 4개 | 기묘한 |
MMU | 4.75 | 메모리 관리 단위 | |
DMA | 7.5 | 직접 메모리 액세스 장치 | |
BIU | 9.0 | 버스 인터페이스 장치 | |
RTB | 2.5 | 어레이 내장 테스트 블록(ABIST) | |
아토 | 1.6 | 원자 DMA 업데이트를 위한 원자 단위 | |
HB | 0.5 | 무명의 |
효율적인 코드를 작성하려면 디스패치 파이프를 이해하는 것이 중요하다.SPU 아키텍처에서, 각 클럭 사이클마다 짝수 및 홀수로 지정된 디스패치 파이프를 사용하여 두 개의 지침을 디스패치(시동)할 수 있다.위의 표와 같이 두 파이프는 서로 다른 실행 단위를 제공한다.IBM이 이것을 분할함에 따라 대부분의 산술지시는 짝수 파이프에서 실행되는 반면, 대부분의 메모리지시는 홀수 파이프에서 실행된다.이 퍼머 장치는 메모리에 위치한 데이터 구조를 SPU가 가장 효율적으로 계산하는 SIMD 다중 피연산자 형식으로 포장하고 압축을 푸는 역할을 하기 때문에 메모리 명령과 밀접하게 연관되어 있다.
다른 프로세서 설계가 뚜렷한 실행 파이프를 제공하는 것과 달리, 각 SPU 지침은 지정된 하나의 파이프에서만 전송될 수 있다.경쟁 설계에서 둘 이상의 파이프가 추가와 같은 극히 일반적인 지침을 처리하도록 설계될 수 있으며, 이러한 지시 중 두 개 이상을 동시에 실행할 수 있으므로 불균형한 워크플로우에서 효율성을 높일 수 있다.극히 스파르타식 설계 철학을 준수하여, SPU의 경우, 어떤 실행 단위도 곱절로 프로비저닝되지 않는다.
제한적인 두 개의 파이프라인 설계의 한계를 이해하는 것은 프로그래머가 가장 낮은 추상화 수준에서 효율적인 SPU 코드를 쓰기 위해 파악해야 하는 핵심 개념 중 하나이다.더 높은 수준의 추상화 수준에서 작업하는 프로그래머의 경우, 좋은 컴파일러는 가능한 경우 자동으로 파이프라인 동시성 균형을 맞출 것이다.
SPE 전원 및 성능
IBM이 과도한 변환 및 조명 작업 부하 [평균 IPC 1.4]에서 테스트한 바와 같이, 단일 SPU 프로세서에 대한 이 구현의 성능 프로필은 다음과 같이 검증된다.
전압(V) | 주파수(GHz) | 전원(W) | 다이온도(°C) |
---|---|---|---|
0.9 | 2.0 | 1 | 25 |
0.9 | 3.0 | 2 | 27 |
1.0 | 3.8 | 3 | 31 |
1.1 | 4.0 | 4 | 38 |
1.2 | 4.4 | 7 | 47 |
1.3 | 5.0 | 11 | 63 |
0.9V에서 2.0GHz 작동을 위한 입력은 저전력 구성을 나타낸다.다른 항목들은 각 전압 증가에서 달성한 피크 안정 작동 주파수를 보여준다.CMOS 회로의 일반적인 규칙으로, 전압의 제곱이 작동 주파수를 곱한 VF와2 대략적인 관계에서 전력 소산이 상승한다.
IBM 저자들이 제공하는 전력 측정은 정밀도가 부족하지만 전체적인 추세에 대한 좋은 감각을 전달한다.이러한 수치는 표준 상용 구성에 비해 다이 온도가 너무 높기는 하지만 시험소 조건에서 부품이 5GHz 이상으로 작동할 수 있음을 보여준다.상용화된 최초의 Cell 프로세서는 IBM에 의해 3.2GHz의 작동 속도로 평가되었으며, 이 차트는 이 차트가 30도 부근의 편안한 SPU 다이 온도에 대해 시사한다.
단일 SPU는 셀 프로세서의 다이 면적의 6%를 나타낸다.위 표에 제시된 전력 수치는 전체 전력 예산의 일부에 불과하다.
IBM은 전력 소비 개선을 위해 90nm 노드 이하의 미래 기술에 대해 Cell을 구현하겠다는 의사를 공개적으로 밝혔다.전력 소비량이 감소하면 기존 제품의 열 구속조건을 초과하지 않고 기존 설계를 5GHz 이상으로 끌어올릴 수 있다.
65nm의 셀
Cell의 첫 번째 수축은 65 nm 노드에 있었다.65nm로 줄임으로써 90nm 공정 기준의 기존 230mm2 다이(die)를 현재 크기의 절반인 약 120mm로2 줄여 IBM의 제조원가도 크게 절감했다.
2007년 3월 12일, IBM은 이스트 피쉬킬 제조 공장에서 65 nm Cells를 생산하기 시작했다고 발표했다.거기서 생산된 칩은 65nm Cell을 최초로 획득한 IBM 자체 Cell 블레이드 서버만을 위한 것으로 보인다.소니는 2007년 11월 PS3 3세대 모델인 PS2 호환성이 없는 40GB 모델을 선보여 65nm Cell을 사용한 것으로 확인됐다.셀이 쪼그라든 덕분에 전력 소비량은 200W에서 135W로 줄었다.
처음에는 65nm-Cells가 최대 6GHz까지 클럭하며 ISSCC 2007에 설명된 것처럼 1.3V 코어 전압으로 작동한다는 것만 알려져 있었다.이로써 칩은 FP8 쿼터 정밀도에서 384 GFLOPS의 이론적 피크 성능(FP64 이중 정밀도에서 48 GFLOPs)을 얻었고, 이는 90nm 3.2 GHz 셀이 8개의 활성 SPU를 제공할 수 있는 204.8 GFLOPS 피크(25.6 GFLOPS FP64 이중 정밀도)를 크게 개선했을 것이다.IBM은 SRAM 어레이를 위한 새로운 절전 기능과 이중 전원 공급 장치를 구현했다고 발표했다.이 버전은 Double Precision 부동소수 성능을 강화한 장문의 "Cell+"가 아직 아니었으며, 이 성능은 QS22 PowerXCell 블레이드의 형태로 Roadrunner 슈퍼컴퓨터에서는 2008년 중반에 처음으로 빛을 보게 되었다.IBM은 이전에 더 높은 클럭의 셀에 대해 이야기했고 심지어 더 높은 클럭의 셀을 보여주기도 했지만, 클럭 속도는 3.2GHz로 일정하게 유지되었다. 심지어 로드러너의 이중 정밀 활성화 "셀+"에서도 말이다.시계 속도를 일정하게 유지함으로써, IBM은 대신 전력 소비를 줄이기로 선택했다.PowerXCell 클러스터는 기존 CPU로 구성된 클러스터(265 MFLOPS/watt 이하)보다 전력 효율이 훨씬 높은 최고의 IBMs Blue Gene 클러스터(371 MFLOPS/watt)도 자랑한다.
CMOS의 향후 버전
45nm의 잠재 고객
ISSCC 2008에서 IBM은 45nm 노드에서 Cell을 발표했다.IBM은 65 nm의 이전 제품보다 동일한 클럭 속도에서 40% 적은 전력을 요구할 것이며 다이 면적이 34% 줄어들 것이라고 말했다.45nm Cell은 냉각이 덜 필요하며 훨씬 더 작은 히팅크를 사용하여 더 저렴한 생산을 가능하게 한다.양산은 처음에 2008년 말에 시작되었으나 2009년 초로 이전되었다.
45nm 이상의 잠재 고객
소니, IBM, 도시바는 2006년 1월에 32 nm의 작은 셀에 대한 작업을 시작한다고 발표했지만, 팹에서 공정 축소는 보통 개별 칩 스케일이 아닌 전세계에서 일어나기 때문에, 이것은 단지 셀을 32 nm로 가져가려는 공공의 약속에 불과했다.
참조
- ^ 케빈 바커, 케이 데이비스, 아돌피 호이지, 대런 J. 케르비슨, 마이크 랭, 스콧 파킨, 호세 C.산초."페타플롭 시대 진입:Roadrunner의 건축과 공연"