셀(프로세서)

Cell (processor)

Cell은 범용 전원을 결합한 64비트 멀티코어 마이크로프로세서 마이크로아키텍처입니다.멀티미디어벡터 처리 애플리케이션은 물론 다른 많은 형태의 전용 [1]컴퓨팅을 크게 가속화하는 간소화된 공동 처리[1] 요소를 갖춘 적당한 성능의 PC 코어.

Sony, Toshiba, IBM의해 개발되었습니다.건축 설계와 첫 번째 구현은 2001년 3월부터 4년에 걸쳐 텍사스 오스틴에 있는 STI 디자인 센터에서 Sony가 보고한 예산으로 [2] 4억 달러에 달했습니다.Cell은 Cell Broadband Engine Architecture의 약자로, 일반적으로 CBEA 전체 또는 Cell BE 부분으로 줄여서 사용합니다.

셀의 첫 번째 주요 상업적 응용은 2006년에 출시된 소니의 플레이스테이션 3 게임 콘솔에 있었습니다.2008년 5월, Cell 기반 IBM Roadrunner 슈퍼컴퓨터는 최초의 TOP 500 LINPACK 1.0 페타플롭스 [3][4]시스템이 되었습니다.또한 Mercury Computer Systems는 Cell을 기반으로 한 설계를 개발했습니다.

Cell 아키텍처는 전력 효율성을 강조하고, 낮은 지연 시간보다 대역폭을 우선시하며, 프로그램 코드의 단순성보다 최대 계산 처리량선호하는 메모리 일관성 아키텍처를 포함합니다.이러한 이유로 Cell은 소프트웨어 [5]개발에 어려움을 겪고 있는 환경으로 널리 간주되고 있습니다. IBM은 개발자들이 Cell [6]칩을 위한 프로그램을 개발할 수 있도록 Linux 기반의 개발 플랫폼을 제공합니다.

역사

마더보드의 PS3에 나타나는 셀 BE
Cell 마이크로프로세서의 주요 설계자 중 한 명인 Peter Hoffstee

2000년 중반, 소니 컴퓨터 엔터테인먼트, 도시바, IBM은 "STI"라는 이름의 동맹을 결성하여 [7]프로세서를 설계하고 제조했습니다.

STI 디자인 센터는 2001년 [8]3월에 문을 열었습니다.이 Cell은 POWER4 프로세서용 설계 도구의 향상된 버전을 사용하여 4년에 걸쳐 설계되었습니다.세 회사의 400명 이상의 엔지니어들이 오스틴에서 함께 일했으며 IBM의 11개 디자인 [8]센터의 중요한 지원을 받았습니다.이 기간 동안 IBM은 Cell 아키텍처, 제조 프로세스 및 소프트웨어 환경과 관련된 많은 특허를 출원했습니다.광대역 엔진의 초기 특허 버전은 현재 전력 처리 요소(PPE)로 알려진 것에 대한 특허의 설명인 4개의 "처리 요소"로 구성된 칩 패키지인 것으로 나타났습니다.각 처리 요소는 칩에 8개의 "동기 처리 요소"(SPE)를 포함합니다.이 칩 패키지는 4GHz의 클럭 속도로 실행될 예정이었고 32개의 SPE가 각각 32기가 FLOPS(FP8 분기 정밀도)를 제공하므로 광대역 엔진은 이론적으로 1테라 FLOPS의 원시 컴퓨팅 성능을 가질 예정이었습니다.

4개의 PPE와 32개의 SPE를 사용한 설계는 결코 실현되지 않았습니다.대신 소니와 IBM은 하나의 PPE와 8개의 SPE로 디자인을 제작했습니다.이 작은 디자인인 Cell Broadband Engine 또는 Cell/BE는 90nm SOI [9]공정을 사용하여 제작되었습니다.

2007년 3월, IBM은 Cell/BE의 65nm 버전이 뉴욕 [9][10]이스트 피시킬에 있는 자사 공장(당시 글로벌 파운드리)에서 생산 중이라고 발표했으며, Bandai Namco Entertainment는 357 아케이드 보드 및 후속 369에 Cell/BE 프로세서를 사용하고 있습니다.

2008년 2월 IBM은 45nm 공정으로 [11]Cell 프로세서를 제작하기 시작할 것이라고 발표했습니다.

2008년 5월 IBM은 65nm 기능 크기의 고성능 이중 정밀 부동소수점 버전인 PowerXCell 8i[12]선보였습니다.

2008년 5월, Opteron 및 PowerXCell 8i 기반의 슈퍼컴퓨터인 IBM Roadrunner 시스템은 하나의 페타FLOPS를 달성한 세계 최초의 시스템이 되었으며 2009년 3분기까지 세계에서 가장 빠른 컴퓨터였습니다.Green500 목록으로 대표되는 세계에서 가장 에너지 효율적인 3대 슈퍼컴퓨터는 PowerXCell 8i를 기반으로 합니다.

2009년 8월 소니의 플레이스테이션 3 [13]슬림과 함께 45nm Cell 프로세서가 출시되었습니다.

2009년 11월까지 IBM은 32개의[14][15] APU를 갖춘 Cell 프로세서의 개발을 중단했지만 여전히 다른 Cell [16]제품을 개발하고 있었습니다.

상용화

2005년 5월 17일, 소니 컴퓨터 엔터테인먼트는 출시될 플레이스테이션 [17][18][19]3 콘솔에 탑재될 셀 프로세서의 일부 사양을 확인했습니다.이 Cell 구성은 코어에 1개의 PPE가 있고 [19]실리콘에 8개의 물리적 SPE가 있습니다.플레이스테이션 3에서는 테스트 과정 중에 하나의 SPE가 잠겨 제조 수율 향상에 도움이 되고 다른 하나는 OS용으로 예약되어 6개의 무료 SPE를 게임 [20]코드에서 사용할 수 있습니다.도입 시 목표 클럭 주파수는 3.[18]2GHz입니다.소개 디자인은 90nm SOI 공정을 사용하여 제작되었으며,[9] 뉴욕 이스트 피쉬킬에 있는 IBM 공장에서 초기 대량 생산이 예정되어 있습니다.

코어와 스레드 의 관계는 일반적인 혼동의 원인입니다.PPE 코어는 이중 스레드이며 소프트웨어에서 두 개의 독립적인 실행 스레드로 나타나지만 각 활성 SPE는 단일 스레드로 나타납니다.Sony가 설명한 PlayStation 3 구성에서 Cell 프로세서는 9개의 독립적인 실행 스레드를 제공합니다.

2005년 6월 28일 IBM과 Mercury Computer Systems는 의료 영상, 산업 검사, 항공 우주 및 방위, 지진 처리[21]통신같은 임베디드 응용 분야를 위한 Cell 기반 컴퓨터 시스템을 구축하기 위한 파트너십 계약을 발표했습니다.이후 Mercury는 Cell [21]프로세서가 장착된 블레이드, 기존서버PCI Express 가속기 보드를 출시했습니다.

2006년 가을 IBM은 특정 애플리케이션에서 탁월한 성능을 발휘하기 위해 이중 Cell BE 프로세서를 사용하는 QS20 블레이드 모듈을 출시하여 모듈당 FP8 분기 정밀도에서 410 기가 FLOPS의 정점에 도달했습니다.IBM Roadrunner 슈퍼컴퓨터에는 PowerXCell 8i 프로세서를 기반으로 한 QS22가 사용되었습니다.Mercury와 IBM은 8개의 활성 SPE와 함께 완전히 활용되는 Cell 프로세서를 사용합니다.2008년 4월 8일, 픽스스타즈는 PowerXCell 8i [22]프로세서를 기반으로 한 PCI 익스프레스 가속기 보드를 출시했습니다.

소니의 고성능 미디어 컴퓨팅 서버 ZEGO는 3.2GHz Cell/B를 사용합니다.E 프로세서.

개요

Cell Broadband Engine 또는 더 일반적으로 알려진 Cell은 기존 데스크톱 프로세서(예: Athlon 64 및 Core 2 제품군)와 NVIDIAATI 그래픽 프로세서(GPU)와 같은 특수 고성능 프로세서의 하이브리드로 설계된 마이크로프로세서입니다.긴 이름은 현재 및 미래의 온라인 유통 시스템에서 구성 요소로 사용될 예정임을 나타냅니다. 따라서 HDTV 시스템뿐만 아니라 고화질 디스플레이 및 녹화 장비에서도 사용될 수 있습니다.또한 이 프로세서는 디지털 이미징 시스템(의료, 과학) 물리적 시뮬레이션(예: 과학 및 구조 엔지니어링 모델링)에 적합할 수 있습니다.

간단한 분석을 통해 Cell 프로세서는 외부 입력 및 출력 구조, PPE(Power Processing Element)라고 불리는 메인 프로세서(2방향 동시 멀티 스레드 PowerPC 2.02 [23]코어), Synergistic Processing Element(SPE)라고 불리는 8개의 완전히 기능하는 공동 프로세서,그리고 PPE, 입출력 요소 및 SPE를 연결하는 특수한 고대역폭 원형 데이터 버스인 EIB(Element Interconnect Bus)라고 합니다.

MPEG 스트림 디코딩/인코딩, 3차원 데이터 생성 또는 변환, 데이터 푸리에 분석 등 수학적으로 집약적인 작업에 필요한 고성능을 달성하기 위해 Cell 프로세서는 EIB를 통해 SPE와 PPE를 결합하여 완전 캐시 일관성 있는 DMA(직접 메모리 액세스)를 통해 액세스를 제공합니다.메인 메모리 및 기타 외부 데이터 스토리지 모두에 저장됩니다.EIB를 최대한 활용하고 계산과 데이터 전송을 중첩하기 위해 9개의 처리 요소(PPE 및 SPE) 각각에 DMA 엔진이 장착되어 있습니다.SPE의 로드/스토어 명령은 자체 로컬 스크래치 패드 메모리에만 액세스할 수 있으므로, 각 SPE는 DMA에 전적으로 의존하여 메인 메모리와 다른 SPE의 로컬 메모리 간에 데이터를 전송합니다.DMA 작업은 최대 16KB 크기의 단일 블록 영역 또는 2~2048개의 블록 목록을 전송할 수 있습니다.Cell 아키텍처의 주요 설계 결정 사항 중 하나는 [24]칩 내부의 데이터 처리에서 최대의 비동기성과 동시성을 가능하게 하기 위한 칩 내부 데이터 전송의 중앙 수단으로 DMA를 사용하는 것입니다.

기존 운영 체제를 실행할 수 있는 PPE는 SPE를 제어하고 SPE에서 실행 중인 프로세스를 시작, 중지, 중단 및 예약할 수 있습니다.이를 위해 PPE에는 SPE 제어와 관련된 추가 지침이 있습니다.SPE와 달리 PPE는 표준 로드/저장 명령을 통해 SPE의 기본 메모리와 로컬 메모리를 읽고 쓸 수 있습니다.튜링 완전한 아키텍처를 가지고 있음에도 불구하고, SPE는 완전히 자율적이지 않으며 PPE가 유용한 작업을 수행하기 전에 이를 프라이밍하도록 요구합니다.시스템의 "마력"은 대부분 시너지 처리 요소에서 나오기 때문에, 데이터 전송 방법으로 DMA를 사용하는 것과 각 SPE의 제한된 로컬 메모리 공간은 이러한 마력을 최대한 활용하고자 하는 소프트웨어 개발자들에게 큰 도전 과제가 됩니다.이 CPU에서 최대 성능을 추출하기 위해 프로그램을 신중하게 손으로 조정해야 합니다.

PPE 및 버스 아키텍처에는 다양한 수준의 메모리 보호를 제공하는 다양한 작동 모드가 포함되어 있어 SPE 또는 PPE에서 실행되는 특정 프로세스에 의한 액세스로부터 메모리 영역을 보호할 수 있습니다.

PPE와 SPE는 모두 고정 너비의 32비트 명령 형식을 가진 RISC 아키텍처입니다.PPE에는 64비트 GPR(General Purpose Register Set), 64비트 FPR(Floating Point Register Set) 및 128비트 Altivec 레지스터 세트가 포함되어 있습니다.SPE에는 128비트 레지스터만 포함되어 있습니다.크기가 8비트에서 64비트에 이르는 스칼라 데이터 유형이나 다양한 정수 및 부동 소수점 형식의 SIMD 계산에 사용할 수 있습니다.PPE 및 SPE의 시스템 메모리 주소는 이론적 주소 범위가64 2바이트(16엑사바이트 또는 16,777,216테라바이트)인 경우 64비트 값으로 표시됩니다.실제로 이러한 모든 비트가 하드웨어에서 구현되는 것은 아닙니다.SPU(Synergistic Processor Unit) 프로세서 내부의 로컬 저장소 주소는 32비트 워드로 표시됩니다.Cell 관련 설명서에서 단어는 항상 32비트, 이중 단어는 64비트, 쿼드 워드는 128비트를 의미합니다.

PowerXCell 8i

2008년에 IBM은 IBM의 QS22 블레이드 서버에서 사용할 수 있는 PowerXCell [25]8i라고 불리는 수정된 Cell 변형을 발표했습니다.PowerXCell은 65nm 공정에서 제조되며 슬롯 DDR2 메모리를 최대 32GB까지 지원할 수 있을 뿐만 아니라 SPE의 이중 정밀 부동 소수점 성능을 최대 12.8GB에서 총 8개의 SPE에 대한 총 102.4GB로 크게 향상시킵니다.는 거의 비슷한 시기에 출시된 NEC SX-9 벡터 프로세서와 동일한 최고 성능을 제공합니다.2008-2009년 세계에서 가장 빠른 IBM Roadrunner 슈퍼컴퓨터는 12,240개의 PowerXCell 8i 프로세서와 6,562개의 AMD Opteron [26]프로세서로 구성되었습니다.또한 PowerXCell 8i 전원 슈퍼컴퓨터는 [27]세계에서 가장 높은 MFLOPS/와트 비율을 자랑하는 슈퍼컴퓨터로 Green500 목록의 "가장 친환경적인" 상위 6개 시스템을 모두 차지했습니다.QS22와 슈퍼컴퓨터 외에도 PowerXCell 프로세서는 PCI Express 카드의 가속기로도 사용할 수 있으며 QPACE 프로젝트의 핵심 프로세서로 사용됩니다.

PowerXCell 8i는 RAMBUS 메모리 인터페이스를 제거하고 훨씬 더 큰 DDR2 인터페이스와 향상된 SPE를 추가했기 때문에 칩 레이아웃을 재작업해야 했고, 이로 인해 칩 다이와 [28]패키징이 모두 커졌습니다.

건축

Schema Cell.png

셀 칩은 여러 가지 구성을 가질 수 있지만 기본 구성은 하나의 "파워 프로세서 요소"("PPE")("처리 요소" 또는 "PE"라고도 함)와 여러 개의 "동기식 처리 요소"("SPE")[29]로 구성된 멀티 코어 칩입니다.PPE와 SPE는 "Element Interconnect Bus"("EIB")라는 내부 고속 버스를 통해 함께 연결됩니다.

전력 프로세서 요소(PPE)

PPE (Cell).png

PPE[30][31][32] 대부분의 계산 워크로드를 처리하는 8개의 SPE의 컨트롤러 역할을 하는 23단계 파이프라인을 갖춘 PowerPC 기반의 이중 문제 동시 멀티스레드 CPU 코어입니다. PPE는 순서가 맞지 않는 실행 기능이 제한되어 있으며 로드를 순서에 따라 수행할 수 있으며 실행 파이프라인이 지연됩니다.PPE는 다른 64비트 PowerPC 프로세서와 유사하기 때문에 기존 운영 체제와 함께 작동하는 반면, SPE는 벡터화된 부동 소수점 코드 실행을 위해 설계되었습니다.PPE에는 32KiB 레벨 1 명령 캐시, 32KiB 레벨 1 데이터 캐시 및 512KiB 레벨 2 캐시가 포함되어 있습니다.캐시 라인의 크기는 모든 [25]: 136–137, 141 캐시에서 128바이트입니다.또한 IBM은 단일 정밀 부동 소수점(Altivec 1은 이중 정밀 부동 소수점 벡터를 지원하지 않음)을 위해 완전히 파이프라인화된 AltiVec(VMX) 장치[33], 스레드당 64비트 레지스터 파일이 있는 32비트 FXU(Load and Store Unit, LSU), 64비트 부동 소수점 단위(FPU),분기 단위(BRU) 및 분기 실행 단위(BXU).[30]PPE는 세 개의 주요 장치로 구성됩니다.명령 단위(IU), 실행 단위(XU) 및 벡터/스칼라 실행 단위(VSU).IU에는 L1 명령 캐시, 분기 예측 하드웨어, 명령 버퍼 및 종속성 확인 로직이 포함되어 있습니다.XU에는 정수 실행 단위(FXU)와 로드 저장소 단위(LSU)가 포함되어 있습니다.VSU에는 FPU 및 VMX에 대한 모든 실행 리소스가 포함되어 있습니다.각 PPE는 3.2GHz에서 6.4GB FLOPS로 변환되는 스칼라 퓨전 다중 추가 명령을 사용하여 클럭 주기당 두 번의 이중 정밀 작업을 완료하거나 3.[34]2GHz에서 25.6GB FLOPS로 변환되는 벡터 퓨전 다중 추가 명령을 사용하여 클럭 주기당 여덟 번의 단일 정밀 작업을 완료할 수 있습니다.

Xbox 360의 제논

PPE는 Cell 프로세서를 위해 특별히 설계되었지만 개발 에 Microsoft는 Xbox 360용 고성능 프로세서 코어를 원하는 IBM에 접근했습니다. IBM은 VMX128 [35][36]확장이 추가된 PPE의 약간 수정된 버전을 기반으로 삼코어 제논 프로세서를 만들었습니다.

시너지 처리 요소(SPE)

SPE (cell).png

각 SPE는 "동기 처리 장치",[37] SPU 및 "메모리 흐름 컨트롤러", MFC(DMA, MMU버스 인터페이스)로 구성된 순서 프로세서의 이중 문제입니다.SPE에는 분기 예측 하드웨어가 없습니다(따라서 [38]컴파일러의 부담이 큽니다).각 SPE에는 홀수 및 짝수 파이프라인으로 구분된 6개의 실행 장치가 있습니다. SPU는 단일 및 이중 정밀 명령을 위한 128비트 SIMD 조직으로[33][1][39] 특수 개발된 명령 집합(ISA)을 실행합니다.현재 세대의 Cell에서는 각 SPE에 "로컬 스토리지"(VRAM을 참조하는 Sony의 문서에서 "로컬 메모리"로 잘못 인식되지 않음)라는 명령 및 데이터를 위한 256KiB 내장 SRAM이 포함되어 있으며 이는 PPE에 표시되고 소프트웨어에 의해 직접 처리될 수 있습니다.각 SPE는 최대 4Gb의 로컬 저장소 메모리를 지원할 수 있습니다.로컬 저장소는 소프트웨어에 투명하지도 않고 로드할 데이터를 예측하는 하드웨어 구조를 포함하지도 않기 때문에 기존 CPU 캐시처럼 작동하지 않습니다.SPE에는 128비트 128엔트리 레지스터 파일이 포함되어 있으며 90nm 프로세스에서 14.5mm2 크기입니다.SPE는 16개의 8비트 정수, 8개의 16비트 정수, 4개의 32비트 정수 또는 4개의 단일 정밀 부동 소수점 수와 메모리 연산을 동시에 수행할 수 있습니다.SPU는 시스템 메모리에 직접 액세스할 수 없습니다. 시스템 주소 공간 내에서 DMA 작업을 설정하려면 SPU에서 SPE 메모리 흐름 컨트롤러(MFC)로 SPU에 의해 형성된 64비트 가상 메모리 주소를 전달해야 합니다.

하나의 일반적인 사용 시나리오에서 시스템은 SPE에 작은 프로그램(스레드와 유사함)을 로드하여 SPE를 체인으로 묶어 복잡한 작업의 각 단계를 처리합니다.예를 들어 셋톱 박스는 DVD, 비디오 및 오디오 디코딩, 디스플레이를 읽기 위한 프로그램을 로드할 수 있으며 데이터는 SPE에서 SPE로 전송되어 최종적으로 TV에 표시됩니다.또 다른 방법은 입력 데이터 세트를 분할하고 여러 SPE가 동일한 종류의 작업을 병렬로 수행하도록 하는 것입니다.3.2GHz에서 각 SPE는 이론적으로 25.6GB의 단일 정밀도 성능을 제공합니다.

동시대의 개인용 컴퓨터와 비교할 때, Cell 프로세서의 전반적인 높은 부동소수점 성능은 Pentium 4 및 Athlon 64와 같은 CPU에서 SIMD 장치의 기능을 약화시키는 것처럼 보입니다.그러나 시스템의 부동 소수점 기능만 비교하는 것은 1차원 및 응용 프로그램별 메트릭입니다.Cell 프로세서와 달리 이러한 데스크톱 CPU는 일반적으로 개인용 컴퓨터에서 실행되는 범용 소프트웨어에 더 적합합니다.클럭당 여러 명령을 실행하는 것 외에도 Intel 및 AMD의 프로세서에는 분기 예측 변수가 있습니다.Cell은 분기 준비 명령이 생성되는 컴파일러 지원을 통해 이를 보완하도록 설계되었습니다.개인용 컴퓨터에서 사용되고 과학 컴퓨팅에서 종종 사용되는 이중 정밀 부동 소수점 연산의 경우 셀 성능은 몇 배로 떨어지지만 여전히 20.8 GFLOPS(SPE당 1.8 GFLOPS, PPE당 6.4 GFLOPS)에 도달합니다.이중 정밀도를 위해 특별히 설계된 PowerXCell 8i 변종은 이중 정밀도 [40]계산에서 102.4 GBLOPS에 도달합니다.

IBM의 테스트에 따르면 SPE는 최적화된 병렬 매트릭스 [34]곱셈을 실행하는 이론적 피크 성능의 98%에 도달할 수 있습니다.

도시바는 4개의 SPE로 구동되는 보조 프로세서를 개발했지만, 소비자 가전 제품의 3D 및 영화 효과를 가속화하기 위해 설계된 Spurs Engine이라고 불리는 PPE는 개발하지 않았습니다.

각 SPE에는 256KB의 [41]로컬 메모리가 있습니다.SPE에는 총 2MB의 로컬 메모리가 있습니다.

요소 상호 연결 버스(EIB)

EIB는 다양한 온칩 시스템 요소(PPE 프로세서, 메모리 컨트롤러(MIC), 8개의 SPE 보조 프로세서 및 2개의 오프칩 I/O 인터페이스)를 연결하는 Cell 프로세서 내부의 통신 버스로, 총 12명의 PS3 참가자를 위해 제공됩니다(SPU의 수는 산업적 용도에 따라 달라질 수 있음).EIB에는 신호등의 집합으로 기능하는 중재 장치도 포함되어 있습니다.일부 문서에서 IBM은 EIB 참가자를 '단위'라고 부릅니다.

EIB는 현재 쌍으로 역회전하는 16바이트 폭의 단방향 채널 4개로 구성된 원형 링으로 구현되어 있습니다.트래픽 패턴이 허용되는 경우 각 채널은 최대 3개의 트랜잭션을 동시에 전달할 수 있습니다.EIB는 시스템 클럭 속도의 절반으로 실행되므로 유효 채널 속도는 시스템 클럭 2개당 16바이트입니다.4개의 링 각각에 대해 3개의 활성 트랜잭션이 있는 최대 동시성에서 최대 순간 EIB 대역폭은 클럭당 96바이트입니다(동시 트랜잭션 12개 × 너비 16바이트 / 전송당 시스템 클럭 2개).이 수치는 IBM 문헌에 자주 인용되지만 프로세서 클럭 속도를 기준으로 이 수치를 단순히 확장하는 것은 비현실적입니다.중재 장치는 추가 제약 조건을 부과합니다.

EIB 수석 설계자인 IBM 수석 엔지니어 David Krolak은 동시성 모델에 대해 설명합니다.

링은 3주기마다 새 작동을 시작할 수 있습니다.각 전송은 항상 8비트가 필요합니다.이는 우리가 만든 단순화 중 하나로, 많은 데이터를 스트리밍하도록 최적화되어 있습니다.소규모 작업을 수행하면 작동하지 않습니다.8량 편성의 열차가 이 선로 주변을 운행한다고 생각하면, 열차가 서로 부딪치지 않는 한,[42] 선로 위에 공존할 수 있습니다.

EIB의 각 참가자는 하나의 16바이트 읽기 포트와 하나의 16바이트 쓰기 포트를 가집니다.단일 참가자의 제한은 EIB 클럭당 16바이트의 속도로 읽고 쓰는 것입니다(단순히 시스템 클럭당 8바이트로 간주됨).각 SPU 프로세서에는 SPU의 지속적인 계산을 방해하지 않고 다양한 엔드포인트로 긴 트랜잭션 시퀀스를 스케줄링할 수 있는 전용 DMA 관리 대기열이 포함되어 있습니다. 이러한 DMA 대기열은 로컬 또는 원격으로 관리할 수도 있으므로 제어 모델에 추가적인 유연성을 제공합니다.

데이터는 링 주위의 EIB 채널에서 단계적으로 흐릅니다.참가자가 12명이므로 채널을 원점으로 돌아가는 총 단계 수는 12개입니다.6단계는 참가자 쌍 사이의 가장 긴 거리입니다.EIB 채널은 6단계 이상이 필요한 데이터를 전송할 수 없습니다. 이러한 데이터는 원 주위의 다른 방향으로 더 짧은 경로를 사용해야 합니다.패킷 전송과 관련된 단계 수는 전송 대기 시간에 거의 영향을 미치지 않습니다. 단계를 구동하는 클럭 속도는 다른 고려 사항에 비해 매우 빠릅니다.그러나 통신 거리가 길면 사용 가능한 동시성이 감소하기 때문에 EIB의 전반적인 성능이 저하됩니다.

EIB를 보다 강력한 크로스바로 구현하고자 하는 IBM의 당초 바람에도 불구하고, 리소스를 확보하기 위해 채택한 순환 구성은 Cell 칩 전체의 성능에 제한 요소를 거의 나타내지 않습니다.최악의 경우 프로그래머는 EIB가 높은 동시성 수준에서 작동할 수 있는 통신 패턴을 예약하도록 각별히 주의해야 합니다.

David Krolak은 다음과 같이 설명했습니다.

글쎄요, 개발 과정 초기에, 몇몇 사람들이 크로스바 스위치를 요구했습니다. 버스가 설계된 방식으로, 여러분이 칩에 더 많은 실리콘 공간을 배선에 할애할 의향이 있다면, 실제로 EIB를 뽑아 크로스바 스위치를 넣을 수 있습니다.우리는 연결성과 면적 사이의 균형을 찾아야 했고, 완전한 크로스바 스위치를 넣을 공간이 충분하지 않았습니다.그래서 우리는 매우 흥미로운 고리 구조를 생각해냈습니다.영역 제약 조건에 적합하며 여전히 매우 인상적인 [42]대역폭을 가지고 있습니다.

대역폭 평가

3.2GHz에서 각 채널은 25.6GB/s의 속도로 흐릅니다.EIB가 연결된 시스템 요소와 분리된 상태에서 EIB를 보면 이 흐름 속도로 12개의 동시 트랜잭션을 달성하면 추상적인 EIB 대역폭이 307.2GB/s가 됩니다.이러한 관점을 바탕으로 많은 IBM 출판물은 사용 가능한 EIB 대역폭을 "300GB/s 이상"으로 설명합니다.이 숫자는 프로세서 [43]주파수에 따라 조정된 최대 순간 EIB 대역폭을 나타냅니다.

그러나 버스에 수용된 패킷에 대한 중재 메커니즘에는 다른 기술적 제한이 있습니다.IBM Systems Performance 그룹은 다음과 같이 설명했습니다.

EIB의 각 장치는 버스 주기마다 16바이트의 데이터를 동시에 보내고 받을 수 있습니다.전체 EIB의 최대 데이터 대역폭은 시스템의 모든 장치에서 주소가 스누핑되는 최대 속도(버스 사이클당 1개)에 의해 제한됩니다.스누핑된 각 주소 요청은 최대 128바이트까지 전송할 수 있으므로 3.2GHz에서 EIB의 이론적 최대 데이터 대역폭은 128Bx1.6GHz = 204.8GB/[34]s입니다.

이 인용문은 IBM이 이 메커니즘과 그 영향에 대해 공개한 전체 범위를 나타냅니다.EIB 중재 장치, 스누핑 메커니즘 및 세그먼트 또는 페이지 변환 결함의 인터럽트 생성에 대해서는 IBM이 [citation needed]아직 공개하지 않은 문서 세트에 잘 설명되어 있지 않습니다.

실제로, 효과적인 EIB 대역폭은 관련된 링 참가자에 의해 제한될 수 있습니다.9개의 프로세싱 코어 각각이 25.6GB/s의 읽기 및 쓰기를 동시에 유지할 수 있지만, 메모리 인터페이스 컨트롤러(MIC)는 한 쌍의 XDR 메모리 채널에 연결되어 읽기 및 쓰기를 결합할 때 최대 25.6GB/s의 흐름을 허용하며, 두 IO 컨트롤러는 최대 결합 입력 속도인 25를 지원하는 것으로 문서화되어 있습니다.6GB/s 및 35GB/s의 최대 결합 출력 속도

이러한 혼란을 더욱 가중시키기 위해 일부 오래된 출판물에서는 4GHz 시스템 클럭을 가정한 EIB 대역폭을 언급하고 있습니다.이 참조 프레임은 즉각적인 EIB 대역폭 수치가 384GB/s이고 중재 제한 대역폭 수치가 256GB/s입니다.

가장 자주 인용되는 이론적 204.8GB/s 수치로 간주되는 모든 것은 기억해야 할 가장 좋은 것입니다.IBM Systems Performance 그룹은 3.2GHz로 실행되는 Cell 프로세서에서 197GB/s를 달성하는 SPU 중심의 데이터 흐름을 보여주었기 때문에 이 수치는 실제에도 [34]공정하게 반영된 수치입니다.

메모리 및 I/O 컨트롤러

셀에는 Rambus XDR 메모리와 인터페이스하는 듀얼 채널 Rambus XIO 매크로가 포함되어 있습니다.MIC(Memory Interface Controller)는 XIO 매크로와 별개로 IBM이 설계했습니다.XIO-XDR 링크는 핀당 3.2Gbit/s로 실행됩니다.두 개의 32비트 채널은 이론적으로 최대 25.6GB/s를 제공할 수 있습니다.

I/O 인터페이스는 Rambus 설계라고도 하며 FlexIO라고 합니다.플렉스IO 인터페이스는 12개의 레인으로 구성되어 있으며, 각 레인은 단방향 8비트 폭의 포인트 투 포인트 경로입니다.5개의 8비트 폭 포인트 투 포인트 경로는 Cell로 가는 인바운드 레인이고 나머지 7개는 아웃바운드 레인입니다.이는 이론적으로 2.6GHz에서 62.4GB/s(36.4GB/s 아웃바운드, 26GB/s 인바운드)의 최대 대역폭을 제공합니다.플렉스IO 인터페이스는 3.2GHz에서 독립적으로 클럭을 설정할 수 있습니다. 4개의 인바운드 + 4개의 아웃바운드 레인이 메모리 일관성을 지원합니다.

가능한 응용 프로그램

비디오 처리 카드

Leadtek와 같은 일부 회사는 H.264,[44] MPEG-2MPEG-4 비디오의 "실시간보다 빠른" 트랜스코딩을 허용하기 위해 Cell 기반 PCI-E 카드를 출시했습니다.

블레이드 서버

2007년 8월 29일 IBM은 BladeCenter QS21을 발표했습니다. 측정된 와트당 1.05기가 부동 소수점 연산(gigaFLOPS)을 생성하고 약 460GBLOPS의 최고 성능을 자랑하는 이 플랫폼은 현재까지 가장 전력 효율적인 컴퓨팅 플랫폼 중 하나입니다.단일 BladeCenter 섀시는 표준 42U [45]랙에서 초당 6.4 테라 부동 소수점 작업(테라FLOPS)과 25.8 테라 FLOPS 이상을 달성할 수 있습니다.

2008년 5월 13일 IBM은 BladeCenter QS22를 발표했습니다.QS22는 QS21보다 5배 더 정밀한 부동 소수점 성능과 블레이드에 최대 [46]32GB의 DDR2 메모리 용량을 갖춘 PowerXCell 8i 프로세서를 소개합니다.

IBM은 2012년 [47]1월 12일부터 Cell 프로세서를 기반으로 하는 Blade 서버 제품군을 중단했습니다.

PCI 익스프레스 보드

여러 회사에서 IBM PowerXCell 8i를 사용하는 PCI-e 보드를 제공합니다.성능은 2.[48][49]8GHz에서 179.2G Flops(SP), 89.6G Flops(DP)로 보고되었습니다.

콘솔 비디오 게임

Sony의 PlayStation 3 비디오 게임 콘솔은 3.2GHz로 기록되고 8개의 작동 SPE 7개를 포함하는 Cell 프로세서의 첫 번째 프로덕션 애플리케이션으로, Sony가 프로세서 제조의 수율을 높일 수 있도록 했습니다.7개의 SPE 중 6개만 개발자가 액세스할 수 있습니다.[20] 하나는 OS에 예약되어 있기 때문입니다.

홈 시네마

Cell Broadband Engine에 기반한 Toshiba Cell Regza 셋톱 박스의 B-CAS 카드.

도시바는 셀을 사용하여 HDTV를 생산해 왔습니다.그들은 1920×1080 [50][51]화면에서 48개의 표준 정의 MPEG-2 스트림을 동시에 디코딩하는 시스템을 제시했습니다.이를 통해 시청자는 화면에 동시에 표시되는 수십 개의 축소판 그림 비디오를 기반으로 채널을 선택할 수 있습니다.

슈퍼컴퓨팅

IBM의 슈퍼컴퓨터인 IBM Roadrunner는 범용 x86-64 Opteron과 Cell 프로세서의 하이브리드였습니다.이 시스템은 표준 LINPACK 벤치마크를 사용하여 지속적으로 1.026 페타FLOPS 속도를 얻음으로써 페타FLOPS 속도로 실행되는 최초의 슈퍼컴퓨터로서 2008년 6월 상위 500위 목록의 #1 자리를 차지했습니다. IBM Roadrunner는 Cell 프로세서의 PowerXCell 8i 버전을 사용했습니다.65nm 기술과 128비트 레지스터의 이중 정밀도 계산을 처리할 수 있는 향상된 SPU를 사용하여 제조되어 [52][53]칩당 이중 정밀도 102GBLOP에 도달합니다.

클러스터 컴퓨팅

PlayStation 3 콘솔 클러스터는 Cell 블레이드 기반의 고급 시스템에 대한 매력적인 대안입니다.Tennessee 대학 컴퓨터 과학부의 Jack Dongara가 이끄는 그룹 Innovative Computing Laboratory는 이러한 응용 프로그램을 [54]심층적으로 조사했습니다.Terasoft Solutions는 Yellow Dog Linux가 사전 설치된 8노드 및 32노드 PS3 클러스터를 판매하고 있으며, 이는 Dongara의 연구 결과입니다.

2007년 [55]10월 17일 와이어드가 처음 보고한 바와 같이, 클러스터 구성에서 플레이스테이션 3을 사용하는 흥미로운 응용 프로그램은 매사추세츠 다트머스 대학교 물리학과의 천체 물리학자 가우라프 칸나에 의해 구현되었으며, 그는 슈퍼컴퓨터에서 사용되는 시간을 8개의 플레이스테이션 3 클러스터로 대체했습니다.그 후, 현재 플레이스테이션 3 중력 그리드라고 불리는 이 기계의 차세대는 16개의 기계 네트워크를 사용하고 섭동 이론을 사용하여 이진 블랙홀 병합이라는 의도된 응용 프로그램을 위해 셀 프로세서를 활용합니다.특히, 이 성단은 더 작은 소형 물체를 포착하는 거대 초거대 블랙홀의 천체물리학적 시뮬레이션을 수행하고 관련 과학 연구 [56]문헌에 여러 번 발표된 수치 데이터를 생성했습니다.플레이스테이션 3에서 사용하는 셀 프로세서 버전은 메인 CPU와 사용자가 사용할 수 있는 6개의 SPE를 가지고 있으며, 그래비티 그리드 기계는 16개의 범용 프로세서와 96개의 벡터 프로세서로 구성되어 있습니다.이 기계는 구축하는 데 1회 비용이 9,000달러이며, 그렇지 않으면 기존 슈퍼컴퓨터에서 실행당 6,000달러가 드는 블랙홀 시뮬레이션에 적합합니다.블랙홀 계산은 메모리 집약적이지 않고 지역화 가능성이 높기 때문에 이 아키텍처에 적합합니다.Khanna는 시뮬레이션을 통해 클러스터의 성능이 100개 이상의 Intel Xeon 코어 기반 기존 Linux 클러스터의 성능을 능가한다고 주장합니다.PS3 Gravity Grid는 2007년,[57] 2008년,[58][59] 2009년,[60][61][62][63][64] 2010년에 걸쳐 언론의 주목을 받았습니다.

바르셀로나 Pompeu Fabra에 있는 University의 컴퓨팅 생화학 및 생물물리학 연구소는 2007년에 CellMD 소프트웨어를 기반으로 협업 컴퓨팅을 위해 PS3GRID라는[65] BOINC 시스템을 구축했습니다. 이 시스템은 Cell 프로세서를 위해 특별히 설계된 첫 번째 시스템입니다.

미국 공군 연구소고해상도 위성 이미지를 분석하기 위해 "콘도르 클러스터"라는 별명을 가진 1700대 이상의 유닛으로 구성된 플레이스테이션 3 클러스터를 배치했습니다.공군은 콘도르 클러스터가 용량 [66]면에서 세계에서 33번째로 큰 슈퍼컴퓨터가 될 것이라고 주장합니다.연구소는 슈퍼컴퓨터를 대학들이 [67]연구를 위해 사용할 수 있도록 개방했습니다.

분산 컴퓨팅

50만 개가 넘는 PlayStation 3 콘솔의 컴퓨팅 성능 덕분에 분산 컴퓨팅 프로젝트 Folding@home은 세계에서 가장 강력한 분산 네트워크로 기네스북의해 인정받았습니다.첫 번째 기록은 2007년 9월 16일에 달성되었는데, 프로젝트가 이전에는 분산 컴퓨팅 네트워크에서 달성한 적이 없었던 1페타플롭스를 능가했기 때문입니다.또한, 2007년 9월 23일에 PS3 단독으로 페타FLOPS 마크에 도달할 수 있었습니다.이에 비해 당시 세계에서 두 번째로 강력한 슈퍼컴퓨터였던 IBM의 Blue Gene/L은 약 478.2 테라FLOPS로 성능을 발휘했습니다. 이는 Folding@home의 컴퓨팅 성능이 Blue Gene/L의 CPU 인터커넥트가 Folding@home의 평균 네트워크 속도보다 100만 배 이상 빠르다는 것을 의미합니다.2011년 5월 7일 기준으로 Folding@home은 약 9.3 x86 페타FLOPS로 실행되며, 26,000개의 활성 PS3에서만 1.6 페타FLOPS가 생성됩니다.

메인프레임

IBM은 2007년 4월 25일 셀 광대역 엔진 아키텍처 마이크로프로세서를 회사의 System z 계열 [68]메인프레임에 통합하기 시작할 것이라고 발표했습니다.이것이 게임 프레임으로 이어졌습니다.

암호 크래킹

프로세서의 아키텍처는 기존 [69]프로세서보다 하드웨어 지원 암호화 브루트 포스 공격 애플리케이션에 더 적합합니다.

소프트웨어 공학

Cell의 유연한 특성 때문에 리소스 활용에는 여러 컴퓨팅 패러다임에 [70]국한되지 않고 다음과 같은 여러 가지 가능성이 있습니다.

작업 대기열

PPE는 작업 대기열을 유지 관리하고 SPE에서 작업을 예약하며 진행률을 모니터링합니다.각 SPE는 작업을 가져와 실행하고 PPE와 동기화하는 역할을 하는 "미니 커널"을 실행합니다.

SPE의 셀프 멀티태스킹

미니 커널 및 스케줄링은 SPE에 분산됩니다.작업은 기존 운영 체제에서와 같이 뮤텍스 또는 세마포를 사용하여 동기화됩니다.실행 준비 작업은 SPE가 실행할 때까지 대기열에서 대기합니다.SPE는 이 구성의 모든 작업에 공유 메모리를 사용합니다.

스트림 처리

각 SPE는 고유한 프로그램을 실행합니다.데이터는 입력 스트림에서 전송되어 SPE로 전송됩니다.SPE가 처리를 종료하면 출력 데이터가 출력 스트림으로 전송됩니다.

를 통해 스트림 처리를 위한 유연하고 강력한 아키텍처를 제공하고 각 SPE에 대해 개별적으로 명시적인 스케줄링을 수행할 수 있습니다.다른 프로세서도 스트리밍 작업을 수행할 수 있지만 로드된 커널에 의해 제한됩니다.

오픈 소스 소프트웨어 개발

2005년, 리눅스 커널에서 셀 지원을 가능하게 하는 패치가 IBM [71]개발자들에 의해 포함되도록 제출되었습니다.또한 Arnd Bergmann(앞에서 언급한 패치의 개발자 중 한 명)은 LinuxTag [72]2005에서 Linux 기반 Cell 아키텍처를 설명했습니다.릴리스 2.6.16(2006년 3월 20일) 이후 리눅스 커널은 공식적으로 Cell [73]프로세서를 지원합니다.

PPE와 SPE는 모두 라이브러리에서 제공하는 공통 API를 사용하여 C/C++로 프로그래밍할 수 있습니다.

Fixstars Solutions는 PlayStation [74]3 뿐만 아니라 IBM 및 Mercury Cell 기반 시스템용 Yellow Dog Linux를 제공합니다.Terra Soft는 전략적으로 Mercury와 협력하여 Linux Board Support Package for Cell을 제공하고 IBM BladeCenter JS21 및 Cell QS20 및 Mercury Cell 기반 [75]솔루션을 포함한 다양한 다른 Cell 플랫폼에서 소프트웨어 애플리케이션을 지원 및 개발했습니다.또한 Terra Soft는 Y-HPC(High Performance Computing) Cluster Construction and Management Suite 및 Y-Bio 유전자 시퀀싱 도구를 유지 관리하고 있습니다.Y-Bio는 패키지 관리를 위한 RPM Linux 표준을 기반으로 구축되었으며 생물정보학 연구자들이 보다 [76]효율적으로 작업을 수행할 수 있도록 지원하는 도구를 제공합니다. IBM은 SPE 리소스에 대한 액세스와 사용을 단순화하는 Linux의 "Spufs"를 위한 유사 파일 시스템을 개발했습니다.IBM은 현재 Linux 커널 및 GDB 포트를 유지 관리하고 있으며, Sony는 GNU 도구 체인(GCC, binutils)[77]을 유지 관리하고 있습니다.

2005년 11월 IBM은 시뮬레이터와 다양한 도구로 구성된 "Cell Broadband Engine(CBE) Software Development Kit Version 1.0"을 자사 웹 사이트에 출시했습니다.Fedora Core 4용 최신 커널 및 도구의 개발 버전은 Barcelona Supercomputing Center [78]웹 사이트에서 관리됩니다.

2007년 8월, Mercury Computer Systems는 고성능 [79]컴퓨팅을 위한 PlayStation 3용 소프트웨어 개발 키트를 출시했습니다.

2007년 11월 Fixstars Corporation은 Cell을 위한 몇 가지 중요한 OpenCV API를 가속화하는 것을 목표로 새로운 "CVCell" 모듈을 출시했습니다.일련의 소프트웨어 계산 테스트에서 2.4GHz Intel Core 2 [80]Duo의 동일한 소프트웨어에 비해 6배에서 27배 빠른 3.2GHz Cell 프로세서의 실행 시간을 기록했습니다.

갤러리

다양한 세대의 Cell/B 그림E. 프로세서 및 PowerXCell 8i.영상이 확대/축소되지 않습니다. All Cell/B.E. 패키지는 42.5x42.5mm이고 PowerXCell 8i는 47.5x47.5mm입니다.

참고 항목

레퍼런스

  1. ^ a b c Gschwind, Michael; Hofstee, H. Peter; Flachs, Brian; Hopkins, Martin; Watanabe, Yukio; Yamazaki, Takeshi (March–April 2006). "Synergistic Processing in Cell's Multicore Architecture" (PDF). IEEE Micro. IEEE. 26 (2): 10–24. doi:10.1109/MM.2006.41. S2CID 17834015.
  2. ^ "Cell Designer talks about PS3 and IBM Cell Processors". Archived from the original on August 21, 2006. Retrieved March 22, 2007.
  3. ^ Gaudin, Sharon (June 9, 2008). "IBM's Roadrunner smashes 4-minute mile of supercomputing". Computerworld. Archived from the original on December 24, 2008. Retrieved June 10, 2008.
  4. ^ Fildes, Jonathan (June 9, 2008). "Supercomputer sets petaflop pace". BBC News. Retrieved June 9, 2008.
  5. ^ Shankland, Stephen (February 22, 2006). "Octopiler seeks to arm Cell programmers". CNET. Retrieved March 22, 2007.
  6. ^ "Cell Broadband Engine Software Development Kit Version 1.0". LWN. November 10, 2005. Retrieved March 22, 2007.
  7. ^ Krewell, Kevin (2005년 2월 14일)."셀이 세상의 주목을 받고 있습니다."마이크로프로세서 보고서.
  8. ^ a b "Introduction to the Cell multiprocessor". IBM Journal of Research and Development. August 7, 2005. Archived from the original on February 28, 2007. Retrieved March 22, 2007.
  9. ^ a b c "IBM Produces Cell Processor Using New Fabrication Technology". X-bit labs. Archived from the original on March 15, 2007. Retrieved March 12, 2007.
  10. ^ "65nm CELL processor production started". PlayStation Universe. January 30, 2007. Archived from the original on February 2, 2007. Retrieved May 18, 2007.
  11. ^ Stokes, Jon (February 7, 2008). "IBM shrinks Cell to 45nm. Cheaper PS3s will follow". Arstechnica.com. Retrieved September 19, 2012.
  12. ^ "IBM Offers Higher Performance Computing Outside the Lab". IBM. Retrieved May 15, 2008.
  13. ^ "Sony answears our questions about the new PlayStation 3". Ars Technica. August 18, 2009. Retrieved August 19, 2009.
  14. ^ "Will Roadrunner Be the Cell's Last Hurrah?". October 27, 2009. Archived from the original on October 31, 2009.
  15. ^ "SC09: IBM lässt Cell-Prozessor auslaufen". HeiseOnline. November 20, 2009. Retrieved November 21, 2009.
  16. ^ "IBM have not stopped Cell processor development". DriverHeaven.net. November 23, 2009. Archived from the original on November 25, 2009. Retrieved November 24, 2009.
  17. ^ Becker, David (February 7, 2005). "PlayStation 3 chip has split personality". CNET. Retrieved May 18, 2007.
  18. ^ a b Thurrott, Paul (May 17, 2005). "Sony Ups the Ante with PlayStation 3". WindowsITPro. Archived from the original on September 30, 2007. Retrieved March 22, 2007.
  19. ^ a b Roper, Chris (May 17, 2005). "E3 2005: Cell Processor Technology Demos". IGN. Retrieved March 22, 2007.
  20. ^ a b Martin Linklater. "Optimizing Cell Core". Game Developer Magazine, April 2007. pp. 15–18. To increase fabrication yields, Sony ships PlayStation 3 Cell processors with only seven working SPEs. And from those seven, one SPE will be used by the operating system for various tasks, This leaves six SPEs and 1 PPE for game programmers to use.
  21. ^ a b "Mercury Wins IBM PartnerWorld Beacon Award". Supercomputing Online. April 12, 2007. Retrieved May 18, 2007.[데드링크]
  22. ^ "Fixstars Releases Accelerator Board Featuring the PowerXCell 8i". Fixstars Corporation. April 8, 2008. Archived from the original on January 5, 2009. Retrieved August 18, 2008.
  23. ^ Koranne, Sandeep (July 15, 2009). "Chapter 2 - The Power Processing Element (PPE)". Practical Computing on the Cell Broadband Engine. Springer Science+Business Media. p. 17. doi:10.1007/978-1-4419-0308-2_2. ISBN 978-1-4419-0307-5.
  24. ^ Gschwind, Michael (2006). "Chip multiprocessing and the cell broadband engine". Proceedings of the 3rd conference on Computing frontiers - CF '06. ACM. pp. 1–8. doi:10.1145/1128022.1128023. ISBN 1595933026. S2CID 14226551. Retrieved June 29, 2008.
  25. ^ a b Cell Broadband Engine Programming Handbook Including the PowerXCell 8i Processor (PDF). Version 1.11. IBM. May 12, 2008. Archived from the original (PDF) on March 11, 2018. Retrieved March 10, 2018.
  26. ^ "IBM announces PowerXCell 8i, QS22 blade server". Beyond3D. May 2008. Archived from the original on June 16, 2008. Retrieved June 10, 2008.
  27. ^ "The Green500 List - November 2009". Archived from the original on February 23, 2011.
  28. ^ "Packaging the Cell Broadband Engine Microprocessor for Supercomputer Applications" (PDF). Archived from the original (PDF) on January 4, 2014. Retrieved January 4, 2014.
  29. ^ "Cell Microprocessor Briefing". IBM, Sony Computer Entertainment Inc., Toshiba Corp. February 7, 2005.
  30. ^ a b Kim, Hyesoon (Spring 2011). "CS4803DGC Design and Programming of Game Console" (PDF).
  31. ^ Koranne, Sandeep (2009). Practical Computing on the Cell Broadband Engine. Springer Science+Business Media. p. 19. ISBN 9781441903082.
  32. ^ Hofstee, H. Peter (2005). "All About the Cell Processor" (PDF). Archived from the original (PDF) on September 6, 2011.
  33. ^ a b "Power Efficient Processor Design and the Cell Processor" (PDF). IBM. February 16, 2005.
  34. ^ a b c d Chen, Thomas; Raghavan, Ram; Dale, Jason; Iwata, Eiji (November 29, 2005). "Cell Broadband Engine Architecture and its first implementation". IBM developerWorks. Archived from the original on October 27, 2012. Retrieved September 9, 2012.
  35. ^ Alexander, Leigh (January 16, 2009). "Processing The Truth: An Interview With David Shippy]". Gamasutra.
  36. ^ Last, Jonathan V. (December 30, 2008). "Playing the Fool". Wall Street Journal.
  37. ^ SPU Application Binary Interface Specification (PDF). July 18, 2008. Archived from the original (PDF) on November 18, 2014. Retrieved January 24, 2015.
  38. ^ "IBM Research - Cell". IBM. Archived from the original on June 14, 2005. Retrieved June 11, 2005.
  39. ^ "A novel SIMD architecture for the Cell heterogeneous chip-multiprocessor" (PDF). Hot Chips 17. August 15, 2005. Archived from the original (PDF) on July 9, 2008. Retrieved January 1, 2006.
  40. ^ "Cell successor with turbo mode - PowerXCell 8i". PPCNux. November 2007. Archived from the original on January 10, 2009. Retrieved June 10, 2008.
  41. ^ "Supporting OpenMP on Cell" (PDF). IBM T. J Watson Research. Archived from the original (PDF) on January 8, 2019.
  42. ^ a b "Meet the experts: David Krolak on the Cell Broadband Engine EIB bus". IBM. December 6, 2005. Retrieved March 18, 2007.
  43. ^ "Cell Multiprocessor Communication Network: Built for Speed" (PDF). IEEE. Archived from the original (PDF) on January 7, 2007. Retrieved March 22, 2007.
  44. ^ "Leadtek PxVC1100 MPEG-2/H.264 Transcoding Card". November 12, 2009.
  45. ^ "IBM Doubles Down on Cell Blade" (Press release). Armonk, New York: IBM. August 29, 2007. Retrieved July 19, 2017.
  46. ^ "IBM Offers High Performance Computing Outside the Lab" (Press release). Armonk, New York: IBM. May 13, 2008. Retrieved July 19, 2017.
  47. ^ Morgan, Timothy Prickett (June 28, 2011). "IBM to snuff last Cell blade server". The Register. Retrieved July 19, 2017.
  48. ^ "Fixstars Press Release". Archived from the original on January 5, 2009. Retrieved August 18, 2008.
  49. ^ "Cell-based coprocessor card runs Linux". Archived from the original on May 2, 2009.
  50. ^ "Toshiba Demonstrates Cell Microprocessor Simultaneously Decoding 48 MPEG-2 Streams". Tech-On!. April 25, 2005.
  51. ^ "Winner: Multimedia Monster". IEEE Spectrum. January 1, 2006. Archived from the original on January 18, 2006. Retrieved January 22, 2006.
  52. ^ "Beyond a Single Cell" (PDF). Los Alamos National Laboratory. Archived from the original (PDF) on July 8, 2009. Retrieved April 6, 2017.
  53. ^ Williams, Samuel; Shalf, John; Oliker, Leonid; Husbands, Parry; Kamil, Shoaib; Yelick, Katherine (2005). "The Potential of the Cell Processor for Scientific Computing". ACM Computing Frontiers. Retrieved April 6, 2017.
  54. ^ "SCOP3: A Rough Guide to Scientific Computing On the PlayStation 3" (PDF). Computer Science Department, University of Tennessee. Archived from the original (PDF) on October 15, 2008. Retrieved May 8, 2007.
  55. ^ Gardiner, Bryan (October 17, 2007). "Astrophysicist Replaces Supercomputer with Eight PlayStation 3s". Wired. Retrieved October 17, 2007.
  56. ^ "PS3 Gravity Grid". Gaurav Khanna, Associate Professor, College of Engineering, University of Massachusetts Dartmouth.
  57. ^ "PS3 cluster creates homemade, cheaper supercomputer". October 24, 2007.
  58. ^ Highfield, Roger (February 17, 2008). "Why scientists love games consoles". The Daily Telegraph. London. Archived from the original on September 6, 2009.
  59. ^ Peckham, Matt (December 23, 2008). "Nothing Escapes the Pull of a PlayStation 3, Not Even a Black Hole". The Washington Post.
  60. ^ Malik, Tariq (January 28, 2009). "Playstation 3 Consoles Tackle Black Hole Vibrations". Space.com.
  61. ^ Lyden, Jacki (February 21, 2009). "Playstation 3: A Discount Supercomputer?". NPR.
  62. ^ Wallich, Paul (April 1, 2009). "The Supercomputer Goes Personal". IEEE Spectrum.
  63. ^ "The PlayStation powered super-computer". BBC News. September 4, 2010.
  64. ^ Farrell, John (November 12, 2010). "Black Holes and Quantum Loops: More Than Just a Game". Forbes.
  65. ^ "PS3GRID.net".
  66. ^ "Defense Department discusses new Sony PlayStation supercomputer". November 30, 2010.
  67. ^ "PlayStation 3 Clusters Providing Low-Cost Supercomputing to Universities". Archived from the original on May 14, 2013.
  68. ^ "IBM Mainframes Go 3-D". eWeek. April 26, 2007. Retrieved May 18, 2007.
  69. ^ "PlayStation speeds password probe". BBC News. November 30, 2007. Retrieved January 17, 2011.
  70. ^ "CELL: A New Platform for Digital Entertainment". Sony Computer Entertainment Inc. March 9, 2005. Archived from the original on October 28, 2005.
  71. ^ Bergmann, Arnd (June 21, 2005). "ppc64: Introduce Cell/BPA platform, v3". Retrieved March 22, 2007.
  72. ^ "The Cell Processor Programming Model". LinuxTag 2005. Archived from the original on November 18, 2005. Retrieved June 11, 2005.
  73. ^ Shankland, Stephen (March 21, 2006). "Linux gets built-in Cell processor support". CNET. Retrieved March 22, 2007.
  74. ^ "Terra Soft to Provide Linux for PLAYSTATION3". Archived from the original on March 30, 2009.
  75. ^ Terra Soft - Linux for Cell, PlayStation PS3, QS20, QS21, QS22, IBM System p, Mercury Cell 및 Apple PowerPC 2007년 2월 23일 웨이백 머신에서 보관
  76. ^ "Y-Bio". August 31, 2007. Archived from the original on September 2, 2007.
  77. ^ "Arnd Bergmann on Cell". IBM developerWorks. June 25, 2005.
  78. ^ "Linux on Cell BE-based Systems". Barcelona Supercomputing Center. Archived from the original on March 8, 2007. Retrieved March 22, 2007.
  79. ^ "Mercury Computer Systems Releases Software Development Kit for PLAYSTATION(R)3 for High-Performance Computing" (Press release). Mercury Computer Systems. August 3, 2007. Archived from the original on August 18, 2007.
  80. ^ ""CVCell" - Module developed by Fixstars that accelerates OpenCV Library for the Cell/B.E. processor". Fixstars Corporation. November 28, 2007. Archived from the original on July 17, 2010. Retrieved December 12, 2008.

외부 링크