AMD 파이어스트림
AMD FireStreamAMD FireStream은 스트림 프로세싱 및/또는 슈퍼컴퓨터의 GPGPU를 타깃으로 하는 Radeon 기반 제품군으로 AMD의 브랜드 이름이었다.원래 2006년에 ATI Technologies에서 Radeon X1900 XTX를 중심으로 개발한 이 제품군은 이전에 ATI FireSTREAM과 AMD Stream Processor로 모두 낙인찍혔다.[1]AMD FireStream은 Torrenza 이니셔티브의 일부인 CPU 계산을 오프로드하기 위한 부동 소수점 공동 프로세서로도 사용될 수 있다.FireStream 라인은 GPGPU 워크로드가 AMD FirePro 라인으로 완전히 접힌 2012년부터 단종되었다.null
개요
파이어스트림 라인은 표준 Radeon GPU를 기반으로 2006년부터 2010년까지 출시된 일련의 애드온 확장 카드로, 3D 그래픽을 렌더링 및 출력하는 것이 아니라 범용 공동 프로세서 역할을 하도록 설계되었다.FireGL/FirePro 라인과 마찬가지로 더 많은 메모리와 메모리 대역폭을 제공받았지만, FireStream 카드에 반드시 비디오 출력 포트가 있는 것은 아니다.모두 32비트 단일정밀 부동소수를 지원하며, 첫 번째 릴리즈를 제외한 모든 것이 64비트 이중정밀을 지원한다.이 라인은 기존 OpenGL과 Direct3D Shader API가 제공할 수 있는 것보다 높은 성능을 제공하기 위해 새로운 API와 제휴하여 Close to Metal을 시작으로 OpenCL과 Stream Computing SDK에 이어, 최종적으로 APP SDK에 통합되었다.
병렬 플로팅 포인트 산술 작업부하의 경우, 카드는 대규모 계산 속도를 10배 이상 높일 수 있다; 폴딩@GPGPU의 최초이자 가장 눈에 띄는 사용자 중 하나인 홈은 CPU 성능의 20~40배를 획득했다.[2]각 픽셀과 정점 쉐이더, 또는 이후 모델에서 통일 쉐이더는 임의의 부동소수점 계산을 수행할 수 있다.null
역사
프로그램 가능한 쉐이더가 장착된 라데온 R520과 지포스 G70 GPU 코어의 출시 이후, 대규모 부동소수 처리량이 학계와 상업계의 주목을 받아 당시 비그래픽 작업에 사용하는 실험을 했다.이러한 관심으로 인해 ATI(및 Nvidia)는 전통적으로 CPU와 특수 부동 소수점 산술 공동 프로세서에서 수행된 무거운 계산을 처리하기 위해 GPGPU 제품을 만들게 되었다.GPGPU는 현재의 멀티 소켓 CPU 전용 계산에 비해 10배 이상의 즉각적인 성능 이득을 얻을 것으로 예측되었다.null
고성능 X1900 XFX의 개발이 거의 마무리된 가운데 ATI는 최초의 스트림 프로세서 설계를 기반으로 하여 SIGGRAPH 2006에서 새로운 Close to Metal API와 함께 곧 출시될 ATI FireSTREAM으로 발표했다.[3]코어 자체는 FireGL V7350과 비슷하게 온보드 메모리와 대역폭을 두 배로 늘린 것을 제외하고는 대부분 변화가 없었다. 새로운 드라이버와 소프트웨어 지원이 그 차이를 대부분을 차지했다.폴딩@home은 ATI Catalyst 드라이버 버전 6.5의 사전 릴리즈를 사용하여 일반 계산에 X1900을 사용하기 시작했으며 CPU에 비해 GPU가 20-40배 향상되었다고 보고했다.[2]첫 번째 제품은 2006년 말 출시되었으며, AMD와의 합병 후 AMD Stream Processor로 브랜드가 변경되었다.[4]
이 브랜드는 새로운 통합 쉐이더와 이중 정밀 지원을 갖춘 RV650 칩을 기반으로 2007년 2세대 스트림 프로세서로 AMD FireStream이 되었다.[5]비동기식 DMA도 CPU의 도움 없이 더 큰 메모리 풀을 허용함으로써 성능을 향상시켰다.한 모델인 9170이 최초 가격인 1999달러에 출시되었다.2008년까지 노트북 컴퓨팅을 위한 MXM 모듈의 스트림 프로세서를 개발하는 계획이 포함되었지만,[6] 결코 공개되지 않았다.null
3세대는 2008년에 RV770 코어로부터 극적인 성능 향상으로 빠르게 뒤를 이었다; 9250은 9170보다 거의 두 배나 더 높은 성능을 가지고 있었고, 가격이 1,000달러 이하로 떨어졌음에도 불구하고 최초의 단일 칩 테라플롭 프로세서가 되었다.[7]좀 더 빠른 형제인 9270은 그 직후에 199달러에 출시되었다.null
2010년에는 HD 5800에 탑재된 사이프레스 칩을 기반으로 한 파이어스톰의 최종 세대인 9350과 9370 카드가 출시되었다.이 세대는 다시 이전과 비교한 성능을 두 배로 늘렸으며, 9350년에는 2테라플롭스, 9370년에는 2.6테라플롭스로,[8] 원점에서부터 OpenCL을 위해 구축되었다.또한 이 세대는 완전 수동식 냉각을 특징으로 하는 유일한 세대였으며, 능동식 냉각을 사용할 수 없었다.null
북부와 남섬 세대는 건너뛰었고, 2012년 AMD는 새로운 그래픽 코어 넥스트 아키텍처를 기반으로 한 새로운 FirePro W(워크스테이션)와 S(서버) 시리즈가 FireStream 카드를 대신할 것이라고 발표했다.[9]null
모델
- FireStream 9170에는 Direct3D 10.1, OpenGL 3.3 및 APP Stream이 포함됨
- FireStream 92x0에는 Direct3D 10.1, OpenGL 3.3 및 OpenCL 1.0이 포함됨
- FireStream 93x0에는 Direct3D 11, OpenGL 4.3 및 OpenCL 1.2(마지막 드라이버 업데이트 포함)
모델 (코드명) | 발사하다 | 건축 (Fab) | 버스 접점 | 스트림 프로세서 | 시계율 | 기억력 | 가공력[a] (GFLOPS) | TDP(와트) | |||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
코어(MHz) | 메모리(MHz) | 크기(MB) | 유형 | 버스 폭(비트) | 대역폭(GB/s) | 싱글 | 더블 | ||||||
스트림 프로세서 (R580) | 2006 | R500 80nm | 240 | 600 | 1024 | GDDR3 | 256 | 83.2 | 375[10] | 해당 없음 | 165 | ||
파이어스트림 9170 (RV670)[11][12] | 2007년 11월 8일 | 테라스케일 1 55nm | PCIe 2.0 x16 | 320 | 800 | 800 | 2048 | GDDR3 | 256 | 51.2 | 512 | 102.4 | 105 |
파이어스트림 9250 (RV770)[13][14] | 2008년 6월 16일 | 테라스케일 1 55nm | PCIe 2.0 x16 | 800 | 625 | 993 | 1024 | GDDR3 | 256 | 63.6 | 1000 | 200 | 150 |
파이어스트림 9270 (RV770)[15][16] | 2008년 11월 13일 | 테라스케일 1 55nm | PCIe 2.0 x16 | 800 | 750 | 850 | 2048 | GDDR5 | 256 | 108.8 | 1200 | 240 | 160 |
파이어스트림 9350 (Cypress XT)[17] | 2010년 6월 23일 | 테라스케일 2 40nm | PCIe 2.1 x16 | 1440 | 700 | 1000 | 2048 | GDDR5 | 256 | 128 | 2016 | 403.2 | 150 |
파이어스트림 9370 (Cypress XT)[18] | 2010년 6월 23일 | 테라스케일 2 40nm | PCIe 2.1 x16 | 1600 | 825 | 1150 | 4096 | GDDR5 | 256 | 147.2 | 2640 | 528 | 225 |
소프트웨어
AMD FireStream은 광범위한 소프트웨어 플랫폼 지원을 받아 출시되었다.지원 기업 중 한 곳은 PeakStream(2007년 6월 구글 인수)으로, CTM과 AMD FireStream은 물론 x86 및 Cell(셀 광대역 엔진) 프로세서를 지원하는 오픈 베타 버전의 소프트웨어를 최초로 제공했다.FireStream은 PeakStream의[citation needed] 소프트웨어를 실행한 후 일반 CPU보다 일반적인 애플리케이션에서 20배 더 빠르다고 주장되었다.또한 RapidMind는 ATI, NVIDIA와 함께 작동하는 스트림 프로세싱 소프트웨어와 셀 프로세서를 제공했다.[19]null
소프트웨어 개발 키트
AMD는 단명했던 Close to Metal API를 버리고 OpenCL에 집중했다.AMD는 2007년 12월 AMD EULA에 따라 Windows XP에서 실행될 Stream Computing SDK(v1.0)를 처음 출시했다.[19]SDK에는 AMD 하드웨어에 최적화된 ANSC(AnSI C) 언어의 버전인 "Brook+"가 포함되어 있으며, 그 자체가 ANSI C(C 언어)의 변종이며, 오픈소싱되고 스트림 컴퓨팅에 최적화되어 있다.AMD FireStream에 최적화되어 있는 AMD Core Math Library(ACML)와 AMD Performance Library(APL)와 비디오 트랜스코딩 가속을 위한 COBRA 비디오 라이브러리(추가적으로 "가속된 비디오 트랜스코딩" 또는 AVT로 개칭)도 포함될 것이다.SDK의 또 다른 중요한 부분인 컴퓨팅 추상화 계층(CAL)은 다양한 고급 프로그래밍 언어로 작성된 성능 튜닝 소프트웨어를 위한 GPU 아키텍처에 대한 CTM 하드웨어 인터페이스를 통한 낮은 수준의 액세스를 목표로 하는 소프트웨어 개발 계층이다.null
AMD는 2011년 8월 크로노스 그룹이 개발한 병렬 컴퓨팅 언어인 OpenCL 1.1 지원이 포함된 ATI APP 소프트웨어 개발 키트 버전 2.5를 출시했다.[19]마이크로소프트의 차세대 API DirectX 11에서 공식적으로 DirectCompute로 불리는 컴퓨팅 셰이더 개념은 이미 DirectX 11이 지원되는 그래픽 드라이버에 포함되어 있다.null
AMD APP SDK
벤치마크
Microsoft Windows XP Professional에서 실행되는 2개의 듀얼 코어 AMD Opteron 프로세서와 2개의 Radeon R600 GPU 코어가 있는 AMD-demonstrated 시스템에[20] 따르면 1테라플롭(TFLOP)은 MADD(Universal Multiple-add) 계산으로 달성할 수 있다.이에 비해 당시 인텔 코어 2 쿼드 Q9650 3.0GHz 프로세서는 48 GFLOPS를 달성할 수 있었다.[21]null
AMD 스트림 프로세서에 최적화되어 있던 카스퍼스키 세이프스트림 안티바이러스 스캐닝의 시연에서, 2007년에 Opteron에서 완전히 실행되는 검색보다 R670 기반 가속으로 21배 더 빠르게 스캔할 수 있었다.[22]null
제한 사항
- 모든 함수 호출은 컴파일 시간에 인라인 처리되기 때문에 Brook+에서는 재귀 함수가 지원되지 않는다.CAL을 사용하면 기능(재발성 또는 기타)이 32단계로 지원된다.[23]
- 이선형 텍스처 필터링만 지원되며, 미끄럼 처리된 텍스처와 비등방성 필터링은 지원되지 않는다.
- 함수는 변수 개수의 인수를 가질 수 없다.재귀함수에 대해서도 같은 문제가 발생한다.
- 부동 소수점 숫자를 GPU의 정수로 변환하는 작업은 x86 CPU와 다르게 수행되며, 완전히 IEEE-754를 준수하지 않는다.
- GPU에서 "글로벌 동기화"를 하는 것은 매우 효율적이지 못하여 GPU가 커널을 분할하고 CPU에서 동기화를 하게 된다. 멀티프로세서 등의 가변적인 수치로 볼 때, 이 문제에 대한 완벽한 해결책이 없을 수도 있다.
- CPU와 GPU 사이의 버스 대역폭과 지연 시간이 병목 현상이 될 수 있다.
참고 항목
- 스트림 처리
- ROCM
- 이기종 시스템 아키텍처
- NVIDIA Tesla 유사 솔루션
- Intel의 Xeon Phi 유사 솔루션
- Open Computing Language(Open Computing Language) – 업계 표준
- CUDA(Unified Device Architecture) 컴퓨팅 - 독점적인 Nvidia 전용 솔루션
- AMD 그래픽 처리 장치 목록
참조
- ^ AMD 보도 자료
- ^ a b Gasior, Geoff (October 16, 2006). "A closer look at Folding@home on the GPU". The Tech Report. Retrieved 2016-05-26.
- ^ ATI SIGGRAPH 2006 Presentation (PDF) (Report). ATI Technologies.
- ^ Valich, Theo (November 16, 2006). "ATI FireSTREAM AMD Stream board revealed". The Inquirer. Archived from the original on August 21, 2009. Retrieved 2016-05-26.
{{cite news}}
: CS1 maint : 부적합한 URL(링크) - ^ "AMD Delivers First Stream Processor with Double Precision Floating Point Technology". AMD. November 8, 2007. Archived from the original on 2017-06-19. Retrieved 2016-05-26.
- ^ AMD WW HPC 2007 presentation (PDF) (Report). p. 37.
- ^ "AMD Stream Processor First to Break 1 Teraflop Barrier". AMD. June 16, 2008. Archived from the original on 2017-06-19. Retrieved 2016-05-26.
- ^ "Newest AMD FireStream(TM) GPU Compute Accelerators Deliver Almost 2x Single and Double Precision Peak Performance and Performance Per Watt Over Last Generation". AMD. June 23, 2010. Archived from the original on 2017-06-19. Retrieved 2016-05-26.
- ^ Smith, Ryan (14 August 2012). "The AMD Firepro W9000 W8000 Review Part 1". Anandtech.com. Retrieved 28 June 2016.
- ^ "Beyond3D - ATI R580: Radeon X1900 XTX & Crossfire". www.beyond3d.com.
- ^ "AMD Delivers First Stream Processor with Double Precision Floating Point Technology". AMD. November 8, 2007. Retrieved 2016-05-26.
- ^ "AMD FireStream 9170 Specs". TechPowerUp.
- ^ AMD FireStream 9250 - 제품 페이지 2010년 5월 13일 웨이백 머신에 보관
- ^ "AMD FireStream 9250 Specs". TechPowerUp.
- ^ AMD FireStream 9270 - 제품 페이지 2010년 2월 16일 웨이백 머신에 보관
- ^ "AMD FireStream 9270 Specs". TechPowerUp.
- ^ "AMD FireStream 9350 Specs". TechPowerUp.
- ^ "AMD FireStream 9370 Specs". TechPowerUp.
- ^ a b c AMD APP SDK 다운로드 페이지 Wayback Machine and Stream Computing SDK 2009년 3월 6일 Wayback Machine에서 AMD APP SDK 다운로드 2007년 12월 29일 검색됨
- ^ HardOCP 보고서 Wayback Machine에 2016-03-04 보관, 2007년 7월 17일 검색
- ^ Intel 마이크로프로세서 내보내기 컴플라이언스 메트릭
- ^ Valich, Theo (September 12, 2007). "GPGPU drastically accelerates anti-virus software". The Inquirer. Archived from the original on September 23, 2009. Retrieved 2016-05-26.
{{cite news}}
: CS1 maint : 부적합한 URL(링크) - ^ AMD 중간 언어 참조 가이드, 2008년 8월