Tesla(마이크로아키텍처)
Tesla (microarchitecture)![]() | |
발매일 | 2006년 11월 |
---|---|
제조 프로세스 | 90 nm, 80 nm, 65 nm, 55 nm 및 40 nm |
역사 | |
전임자 | 퀴리 |
후계자 | 페르미 |
Tesla는 Nvidia가 개발한 GPU 마이크로아키텍처의 코드네임으로, 2006년에 퀴리 마이크로아키텍처의 후속 제품으로 출시되었습니다.그것은 선구적인 전기 기술자인 니콜라 테슬라의 이름을 따서 지어졌다.Nvidia는 통합 셰이더를 구현한 최초의 마이크로 아키텍처로서 GeForce 8 시리즈, GeForce 9 시리즈, GeForce 100 시리즈, GeForce 200 시리즈 및 GeForce 300 시리즈의 GPU를 90 nm, 80 nm, 65 nm, 55 nm, 40 nm로 일괄 제조했습니다.GeForce 405 및 Quadro FX, Quadro x000, Quadro NVS 시리즈 및 Nvidia Tesla 컴퓨팅 모듈에도 탑재되어 있습니다.
Tesla는 GeForce 7 시리즈로 대표되는 오래된 고정 파이프라인 마이크로 아키텍처를 대체했습니다.비슷한 디자인을 사용한 Xbox 360의 ATI 작업을 개발한 AMD 최초의 통합 셰이더 마이크로 아키텍처 테라스케일과 직접 경쟁했다.테슬라는 페르미가 뒤를 이었다.
개요
Tesla는 통합 셰이더 모델을 구현하는 Nvidia의 첫 번째 마이크로 아키텍처입니다.드라이버는 Direct3D 10 Shader Model 4.0/OpenGL 2.1(나중에 드라이버는 OpenGL 3.3을 지원) 아키텍처를 지원합니다.이 설계는 NVIDIA의 GPU 기능과 기능에 있어서 큰 변화입니다.가장 눈에 띄는 변화는 이전 GPU 내의 개별 기능 유닛(픽셀 셰이더, 정점 셰이더)에서 보다 범용적인 작업을 수행할 수 있는 범용 부동소수점 프로세서('스트림 프로세서'라고 불립니다)의 동종 컬렉션으로 이행한 것입니다.
GeForce 8의 통합 셰이더 아키텍처는 다수의 SP(Stream Processor)로 구성됩니다.오래된 셰이더 유닛에서 채택된 벡터 처리 방식과 달리 각 SP는 스칼라이므로 한 번에 1개의 컴포넌트에서만 동작할 수 있습니다.따라서 구축이 덜 복잡하면서도 유연하고 범용적입니다.또한 스칼라 셰이더 유닛은 이상적인 명령 혼합 및 피크 스루풋에 도달하기 위한 순서를 사용하는 이전 세대의 벡터 셰이더 유닛에 비해 많은 경우에 더 효율적이라는 장점이 있습니다.이러한 스칼라 프로세서의 낮은 최대 스루풋은 효율성과 높은 클럭 속도로 실행함으로써 보완됩니다(간단함에 의해 가능).GeForce 8은 이전 GeForce 7 시리즈 GPU의 동작과 마찬가지로 코어의 다양한 부분을 다른 클럭 속도(클럭 도메인)로 실행합니다.예를 들어 GeForce 8800 GTX의 스트림 프로세서는 1.35GHz [1]클럭 속도로 동작하며 나머지 칩은 575MHz로 동작합니다.
GeForce 8은 필터링 품질 저하 없이 렌더링 속도를 높이기 위해 다양한 최적화 및 시각적 기술을 사용한 이전 제품보다 훨씬 향상된 텍스처 필터링을 수행합니다.GeForce 8 라인은 완전한 삼선형 텍스처 필터링과 함께 각도 독립적인 이방성 필터링 알고리즘을 올바르게 렌더링합니다.G80은 GeForce 7 시리즈보다 훨씬 더 많은 텍스처 필터링 연산 능력을 갖추고 있다.이것에 의해,[1] 종래보다 퍼포먼스 저하가 큰폭으로 억제된 고품질 필터링이 가능하게 됩니다.
NVIDIA는 또한 멀티샘플 안티에일리어싱(MSAA)과 HDR 조명을 동시에 실행하는 GPU의 ROP 기능을 포함한 새로운 폴리곤 에지 안티에일리어싱 방식을 도입하여 이전 세대의 다양한 한계를 수정했습니다.GeForce 8은 FP16과 FP32의 양쪽 텍스처 포맷으로 MSAA를 실행할 수 있습니다.GeForce 8은 128비트 HDR 렌더링을 지원하며, 이는 이전 카드의 64비트 지원보다 향상된 수치입니다.커버리지 샘플링 AA(CSAA)라고 불리는 칩의 새로운 안티에이리어싱 기술은 최종 픽셀 색상을 결정하기 위해 Z, 색상 및 커버리지 정보를 사용한다.이 색 최적화 기술을 통해 16X CSAA를 선명하고 [2]선명하게 표시할 수 있습니다.
성능
FLOPS에서 제시된 Tesla 기반 카드의 이론적인 단정도 처리 능력은 실제 [3]워크로드에서는 도달하기 어려울 수 있습니다.
G80/G90/GT200에서는 각 Streaming Multiprocessor(SM; 스트리밍 멀티프로세서)에는 8개의 셰이더 프로세서(SP, Unified Shader, 또는 CUDA Core)와 2개의 특수 기능 유닛(SFU)이 포함되어 있습니다.각 SP는 1개의 MAD 명령을 사용하여 1개의 클럭당 최대 2개의 단일 정밀도 조작을 수행할 수 있습니다.각 SFU는 클럭당 최대 4개의 동작(4개의 MUL(멀티) 명령)을 실행할 수 있습니다.따라서 1개의 SM 전체에서 클럭당8개의 MAD(16개의 동작)와8개의 MUL(8개의 동작)을 실행할 수 있습니다.즉, (상대적으로) SP의 3배에 해당하는 24개의 동작을 실행할 수 있습니다.따라서 SP 카운트 [n]와 셰이더 주파수 [f, GHz]를 가진 그래픽 카드의 부동소수점 연산 초당 [FLOPSsp+sfu, GFLOPS]에서의 이론적인 이중 이슈 MAD+MUL 성능을 계산하기 위해서는 FLOPSsp+sfu = 3 × n × [4][5]f가 됩니다.
그러나 MAD+MUL과 같은 이중 이슈 성능을 활용하는 것은 문제가 있습니다.
- GT200에서는 [7]대폭 개선되었지만 G80/G90에서는 [6]MUL을 듀얼 발행할 수 없습니다.
- 교육이 지침의 구체적인 부분 집합:32비트 부동 소수 점 곱셈, 선험적 기능, 매개 변수를 보간, 상호적, 상호적 제곱 근, 처리할 수 있기 때문에 SFU 오히려 특수화되어 MAD+MUL 같은 지시의 모든 조합을 동시에 핑크와 SFU에, 사인, 코사인, 등을 실행할 수 있[8]
- 이러한 명령어를 실행하면 SFU가 여러 사이클 동안 비지 상태가 될 수 있습니다.이 경우 듀얼 MUL [4]명령에서는 SFU를 사용할 수 없습니다.
이러한 이유로 실제 워크로드의 성능을 예측하려면 SFU를 무시하고 사이클당 SP당 1개의 MAD(2개의 운영)만 가정하는 것이 더 도움이 될 수 있습니다.이 경우 초당 부동 소수점 연산에서 이론적 성능을 계산하는 공식은 FLOPSsp = 2 × n × f가 됩니다.
이론적으로 Tesla GPU의 배정밀 처리 능력은 GT200의 배정밀 성능의 1/8입니다.G8x 및 G9x에서는 [9]배정밀을 지원하지 않습니다.
비디오 압축 해제/압축
NVDEC
NVENC
NVENC는 이후 칩에만 도입되었습니다.
칩스
테슬라 1.0
- G80
- G84
- G86
- G92
- G92B
- G94
- G94B
- G96
- G96B
- G96C
- G98
- C77
- C78
- C79
- C7A
- C7A-ION
- 이온
테슬라 2.0
- GT200
- GT200B
- GT215
- GT216
- GT218
- C87
- C89
「 」를 참조해 주세요.
- Nvidia 그래픽스 처리 장치 목록
- 쿠다
- 스케일러블 링크 인터페이스(SLI)
- 퀄컴 아드레노
레퍼런스
- ^ a b 와슨, 스콧NVIDIA의 GeForce 8800 그래픽스 프로세서 2007년 7월 15일 Wayback Machine, Tech Report, 2007년 11월 8일 아카이브.
- ^ 솜메펠트, 리스NVIDIA G80: 이미지 품질 분석, Beyond 3D, 2006년 12월 12일
- ^ "Beyond3D - NVIDIA GT200 GPU and Architecture Analysis".
- ^ a b Anand Lal Shimpi & Derek Wilson. "Derek Gets Technical: 15th Century Loom Technology Makes a Comeback - NVIDIA's 1.4 Billion Transistor GPU: GT200 Arrives as the GeForce GTX 280 & 260".
- ^ Anand Lal Shimpi & Derek Wilson. "G80: A Mile High Overview - NVIDIA's GeForce 8800 (G80): GPUs Re-architected for DirectX 10".
- ^ Sommefelt, Rys. NVIDIA G80: 아키텍처 및 GPU 분석 - 11페이지, Beyond 3D, 2006년 11월 8일
- ^ "Technical Brief NVIDIA GeForce GTX 200 GPU Architectural Overview" (PDF). May 2008. p. 15. Retrieved 5 December 2015.
The individual streaming processing cores of GeForce GTX 200 GPUs can now perform near full-speed dual-issue of multiply-add operations (MADs) and MULs (3 flops/SP)
- ^ Kanter, David (8 September 2008). "NVIDIA's GT200: Inside a Parallel Processor". Real World Tech. p. 9.
- ^ Smith, Ryan (17 March 2015). "The NVIDIA GeForce GTX Titan X Review". AnandTech. p. 2.