Pascal (마이크로아키텍처)
Pascal (microarchitecture)![]() Pascal 아키텍처를 사용하는 두 번째 상용 카드인 GTX 1070 | |
발매일 | 2016년 4월 5일 |
---|---|
제조 프로세스 |
|
역사 | |
전임자 | 맥스웰 |
후계자 |
파스칼은 Maxwell 아키텍처의 후속 제품으로 Nvidia가 개발한 GPU 마이크로아키텍처의 코드명입니다.이 아키텍처는 2016년 4월 5일 테슬라 P100(GP100) 출시와 함께 2016년 4월에 처음 소개되었으며 2016년 5월 17일과 6월 10일에 각각 출시된 GeForce GTX 1080과 GTX 1070(모두 GP104 GPU 사용)을 시작으로 GeForce 10 시리즈에 주로 사용됩니다.파스칼은 TSMC의 16nm 핀펫 공정과 [1]이후 삼성의 14nm 핀펫 공정으로 제조됐다.[2]
이 건축물은 17세기 프랑스의 수학자이자 물리학자인 블레이즈 파스칼의 이름을 따서 지어졌다.
2019년 4월, Nvidia는 GTX 1060 6 GB부터 파스칼 기반 카드에 DirectX 레이트레이싱 소프트웨어 구현을 가능하게 했고,[3][4] 16 시리즈 카드에서는 그 시점까지 튜링 기반 RTX 시리즈에 예약된 기능이었다.
세부 사항
2014년 3월, 엔비디아는 Maxwell의 후속 제품이 Pascal 마이크로 아키텍처가 될 것이라고 발표했습니다. 2016년 5월 6일에 발표되었고 같은 해 5월 27일에 출시되었습니다.Tesla P100(GP100 칩)은 GTX GPU(GP104 칩)와 비교하여 Pascal 아키텍처의 버전이 다릅니다.GP104의 셰이더 유닛은 Maxwell과 같은 [5]설계를 가지고 있습니다.
GP100 아키텍처에서는 다음과 같은 아키텍처가 개선되었습니다.[6][7][8]
- Pascal에서 SM(스트리밍 멀티프로세서)은 GP100인지 GP104인지에 따라 64~128개의 CUDA 코어로 구성됩니다.Maxwell은 128개의 CUDA 코어, Kepler 192, Fermi 32 및 Tesla는 8개의 CUDA 코어만을 SM에 포함하며 GP100 SM은 각각 32개의 단일 정밀도 CUDA 코어를 가진 2개의 프로세싱 블록으로 분할됩니다.유닛과 2대의 디스패치 유닛을 재매핑합니다.
- CUDA 컴퓨팅 기능 6.0
- 고대역폭 메모리2 - 일부 카드는 4개의 스택에 16 GiB HBM2를 탑재하고 있으며, 총 4096비트버스와 720GB/s의 메모리 대역폭을 갖추고 있습니다.
- 통합 메모리 - "페이지 이행 엔진"이라고 불리는 테크놀로지를 사용하여 CPU와 GPU가 그래픽 카드의 메인 시스템 메모리와 메모리 양쪽에 액세스 할 수 있는 메모리 아키텍처입니다.
- NVLink - CPU와 GPU 간 및 여러 GPU 간의 고대역폭 버스.PCI Express를 사용하여 달성할 수 있는 전송 속도보다 훨씬 빠른 전송 속도를 실현합니다.추정되는 전송 속도는 80 ~200 [9][10]GB/s입니다.
- 16비트(FP16) 부동소수점 연산(이하 "반 정밀도")은 32비트 부동소수점 연산([12]이하 "단일 정밀도")[11] 및 64비트 부동소수점 연산(이하 "이중 정밀도")의 2배의 속도로 실행할 수 있습니다.
- 더 많은 레지스터: Maxwell에 비해 CUDA 코어당 레지스터의 양이 2배가 됩니다.
- 더 많은 공유 메모리
- 다이내믹 로드밸런싱 스케줄링 [13]시스템이것에 의해, 스케줄러는 복수의 태스크에 할당되어 있는 GPU의 양을 동적으로 조정할 수 있기 때문에,[13] 안전하게 분산할 수 있는 작업이 없는 경우를 제외하고, GPU가 작업에 포화 상태를 유지할 수 있습니다.따라서 Nvidia는 Pascal 드라이버에서 [13]비동기식 컴퓨팅을 안전하게 사용할 수 있게 되었습니다.
- 명령 수준 및 스레드 수준 프리엠프션.[14]
GP104 아키텍처에서는 다음과 같은 아키텍처가 개선되었습니다.[5]
- CUDA Compute Capability 6.1.
- GDDR5X - 10 Gbit/s 데이터 레이트를 지원하는 새로운 메모리 규격, 업데이트된 메모리 컨트롤러.[15]
- 동시 다중 투영 - 업스트림 셰이더 단계에서 SMP 엔진으로 들어갈 [16]때 단일 지오메트리 스트림의 다중 투영을 생성합니다.
- DisplayPort 1.4, HDMI 2.0b
- 제4세대 델타 컬러 압축.
- 확장 SLI 인터페이스 - 이전 버전보다 대역폭이 커진 SLI 인터페이스.
- PureVideo 기능 세트H 하드웨어 비디오 디코딩 HEVC Main10(10비트), Main12(12비트) 및 VP9 하드웨어 디코딩.
- 4K DRM 보호 콘텐츠 재생 및 스트리밍에 대한 HDCP 2.2 지원(Maxwell GM200 및 GM204는 HDCP 2.2 지원 없음, GM206은 HDCP 2.2 지원)[17]
- NVENC HEVC Main10 10비트하드웨어 부호화
- GPU 부스트 3.0
- 명령 수준의 [14]프리엠프션그래픽스 태스크에서 드라이버는 픽셀 수준의 프리엠프션을 제한합니다.픽셀 태스크는 일반적으로 빨리 완료되고 픽셀 수준의 프리엠프션을 실행하는 오버헤드 비용은 명령 수준의 프리엠프션보다 낮기 때문입니다(비싸움).[14]컴퓨팅 태스크는 스레드 레벨 또는 명령 레벨의 [14]프리엠프션을 취득합니다.이는 완료에 더 오랜 시간이 걸릴 수 있고 컴퓨팅 태스크가 완료되는 시점에 대한 보장이 없기 때문입니다.따라서 드라이버는 이러한 [14]작업에 대해 고가의 명령 수준 프리엠프션을 활성화합니다.
개요
그래픽스 프로세서 클러스터
칩은 그래픽스 프로세서 클러스터(GPC)로 분할되어 있습니다.GP104 칩의 경우 GPC는 5개의 SM을 포함합니다.
스트리밍 멀티프로세서 "Pascal"
"스트리밍 멀티프로세서"는 AMD의 Compute Unit에 해당합니다.SMP에는 GP104 칩의 128개의 단정도 ALU(CUDA 코어)와 GP100 칩의 64개의 단정도 ALU가 포함됩니다.
AMD가 CU(컴퓨팅 유닛)라고 부르는 것은 Nvidia가 SM(스트리밍 멀티프로세서)이라고 부르는 것과 비교할 수 있습니다.모든 CU 버전은 64개의 셰이더 프로세서(즉, 4개의 SIMD 벡터 유닛(각각 16레인 폭)=64)로 구성되어 있지만, Nvidia(CUDA 프로세서 "CUDA 코어"라고 부르는 프로세서)는 매우 다른 숫자를 실험했습니다.
- Tesla 1에서는 SM은 8개의 단정도(FP32) 셰이더 프로세서를 조합하고 있습니다.
- Fermi 1에서는 SM은 32개의 단정도(FP32) 셰이더 프로세서를 조합하고 있습니다.
- Kepler 1에서는 SM은 192개의 단정도(FP32) 셰이더 프로세서와 64개의 배정도(FP64) 유닛을 조합합니다(최소한 GK110 GPU).
- Maxwell 1의 SM은 128개의 단정도(FP32) 셰이더 프로세서를 조합하고 있습니다.
- Pascal의 경우 다음과 같습니다.
- GP100에서 SM은 64개의 단정도(FP32) 셰이더 프로세서와 32개의 2배정도(FP64)를 조합하여 단정도와 2배의 정밀도의 스루풋 비율을 제공합니다.GP100은 2요소 [18]벡터로 1개의 단정도 또는2개의 반정도 숫자를 처리할 수 있는 보다 유연한 FP32 코어를 사용합니다.엔비디아는 이를 통해 딥러닝 관련 알고리즘 계산에 임할 예정이다.
- GP104 1 SM은 128개의 단정밀 ALU와 32:1의 비율을 제공하는 4개의 2개의 반정밀 플로트의 벡터를 포함한 1개의 반정밀 ALU를 조합하여 양쪽 요소에 동일한 명령을 사용할 경우 64:1의 비율을 제공한다.
폴리모프 엔진 4.0
Polymorph Engine 버전 4.0은 테셀레이션을 담당하는 유닛입니다.기능적으로는 AMD의 기하학 프로세서와 대응하고 있습니다.1개의 Polymorph 엔진이 TPC [19]내의 여러 SM을 공급할 수 있도록 셰이더 모듈에서 TPC로 이동되었습니다.
칩스
- GP100: Nvidia Tesla P100 GPU 액셀러레이터는 FP64의 2배 정밀 컴퓨팅이나 FP16을 사용하는 딥 러닝 트레이닝 등의 GPGPU 애플리케이션을 대상으로 하고 있습니다.HBM2 [20]메모리를 사용합니다.Quadro GP100은 GP100 GPU도 사용합니다.
- GP102: 이 GPU는 TITAN Xp,[21] Titan[22] X 및 GeForce GTX 1080Ti에서 사용됩니다.Quadro P6000[23] 및 Tesla [24]P40에도 사용되고 있습니다.
- GP104: 이 GPU는 GeForce GTX 1070, GTX 1070 Ti 및 GTX 1080에서 사용됩니다.GTX 1070은 15/20, GTX 1070 Ti는 19/20의 SM을 유효하게 하고 있습니다.GTX 1080은 풀칩으로 GDDR5X 메모리에 연결되어 있습니다.Quadro P5000, Quadro P4000 및 Tesla P4에도 사용됩니다.
- GP106: 이 GPU는 GDDR5/[26][27]GDDR5X[25] 메모리를 탑재한 GeForce GTX 1060에서 사용됩니다.Quadro P2000에서도 사용되고 있습니다.
- GP107: 이 GPU는 GeForce GTX 1050 Ti 및 GeForce GTX 1050에서 사용됩니다.Quadro P1000, Quadro P600, Quadro P620 및 Quadro P400에도 사용됩니다.
- GP108: 이 GPU는 GeForce GT 1010 및 GeForce GT 1030에서 사용됩니다.
GP104 칩에서는 SM은 128개의 단정도 ALU(CUDA 코어)로 구성되어 있으며, GP100은 64개의 단정도 ALU로 구성되어 있습니다.2배 정밀도 ALU의 수와 같이 칩의 구성이 다르기 때문에 GP100의 이론적인 2배 정밀도 성능은 이론적인 1배 정밀도의 절반이며, GP104 칩의 비율은 1/32입니다.
GK104 | GK110 | GM204(GTX970) | GM204(GTX980) | GM200 | GP104 | GP100 | |
---|---|---|---|---|---|---|---|
SM당 전용 텍스처 캐시 | 48KiB | — | — | — | — | — | — |
SM당 텍스처(그래픽 또는 컴퓨팅) 또는 읽기 전용 데이터(컴퓨팅 전용) 캐시 | — | 48KiB[28] | — | — | — | — | — |
SM당 프로그래머 선택 가능한 공유 메모리/L1 파티션 | 48 KiB 공유 메모리 + 16 KiB L1 캐시(디폴트)[29] | 48 KiB 공유 메모리 + 16 KiB L1 캐시(디폴트)[29] | — | — | — | — | — |
32 KiB 공유 메모리 + 32 KiB L1 캐시[29] | 32 KiB 공유 메모리 + 32 KiB L1 캐시[29] | ||||||
16 KiB 공유 메모리 + 48 KiB L1 캐시[29] | 16 KiB 공유 메모리 + 48 KiB L1 캐시[29] | ||||||
SM당 유니파이드 L1 캐시/텍스트 캐시 | — | — | 48KiB[30] | 48KiB[30] | 48KiB[30] | 48KiB[30] | 24 KiB[30] |
SM당 전용 공유 메모리 | — | — | 96 KiB[30] | 96 KiB[30] | 96 KiB[30] | 96 KiB[30] | 64 KiB[30] |
칩당 L2 캐시 | 512 KiB[30] | 1536 KiB[30] | 1792 KiB[31] | 2048 KiB[31] | 3072 KiB[30] | 2048 KiB[30] | 4096 KiB[30] |
성능
GFLOPS에서 Pascal GPU의 이론적인 단정도 처리능력은 2X(사이클당 CUDA 코어당 FMA 명령당 연산) × CUDA 코어 수 × 코어 클럭 속도(GHz)로 계산된다.
이론적으로 Pascal GPU의 배정밀 처리능력은 Nvidia GP100의 단정도 퍼포먼스의 1/2이며 Nvidia GP102, GP104, GP106, GP107 및 GP108의 1/32입니다.
Pascal GPU의 이론적인 반정밀 처리능력은 GP100의[12] 2배, GP104, GP106, GP107,[18] GP108의 1/64입니다.
후계자
Pascal 아키텍처는 2017년 HPC, 클라우드 컴퓨팅, 자율주행차 시장에서 볼타가, 2018년 소비자 [32]및 비즈니스 시장에서 튜링이 각각 승계했다.
「 」를 참조해 주세요.
레퍼런스
- ^ "NVIDIA 7nm Next-Gen-GPUs To Be Built By TSMC". Wccftech. 24 June 2018. Retrieved 6 July 2019.
- ^ "Samsung to Optical-Shrink NVIDIA "Pascal" to 14 nm". Retrieved August 13, 2016.
- ^ "Accelerating The Real-Time Ray Tracing Ecosystem: DXR For GeForce RTX and GeForce GTX". NVIDIA.
- ^ "Ray Tracing Comes to Nvidia GTX GPUs: Here's How to Enable It". 11 April 2019.
- ^ a b "NVIDIA GeForce GTX 1080" (PDF). International.download.nvidia.com. Retrieved 2016-09-15.
- ^ Gupta, Sumit (2014-03-21). "NVIDIA Updates GPU Roadmap; Announces Pascal". Blogs.nvidia.com. Retrieved 2014-03-25.
- ^ "Parallel Forall". NVIDIA Developer Zone. Devblogs.nvidia.com. Archived from the original on 2014-03-26. Retrieved 2014-03-25.
- ^ "NVIDIA Tesla P100" (PDF). International.download.nvidia.com. Retrieved 2016-09-15.
- ^ "Inside Pascal: NVIDIA's Newest Computing Platform". 2016-04-05.
- ^ Denis Foley (2014-03-25). "NVLink, Pascal and Stacked Memory: Feeding the Appetite for Big Data". nvidia.com. Retrieved 2014-07-07.
- ^ "NVIDIA's Next-Gen Pascal GPU Architecture to Provide 10X Speedup for Deep Learning Apps". The Official NVIDIA Blog. Retrieved 23 March 2015.
- ^ a b Smith, Ryan (2015-04-05). "NVIDIA Announces Tesla P100 Accelerator - Pascal GP100 Power for HPC". AnandTech. Retrieved 2016-05-27.
Each of those SMs also contains 32 FP64 CUDA cores - giving us the 1/2 rate for FP64 - and new to the Pascal architecture is the ability to pack 2 FP16 operations inside a single FP32 CUDA core under the right circumstances
- ^ a b c Smith, Ryan (July 20, 2016). "The NVIDIA GeForce GTX 1080 & GTX 1070 Founders Editions Review: Kicking Off the FinFET Generation". AnandTech. p. 9. Retrieved July 21, 2016.
- ^ a b c d e Smith, Ryan (July 20, 2016). "The NVIDIA GeForce GTX 1080 & GTX 1070 Founders Editions Review: Kicking Off the FinFET Generation". AnandTech. p. 10. Retrieved July 21, 2016.
- ^ "GTX 1080 Graphics Card". GeForce. Retrieved 2016-09-15.
- ^ Carbotte, Kevin (2016-05-17). "Nvidia GeForce GTX 1080 Simultaneous Multi-Projection & Async Compute". Tomshardware.com. Retrieved 2016-09-15.
- ^ "Nvidia Pascal HDCP 2.2". Nvidia Hardware Page. Retrieved 2016-05-08.
- ^ a b Smith, Ryan (July 20, 2016). "The NVIDIA GeForce GTX 1080 & GTX 1070 Founders Editions Review: Kicking Off the FinFET Generation". AnandTech. p. 5. Retrieved July 21, 2016.
- ^ Smith, Ryan (July 20, 2016). "The NVIDIA GeForce GTX 1080 & GTX 1070 Founders Editions Review: Kicking Off the FinFET Generation". AnandTech. p. 4. Retrieved July 21, 2016.
- ^ Harris, Mark (April 5, 2016). "Inside Pascal: NVIDIA's Newest Computing Platform". Parallel Forall. Nvidia. Retrieved June 3, 2016.
- ^ "NVIDIA TITAN Xp Graphics Card with Pascal Architecture". NVIDIA.
- ^ "NVIDIA TITAN X Graphics Card with Pascal". GeForce. Retrieved 2016-09-15.
- ^ "New Quadro Graphics Built on Pascal Architecture". NVIDIA. Retrieved 2016-09-15.
- ^ "Accelerating Data Center Workloads with GPUs". NVIDIA. Retrieved 2016-09-15.
- ^ "NVIDIA GeForce 10 Series Graphics Cards".
- ^ "NVIDIA GeForce GTX 1060 to be released on July 7th". VideoCardz.com. 29 June 2016. Retrieved 2016-09-15.
- ^ "GTX 1060 Graphics Cards". GeForce. Retrieved 2016-09-15.
- ^ Smith, Ryan (November 12, 2012). "NVIDIA Launches Tesla K20 & K20X: GK110 Arrives At Last". AnandTech. p. 3. Retrieved July 24, 2016.
- ^ a b c d e f Nvidia (September 1, 2015). "CUDA C Programming Guide". Retrieved July 24, 2016.
- ^ a b c d e f g h i j k l m n o Triolet, Damien (May 24, 2016). "Nvidia GeForce GTX 1080, le premier GPU 16nm en test !". Hardware.fr (in French). p. 2. Retrieved July 24, 2016.
- ^ a b Smith, Ryan (January 26, 2015). "GeForce GTX 970: Correcting The Specs & Exploring Memory Allocation". AnandTech. p. 1. Retrieved July 24, 2016.
- ^ "NVIDIA Turing Release Date". Techradar. 2 February 2021.