SXM (소켓)
SXM (socket)![]() |
SXM은 Nvidia Compute Accelerators를 시스템에 연결하기 위한 고대역폭 소켓 솔루션입니다.P100 모델, DGX 컴퓨터 시리즈 및 HGX 보드 이후 각 세대의 Nvidia Tesla에는 대응하는 GPU [1]도터 카드로 고대역폭, 전력 공급 등을 실현하는 SXM 소켓 타입이 탑재되어 있습니다.Nvidia는 DGX 시스템 시리즈 모델 등 최종 사용자 제품으로 이러한 조합을 제공합니다.현재 소켓 세대는 Pascal 기반 GPU용 SXM, Volta 기반 GPU용 SXM2 및 SXM3, 암페어 기반 GPU용 SXM4, 호퍼 기반 GPU용 SXM5입니다.이러한 소켓은 이러한 액셀러레이터의 특정 모델에 사용되며 PCIe [1]등가 모델보다 카드당 높은 성능을 제공합니다.DGX-1 시스템은 원래 SXM-2 소켓을 탑재하고 있었기 때문에 처음에는 P100 GPU를 탑재한 폼팩터 호환 SXM 모듈을 탑재할 수 있었습니다.이후 V100 GPU를 [2][3]탑재한 SXM2 모듈로의 업그레이드(또는 프리장착)가 가능하게 되었습니다.
SXM 보드는 보통 4개 또는 8개의 GPU 슬롯으로 구성되지만 Nvidia DGX-2 등의 일부 솔루션은 여러 보드를 연결하여 고성능을 제공합니다.SXM 보드용 서드파티 솔루션은 존재하지만 Supermicro 등의 대부분의 시스템 인테그레이터는 4소켓 또는 8소켓 구성의 [4]Nvidia HGX 보드를 사용합니다.이 솔루션은 SXM 기반의 GPU 서버의 비용과 난이도를 대폭 낮추고 같은 세대의 모든 보드에 호환성과 신뢰성을 보장합니다.
의 SXM 모듈.HGX 보드(특히 최신 세대)는 NVLink 스위치를 사용하여 GPU-GPU 간 통신을 고속화할 수 있습니다.이것에 의해, 통상의 CPU나 PCIe에 [1][5]있는 것과 같이, 보틀 넥이 경감됩니다.도터 카드의 GPU는 NVLink를 메인 통신 프로토콜로 사용하고 있을 뿐입니다.예를 들어 Hopper 기반의 H100 SXM5 기반 GPU는 18개의 NVLink 4 채널에서 최대 900GB/s의 대역폭을 사용할 수 있으며,[6] 각 채널은 50GB/s의 대역폭을 제공합니다.이는 x16 슬롯 내에서 [7]최대 64GB/s의 대역폭을 처리할 수 있는 PCIe 5.0과 비교됩니다.또한 이 고대역폭은 GPU가 NVLink 버스를 통해 메모리를 공유할 수 있음을 의미하며, HGX 보드 전체가 하나의 [8]대용량 GPU로 호스트 시스템에 표시할 수 있습니다.
전원 공급도 SXM 소켓에 의해 처리되므로 PCIe 동등 카드에 필요한 외부 전원 케이블이 필요하지 않습니다.이를 수평 마운트와 조합하여 냉각 옵션을 더욱 효율적으로 사용할 수 있으며, SXM 기반의 GPU를 훨씬 더 높은 TDP로 동작시킬 수 있습니다.예를 들어 Hopper 기반의 H100은 SXM [9]소켓만으로 최대 700W의 전력을 공급할 수 있습니다.또, 케이블 접속이 없기 때문에, 대규모 시스템의 조립과 수리가 훨씬 쉬워져,[1] 장해 발생 가능성도 줄어듭니다.
초기 Nvidia Tegra 자동차 대상 평가 보드인 'Drive PX2'는 카드 양쪽에 MXM(모바일 PCI Express Module) 소켓이 2개 있었는데, 이 듀얼 MXM 디자인은 Nvidia Tesla의 SXM 소켓 구현의 이전 모델이라고 할 수 있습니다.
DGX에서 [10][11][12]사용되는 액셀러레이터 비교:
액셀러레이터 |
---|
H100 |
A100 80 GB |
A100 40 GB |
V100 32 GB |
V100 16 GB |
P100 |
아키텍처 | 소켓 | FP32 쿠다 코어 | FP64 코어 (텐서 제외) | 혼재 INT32/FP32 코어 | INT32 코어 | 부스트 시계 | 기억 시계 | 기억 버스 폭 | 기억 대역폭 | VRAM | 싱글 정확 (FP32) | 이중 정확 (FP64) | INT8 (텐서 제외) | INT8 조밀 텐서 | INT32 | FP16 | FP16 조밀 텐서 | 플로트 16 조밀 텐서 | 텐서플로트-32 (TF32) 조밀 텐서 | FP64 조밀 텐서 | 상호 접속 (NVLINK) | GPU | L1 캐시 크기 | L2 캐시 크기 | TDP | GPU 다이 사이즈 | 트랜지스터 세어보세요 | 제조 공정 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
호퍼 | SXM5 | 16896 | 4608 | 16896 | 없음 | 1780MHz | 4.8 기가비트/초 HBM3 | 5120 비트 | 3072 GB/초 | 80 GB | 60 TFLOP | 30 TFLOP | 없음 | TOP 4000개 | 없음 | 없음 | 2000 TFLOP | 2000 TFLOP | 1000 TFLOP | 60 TFLOP | 900 GB/초 | GH100 | 25344KB(192KBx132) | 51200 KB | 700 W | 814mm2 | 80B | TSMC 4 nm N4 |
암페어 | SXM4 | 6912 | 3456 | 6912 | 없음 | 1410MHz | 3.2 기가비트/초 HBM2 | 5120 비트 | 2039 GB/초 | 80 GB | 19.5 TFLOP | 9.7 TFLOP | 없음 | TOP 624개 | 19.5 TOP | 78 TFLOP | 312 TFLOP | 312 TFLOP | 156 TFLOP | 19.5 TFLOP | 600 GB/초 | GA100 | 20736KB(192KBx108) | 40960 KB | 400 W | 826mm2 | 542B | TSMC 7 nm N7 |
암페어 | SXM4 | 6912 | 3456 | 6912 | 없음 | 1410MHz | 2.4 기가비트/초 HBM2 | 5120 비트 | 1555 GB/초 | 40 GB | 19.5 TFLOP | 9.7 TFLOP | 없음 | TOP 624개 | 19.5 TOP | 78 TFLOP | 312 TFLOP | 312 TFLOP | 156 TFLOP | 19.5 TFLOP | 600 GB/초 | GA100 | 20736KB(192KBx108) | 40960 KB | 400 W | 826mm2 | 542B | TSMC 7 nm N7 |
볼타 | SXM3 | 5120 | 2560 | 없음 | 5120 | 1530MHz | 1.75 Gbit/s HBM2 | 4096비트 | 900 GB/초 | 32 GB | 15.7 TFLOP | 7.8 TFLOP | 상위 62개 | 없음 | 15.7 TOP | 31.4 TFLOP | 125 TFLOP | 없음 | 없음 | 없음 | 300 GB/초 | GV100 | 10240KB(128KBx80) | 6144 KB | 350W | 815mm2 | 21.1B | TSMC 12 nm FFN |
볼타 | SXM2 | 5120 | 2560 | 없음 | 5120 | 1530MHz | 1.75 Gbit/s HBM2 | 4096비트 | 900 GB/초 | 16 GB | 15.7 TFLOP | 7.8 TFLOP | 상위 62개 | 없음 | 15.7 TOP | 31.4 TFLOP | 125 TFLOP | 없음 | 없음 | 없음 | 300 GB/초 | GV100 | 10240KB(128KBx80) | 6144 KB | 300W | 815mm2 | 21.1B | TSMC 12 nm FFN |
파스칼 | SXM | 없음 | 1792 | 3584 | 없음 | 1480MHz | 1.4 기가비트/초 HBM2 | 4096비트 | 720 GB/초 | 16 GB | 10.6 TFLOP | 5.3 TFLOP | 없음 | 없음 | 없음 | 21.2 TFLOP | 없음 | 없음 | 없음 | 없음 | 160 GB/초 | GP100 | 1344KB(24KBx56) | 4096 KB | 300W | 610 mm2 | 153 B | TSMC 16 nm FinFET+ |
레퍼런스
- ^ a b c d Proud, Matt. "Achieving Maximum Compute Throughput: PCIe vs. SXM2". The Next Platform. Retrieved 2022-03-31.
- ^ https://images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf[베어 URL PDF]
- ^ https://images.nvidia.com/content/technologies/deep-learning/pdf/DGX-1-UserGuide.pdf[베어 URL PDF]
- ^ servethehome (2020-05-14). "NVIDIA A100 4x GPU HGX Redstone Platform". ServeTheHome. Retrieved 2022-03-31.
- ^ "NVLink & NVSwitch for Advanced Multi-GPU Communication". NVIDIA.
- ^ "Nvidia's H100 – What It Is, What It Does, and Why It Matters". Data Center Knowledge News and analysis for the data center industry. 2022-03-23. Retrieved 2022-03-31.
- ^ "Is PCIe 5.0 Worth It? The Benefits of PCIe 5.0 (2022)". www.techreviewer.com. Retrieved 2022-03-31.
- ^ "NVIDIA HGX A100: Powered by A100 GPUs and NVSwitch". NVIDIA. Retrieved 2022-03-31.
- ^ "NVIDIA H100 GPU full details: TSMC N4, HBM3, PCIe 5.0, 700W TDP, more". TweakTown. 2022-03-23. Retrieved 2022-03-31.
- ^ Smith, Ryan (March 22, 2022). "NVIDIA Hopper GPU Architecture and H100 Accelerator Announced: Working Smarter and Harder". AnandTech.
- ^ Smith, Ryan (May 14, 2020). "NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator". AnandTech.
- ^ "NVIDIA Tesla V100 tested: near unbelievable GPU power". TweakTown. September 17, 2017.
외부 링크
- Erlangen National High Performance Computing Center 페이지에는 컴퓨터 노드당 4배속 및 8배속 A100이 탑재되어 있으며 스위치토폴로지 덤프도 표시됩니다.