NVLink
NVLink![]() | |
제조원 | 엔비디아 |
---|---|
유형 | 멀티 GPU 및 CPU 테크놀로지 |
전임자 | 스케일러블 링크인터페이스 |
NVLink는 Nvidia가 개발한 와이어 기반의 시리얼 멀티 레인 근거리 통신 링크입니다.PCI Express와 달리 디바이스는 여러 개의 NVLink로 구성될 수 있으며 디바이스는 중앙 허브 대신 메시 네트워킹을 사용하여 통신합니다.이 프로토콜은 2014년 3월에 처음 발표되었으며 독점적인 고속 신호 상호 연결(NVHS)[1]을 사용합니다.
원칙
NVLink는 Nvidia가 개발한 근거리 반도체 통신용 와이어 기반 통신 프로토콜로 CPU와 GPU 간 프로세서 시스템에서 데이터 및 제어 코드 전송에 사용할 수 있습니다.NVLink는 데이터 레이트가 20, 25 및 50 Gbit/s(v1.0/v2.0/v3.0 response)인 포인트 투 포인트 접속을 지정합니다.8개의 차동 쌍이 "하위 링크"를 형성하고, 2개의 "하위 링크"가 각 방향에 대해 하나씩 "링크"를 형성합니다.서브링크의 총 데이터 레이트는 25 GByte/s, 링크의 총 데이터 레이트는 50 GByte/s입니다.각 V100 GPU는 최대 6개의 링크를 지원합니다.따라서 각 GPU는 최대 300GB/s의 쌍방향 [2][3]대역폭을 지원할 수 있습니다.지금까지 소개된 NVLink 제품은 고성능 애플리케이션 공간에 초점을 맞춥니다.2020년 5월 14일 발표된 NVLink 3.0은 차동 쌍당 데이터 속도를 25Gbit/s에서 50Gbit/s로 높이고 NVLink당 페어 수를 8개에서 4개로 절반으로 줄였습니다.암페어 베이스의 A100 GPU에 12개의 링크를 사용하면 총 대역폭이 600GB/[4]초에 도달합니다.Hopper는 18개의 NVLink 4.0 링크를 통해 총 900GB/[5]초의 대역폭을 지원합니다.
성능
다음 표에서는 표준 사양에 따른 기본 메트릭 비교를 보여 줍니다.
상호 접속 | 갈아타다 평가하다 | 라인코드 | 유효 페이로드 레이트 차선마다 방향당 | 최대합계 차선 길이 (PCIe: PCB의 경우 5인치 포함) | 설계로 실현 |
---|---|---|---|---|---|
PCIe 1.x | 2.5 GT/s | 8b/10b | 최대 0.25 GB/s | 20 인치 = 최대 51 cm | |
PCIe 2.x | 5 GT/s | 8b/10b | 최대 0.5 GB/s | 20 인치 = 최대 51 cm | |
PCIe 3.x | 8 GT/s | 128b/130b | 최대 1 GB/s | 20 인치 = 최대 51[6] cm | 파스칼, 볼타 튜링 |
PCIe 4.0 | 16 GT/s | 128b/130b | 최대 2 GB/s | 8-12인치 = 최대 20~30cm[6] | 볼타 온 자비에르 (8x, 4x, 1x), 암페어 파워 9 |
PCIe 5.0 | 32 GT/s[7] | 128b/130b | 최대 4 GB/s | 호퍼 | |
PCIe 6.0 | 64 GT/s | 128b/130b | 최대 8 GB/s | ||
NVLink 1.0 | 20 기가비트/초 | 최대 2.5 GB/s | 파스칼, 파워 8 이상 | ||
NVLink 2.0 | 25 기가비트/초 | 최대 3.125 GB/s | 볼타 NVSwitch for Volta 파워 9 | ||
NVLink 3.0 | 50 기가비트/초 | 최대 6.25 GB/s | 암페어 암페어용 NVSwitch | ||
NVLink 4.0 | 50 기가비트/초 | 최대 6.25 GB/s | 호퍼 Nvidia Grace 데이터센터/서버 CPU 호퍼용 NVSwitch |
다음 표는 NVLink를 옵션 중 하나로 제공하는 실제 반도체의 관련 버스 매개변수를 비교한 것입니다.
반도체 | 보드/버스 전달 변이체 | 상호 접속 | 전송 테크놀로지 레이트(레인 단위) | 차선 수: 서브링크 (출력 + 입력) | 서브링크 데이터 레이트 (데이터 방향별) | 서브링크 또는 유닛 세어보세요 | 합계 데이터 레이트 (출력 + 입력) | 총 차선 (출력 + 입력) | 총 데이터 레이트 (출력 + 입력) |
---|---|---|---|---|---|---|---|---|---|
Nvidia GP100 | P100 SXM,[8] P100 PCI-E[9] | PCIe 3.0 | GT/s | 816 + 16Ω | 128 Gbit/s = 16 Gbyte/s | 1 | 016 + 016 GByte/초[10] | 32Ω | 032 GB/초 |
Nvidia GV100 | V100 SXM2,[11] V100 PCI-E[12] | PCIe 3.0 | GT/s | 816 + 16Ω | 128 Gbit/s = 16 Gbyte/s | 1 | 016 + 016 GByte/초 | 32Ω | 032 GB/초 |
Nvidia TU104 | GeForce RTX 2080, Quadro RTX 5000 | PCIe 3.0 | GT/s | 816 + 16Ω | 128 Gbit/s = 16 Gbyte/s | 1 | 016 + 016 GByte/초 | 32Ω | 032 GB/초 |
Nvidia TU102 | GeForce RTX 2080Ti, Quadro RTX 6000/8000 | PCIe 3.0 | GT/s | 816 + 16Ω | 128 Gbit/s = 16 Gbyte/s | 1 | 016 + 016 GByte/초 | 32Ω | 032 GB/초 |
Nvidia Xavier[13] | (표준) | PCIe 4.0Ω 2 유닛: x8 (표준) 1 유닛: x4 (표준) 3 유닛: x1[14][15] | 16 GT/s | + 08Ω + 04Ω 1 + 1 | 128 Gbit/s = 16 Gbyte/s 64 Gbit/s = GByte/s 16 Gbit/s = Gbyte/s | Ⓓ 2 1 3 | Ⓓ 032 + 032 GByte/초 8 + 8 GByte/s + GB / s | 40Ω | 80 GB/s |
IBM Power9[16] | (표준) | PCIe 4.0 | 16 GT/s | 16 + 16Ω | 256 Gbit/s = 32 Gbyte/s | 3 | 096 + 096 GByte/초 | 96 | 192 GB/s |
Nvidia GA100[17][18] Nvidia GA102[19] | 암페어 A100 (SXM4 및 PCIe[20]) | PCIe 4.0 | 16 GT/s | 16 + 16Ω | 256 Gbit/s = 32 Gbyte/s | 1 | 032 + 032 GByte/초 | 32Ω | 064 GB/초 |
Nvidia GP100 | P100 SXM, (P100 PCI-E에서는 [21]이용 불가) | NVLink 1.0 | 20 GT/s | + 08Ω | 160 Gbit/s = 20 Gbyte/s | 4 | 080 + 080 GByte/초 | 64 | 160 GB/s |
Nvidia Xavier | (표준) | NVLink 1.0[13] | 20 GT/s[13] | + 08Ω | 160 Gbit/s = 20 Gbyte/s[22] | ||||
IBM Power8+ | (표준) | NVLink 1.0 | 20 GT/s | + 08Ω | 160 Gbit/s = 20 Gbyte/s | 4 | 080 + 080 GByte/초 | 64 | 160 GB/s |
Nvidia GV100 | V100 SXM2[23] (V100 PCI-E에서는 이용 불가) | NVLink 2.0 | 25 GT/s | + 08Ω | 200 Gbit/s = 25 Gbyte/s | 6개[24] | 150 + 150 GB / s | 96 | 300 GB/s |
IBM Power9[25] | (표준) | NVLink 2.0 (BlueLink 포트) | 25 GT/s | + 08Ω | 200 Gbit/s = 25 Gbyte/s | 6 | 150 + 150 GB / s | 96 | 300 GB/s |
스위치 Volta의[26] 경우 | (표준) (완전 연결 18x18 스위치) | NVLink 2.0 | 25 GT/s | + 08Ω | 200 Gbit/s = 25 Gbyte/s | 2 * 8 + 2 = 18 | 450 GB/s + 450 GB/s | 288 | 900 GB/s |
Nvidia TU104 | GeForce RTX 2080, Quadro RTX 5000[27] | NVLink 2.0 | 25 GT/s | + 08Ω | 200 Gbit/s = 25 Gbyte/s | 1 | 025 + 025 GByte/초 | 16 | 050 GB/초 |
Nvidia TU102 | GeForce RTX 2080Ti, Quadro RTX 6000/8000[27] | NVLink 2.0 | 25 GT/s | + 08Ω | 200 Gbit/s = 25 Gbyte/s | 2 | 050 + 050 GByte/초 | 32 | 100 GB/s |
Nvidia GA100[17][18] | 암페어 A100 (SXM4 및 PCIe[20]) | NVLink 3.0 | 50 GT/s | + 04Ω | 200 Gbit/s = 25 Gbyte/s | 12개[28] | 300 GB/s + 300 GB/s | 96 | 600 GB/s |
Nvidia GA102[19] | 지포스 RTX 3090 Quadro RTX A6000 | NVLink 3.0 | 28.125 GT/s | + 04Ω | 112.5 Gbit/s = 14.0625 GByte/s | 4 | 56.25 + 56.25 GByte/초 | 16 | 112.5 GB/s |
스위치 암페어용[29] | (표준) (완전 연결 18x18 스위치) | NVLink 3.0 | 50 GT/s | + 08Ω | 400 Gbit/s = 50 Gbyte/s | 2 * 8 + 2 = 18 | 900 GB/s + 900 GB/s | 288 | 1800 GB/초 |
주의: 데이터 레이트 열은 전송 레이트로 근사하여 반올림했습니다.실제 퍼포먼스 단락을 참조하십시오.
- ⓐ: 샘플값, NVLink 서브링크번들 가능
- δ: 샘플 값. PCIe 레인 사용의 다른 분수가 가능해야 합니다.
- ⓒ: 1개의 PCIe 레인(16개 없음)으로 차동 쌍으로 데이터 전송
- ⓓ : 칩핀의 혼합과 보드 설계로 인해 최종적으로 가능한 조합의 다양한 제한이 적용될 수 있습니다.
- 듀얼: 인터페이스 유닛은 루트 허브 또는 엔드 포인트로 설정할 수 있습니다.
- 범용: 보드 설계 고유의 제약이 적용되지 않은 베어 반도체
실제 성능은 다른 캡슐화 세금과 사용률을 적용하여 확인할 수 있습니다.이것들은 다양한 소스로부터 얻을 수 있습니다.
- 128b/130b 라인코드(예를 들어 버전 3.0 이후의 PCI Express 데이터 전송 참조)
- 링크 제어 문자
- 트랜잭션 헤더
- 버퍼링 기능(디바이스에 따라 다름)
- 컴퓨터 측에서의 DMA 사용(다른 소프트웨어에 의존하며 보통 벤치마크에 의존하지 않음)
이러한 물리적인 제한에 의해, 통상, 데이터 레이트는 전송 레이트의 90~95%로 저하됩니다.NVLink 벤치마크에서는 IBM Power8 CPU [30]세트에 의해 구동되는 시스템의 P100 GPU에 대한 40 Gbit/s(2개의 서브 랜 업링크) NVLink 연결의 약 35.3 Gbit/s(호스트에서 디바이스로)의 달성 가능한 전송 속도를 보여 줍니다.
플러그인 보드에서의 사용
NVLink 그룹에 가입하기 위한 추가 커넥터를 공개하는 플러그인 보드의 다양한 버전(이 기능을 갖춘 하이엔드 게임용 및 프로페셔널 그래픽스 GPU 보드도 일부 있음)의 경우, 비슷한 수의 약간 다른 비교적 컴팩트한 PCB 기반 상호 연결 플러그가 존재합니다.일반적으로 물리적이고 논리적인 설계로 인해 같은 유형의 보드만 조합됩니다.일부 설정의 경우 전체 데이터 속도를 달성하려면 동일한 플러그 두 개를 사용해야 합니다.현재 일반적인 플러그는 U자형이며 뷰어에서 떨어진 형상의 각 단부 스트로크에 가는 그리드 가장자리 커넥터가 있습니다.플러그의 폭은, 플러그 인 카드를 호스트 컴퓨터 시스템의 메인 보드에 장착할 필요가 있는 거리를 결정합니다.카드 설치 거리는, 일반적으로 일치하는 플러그에 의해서 결정됩니다(이용 가능한 플러그의 폭은 3 ~5 슬롯이며, 보드 [31][32]타입에 의해서도 다릅니다).인터커넥트는 구조 설계와 외관 때문에 2004년부터 SLI(Scalable Link Interface)로 불리기도 합니다.이는 현대의 NVLink 기반 설계가 이전 설계와 비교했을 때 기본적인 수준의 특징이 상당히 다르더라도 마찬가지입니다.보고된 실제 디바이스는 다음과 같습니다.[33]
- Quadro GP100 (카드 쌍은 최대 2개의 [34]브릿지를 사용합니다.최대 160 GB/s의[35] NVLink 접속을 2개 또는 4개 실현합니다.이것은 20 GT/s의 NVLink 1.0과 유사할 수 있습니다)
- Quadro GV100 (카드 쌍에는 최대 2개의 브릿지가 필요하며 최대 200 GB/s를[31] 실현합니다.25 GT/s 및4개의 링크가 있는 NVLink 2.0과 유사할 수 있습니다)
- TU104 기반 GeForce RTX 2080 (싱글브릿지 'GeForce RTX NVLink-Bridge'[36] 탑재)
- TU102 기반 GeForce RTX 2080 Ti (싱글브릿지 'GeForce RTX NVLink-Bridge'[32] 탑재)
- TU104를[38] 기반으로 한 Quadro RTX 5000[37] (싱글브릿지 'NVLink'는 최대 50GB[39]/s - 25GT/s 및 1링크의 NVLink 2.0과 유사할 수 있음)
- TU102 기반의[38] Quadro RTX 6000[37] (싱글브릿지 'NVLink HB'를 최대 100 GB/s까지[39] 탑재 가능 - 25 GT/s 및2 링크의 NVLink 2.0과 유사할 수 있음)
- TU102[40] 기반 Quadro RTX 8000[37] (싱글브릿지 'NVLink HB' 최대 100 GB/s[39] - 25 GT/s 및2 링크의 NVLink 2.0과 유사할 수 있음)
서비스 소프트웨어 및 프로그래밍
Tesla, Quadro 및 Grid 제품 라인의 경우 NVML-API(Nvidia Management Library API)는 Windows 및 Linux 시스템에서 NVLink 인터커넥트의 일부 측면(상태/오류 쿼리 및 성능 [41]모니터링과 함께 컴포넌트 평가 및 버전 등)을 프로그래밍 방식으로 제어하는 일련의 기능을 제공합니다.또한, NCCL 라이브러리(Nvidia Collective Communications Library)의 제공으로 개발자는 [42]NVLink 위에서 인공지능 및 유사한 컴퓨팅에 대한 강력한 구현을 실현할 수 있어야 한다.Nvidia 제어판과 CUDA 샘플 어플리케이션 "simpleP2"의 "3D Settings" 페이지 » "Configure SLI, Surround, PhysX"P"는 이러한 API를 사용하여 NVLink 기능에 관한 서비스를 실현합니다.Linux 플랫폼에서는 "nvidia-smi nvlink" 서브커맨드를 사용한 명령줄 어플리케이션에서도 동일한 고도의 정보와 [33]제어가 제공됩니다.
역사
2016년 4월 5일, NVLink는 예를 들어 NVIDIA Tesla P100 [43]제품에 사용되는 파스칼 마이크로아키텍처 기반의 GP100 GPU에 구현될 것이라고 발표했습니다.DGX-1 하이 퍼포먼스 컴퓨터 베이스의 도입에 의해, 1대의 랙 시스템에 최대 8대의 P100 모듈을 최대 2대의 호스트 CPU에 접속할 수 있게 되었습니다.캐리어 보드(...)에서는 NVLink 접속을 라우팅하기 위한 전용 보드를 사용할 수 있습니다.각 P100에는 800핀, PCIe+전원 400핀, NVLink에 400핀이 필요합니다.NVLink에만 최대 1600개의 보드 트레이스를 추가할 수 있습니다(...).[44]각 CPU는 PCIe 경유로 P100의 4유닛에 직접 접속되어 있으며, 각 P100은 같은 CPU 그룹 내의 다른 3개의 P100에 대해 각각1개의 NVLink와 다른 CPU 그룹의 1개의 P100에 대해1개의 NVLink를 가지고 있습니다.각 NVLink(링크 인터페이스)는 GP100 GPU당 4개의 링크를 통해 최대 20GB/초의 양방향 20GB/초의 다운을 제공하며 총 대역폭은 80GB/초의 업과 80GB/[45]초의 다운을 실현합니다.NVLink는 모든 P100의 DGX-1 설계에서 다른 7개의 P100 중 총 4개가 직접 도달 가능하며 나머지 3개는 1개의 홉만으로 도달할 수 있도록 루팅을 지원합니다.Nvidia의 블로그 기반 출판물의 설명에 따르면 2014년부터 NVLink는 포인트 투 포인트 성능을 높이기 위해 개별 링크를 번들할 수 있게 되었습니다. 예를 들어, 2개의 P100과 2개의 유닛 사이에 설정된 모든 링크가 있는 설계에서는 NVLink 대역폭이 80GB/s로 [46]모두 허용됩니다.
GTC2017에서 Nvidia는 Volta 세대의 GPU를 발표하여 NVLink의 개정판 2.0의 통합에 대해 언급하였으며, 이 설계의 단일 칩에 대해 총 300 GB/s의 I/O 데이터 레이트를 실현하는 것을 목표로 한 사전 주문 옵션을 추가로 발표하였습니다.또, DGX-1의 2017년 3분기 및 DG의 납기를 약속합니다.는 V100 타입의 GPU 모듈을 탑재하여 NVLink 2.0을 네트워크 (그룹 간 접속을 가진4개의 V100 모듈로 이루어진2개의 그룹)또는 4개의 V100 모듈로 이루어진1개의 그룹간의 완전 상호 접속 방식 중 하나로 실현합니다.
2017-2018년에 IBM과 Nvidia는 IBM의 POWER9 CPU 제품군 및 Nvidia의 Volta 아키텍처를 결합한 Summit 및 Sierra 슈퍼컴퓨터를 미국 에너지부에[47] 제공했으며, CPU-GPU 및 GPU-GPU 인터커넥트에는 NVLink 2.0을, 상호 [48]연결 시스템에는 InfiniBand EDR을 사용했습니다.
2020년부터 Nvidia는 2021년 [49]1월 1일부터 RTX 2000 시리즈 이상에 새로운 SLI 드라이버 프로파일을 추가하지 않겠다고 발표했습니다.
「 」를 참조해 주세요.
레퍼런스
- ^ Nvidia NVLINK 2.0은 Jon Worrel이 2016년 8월 24일 fudzilla.com에서 IBM 서버에 제공
- ^ "NVIDIA DGX-1 With Tesla V100 System Architecture" (PDF).
- ^ "What Is NVLink?". Nvidia. 2014-11-14.
- ^ Ryan Smith (May 14, 2020). "NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator". AnandTech.
- ^ Jacobs, Blair (2022-03-23). "Nvidia reveals next-gen Hopper GPU architecture". Club386. Retrieved 2022-05-04.
- ^ a b "PCIe - PCI Express (1.1 / 2.0 / 3.0 / 4.0 / 5.0)". www.elektronik-kompendium.de.
- ^ January 2019, Paul Alcorn 17 (17 January 2019). "PCIe 5.0 Is Ready For Prime Time". Tom's Hardware.
- ^ online, heise. "NVIDIA Tesla P100 [SXM2], 16GB HBM2 (NVTP100-SXM) heise online Preisvergleich / Deutschland". geizhals.de.
- ^ online, heise. "PNY Tesla P100 [PCIe], 16GB HBM2 (TCSP100M-16GB-PB/NVTP100-16) ab € 4990,00 (2020) heise online Preisvergleich / Deutschland". geizhals.de.
- ^ 2016년 5월 4일 nextplatform.com에서 NVLink가 Timothy Prickett Morgan에 의해 GPU 가속도를 한 단계 높였습니다.
- ^ "NVIDIA Tesla V100 SXM2 16 GB Specs". TechPowerUp.
- ^ online, heise. "PNY Quadro GV100, 32GB HBM2, 4x DP (VCQGV100-PB) ab € 10199,00 (2020) heise online Preisvergleich / Deutschland". geizhals.de.
- ^ a b c Tegra Xavier - Nvidia wikichip.org
- ^ JETSON AGX XAVIER PLATFORM 적응 및 기동 가이드 (14페이지) "Tegra194 PCIe 컨트롤러 기능" (arrow.com에 저장)
- ^ Xavier에서 PCIe x2 슬롯을 활성화하는 방법devtalk.nvidia.com 에서
- ^ 2017년 1월 26일 Jeff Stuecheli의 Power Systems VUG용 IBM9 웨비나 프레젠테이션
- ^ a b Morgan, Timothy Prickett (May 14, 2020). "Nvidia Unifies AI Compute With "Ampere" GPU". The Next Platform.
- ^ a b "Data sheet" (PDF). www.nvidia.com. Retrieved 2020-09-15.
- ^ a b https://www.nvidia.com/content/dam/en-zz/Solutions/geforce/ampere/pdf/NVIDIA-ampere-GA102-GPU-Architecture-Whitepaper-V1.pdf[베어 URL PDF]
- ^ a b https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet.pdf[베어 URL PDF]
- ^ 2016년 6월 20일, theregister.co.uk에서 Chris Williams가 Nvidia의 Tesla P100 슈퍼컴퓨터용 PCIe 버스에 탑승했습니다.
- ^ Hicok, Gary (November 13, 2018). "NVIDIA Xavier Achieves Milestone for Safe Self-Driving NVIDIA Blog". The Official NVIDIA Blog.
- ^ online, heise. "Nvidia Tesla V100: PCIe-Steckkarte mit Volta-Grafikchip und 16 GByte Speicher angekündigt". heise online.
- ^ GTC17: NVIDIA présentiert die néchste GPU-Architectur Volta - Tesla V100 mit 5.120 Shadreinheiten und 16GB HBM2"의 GV100 Blockdiagramm. (GTC17: NVIDIA présentiert die néchste GPU-Archstekt Volta-Archste Volta-Archste - Archta Volta Volta Volta Volta Volt
- ^ Pascal P100보다 2배 빠른 Summit용 NVIDIA Volta GV100 GPU 칩– 2016년 12월 20일 Hassan Mujtaba가 wccftech.com에서 9.5 TFLOPS FP64 Compute에 히트할 것으로 예상
- ^ "Technical overview" (PDF). images.nvidia.com. Retrieved 2020-09-15.
- ^ a b Angelini, Chris (14 September 2018). "Nvidia's Turing Architecture Explored: Inside the GeForce RTX 2080". Tom's Hardware. p. 7. Retrieved 28 February 2019.
TU102 and TU104 are Nvidia’s first desktop GPUs rocking the NVLink interconnect rather than a Multiple Input/Output (MIO) interface for SLI support. The former makes two x8 links available, while the latter is limited to one. Each link facilitates up to 50 GB/s of bidirectional bandwidth. So, GeForce RTX 2080 Ti is capable of up to 100 GB/s between cards and RTX 2080 can do half of that.
- ^ "A100 PCIe: NVIDIA GA100-GPU kommt auch als PCI-Express-Variante".
- ^ "NVLINK AND NVSWITCH". www.nvidia.com. Retrieved 2021-02-07.
- ^ 2017년 1월 26일 Eliot Eshelman이 microway.com에서 NVIDIA Tesla P100 GPU를 사용한 NVLink와 PCI-E 비교
- ^ a b "NVIDIA Quadro NVLink Grafikprozessor-Zusammenschaltung in Hochgeschwindigkeit". NVIDIA.
- ^ a b "Grafik neu erfunden: NVIDIA GeForce RTX 2080 Ti-Grafikkarte". NVIDIA.
- ^ a b "NVLink on NVIDIA GeForce RTX 2080 & 2080 Ti in Windows 10". Puget Systems.
- ^ [1][데드링크]
- ^ Schilling, Andreas. "NVIDIA präsentiert Quadro GP100 mit GP100-GPU und 16 GB HBM2". Hardwareluxx.
- ^ "NVIDIA GeForce RTX 2080 Founders Edition Graphics Card". NVIDIA.
- ^ a b c "NVIDIA Quadro Graphics Cards for Professional Design Workstations". NVIDIA.
- ^ a b "NVIDIA Quadro RTX 6000 und RTX 5000 Ready für Pre-Order". October 1, 2018.
- ^ a b c "NVLink pny.com". www.pny.com.
- ^ "NVIDIA Quadro RTX 8000 Specs". TechPowerUp.
- ^ "NvLink Methods". docs.nvidia.com.
- ^ "NVIDIA Collective Communications Library (NCCL)". NVIDIA Developer. May 10, 2017.
- ^ "Inside Pascal: NVIDIA's Newest Computing Platform". 2016-04-05.
- ^ Anandtech.com
- ^ NVIDIA, 2016년 4월 anandtech.com에 의해 DGX-1 HPC 서버: 8 Teslas, 3U, 2016년 2분기 공개
- ^ 2014년 11월 14일 Mark Harris의 NVLink를 통해 빠르고 쉬운 멀티 GPU 컴퓨팅 실현 방법
- ^ "Whitepaper: Summit and Sierra Supercomputers" (PDF). 2014-11-01.
- ^ "Nvidia Volta, IBM POWER9 Land Contracts For New US Government Supercomputers". AnandTech. 2014-11-17.
- ^ "RIP: Nvidia slams the final nail in SLI's coffin, no new profiles after 2020". PC World. 2020-09-18.