Ada Lovelace (마이크로 아키텍처)
Ada Lovelace (microarchitecture)발매일 | 2022년 10월 12일( |
---|---|
트랜지스터 | 763억 |
제조 프로세스 | TSMC 4N |
역사 | |
전임자 | 암페어 |
지원 상태 | |
서포트되고 있다 |
Ada Lovelace는 간단히 Lovelace라고도 [1]불리며, 2022년 9월 20일 공식적으로 발표된 암페어 아키텍처의 후속 제품으로 Nvidia가 개발한 그래픽 처리 장치(GPU) 마이크로 아키텍처의 코드 이름입니다.그것은 종종 최초의 컴퓨터 프로그래머로 간주되고 이름과 성을 모두 포함하는 최초의 건축물로 여겨지는 영국의 수학자 에이다 러브레이스의[2] 이름을 따서 명명되었다.Nvidia는 새로운 GeForce 40 시리즈 소비자용[3] GPU 및 RTX 6000 Ada Generation 프로 워크스테이션 그래픽 카드와 함께 [4]이 아키텍처를 발표했습니다.새로운 GPU는 TSMC의 새로운 5nm "4N" 공정을 사용하는 것으로 밝혀졌습니다.이 프로세스는 엔비디아가 전 세대 암페어 [5]아키텍처에서 사용한 이전 삼성 8nm 및 TSMC N7 프로세스보다 효율성을 높였습니다.
배경
에이다 러브레이스 아키텍처는 2020년에 출시된 암페어 아키텍처의 후속입니다.Ada Lovelace 아키텍처는 Nvidia CEO Jensen Huang이 2022년 9월 20일 GTC 2022 기조연설에서 발표한 것으로, Nvidia의 GPU는 게임, 워크스테이션 및 데이터 [6]센터용입니다.
아키텍처 상세
Ada Lovelace 아키텍처의 개선된 아키텍처는 다음과 같습니다.[7]
- CUDA 컴퓨팅 기능 8[8].9
- TSMC 4N 프로세스(NVIDIA용으로 커스텀 설계) - TSMC의 일반 N4 노드와 혼동하지 말 것
- FP8, FP16, bfloat16, TensorFloat-32(TF32) 및 희소성 가속을 갖춘 4세대 텐서 코어
- 3세대 레이트레이싱 코어 및 동시 레이트레이싱과 쉐이딩 및 컴퓨팅
- 셰이더 실행 순서 변경(SER)[9]
- Nvidia 비디오 인코더/디코더(NVENC/NVDEC) (8K 10비트 60FPS AV1 고정기능 하드웨어[10][11] 인코딩 포함)
- NVLink[12] 지원 없음
스트리밍 멀티프로세서(SM)
CUDA 코어
각 SM에는 128개의 CUDA 코어가 포함되어 있습니다.
RT 코어
Ada Lovelace는 제3세대 RT 코어 탑재 RTX 4090은 128개의 RT 코어를 탑재하고 있으며 이전 세대의 RTX 3090Ti에서는 84개의 RT 코어를 탑재하고 있습니다.이 128개의 RT코어는 1개의 [13]RT코어당 1.49 TFLOPS로 최대 191 TFLOPS의 컴퓨팅을 제공할 수 있습니다.레이트레이스 파이프라인에 셰이더 실행 순서 변경(SER)이라는 새로운 단계가 Lovelace 아키텍처에 추가되었습니다.Nvidia는 이를 통해 레이트레이스 워크로드의 퍼포먼스가 [6]2배 향상된다고 주장합니다.
텐서 코어
Lovelace의 새로운 4세대 텐서 코어는 DLSS 3의 프레임 생성 기술에 사용되는 AI 기술을 가능하게 합니다.암페어와 마찬가지로 각 SM은 4개의 텐서 코어를 포함하지만, Lovelace는 SM의 수가 증가하면 전체적으로 더 많은 텐서 코어를 포함합니다.
클럭 속도
Lovelace 아키텍처는 RTX 4090의 기본 클럭 속도가 RTX 3090Ti의 부스트 클럭 속도보다 높기 때문에 클럭 속도가 크게 향상되었습니다.
RTX 2080 Ti | RTX 3090 Ti | RTX 4090 | |
---|---|---|---|
아키텍처 | 튜링 | 암페어 | 에이다 러브레이스 |
기본 클럭 속도 (MHz) | 1350 | 1560 | 2235 |
클럭 속도 향상 (MHz) | 1635 | 1860 | 2520 |
캐시 및 메모리 서브시스템
RTX 2080 Ti | RTX 3090 Ti | RTX 4090 | |
---|---|---|---|
아키텍처 | 튜링 | 암페어 | 에이다 러브레이스 |
L1 데이터 캐시 | 6.375 MB (SM당 96KB) | 10.5 MB (SM당 128KB) | 16 MB (SM당 128KB) |
L2 캐시 | 5.5 MB | 6 MB | 72 MB |
완전히 활성화된 AD102 Lovelace 다이는 암페어 기반 GA102 [14]다이의 6MB보다 16배 늘어난 96MB의 L2 캐시를 특징으로 합니다.대량의 L2 캐시에 빠르게 액세스 할 수 있는 GPU는 레이트레이스 등의 복잡한 조작이 느린 GDDR 비디오 메모리에서 데이터를 찾는 GPU에 비해 유리합니다.중요하거나 자주 액세스하는 데이터를 저장하기 위한 메모리 액세스에 대한 의존도가 낮다는 것은 대용량 L2 캐시와 함께 더 좁은 메모리 버스 폭을 사용할 수 있다는 것을 의미합니다.
각 메모리 컨트롤러는 최대 12개의 32비트 연결을 사용하여 메모리 버스 폭을 384비트로 합산합니다.Lovelace 아키텍처에서는 GDDR6 또는 GDDR6X 메모리를 사용할 수 있습니다.GDDR6X 메모리는 데스크톱 GeForce RTX 40 시리즈에 탑재되어 있으며, 전력 절약성이 뛰어난 GDDR6 메모리는 대응하는 모바일 버전 및 RTX A6000 워크스테이션 GPU에 사용되고 있습니다.
전력 효율 및 프로세스 노드
Ada Lovelace 아키텍처는 [6]이전 아키텍처에 비해 낮은 전압을 사용할 수 있습니다.Nvidia는 이전 세대의 플래그십인 RTX 3090Ti에서 [15]사용하던 450W의 전력으로 RTX 4090의 퍼포먼스가 2배 향상되었다고 주장하고 있습니다.
전력 효율의 향상은 부분적으로 Lovelace 아키텍처에서 사용되는 제조 노드의 소형화에 기인할 수 있습니다.Ada Lovelace 아키텍처는 Nvidia용 커스텀 설계 프로세스 노드인 TSMC의 최첨단 4N 프로세스를 기반으로 제작되었습니다.이전 세대 암페어 아키텍처는 암페어 [16][17]출시 시점까지 2년이 지난 2018년부터 삼성의 8nm 기반 8N 공정 노드를 사용했다.763억 개의 트랜지스터를 가진 AD102 다이는 1mm당2 1억2550만 개의 트랜지스터 밀도를 가지고 있으며, 이는 GA102의 4억510만 개의2 밀도에 비해 178% 증가한 것입니다.
미디어 엔진
Lovelace 아키텍처는 새로운 8세대 Nvidia NVENC 비디오 인코더와 Ampere가 도입한 7세대 NVDEC 비디오 디코더를 사용합니다.[18]
10비트 컬러의 60FPS에서 최대 8K 해상도를 지원하는 NVENC AV1 하드웨어 인코딩이 추가되어 H.264 및 H.265 [19]코덱에 비해 낮은 비트환율로 높은 비디오 충실도를 실현합니다.Nvidia는 Lovelace 아키텍처에 탑재된 NVENC AV1 인코더가 암페어 [20]아키텍처의 H.264 인코더보다 40% 더 효율적이라고 주장하고 있습니다.
Lovelace 아키텍처는 더 높은 디스플레이 데이터 대역폭을 지원하는 DisplayPort 2.0 연결을 지원하지 않고 대신 최대 대역폭이 [21]32Gbps로 제한된 구형 DislayPort 1.4a를 사용한다는 비판을 받았습니다.그 결과, Lovelace GPU는, GPU의 퍼포먼스가 높은 프레임 레이트에 도달할 수 있어도, DisplayPort 1.4a가 서포트하는 리프레시 레이트에 의해서 제한됩니다.2022년 10월 출시된 인텔의 아크 GPU는 디스플레이포트 2.0을 탑재했다.AMD의 경쟁 RDNA 3 아키텍처는 Lovelace가 DisplayPort 2.1을 [22]탑재한 지 불과 2개월 만에 출시되었습니다.
에이다 러브레이스 사망
칩[23] | AD102[24] | AD103[25] | AD104[26] | AD106[27] | AD107[28] |
---|---|---|---|---|---|
다이 사이즈 | 608 mm2 | 378.6mm2 | 295mm2 | 190 mm2 | 146mm2 |
트랜지스터 | 76.3B | 45.9B | 358B | 불명 | 불명 |
트랜지스터 밀도 | 125.5 MTr/mm2 | 121.1 MTr/mm2 | 121.4 MTr/mm2 | 불명 | 불명 |
그래픽스 처리 클러스터(GPC) | 12 | 7 | 5 | 3 | 2 |
스트리밍 멀티프로세서(SM) | 144 | 80 | 60 | 36 | 24 |
CUDA 코어 | 18432 | 10240 | 7680 | 4608 | 3072 |
텍스처 매핑 단위 | 576 | 320 | 240 | 144 | 96 |
출력 단위 렌더링 | 192 | 112 | 80 | 64 | 32 |
텐서 코어 | 576 | 320 | 240 | 144 | 96 |
RT 코어 | 144 | 80 | 60 | 36 | 24 |
L1 캐시 | 18 MB | 10 MB | 7.5 MB | 4.5 MB | 3 MB |
SM당 128KB | |||||
L2 캐시 | 96 MB | 64 MB | 48 MB | 32 MB |
Ada Lovelace 기반 제품
게임
- GeForce 40 시리즈
- GeForce RTX 4050 (모바일) (AD107)
- GeForce RTX 4060 (모바일) (AD107)
- GeForce RTX 4070 (모바일) (AD106)
- GeForce RTX 4070 Ti (AD104)
- GeForce RTX 4080 (모바일) (AD104)
- GeForce RTX 4080 (AD103)
- GeForce RTX 4090 (모바일) (AD103)
- GeForce RTX 4090 (AD102)
전문적인
데스크톱 워크스테이션
모델 | 시작하다 | 시작하다 MSRP (USD) | 코드명 | 다이 크기 | 핵심 설정[a] | SM 세다[b] | 캐시 | 클럭[c] 속도 | 충전률[d][e] | 기억 | 처리능력(TFLOPS) | TDP | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
L1 | L2 | 핵심 시계 (MHz) | 기억 (Gb/s) | 화소 (Gpx/s) | 식감 (Gtex/s) | 유형 | 크기 | 대역폭 (GB/초) | 버스 폭 | 반 정확 (부스트) | 싱글 정확 (부스트) | 이중 정확 (부스트) | 텐서 계산하다 [아쉬움] | |||||||||
RTX 4000 SFF 에이다 세대[29] | 2023년 3월 21일 | $1,250 | AD104-400 | 35.8 | 294.5 mm2 | 6144 192:80:48:192 | 48 | 6 MB | 48 MB | 1290 (1565) | 16 Gbps | 103.2 (125.2) | 247.68 (300.48) | GDDR6 | 20 GB | 320 | 160비트 | (19.2) | 153.4 [306.8] | 70 W | ||
RTX 6000 에이다 세대[30] | 2023년 1월 20일 | $6,799 | AD102-300 | 76.3 | 608.4 mm2 | 18,176 568:192:142:568 | 142 | 17.75 MB | 96 MB | 915 (2505) | 20 Gbps | 175.68 (480.96) | 519.72 (1,422.84) | 48 GB | 960 | 384 비트 | (91.1) | 728.5 [1457.0] | 300 W |
모바일 워크스테이션
모델 | 시작하다 | 코드명 | 다이 크기 | 핵심 설정[a] | SM 세다[b] | 캐시 | 클럭[c] 속도 | 충전률[d][e] | 기억 | 처리능력(TFLOPS) | TGP | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
L1 | L2 | 핵심 시계 (MHz) | 기억 (Gb/s) | 화소 (Gpx/s) | 식감 (Gtex/s) | 유형 | 크기 | 대역폭 (GB/초) | 버스 폭 | 반 정확 (부스트) | 싱글 정확 (부스트) | 이중 정확 (부스트) | 텐서 계산하다 [아쉬움] | ||||||||
RTX 2000 최대 Q Ada 노트북 | 2023년 3월 21일 | AD107 | 146mm2 | 3072 96:32:24:96 | 24 | 3 MB | 12 MB | 930 (1455) | 14 Gbps | 29.76 (46.56) | 89.28 (139.68) | GDDR6 | 8 GB | 224 | 128비트 | 35 W | |||||
RTX 2000 Ada 노트북 | AD106 | 1635 (2115) | 16 Gbps | 52.32 (67.68) | 156.96 (203.04) | 256 | (14.5) | 115.8 [231.6] | 35 ~ 140 W | ||||||||||||
RTX 3000 Ada 노트북 | 190 mm2 | 4608 144:48:36:144 | 36 | 4.5 MB | 32 MB | 1395 (1695) | 66.96 (81.36) | 200.88 (244.08) | (19.9) | 159.3 [318.6] | |||||||||||
RTX 3500 Ada 노트북 | AD104 | 35.8 | 294.5 mm2 | 5120 160:64:40:160 | 40 | 5 MB | 48 MB | 1290 (1665) | 18 Gbps | 82.56 (106.56) | 206.4 (266.4) | 12 GB | 432 | 192비트 | (23.0) | 184.3 [368.6] | 60 ~ 140 W | ||||
RTX 4000 Ada 노트북 | 7424 232:80:58:232 | 58 | 7.25 MB | 1290 (1665) | 103.2 (133.2) | 299.28 (386.28) | (33.6) | 269.0 [538.0] | 80 ~ 175 W | ||||||||||||
RTX 5000 Ada 노트북 | AD103 | 45.9 | 378.6mm2 | 9728 304:112:76:304 | 76 | 9.5 MB | 64 MB | 1335 (1695) | 149.52 (189.84) | 405.84 (515.28) | 16 GB | 576 | 256비트 | (42.6) | 340.9 [681.8] |
데이터 센터
모델 | 시작하다 | 시작하다 MSRP (USD) | 코드명 | 다이 크기 | 핵심 설정[a] | SM 세다[b] | 캐시 | 클럭[c] 속도 | 충전률[d][e] | 기억 | 처리능력(TFLOPS) | TBP | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
L1 | L2 | 핵심 시계 (MHz) | 기억 (MHz) | 화소 (Gpx/s) | 식감 (Gtex/s) | 유형 | 크기 | 대역폭 (GB/초) | 버스 폭 | 반 정확 (부스트) | 싱글 정확 (부스트) | 이중 정확 (부스트) | 텐서 계산하다 [아쉬움] | |||||||||
L4 | 알 수 없는 | $ | AD104----?- A1 | 35.8 | 295mm2 | 7,680 240:80:60:240 | 60 | 7.5 MB | 48 MB | 795 (2040) | 1313 | 63.6 (163.2) | 190.8 (489.6) | GDDR6X | 24 GB | 504.2 | 192비트 | 285 W | ||||
L40 [31] | 2022년 10월 13일 | $ | AD102-895-A1 | 76.3 | 608.4 mm2 | 18,176 568:192:142:568 | 142 | 17.75 MB | 96 MB | 735 (2490) | 2250 | 58.8 (199.2) | 176.4 (597.6) | GDDR6 | 48 GB | 864 | 384 비트 | 300 W | ||||
L40G | $ | AD102----?- A1 | 48 MB | 1005 (2475) | 80.4 (198.0) | 241.2 (594.0) | 24 GB | |||||||||||||||
L40 CNX | $ | AD102----?- A1 |
「 」를 참조해 주세요.
레퍼런스
- ^ Freund, Karl (September 20, 2022). "NVIDIA Launches Lovelace GPU, Cloud Services, Ships H100 GPUs, New Drive Thor". Forbes. Retrieved November 18, 2022.
- ^ Mujtaba, Hassan (September 15, 2022). "NVIDIA's Next-Gen Ada Lovelace Gaming GPU Architecture For GeForce RTX 40 Series Confirmed". Wccftech. Retrieved November 18, 2022.
- ^ "NVIDIA Delivers Quantum Leap in Performance, Introduces New Era of Neural Rendering with GeForce RTX 40 Series". NVIDIA Newsroom (Press release). September 20, 2022. Retrieved September 20, 2022.
- ^ "NVIDIA's New Ada Lovelace RTX GPU Arrives for Designers and Creators". Nvidia Newsroom. September 20, 2022. Retrieved November 18, 2022.
- ^ Machkovec, Sam (September 20, 2022). "Nvidia's Ada Lovelace GPU generation: $1,599 for RTX 4090, $899 and up for 4080". Ars Technica. Retrieved November 18, 2022.
- ^ a b c Chiappetta, Marco (September 22, 2022). "NVIDIA GeForce RTX 40 Architecture Overview: Ada's Special Sauce Unveiled". HotHardware.
- ^ "NVIDIA Ada Lovelace Architecture". NVIDIA. September 20, 2022. Retrieved September 20, 2022.
- ^ https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#compute-capability-8-x
- ^ "Improve Shader Performance and In-Game Frame Rates with Shader Execution Reordering". NVIDIA Technical Blog. October 13, 2022. Retrieved April 6, 2023.
- ^ Deigado, Gerado (September 20, 2022). "Creativity At The Speed of Light: GeForce RTX 40 Series Graphics Cards Unleash Up To 2X Performance in 3D Rendering, AI, and Video Exports For Gamers and Creators". NVIDIA. Retrieved September 20, 2022.
- ^ "Nvidia Video Codec SDK". NVIDIA Developer. September 20, 2022. Retrieved November 18, 2022.
- ^ btarunr (September 21, 2022). "Jensen Confirms: NVLink Support in Ada Lovelace is Gone". TechPowerUp. Retrieved November 18, 2022.
- ^ "Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance" (PDF). Nvidia. p. 30. Retrieved April 5, 2023.
- ^ "Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance" (PDF). Nvidia. p. 12. Retrieved April 6, 2023.
- ^ "Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance" (PDF). Nvidia. p. 12. Retrieved April 5, 2023.
- ^ James, Dave (September 1, 2020). "Nvidia confirms Samsung 8nm process for RTX 3090, RTX 3080, and RTX 3070". PC Gamer. Retrieved April 5, 2023.
- ^ Bosnjak, Dominik (September 1, 2020). "Samsung's old 8nm tech at the heart of NVIDIA's monstrous Ampere cards". SamMobile. Retrieved April 5, 2023.
- ^ "Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance" (PDF). Nvidia. p. 25. Retrieved April 5, 2023.
- ^ Muthana, Prathap; Mishra, Sampurnananda; Patait, Abhijit (January 18, 2023). "Improving Video Quality and Performance with AV1 and NVIDIA Ada Lovelace Architecture". Nvidia Developer. Retrieved April 5, 2023.
- ^ "Nvidia Ada Science: How Ada advances the science of graphics with DLSS 3" (PDF). Nvidia. p. 13. Retrieved April 5, 2023.
- ^ Garreffa, Anthony (September 25, 2022). "NVIDIA's next-gen GeForce RTX 40 series lack DP2.0 connectivity, silly". TweakTown. Retrieved April 5, 2023.
- ^ Judd, Will (November 3, 2022). "AMD announces 7900 XTX and 7900 XT graphics cards with FSR 3". Eurogamer. Retrieved April 5, 2023.
- ^ "NVIDIA confirms Ada 102/103/104 GPU specs, AD104 has more transistors than GA102". VideoCardz. September 23, 2022. Retrieved September 23, 2022.
- ^ "NVIDIA AD102 GPU Specs". TechPowerUp. Retrieved December 17, 2022.
- ^ "NVIDIA AD103 GPU Specs". TechPowerUp. Retrieved December 17, 2022.
- ^ "NVIDIA AD104 GPU Specs". TechPowerUp. Retrieved October 18, 2022.
- ^ "NVIDIA AD106 GPU Specs". TechPowerUp. Retrieved December 17, 2022.
- ^ "NVIDIA AD107 GPU Specs". TechPowerUp. Retrieved December 17, 2022.
- ^ "NVIDIA RTX 4000 SFF Ada Generation: Power for endless possibilities" (PDF). Nvidia. Retrieved April 5, 2023.
- ^ "RTX 6000 Ada Generation: Power for endless possibilities" (PDF). Nvidia. Retrieved April 5, 2023.
- ^ "Nvidia L40 GPU Accelerator Product Brief" (PDF). Nvidia. Retrieved April 5, 2023.