Ada Lovelace (마이크로 아키텍처)

Ada Lovelace (microarchitecture)
Nvidia Ada Lovelace
발매일2022년 10월 12일(2022-10-12)
트랜지스터763억
제조 프로세스TSMC 4N
역사
전임자암페어
지원 상태
서포트되고 있다

Ada Lovelace는 간단히 Lovelace라고도 [1]불리며, 2022년 9월 20일 공식적으로 발표된 암페어 아키텍처의 후속 제품으로 Nvidia가 개발그래픽 처리 장치(GPU) 마이크로 아키텍처의 코드 이름입니다.그것은 종종 최초의 컴퓨터 프로그래머로 간주되고 이름과 성을 모두 포함하는 최초의 건축물로 여겨지는 영국의 수학자 에이다 러브레이스[2] 이름을 따서 명명되었다.Nvidia는 새로운 GeForce 40 시리즈 소비자용[3] GPU 및 RTX 6000 Ada Generation 프로 워크스테이션 그래픽 카드와 함께 [4]이 아키텍처를 발표했습니다.새로운 GPU는 TSMC의 새로운 5nm "4N" 공정을 사용하는 것으로 밝혀졌습니다.이 프로세스는 엔비디아가 전 세대 암페어 [5]아키텍처에서 사용한 이전 삼성 8nm 및 TSMC N7 프로세스보다 효율성을 높였습니다.

건축의 어명인 에이다 러브레이스 사진

배경

에이다 러브레이스 아키텍처는 2020년에 출시된 암페어 아키텍처의 후속입니다.Ada Lovelace 아키텍처는 Nvidia CEO Jensen Huang이 2022년 9월 20일 GTC 2022 기조연설에서 발표한 것으로, Nvidia의 GPU는 게임, 워크스테이션 및 데이터 [6]센터용입니다.

아키텍처 상세

Ada Lovelace 아키텍처의 개선된 아키텍처는 다음과 같습니다.[7]

  • CUDA 컴퓨팅 기능 8[8].9
  • TSMC 4N 프로세스(NVIDIA용으로 커스텀 설계) - TSMC의 일반 N4 노드와 혼동하지 말 것
  • FP8, FP16, bfloat16, TensorFloat-32(TF32) 및 희소성 가속을 갖춘 4세대 텐서 코어
  • 3세대 레이트레이싱 코어 및 동시 레이트레이싱과 쉐이딩 및 컴퓨팅
  • 셰이더 실행 순서 변경(SER)[9]
  • Nvidia 비디오 인코더/디코더(NVENC/NVDEC) (8K 10비트 60FPS AV1 고정기능 하드웨어[10][11] 인코딩 포함)
  • NVLink[12] 지원 없음

스트리밍 멀티프로세서(SM)

CUDA 코어

각 SM에는 128개의 CUDA 코어가 포함되어 있습니다.

RT 코어

Ada Lovelace는 제3세대 RT 코어 탑재 RTX 4090은 128개의 RT 코어를 탑재하고 있으며 이전 세대의 RTX 3090Ti에서는 84개의 RT 코어를 탑재하고 있습니다.이 128개의 RT코어는 1개의 [13]RT코어당 1.49 TFLOPS로 최대 191 TFLOPS의 컴퓨팅을 제공할 수 있습니다.레이트레이스 파이프라인에 셰이더 실행 순서 변경(SER)이라는 새로운 단계가 Lovelace 아키텍처에 추가되었습니다.Nvidia는 이를 통해 레이트레이스 워크로드의 퍼포먼스가 [6]2배 향상된다고 주장합니다.

텐서 코어

Lovelace의 새로운 4세대 텐서 코어는 DLSS 3의 프레임 생성 기술에 사용되는 AI 기술을 가능하게 합니다.암페어와 마찬가지로 각 SM은 4개의 텐서 코어를 포함하지만, Lovelace는 SM의 수가 증가하면 전체적으로 더 많은 텐서 코어를 포함합니다.

클럭 속도

Lovelace 아키텍처는 RTX 4090의 기본 클럭 속도가 RTX 3090Ti의 부스트 클럭 속도보다 높기 때문에 클럭 속도가 크게 향상되었습니다.

RTX 2080 Ti RTX 3090 Ti RTX 4090
아키텍처 튜링 암페어 에이다 러브레이스
기본 클럭 속도
(MHz)
1350 1560 2235
클럭 속도 향상
(MHz)
1635 1860 2520

캐시 및 메모리 서브시스템

RTX 2080 Ti RTX 3090 Ti RTX 4090
아키텍처 튜링 암페어 에이다 러브레이스
L1 데이터 캐시 6.375 MB
(SM당 96KB)
10.5 MB
(SM당 128KB)
16 MB
(SM당 128KB)
L2 캐시 5.5 MB 6 MB 72 MB

완전히 활성화된 AD102 Lovelace 다이는 암페어 기반 GA102 [14]다이의 6MB보다 16배 늘어난 96MB의 L2 캐시를 특징으로 합니다.대량의 L2 캐시에 빠르게 액세스 할 수 있는 GPU는 레이트레이스 등의 복잡한 조작이 느린 GDDR 비디오 메모리에서 데이터를 찾는 GPU에 비해 유리합니다.중요하거나 자주 액세스하는 데이터를 저장하기 위한 메모리 액세스에 대한 의존도가 낮다는 것은 대용량 L2 캐시와 함께 더 좁은 메모리 버스 폭을 사용할 수 있다는 것을 의미합니다.

각 메모리 컨트롤러는 최대 12개의 32비트 연결을 사용하여 메모리 버스 폭을 384비트로 합산합니다.Lovelace 아키텍처에서는 GDDR6 또는 GDDR6X 메모리를 사용할 수 있습니다.GDDR6X 메모리는 데스크톱 GeForce RTX 40 시리즈에 탑재되어 있으며, 전력 절약성이 뛰어난 GDDR6 메모리는 대응하는 모바일 버전 및 RTX A6000 워크스테이션 GPU에 사용되고 있습니다.

전력 효율 및 프로세스 노드

Ada Lovelace 아키텍처는 [6]이전 아키텍처에 비해 낮은 전압을 사용할 수 있습니다.Nvidia는 이전 세대의 플래그십인 RTX 3090Ti에서 [15]사용하던 450W의 전력으로 RTX 4090의 퍼포먼스가 2배 향상되었다고 주장하고 있습니다.

전력 효율의 향상은 부분적으로 Lovelace 아키텍처에서 사용되는 제조 노드의 소형화에 기인할 수 있습니다.Ada Lovelace 아키텍처는 Nvidia용 커스텀 설계 프로세스 노드인 TSMC의 최첨단 4N 프로세스를 기반으로 제작되었습니다.이전 세대 암페어 아키텍처는 암페어 [16][17]출시 시점까지 2년이 지난 2018년부터 삼성의 8nm 기반 8N 공정 노드를 사용했다.763억 개의 트랜지스터를 가진 AD102 다이는 1mm당2 1억2550만 개의 트랜지스터 밀도를 가지고 있으며, 이는 GA102의 4억510만 개의2 밀도에 비해 178% 증가한 것입니다.

미디어 엔진

Lovelace 아키텍처는 새로운 8세대 Nvidia NVENC 비디오 인코더와 Ampere가 도입한 7세대 NVDEC 비디오 디코더를 사용합니다.[18]

10비트 컬러의 60FPS에서 최대 8K 해상도를 지원하는 NVENC AV1 하드웨어 인코딩이 추가되어 H.264 H.265 [19]코덱에 비해 낮은 비트환율로 높은 비디오 충실도를 실현합니다.Nvidia는 Lovelace 아키텍처에 탑재된 NVENC AV1 인코더가 암페어 [20]아키텍처의 H.264 인코더보다 40% 더 효율적이라고 주장하고 있습니다.

Lovelace 아키텍처는 더 높은 디스플레이 데이터 대역폭을 지원하는 DisplayPort 2.0 연결을 지원하지 않고 대신 최대 대역폭이 [21]32Gbps로 제한된 구형 DislayPort 1.4a를 사용한다는 비판을 받았습니다.그 결과, Lovelace GPU는, GPU의 퍼포먼스가 높은 프레임 레이트에 도달할 수 있어도, DisplayPort 1.4a가 서포트하는 리프레시 레이트에 의해서 제한됩니다.2022년 10월 출시된 인텔의 아크 GPU는 디스플레이포트 2.0을 탑재했다.AMD의 경쟁 RDNA 3 아키텍처는 Lovelace가 DisplayPort 2.1[22]탑재한 지 불과 2개월 만에 출시되었습니다.

에이다 러브레이스 사망

Ada Lovelace 칩 비교
[23] AD102[24] AD103[25] AD104[26] AD106[27] AD107[28]
다이 사이즈 608 mm2 378.6mm2 295mm2 190 mm2 146mm2
트랜지스터 76.3B 45.9B 358B 불명 불명
트랜지스터 밀도 125.5 MTr/mm2 121.1 MTr/mm2 121.4 MTr/mm2 불명 불명
그래픽스 처리
클러스터(GPC)
12 7 5 3 2
스트리밍
멀티프로세서(SM)
144 80 60 36 24
CUDA 코어 18432 10240 7680 4608 3072
텍스처 매핑 단위 576 320 240 144 96
출력 단위 렌더링 192 112 80 64 32
텐서 코어 576 320 240 144 96
RT 코어 144 80 60 36 24
L1 캐시 18 MB 10 MB 7.5 MB 4.5 MB 3 MB
SM당 128KB
L2 캐시 96 MB 64 MB 48 MB 32 MB

Ada Lovelace 기반 제품

게임

  • GeForce 40 시리즈
    • GeForce RTX 4050 (모바일) (AD107)
    • GeForce RTX 4060 (모바일) (AD107)
    • GeForce RTX 4070 (모바일) (AD106)
    • GeForce RTX 4070 Ti (AD104)
    • GeForce RTX 4080 (모바일) (AD104)
    • GeForce RTX 4080 (AD103)
    • GeForce RTX 4090 (모바일) (AD103)
    • GeForce RTX 4090 (AD102)

전문적인

데스크톱 워크스테이션

모델 시작하다 시작하다
MSRP
(USD)
코드명
트랜지스터(10억 개)
다이
크기
핵심
설정[a]
SM
세다[b]
캐시 클럭[c] 속도 충전률[d][e] 기억 처리능력(TFLOPS) TDP
L1 L2 핵심
시계
(MHz)
기억
(Gb/s)
화소
(Gpx/s)
식감
(Gtex/s)
유형 크기 대역폭
(GB/초)
버스

정확

(부스트)
싱글
정확

(부스트)
이중
정확

(부스트)
텐서
계산하다
[아쉬움]

RTX 4000 SFF
에이다 세대[29]
2023년 3월 21일 $1,250 AD104-400 35.8 294.5 mm2 6144
192:80:48:192
48 6 MB 48 MB 1290
(1565)
16 Gbps 103.2
(125.2)
247.68
(300.48)
GDDR6 20 GB 320 160비트
(19.2)
153.4
[306.8]
70 W
RTX 6000
에이다 세대[30]
2023년 1월 20일 $6,799 AD102-300 76.3 608.4 mm2 18,176
568:192:142:568
142 17.75 MB 96 MB 915
(2505)
20 Gbps 175.68
(480.96)
519.72
(1,422.84)
48 GB 960 384 비트
(91.1)
728.5
[1457.0]
300 W
  1. ^ 쉐이더 프로세서 : 텍스처 매핑 유닛 : 렌더 출력 유닛 : 레이트레이스 코어 : 텐서 코어
  2. ^ GPU 상의 스트리밍 멀티 프로세서의 수.
  3. ^ 코어 부스트 값(사용 가능한 경우)은 브래킷 안쪽의 베이스 값 아래에 기재되어 있습니다.
  4. ^ 픽셀 채우기 속도는 렌더 출력 장치(ROP) 수에 기본(또는 부스트) 코어 클럭 속도를 곱한 값으로 계산됩니다.
  5. ^ 텍스처 채우기 속도는 텍스처 매핑 유닛(TMU)의 수에 베이스(또는 부스트) 코어 클럭 속도를 곱한 값으로 계산됩니다.

모바일 워크스테이션

모델 시작하다 코드명
트랜지스터(10억 개)
다이
크기
핵심
설정[a]
SM
세다[b]
캐시 클럭[c] 속도 충전률[d][e] 기억 처리능력(TFLOPS) TGP
L1 L2 핵심
시계
(MHz)
기억
(Gb/s)
화소
(Gpx/s)
식감
(Gtex/s)
유형 크기 대역폭
(GB/초)
버스

정확

(부스트)
싱글
정확

(부스트)
이중
정확

(부스트)
텐서
계산하다
[아쉬움]

RTX 2000 최대 Q
Ada 노트북
2023년 3월 21일 AD107 146mm2 3072
96:32:24:96
24 3 MB 12 MB 930
(1455)
14 Gbps 29.76
(46.56)
89.28
(139.68)
GDDR6 8 GB 224 128비트 35 W
RTX 2000
Ada 노트북
AD106 1635
(2115)
16 Gbps 52.32
(67.68)
156.96
(203.04)
256
(14.5)
115.8
[231.6]
35 ~ 140 W
RTX 3000
Ada 노트북
190 mm2 4608
144:48:36:144
36 4.5 MB 32 MB 1395
(1695)
66.96
(81.36)
200.88
(244.08)

(19.9)
159.3
[318.6]
RTX 3500
Ada 노트북
AD104 35.8 294.5 mm2 5120
160:64:40:160
40 5 MB 48 MB 1290
(1665)
18 Gbps 82.56
(106.56)
206.4
(266.4)
12 GB 432 192비트
(23.0)
184.3
[368.6]
60 ~ 140 W
RTX 4000
Ada 노트북
7424
232:80:58:232
58 7.25 MB 1290
(1665)
103.2
(133.2)
299.28
(386.28)

(33.6)
269.0
[538.0]
80 ~ 175 W
RTX 5000
Ada 노트북
AD103 45.9 378.6mm2 9728
304:112:76:304
76 9.5 MB 64 MB 1335
(1695)
149.52
(189.84)
405.84
(515.28)
16 GB 576 256비트
(42.6)
340.9
[681.8]
  1. ^ 쉐이더 프로세서 : 텍스처 매핑 유닛 : 렌더 출력 유닛 : 레이트레이스 코어 : 텐서 코어
  2. ^ GPU 상의 스트리밍 멀티 프로세서의 수.
  3. ^ 코어 부스트 값(사용 가능한 경우)은 브래킷 안쪽의 베이스 값 아래에 기재되어 있습니다.
  4. ^ 픽셀 채우기 속도는 렌더 출력 장치(ROP) 수에 기본(또는 부스트) 코어 클럭 속도를 곱한 값으로 계산됩니다.
  5. ^ 텍스처 채우기 속도는 텍스처 매핑 유닛(TMU)의 수에 베이스(또는 부스트) 코어 클럭 속도를 곱한 값으로 계산됩니다.

데이터 센터

모델 시작하다 시작하다
MSRP
(USD)
코드명
트랜지스터(10억 개)
다이
크기
핵심
설정[a]
SM
세다[b]
캐시 클럭[c] 속도 충전률[d][e] 기억 처리능력(TFLOPS) TBP
L1 L2 핵심
시계
(MHz)
기억
(MHz)
화소
(Gpx/s)
식감
(Gtex/s)
유형 크기 대역폭
(GB/초)
버스

정확

(부스트)
싱글
정확

(부스트)
이중
정확

(부스트)
텐서
계산하다
[아쉬움]

L4 알 수 없는 $ AD104----?- A1 35.8 295mm2 7,680
240:80:60:240
60 7.5 MB 48 MB 795
(2040)
1313 63.6
(163.2)
190.8
(489.6)
GDDR6X 24 GB 504.2 192비트 285 W
L40 [31] 2022년 10월 13일 $ AD102-895-A1 76.3 608.4 mm2 18,176
568:192:142:568
142 17.75 MB 96 MB 735
(2490)
2250 58.8
(199.2)
176.4
(597.6)
GDDR6 48 GB 864 384 비트 300 W
L40G $ AD102----?- A1 48 MB 1005
(2475)
80.4
(198.0)
241.2
(594.0)
24 GB
L40 CNX $ AD102----?- A1
  1. ^ 쉐이더 프로세서 : 텍스처 매핑 유닛 : 렌더 출력 유닛 : 레이트레이스 코어 : 텐서 코어
  2. ^ GPU 상의 스트리밍 멀티 프로세서의 수.
  3. ^ 코어 부스트 값(사용 가능한 경우)은 브래킷 안쪽의 베이스 값 아래에 기재되어 있습니다.
  4. ^ 픽셀 채우기 속도는 렌더 출력 장치(ROP) 수에 기본(또는 부스트) 코어 클럭 속도를 곱한 값으로 계산됩니다.
  5. ^ 텍스처 채우기 속도는 텍스처 매핑 유닛(TMU)의 수에 베이스(또는 부스트) 코어 클럭 속도를 곱한 값으로 계산됩니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Freund, Karl (September 20, 2022). "NVIDIA Launches Lovelace GPU, Cloud Services, Ships H100 GPUs, New Drive Thor". Forbes. Retrieved November 18, 2022.
  2. ^ Mujtaba, Hassan (September 15, 2022). "NVIDIA's Next-Gen Ada Lovelace Gaming GPU Architecture For GeForce RTX 40 Series Confirmed". Wccftech. Retrieved November 18, 2022.
  3. ^ "NVIDIA Delivers Quantum Leap in Performance, Introduces New Era of Neural Rendering with GeForce RTX 40 Series". NVIDIA Newsroom (Press release). September 20, 2022. Retrieved September 20, 2022.
  4. ^ "NVIDIA's New Ada Lovelace RTX GPU Arrives for Designers and Creators". Nvidia Newsroom. September 20, 2022. Retrieved November 18, 2022.
  5. ^ Machkovec, Sam (September 20, 2022). "Nvidia's Ada Lovelace GPU generation: $1,599 for RTX 4090, $899 and up for 4080". Ars Technica. Retrieved November 18, 2022.
  6. ^ a b c Chiappetta, Marco (September 22, 2022). "NVIDIA GeForce RTX 40 Architecture Overview: Ada's Special Sauce Unveiled". HotHardware.
  7. ^ "NVIDIA Ada Lovelace Architecture". NVIDIA. September 20, 2022. Retrieved September 20, 2022.
  8. ^ https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#compute-capability-8-x
  9. ^ "Improve Shader Performance and In-Game Frame Rates with Shader Execution Reordering". NVIDIA Technical Blog. October 13, 2022. Retrieved April 6, 2023.
  10. ^ Deigado, Gerado (September 20, 2022). "Creativity At The Speed of Light: GeForce RTX 40 Series Graphics Cards Unleash Up To 2X Performance in 3D Rendering, AI, and Video Exports For Gamers and Creators". NVIDIA. Retrieved September 20, 2022.
  11. ^ "Nvidia Video Codec SDK". NVIDIA Developer. September 20, 2022. Retrieved November 18, 2022.
  12. ^ btarunr (September 21, 2022). "Jensen Confirms: NVLink Support in Ada Lovelace is Gone". TechPowerUp. Retrieved November 18, 2022.
  13. ^ "Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance" (PDF). Nvidia. p. 30. Retrieved April 5, 2023.
  14. ^ "Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance" (PDF). Nvidia. p. 12. Retrieved April 6, 2023.
  15. ^ "Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance" (PDF). Nvidia. p. 12. Retrieved April 5, 2023.
  16. ^ James, Dave (September 1, 2020). "Nvidia confirms Samsung 8nm process for RTX 3090, RTX 3080, and RTX 3070". PC Gamer. Retrieved April 5, 2023.
  17. ^ Bosnjak, Dominik (September 1, 2020). "Samsung's old 8nm tech at the heart of NVIDIA's monstrous Ampere cards". SamMobile. Retrieved April 5, 2023.
  18. ^ "Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance" (PDF). Nvidia. p. 25. Retrieved April 5, 2023.
  19. ^ Muthana, Prathap; Mishra, Sampurnananda; Patait, Abhijit (January 18, 2023). "Improving Video Quality and Performance with AV1 and NVIDIA Ada Lovelace Architecture". Nvidia Developer. Retrieved April 5, 2023.
  20. ^ "Nvidia Ada Science: How Ada advances the science of graphics with DLSS 3" (PDF). Nvidia. p. 13. Retrieved April 5, 2023.
  21. ^ Garreffa, Anthony (September 25, 2022). "NVIDIA's next-gen GeForce RTX 40 series lack DP2.0 connectivity, silly". TweakTown. Retrieved April 5, 2023.
  22. ^ Judd, Will (November 3, 2022). "AMD announces 7900 XTX and 7900 XT graphics cards with FSR 3". Eurogamer. Retrieved April 5, 2023.
  23. ^ "NVIDIA confirms Ada 102/103/104 GPU specs, AD104 has more transistors than GA102". VideoCardz. September 23, 2022. Retrieved September 23, 2022.
  24. ^ "NVIDIA AD102 GPU Specs". TechPowerUp. Retrieved December 17, 2022.
  25. ^ "NVIDIA AD103 GPU Specs". TechPowerUp. Retrieved December 17, 2022.
  26. ^ "NVIDIA AD104 GPU Specs". TechPowerUp. Retrieved October 18, 2022.
  27. ^ "NVIDIA AD106 GPU Specs". TechPowerUp. Retrieved December 17, 2022.
  28. ^ "NVIDIA AD107 GPU Specs". TechPowerUp. Retrieved December 17, 2022.
  29. ^ "NVIDIA RTX 4000 SFF Ada Generation: Power for endless possibilities" (PDF). Nvidia. Retrieved April 5, 2023.
  30. ^ "RTX 6000 Ada Generation: Power for endless possibilities" (PDF). Nvidia. Retrieved April 5, 2023.
  31. ^ "Nvidia L40 GPU Accelerator Product Brief" (PDF). Nvidia. Retrieved April 5, 2023.