Larrabee (마이크로 아키텍처)

Larrabee (microarchitecture)
Larrabee GPU 아키텍처는 2008년 8월 SIGGRAPH 컨퍼런스에서 공개되었습니다.

Larrabee인텔현재 내장 그래픽 액셀러레이터 라인과는 별도로 개발 중인 취소된 GPGPU 칩의 코드명입니다.그것은 벨링엄 [1][2]마을 근처의 워싱턴 왓컴 카운티에 있는 마운트 래러비 또는 래러비 주립 공원의 이름을 따서 지어졌다.이 칩은 소비자용 3D 그래픽 카드의 핵심으로 2010년에 출시될 예정이었지만, 지연과 실망스러운 초기 성능 [3][4]수치로 인해 이러한 계획은 취소되었다.Larrabee 연구 프로젝트에서 GPU 소매 제품을 직접 생산하는 프로젝트는 2010년 5월에[5] 종료되고 그 기술은 Xeon Phi에 이전되었습니다.2010년에 발표된 인텔 MIC 멀티프로세서 아키텍처는 Larrabee 프로젝트에서 많은 설계 요소를 계승하고 있지만 그래픽스 처리 유닛으로서의 기능은 없습니다.이 제품은 고성능 컴퓨팅공동 프로세서를 목적으로 하고 있습니다.

거의 10년 후인 2018년 6월 12일, 인텔 전용 GPU의 아이디어가 다시 [6]부활했습니다(인텔 Xe).2020년까지의 개시를 목표로 하는 인텔의 독자적인 GPU의 구축에 대한 의욕에 의해서입니다.그러나 이 새로운 개발이 Larrabee의 개발과 관련이 있는지 여부는 불확실하다.

프로젝트현황

2009년 12월 4일 인텔은 1세대 Larrabee를 컨슈머용 GPU 제품으로 [7]출시하지 않겠다고 공식 발표했습니다.대신 그래픽스와 고성능 컴퓨팅을 위한 개발 플랫폼으로 출시될 예정이었습니다.전략적 리셋의 공식적인 이유는 하드웨어 및 소프트웨어 [8]개발 지연에 기인했다.2010년 5월 25일 테크놀로지@인텔 블로그에서는 Larrabee가 GPU로 출시되지 않고 Nvidia [9]Tesla와 경쟁하는 고성능 컴퓨팅용 제품으로 출시될 것이라고 발표했습니다.

Larrabee 연구 프로젝트에서 GPU 소매 제품을 직접 생산하는 프로젝트는 2010년 [5]5월에 종료되었습니다.2010년에 발표된 인텔 MIC 멀티프로세서 아키텍처는 Larrabee 프로젝트에서 많은 설계 요소를 계승하고 있지만 그래픽스 처리 유닛으로서의 기능은 없습니다.이 제품은 고성능 컴퓨팅의 공동 프로세서를 목적으로 하고 있습니다.시제품 카드는 나이츠 페리라고 이름 붙여졌으며 나이츠 코너라는 이름의 22nm 공정으로 제작된 생산 카드는 2012년 이후에 [citation needed]생산될 계획이었다.

경쟁 제품과의 비교

인텔에 따르면 Larrabee는 일부만 프로그래밍 가능한 현재 세대 그래픽 카드와 달리 완전히 프로그래밍 가능한 파이프라인을 갖추고 있습니다.

Larrabee는 멀티코어 CPU와 GPU의 하이브리드라고 할 수 있으며, 양쪽과 유사합니다.일관성 있는 캐시 계층과 x86 아키텍처 호환성은 CPU와 비슷하지만 넓은 SIMD 벡터 유닛과 텍스처 샘플링 하드웨어는 GPU와 비슷합니다.

GPU로서 Larrabee는 기존의 래스터라이즈드 3D 그래픽스(Direct3DOpenGL)를 게임에 지원했습니다.단, CPU와 GPU 기능의 하이브리드화는 범용 GPU(General Purpose GPU) 또는 스트림 처리 태스크에도 적합해야 합니다.예를 들어 게임에서는 실시간으로 광선 추적이나 물리 [10]처리수행하거나 슈퍼컴퓨터[11]컴포넌트로 과학적 연구를 위해 오프라인에서 수행했을 수 있습니다.

Larrabee의 초기 프레젠테이션은 GPU 경쟁사들로부터 비판을 받았습니다.NVISION 08에서 NVIDIA 직원은 Larrabee에 관한 인텔의 SIGGRAPH 논문을 "마케팅 퍼프"라고 칭하며 업계 분석가(Peter Glaskowsky)의 말을 인용하여 Larrabee 아키텍처가 "2006년의 GPU와 같다"[12]고 추측했습니다.2009년 6월까지 인텔은 Larrabee의 프로토타입이 Nvidia GeForce GTX 285[13]동등하다고 주장했습니다.Justin Rattner 인텔 CTO는 2009년 11월 17일 Supercomputing 2009 컨퍼런스에서 기조 연설을 했습니다.그는 강연에서 오버클럭된 Larrabee 프로세서의 퍼포먼스가 1테라플롭스를 상회하는 것을 시연했습니다.그는 이것이 1테라플롭스를 초과하는 싱글칩 시스템의 첫 공개 시연이라고 주장했다.그는 이것이 초기 실리콘이라고 지적했고, 따라서 아키텍처의 궁극적인 성능에 대한 의문을 남겨두었습니다.Larrabee는 경쟁사 그래픽 보드의 5분의 1에 불과했기 때문에 [3]2009년 12월 4일에 "독립형 전용 그래픽 제품"으로 취소되었습니다.

현재의 GPU와의 차이점

Larrabee는 GeForce 200 시리즈나 Radeon 4000 시리즈 등의 기존 전용 GPU와는 크게 3가지 점에서 다른 것을 의도하고 있습니다.

  • 이는 Larrabee 고유의 [14]확장과 함께 x86 명령 집합을 사용하기 위함입니다.
  • 이는 모든 [14]코어에서 캐시 일관성을 제공하기 위한 것이었습니다.
  • 전용 그래픽 하드웨어를 거의 포함하지 않고 타일 기반 렌더링 [14]방식을 사용하여 z 버퍼링, 클리핑, 소프트웨어 혼합 등의 작업을 수행합니다.

이를 통해 Larrabee는 기존 GPU보다 유연성이 향상되어 게임이나 다른 3D 애플리케이션 간의 외관상 차별화가 더욱 가능해졌습니다.인텔의 SIGGRAPH 2008 페이퍼에서는 현재 GPU에서는 실현하기 어려운 렌더링 기능에 대해 설명했습니다.그것은 렌더 타겟 읽기, 순서에 의존하지 않는 투과성, 불규칙한 섀도우 맵핑, 실시간 레이트레이싱입니다.[14]

ATI의 Radeon HD 5xx 및 Nvidia의 GeForce 400 시리즈 등의 최신 GPU는 DirectX11 Direct Compute 및 OpenCL을 통해 범용 컴퓨팅 기능을 더욱 폭넓게 갖추고 있으며, Nvidia의 독자적인 CUDA 테크놀로지도 Larabee의 많은 기능을 제공합니다.

CPU와의 차이점

Larrabee의 x86 프로세서 코어는 Core 2 Duo 또는 Core i7 등 현재 인텔 CPU의 코어와는 몇 가지 점에서 다릅니다.

  • x86 코어는 훨씬 심플한 P54C Pentium 설계에 기반하고 있으며, 지금도 임베디드 어플리케이션에서 [15]사용할 수 있도록 유지되고 있습니다.P54C에서 파생된 코어는 슈퍼스케일러이지만 순서가 다른 실행은 포함하지 않습니다.단, Atom에서 사용되는 Bonnell 마이크로아키텍처와 마찬가지로 x86-64 [14]지원 등의 최신 기능으로 업데이트되었습니다.순서대로 실행하면 개별 코어의 성능이 저하되지만 코어가 작기 때문에 하나의 칩에 더 많은 코어가 들어가 전체적인 throughput이 향상됩니다.실행은 또한 명령과 작업 스케줄링이 컴파일러에 의해 수행될 수 있도록 보다 결정적이다.
  • 각 코어에는 한 번에 16개의 단정도 부동소수점 숫자를 처리할 수 있는 512비트 벡터 처리 장치가 포함되어 있습니다.이는 대부분의 x86 프로세서의 SSE 장치와 비슷하지만 4배 더 큽니다. 분산/수집 명령과 마스크 레지스터 등의 추가 기능을 통해 벡터 장치를 보다 쉽고 효율적으로 사용할 수 있습니다.Larrabee는 이 벡터 [14]단위들로부터 숫자를 분쇄하는 힘의 대부분을 얻을 수 있었다.
  • 여기에는 텍스처 샘플링 유닛이라는 주요 고정 기능 그래픽 하드웨어 기능이 포함되어 있습니다.이들은 삼선형이방성 필터링텍스처 [14]감압을 수행합니다.
  • 코어 간 및 메모리 [14]간 통신을 위한 1024비트(양방향 512비트) 링 버스를 갖추고 있었습니다.이 버스는 16코어 이상 또는 16코어 미만의 [16]Larrabee 제품을 지원하기 위해 2가지 모드로 구성할 수 있습니다.
  • 데이터를 한 번만 읽고 쓰는 스트리밍 작업 [14]중 캐시 스레싱을 줄이기 위한 명시적 캐시 제어 명령이 포함되어 있습니다.L2 또는 L1 캐시로의 명시적 프리페치도 지원됩니다.
  • 각 코어는 4방향 인터리브 멀티스레딩을 지원하며 각 프로세서 [14]레지스터의 복사본은 4개입니다.

이론적으로 Larrabee의 x86 프로세서 코어는 기존 PC 소프트웨어 또는 운영체제를 실행할 수 있었습니다.다른 버전의 프로세서가 [17]QuickPath를 사용하여 메인보드 CPU 소켓에 장착될 수 있지만 인텔은 이에 대한 계획을 발표하지 않았습니다.Larrabee의 네이티브 C/C++ 컴파일러는 자동 벡터화를 포함하고 있으며 많은 응용 프로그램이 재컴파일된 후 올바르게 실행될 수 있었지만, 최대 효율은 C++ 벡터 인텐션 또는 인라인 Larrabee 어셈블리 [14]코드를 사용하여 코드 최적화가 필요할 것으로 예상되었습니다.그러나 모든 GPGPU와 마찬가지로 모든 소프트웨어가 벡터 처리 장치의 활용으로부터 이익을 얻는 것은 아닙니다.한 기술 저널리즘 사이트에서는 Larrabee의 그래픽 기능이 Haswell 마이크로아키텍처[18]기반으로 CPU에 통합될 계획이었다고 주장합니다.

셀 광대역 엔진과의 비교

작고 심플한 코어를 많이 사용하는 Larrabee의 철학은 Cell 프로세서의 아이디어와 비슷했습니다.또한 코어 [14]간 통신에 고대역폭 링 버스를 사용하는 등 몇 가지 공통점이 있습니다.그러나 Larrabee의 프로그래밍을 단순화할 것으로 예상되는 구현에는 상당한 차이가 있었습니다.

  • Cell 프로세서에는 다수의 소형 프로세서를 제어하는 메인 프로세서가 1개 포함되어 있습니다.또, 메인 프로세서는 operating system을 실행할 수 있습니다.반면 Larrabee의 코어는 모두 동일하며 Larrabee는 OS를 실행할 것으로 예상되지 않았습니다.
  • 셀(SPE)의 각 컴퓨터 코어에는 로컬스토어가 있어 DRAM에 대한 모든 액세스에 명시적(DMA) 연산이 사용됩니다.DRAM에 대한 일반적인 읽기 및 쓰기는 허용되지 않습니다.Larrabee에서는 모든 온칩 및 오프칩 메모리가 자동으로 관리되는 일관성 있는 캐시 계층 하에 있기 때문에 코어가 표준 복사(MOV) 명령을 통해 균일한 메모리 공간을 사실상 공유합니다.Larrabee 코어는 각각 256KB의 로컬 L2 캐시를 가지고 있으며, 다른 L2 세그먼트에 도달하는 액세스에는 [14]더 오랜 시간이 걸립니다.
  • 위에서 언급한 캐시 일관성 때문에 Larrabee에서 실행되는 각 프로그램은 기존의 범용 CPU와 마찬가지로 사실상 큰 선형 메모리를 가지고 있습니다.반면 Cell용 애플리케이션은 각 SPE와 관련된 로컬 스토어의 제한된 메모리 공간(자세한 내용은 이 기사를 참조)을 고려하여 프로그래밍해야 합니다.더 높은 대역폭을 제공합니다.그러나 로컬 L2에 액세스하는 것이 더 빠르기 때문에 Cell 스타일의 프로그래밍 [citation needed]방법을 사용하면 이점을 얻을 수 있습니다.
  • 셀은 온칩 로컬 메모리와의 데이터 전송에 DMA를 사용합니다.이것에 의해, 로컬 메모리에 격납된 오버레이의 명시적인 유지보수가 가능하게 되어, 메모리를 코어에 가깝게 해 액세스 레이텐시를 단축할 수 있습니다.단, Larrabee는 캐시 m에 대한 특별한 명령으로 일관성을 유지하기 위해서, 한층 더 노력을 필요로 합니다.캐시 일관성을 유지하기 [14]위해 추가 트래픽 및 오버헤드를 희생하면서 누락 및 제거 패널티를 줄이고 캐시 오염(예: 파이프라인 렌더링 및 기타 스트림과 같은 계산)을 줄입니다.
  • 셀의 각 컴퓨팅 코어는 순서대로 한 번에 하나의 스레드만 실행합니다.Larrabee의 코어는 최대 4개의 스레드를 실행하지만, 한 번에 1개뿐입니다.Larrabee의 하이퍼스레딩은 순서대로 실행되는 [citation needed]데 내재된 지연 시간을 숨기는 데 도움이 되었습니다.

인텔 GMA와의 비교

인텔은 2004년부터 일련의 GPU를 인텔 GMA 브랜드로 메인보드에 통합하기 시작했습니다.메인보드에 내장되어 있기 때문에(Sandy Bridge와 함께 출시된 것과 같은 새로운 버전은 CPU와 동일한 금형에 내장되어 있음) 이러한 칩은 별도로 판매되지 않았습니다.인텔 GMA 칩의 저비용과 소비전력은 소형 노트북 PC에 적합하고 부하가 낮은 작업에도 적합하지만 하이엔드 게임 컴퓨터 시장, HPC 시장 또는 인기 비디오 게임 콘솔의 점유율을 놓고 Nvidia 및 AMD/ATI GPU와 경쟁하기에는 3D 그래픽 처리 능력이 부족합니다.반면 Larrabee는 메인보드와는 별도로 개별 GPU로 판매될 예정이어서 차세대 비디오 게임 [19][20]콘솔에서도 충분히 좋은 성능을 발휘할 수 있을 것으로 기대되고 있습니다.

Larrabee에서 일하는 팀은 인텔 GMA 팀과 별개였습니다.이 하드웨어는 Nehalem을 설계한 것과는 별도로 오리건주 힐즈보로 사이트에 새로 구성된 팀에 의해 설계되었습니다.소프트웨어와 드라이버는 새로 구성된 팀에 의해 작성되었습니다.3D 스택은 RAD Game Tools(Michael [21]Abrash 포함)의 개발자에 의해 특별히 작성되었습니다.

인텔 비주얼 컴퓨팅 인스티튜트는 Larrabee 기반 [22]제품에 적용할 수 있는 기본 및 응용 기술을 연구합니다.

예상되는 퍼포먼스 데이터

2008년 SIGGRAPH 논문의 벤치마크 결과.프로세서 코어 수의 대략적인 선형 함수로서 예측된 성능을 나타냅니다.

인텔의 SIGGRAPH 2008 페이퍼에서는 Larrabee의 예측 [14]퍼포먼스에 대한 사이클 정밀 시뮬레이션(메모리, 캐시, 텍스처 유닛의 제한 포함)에 대해 설명합니다.그래프는 인기 있는 여러 게임에서 60프레임/초를 1600×1200 해상도로 유지하기 위해 필요한 1GHz Larrabee 코어의 수를 보여줍니다.얼리어싱 방지 기능이 없는 기어 오브 워에는 약 25개의 코어가 필요하며, F.E.A.에는 25개의 코어가 필요합니다.4배 안티앨리어싱의 R과 10코어의 Half-Life 2: 4배 안티앨리어싱의 에피소드 2.인텔은 Larrabee가 1GHz보다 빠르게 동작할 가능성이 높기 때문에 이들 수치는 실제 코어가 아니라 가상 타임슬라이스를 나타낸다고 주장했습니다.또 다른 그래프는 이러한 게임의 성능이 최대 32개의 코어 수에 따라 거의 선형적으로 확장된다는 것을 보여줍니다.48개 코어에서는 선형 관계가 [23]지속될 경우 예상되는 90%까지 성능이 저하됩니다.

2007년 6월 PC Watch 기사에 따르면 최초의 Larrabee 칩은 32개의 x86 프로세서 코어를 탑재하여 2009년 말에 45나노미터 공정으로 제조될 예정입니다.수율 문제로 인해 몇 개의 코어에 결함이 있는 칩은 24 코어 버전으로 판매됩니다.2010년 후반에는 Larrabee가 32나노미터 제조 프로세스로 축소되어 48코어 [24]버전이 가능하게 되었습니다.

마지막 성능 명세서는 이론적으로 32개 코어 × 16개 단일 코어 플로트 SIMD/코어 × 2 FLOP (표준 다중 가산) × 2 GHz = 2 TFLOPS로 계산할 수 있습니다.

공개 데모

Larrabee 레이트레이싱 기능의 공개 데모가 2009년 9월 22일 샌프란시스코에서 열린 인텔 개발자 포럼에서 실시되었습니다.Quake Wars: Ray Traced라는 제목의 Enemy Territory: Quake Wars의 실험 버전이 실시간으로 상영되었다.그 장면에는 배와 여러 대의 비행체 같은 주변 물체를 정확하게 [25][26]반사하는 광선 추적 수면이 포함되어 있었다.

두 번째 데모는 2009년 11월 17일 포틀랜드에서 열린 SC09 컨퍼런스에서 인텔 CTO Justin Rattner의 기조 연설 중 실시되었습니다.Larrabee 카드는 SGEMM 4Kx4K 계산으로 1006 GFLOPS를 달성할 수 있었습니다.

Larrabee 카드의 엔지니어링 샘플은 2018년 5월 14일 공개된 비디오에서 Linus Sebastian에 의해 조달 및 검토되었습니다.다만, 메인보드에 POST 코드 [27]D6가 표시되어 있기 때문에, 카드에서 비디오 출력을 할 수 없었다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Forsythe, Tom. "SMACNI to AVX512 the life cycle of an instruction set" (PDF).
  2. ^ Forsyth, Tom (2020-12-22). "Tom Forsyth on Naming of Larrabee Instruction Set". Archived from the original on 2020-12-22. Retrieved 2020-12-22.
  3. ^ a b Crothers, Brooke (December 4, 2009). "Intel: Initial Larrabee graphics chip canceled". CNET. CBS Interactive.
  4. ^ Charlie Demerjian (December 4, 2009). "Intel kills consumer Larrabee, focuses on future variants - SemiAccurate". SemiAccurate.com. Retrieved April 9, 2017.
  5. ^ a b Smith, Ryan (May 25, 2010). "Intel Kills Larrabee GPU, Will Not Bring a Discrete Graphics Product to Market". AnandTech.
  6. ^ Smith, Ryan (June 13, 2018). "Intel's First (Modern) Discrete GPU Set For 2020". Anandtech. Retrieved November 4, 2018.
  7. ^ Stokes, Jon (5 December 2009). "Intel's Larrabee GPU put on ice, more news to come in 2010". Ars Technica. Condé Nast.
  8. ^ Smith, Ryan. "Intel Cancels Larrabee Retail Products, Larrabee Project Lives On". AnandTech.com. Retrieved April 9, 2017.
  9. ^ "Blogs@Intel - Intel Blogs". Intel.com. Retrieved April 9, 2017.
  10. ^ Stokes, Jon. "Intel picks up gaming physics engine for forthcoming GPU product". Ars Technica. Retrieved 2007-09-17.
  11. ^ Stokes, Jon. "Clearing up the confusion over Intel's Larrabee". Ars Technica. Retrieved June 1, 2007.
  12. ^ "Larrabee performance--beyond the sound bite". CNet.com. Retrieved April 9, 2017.
  13. ^ "Intel's 'Larrabee' on Par With GeForce GTX 285". TomsHardware.com. June 2, 2009. Retrieved April 9, 2017.
  14. ^ a b c d e f g h i j k l m n o Seiler, L.; Cavin, D.; Espasa, E.; Grochowski, T.; Juan, M.; Hanrahan, P.; Carmean, S.; Sprangle, A.; Forsyth, J.; Abrash, R.; Dubey, R.; Junkins, E.; Lake, T.; Sugerman, P. (August 2008). "Larrabee: A Many-Core x86 Architecture for Visual Computing" (PDF). ACM Transactions on Graphics. Proceedings of ACM SIGGRAPH 2008. 27 (3): 18:11. doi:10.1145/1360612.1360617. ISSN 0730-0301. Archived from the original (PDF) on 2021-03-07. Retrieved 2008-08-06.
  15. ^ "Intel's Larrabee GPU based on secret Pentagon tech, sorta [Updated]". Ars Technica. Retrieved 2008-08-06.
  16. ^ Glaskowsky, Peter. "Intel's Larrabee--more and less than meets the eye". CNET. Retrieved 2008-08-20.
  17. ^ Stokes, Jon. "Clearing up the confusion over Intel's Larrabee, part II". Ars Technica. Retrieved 2008-01-16.
  18. ^ "Intel to use Larrabee graphics on CPUs - SemiAccurate". SemiAccurate.com. August 19, 2009. Retrieved April 9, 2017.
  19. ^ Chris Leyton (August 13, 2008). "Intel's Larrabee Shaping Up For Next-Gen Consoles?". Archived from the original on August 17, 2008. Retrieved August 24, 2008.
  20. ^ Charlie Demerjian (February 5, 2009). "Intel Will Design PlayStation 4 GPU". Archived from the original on May 11, 2009. Retrieved August 28, 2009.{{cite web}}: CS1 유지보수: 부적합한 URL(링크)
  21. ^ Wilson, Anand Lal Shimpi & Derek. "Intel's Larrabee Architecture Disclosure: A Calculated First Move". AnandTech.com. Retrieved April 9, 2017.
  22. ^ Ng, Jansen (May 13, 2009). "Intel Visual Computing Institute Opens, Will Spur "Larrabee" Development". DailyTech. Archived from the original on May 16, 2009. Retrieved May 13, 2009.
  23. ^ Steve Seguin (August 20, 2008). "Intel's 'Larrabee' to Shakeup [sic] AMD, Nvidia". Tom's Hardware. Retrieved August 24, 2008.
  24. ^ "Intel is promoting the 32 core CPU "Larrabee"" (in Japanese). pc.watch.impress.co.jp. Retrieved August 6, 2008.번역.
  25. ^ Geeks3D (2008-06-12), Ray Traced Quake Wars, archived from the original on 2021-09-17, retrieved 2022-03-07
  26. ^ "Light It Up! Quake Wars* Gets Ray Traced" (PDF). Archived (PDF) from the original on February 15, 2010. Retrieved 2022-03-07.
  27. ^ Linus Tech Tips (2018-05-14), WE GOT INTEL'S PROTOTYPE GRAPHICS CARD!!, archived from the original on 2021-12-21, retrieved 2019-05-10

외부 링크