코히런트 액셀러레이터 프로세서 인터페이스

Coherent Accelerator Processor Interface
코히런트 액셀러레이터 프로세서 인터페이스
생성된 연도2014년, 8년 전(2014년)
작성자
웹 사이트opencapi.org

CAPI(Consistent Accelerator Processor Interface)는 대규모 데이터센터 컴퓨터에서 사용하기 위한 고속 프로세서 확장 버스 규격으로 처음에는 PCI Express 위에 계층화되도록 설계되어 중앙 처리 장치(CPU)를 그래픽 처리 장치(GPU), ASIC, FPGA 또는 고속 [1][2]스토리지 의 외부 가속기에 직접 연결합니다.서로 다른 명령 집합 아키텍처의 디바이스 간에 짧은 레이텐시, 고속, 직접 메모리 액세스 연결을 제공합니다.

역사

인텔의 Prescott 아키텍처와 IBM의 Cell 프로세서가 모두 4GHz의 작동 주파수를 추구함에 따라, 1965년으로 거슬러 올라가는 Moore의 법칙과 관련된 전통적으로 성능 확장은 2004년 경에 점차 감소하기 시작했습니다.여기서 두 프로젝트 모두 열 스케일링 벽에 부딪혔는데, 작동 주파수의 추가 증가와 관련된 열 추출 문제가 짧은 사이클 시간에서 얻는 이점보다 훨씬 더 큽니다.

이후 10년 동안 4GHz를 초과하는 상용 CPU 제품은 거의 없었습니다. 성능의 대부분은 마이크로 아키텍처의 점진적 개선, 시스템 통합의 향상 및 높은 컴퓨팅 밀도로 인해 향상되었습니다. 이는 주로 다수의 독립 코어를 동일한 다이 위에 패킹하는 형태로 이루어졌으며, 많은 경우 비용을 부담해야 했습니다.f 피크 동작 주파수 (2016년 6월부터 인텔의 24코어 Xeon E7-8890은 기본 동작 주파수가 2.2GHz에 불과하므로 싱글 소켓 165W의 소비 전력과 냉각 예산 범위 내에서 동작할 수 있습니다.

퍼포먼스가 큰폭으로 향상되는 경우는, 프로세서 다이(die)에 추가되는 GPU 유닛이나 외부 GPU 또는 FPGA 베이스의 액셀러레이터 등, 한층 더 전문화된 컴퓨팅 유닛에 관련하는 경우가 많았습니다.많은 애플리케이션에서 액셀러레이터는 인터커넥트의 퍼포먼스 제한(대역폭 및 레이텐시) 또는 인터커넥트의 아키텍처에 의한 제한(메모리 일관성의 결여 등)으로 인해 어려움을 겪고 있습니다.특히 데이터센터에서는 하드웨어가 특정 컴퓨팅 워크로드에 점점 더 맞춰지는 이기종 아키텍처로 전환하기 위해 인터커넥트의 개선이 무엇보다 중요했습니다.

CAPI는 컴퓨터가 특수 액셀러레이터를 보다 쉽고 효율적으로 연결할 수 있도록 개발되었습니다.심층 신경망매트릭스 곱셈과 같은 메모리 집약적 및 계산 집약적 작업을 CAPI 지원 [3]플랫폼으로 오프로드할 수 있습니다.2014년에 출시된 POWER8 기반 시스템에서 사용하기 위해 IBM에 의해 설계되었습니다.동시에 IBM과 다른 여러 기업은 CAPI를 비롯한 Power 기반 기술에 대한 에코시스템을 구축하기 위해 OpenPOWER Foundation을 설립했습니다.2016년 10월 OpenPOWER 파트너 여러 명이 GPU 및 CPU 설계자인 AMD 및 시스템 설계자인 Dell EMC 및 Hewlett Packard Enterprise와 함께 OpenCAPI 컨소시엄을 결성하여 OpenPOWER 및 [4]IBM의 범위를 벗어난 기술을 확산시켰습니다.

2022년 8월 1일 OpenCAPI 사양과 자산이 Compute Express Link([5]CXL) 컨소시엄으로 이전되었습니다.

실행

카피

CAPI는 CPU 내부의 기능 유닛으로서 실장되어 있습니다.CAPP는 Power Service Layer(PSL; 전원 서비스 레이어)라고 불리는 액셀러레이터 상에 대응하는 유닛과 함께 구현됩니다.CAPP 및 PSL 유닛은 캐시 디렉토리와 같이 동작하기 때문에 접속된 디바이스와 CPU가 같은 일관된 메모리 공간을 공유할 수 있습니다.액셀러레이터는 CPU에 내장된 [6][7]다른 기능 유닛의 피어인 Accelerator Function Unit(AFU; 액셀러레이터 기능 유닛)이 됩니다.

CPU와 AFU는 같은 메모리 공간을 공유하기 때문에 CPU가 CPU의 메인 메모리와 액셀러레이터의 메모리 공간 간에 메모리 변환과 교환을 할 필요가 없기 때문에 낮은 레이텐시와 고속화를 실현할 수 있습니다.호스트 운영 체제의 일반적인 CAPI 커널 확장에 의해 모든 것이 활성화되므로 특정 디바이스 드라이버 없이 응용 프로그램에서 액셀러레이터를 사용할 수 있습니다.CPU와 PSL은 애플리케이션의 요구에 따라 서로의 메모리 및 레지스터에 직접 읽고 쓸 수 있습니다.

카피

CAPI는 PCIe Gen 3 위에 레이어되어 16개의 PCIe 레인을 사용합니다.또, CAPI 대응 시스템의 PCIe 슬롯의 추가 기능입니다.통상, 이러한 머신에는, CAPI 대응의 PCIe 슬롯이 지정되어 있습니다.POWER8 프로세서당 CAPP는 1개뿐이므로 PCIe 슬롯의 수에 관계없이 POWER8 프로세서 수에 따라 CAPI 유닛의 수가 결정됩니다.일부 POWER8 시스템에서는 IBM이 듀얼 칩 모듈을 사용하므로 프로세서 소켓당 CAPI 용량이 두 배로 증가합니다.

PCIe 디바이스와 CPU 간의 기존 트랜잭션에는 약 20,000회의 작업이 소요되지만 CAPI 접속 디바이스는 약 500회의 작업만 사용하여 지연 시간을 크게 단축하고 [7]운영 오버헤드를 줄임으로써 대역폭을 효과적으로 늘릴 수 있습니다.

CAPI 포트의 총 대역폭은 기반이 되는 PCIe 3.0 x16 테크놀로지에 의해 결정됩니다.이 테크놀로지는 ca 16GB/s(양방향)[8]로 피크입니다.

CAPI 2

CAPI-2는 IBM POWER9 [8]프로세서에 도입된 기술의 점진적 발전입니다.PCIe Gen 4를 기반으로 실행되므로 성능이 32GB/s로 2배 향상됩니다.또, 액셀러레이터로부터의 DMA나 Atomics의 서포트등의 신기능도 소개하고 있습니다.

OpenCAPI

OpenCAPI의 배후에 있는 테크놀로지는 AMD, Google, IBM, Mellanox Micron이 파트너 Nvidia, Hewlett Packard Enterprise, Dell EMC [9]Xilinx와 함께 2016년 10월에 설립한 OpenCAPI Consortium에 의해 관리되고 있습니다.

OpenCAPI 3

OpenCAPI(이전의 New CAPI 또는 CAPI 3.0)는 PCIe 위에 계층화되지 않기 때문에 PCIe 슬롯을 사용하지 않습니다.IBM의 CPU POWER9에서는 NVLink 2.0과 공유하는 Bluelink 25G I/O 설비를 사용하며, 최대 속도는 50GB/[10]s입니다.OpenCAPI는 PCIe 위에 계층화되지 않고 자체 트랜잭션 [11]프로토콜을 사용하기 때문에 가속기에 PSL 장치(CAPI 1 및 2에 필요)가 필요하지 않습니다.

OpenCAPI 4

POWER [12]9의 General Availability(일반 발매 후) 이후의 칩으로 예정되어 있습니다.

OMI

OpenCAPI 메모리 인터페이스(OMI)는 OpenCAPI 기반의 시리얼 접속 RAM 기술로 메인 메모리에 낮은 레이텐시와 높은 대역폭 연결을 제공합니다.OMI는 DDR4, DDR5, HBM, 스토리지 클래스의 비휘발성 RAM 등 메모리 모듈에 사용되는 것에 대해 테크놀로지에 의존하지 않는 접근을 가능하게 하는 컨트롤러 칩을 사용합니다.따라서 OMI 기반 CPU는 메모리 모듈을 변경하여 RAM 유형을 변경할 수 있습니다.

시리얼 접속에서는 CPU 다이 상의 인터페이스에 사용하는 플로어 스페이스를 줄일 수 있기 때문에 일반적인 DDR 메모리를 사용하는 경우에 비해 더 많은 플로어 스페이스를 사용할 수 있습니다.

OMI는 IBM의 Power10 CPU에 구현되어 있으며, 이 CPU는 프로세서당 4TB RAM과 410GB/s 메모리 대역폭을 사용할 수 있습니다.이러한 DDIMM(Differential Dynamic Memory Module)에는 OMI 컨트롤러와 메모리 버퍼가 포함되어 있어 내장해성과 용장성을 위해 개별 메모리 칩에 대응할 수 있습니다.

Microchip Technology는 DDIMM에서 OMI 컨트롤러를 제조합니다.이들의 SMC 1000 OpenCAPI 메모리는 "시리얼 어태치드 [13]메모리를 채택한 시장의 다음 단계"라고 불립니다.

「 」를 참조해 주세요.

레거시

컨템포러리

레퍼런스

  1. ^ Agam Shah (17 December 2014). "IBM's new Power8 doubles performance of Watson chip". PC World. Retrieved 17 December 2014.
  2. ^ "IBM Power8 Processor Detailed - Features 22nm Design With 12 Cores, 96 MB eDRAM L3 Cache and 4 GHz Clock Speed". WCCFtech. Retrieved 17 December 2014.
  3. ^ Md Syadus Sefat, Semih Aslan, Jeffrey W Kellington, Apan Qasem (2019-10-03). "Accelerating HotSpots in Deep Neural Networks on a CAPI-Based FPGA". IEEE.{{cite web}}: CS1 maint: 여러 이름: 작성자 목록(링크)
  4. ^ OpenCAPI 공개: AMD, IBM, Google, Xilinx, Micron 및 Mellanox가 이종 컴퓨팅 시대에 협력
  5. ^ CXL 컨소시엄 및 OpenCAPI 컨소시엄 CXL로의 OpenCAPI 규격 이전 의향서 서명
  6. ^ POWER8 시스템용 일관성 있는 액셀러레이터 프로세서 인터페이스(CAPI)– 화이트 페이퍼
  7. ^ a b 빅데이터 및 클라우드를 위한 재구성 가능한 가속기 – RAW 2016
  8. ^ a b 일관성 있는 가속화를 위한 서버 버스 개방
  9. ^ 빅 데이터, 머신 러닝, 분석 및 기타 새로운 워크로드를 위한 새로운 클라우드 데이터 센터 서버 설계를 지원하기 위해 기술 리더들이 협력
  10. ^ 파워로 하늘을 노리는 빅 블루9
  11. ^ OpenCAPI는 PCIe를 채택하여 10배 향상 실현
  12. ^ Stuecheli, Jeff (26 January 2017). "Webinar POWER9" (Video recording / slides). AIX Virtual User Group. - 슬라이드 - AIX VUG 페이지에는 슬라이드 및 비디오 링크가 있습니다.
  13. ^ Patrick Kennedy (August 5, 2019), Microchip SMC 1000 For The Serial Attached Memory Future, Servethehome

외부 링크