연산 RAM

Computing RAM(Computing RAM, C-RAM)은 동일한 칩에 처리 요소가 통합된 랜덤 액세스 메모리다.이를 통해 C-RAM을 SIMD 컴퓨터로 사용할 수 있다.또한 메모리 칩 내의 메모리 대역폭을 보다 효율적으로 사용하는 데도 사용할 수 있다.null

개요

컴퓨터용 RAM의 가장 영향력 있는 구현은 버클리 IRAM 프로젝트에서 나왔다.벡터IRAM(V-IRAM)은 D램과 같은 칩에 통합된 벡터 프로세서를 결합한다.^[1]null

RADRAM(Reconfigurable Architecture DRAM)은 동일한 칩에 통합된 재구성 가능한 컴퓨팅 FPGA 로직 요소를 갖춘 DRAM이다.^[2]SimpleScalar 시뮬레이션은 RADram(기존 프로세서가 장착된 시스템)이 기존 DRAM(동일한 프로세서가 장착된 시스템)보다 일부 문제에서 훨씬 더 나은 성능을 주문할 수 있다는 것을 보여준다.null

당황스러울 정도로 병렬적인 일부 컴퓨터 문제는 이미 CPU와 DRAM 사이의 폰 노이만 병목 현상에 의해 제한되어 있다.일부 연구자들은 동일한 총비용에 대해 계산 RAM으로 만들어진 기계가 이러한 종류의 문제들에 대해 기존의 범용 컴퓨터보다 더 빠른 속도로 작동될 것이라고 예상한다.^[3]null

2011년 현재, "DRAM 공정"(few layer, 높은 캐패시턴스에 최적화됨)과 "CPU 공정"(고주파수에 최적화됨, 일반적으로 DRAM보다 2배 더 많은 BEOL 레이어를 사용함, 각 추가 레이어가 수율을 감소시키고 제조 비용을 증가시키기 때문에, 그러한 칩은 DRAM에 비해 평방 밀리미터 당 상대적으로 비싸다)은 충분히 뚜렷하다.계산 RAM에는 다음 세 가지 접근법이 있다.

CPU에 최적화된 프로세스와 많이 내장된 SRAM을 사용하는 장치를 시작으로, 내장된 SRAM을 내장된 DRAM(eDRAM)으로 교체할 수 있도록 프로세스 단계(제곱밀리미터당 훨씬 더 비싸게 만들기)를 추가하여 SRAM 영역에서 3배 면적 절감 효과를 부여한다(따라서 칩당 순비용 절감).
별도의 CPU 칩과 DRAM 칩이 있는 시스템을 시작으로 DRAM에 소량의 "복사 프로세서" 연산 능력을 추가해 DRAM 프로세스의 한계 내에서 작동하고 DRAM에 소량의 영역만 추가하면 CPU와 DRAM 사이의 좁은 병목현상으로 인해 속도가 느려질 수 있는 작업: 0 채우기 선택 ar메모리의 용이성, 한 위치에서 다른 위치로 큰 데이터 블록을 복사하고, 데이터 블록에서 주어진 바이트가 발생하는 위치 찾기(어디서든 있는 경우) 등.결과 시스템인 변경되지 않은 CPU 칩과 "스마트 DRAM" 칩은 적어도 원래 시스템만큼 빠르며, 잠재적으로 비용이 약간 절감될 수 있다.D램 칩을 한 번에 한 개씩 완전히 테스트하는 기존 방식보다 D램이 가득 찬 웨이퍼가 내부에서 가장 많이 병렬로 테스트할 수 있도록 "스마트 D램"에 대한 계산 능력이 충분하기 때문에 추가 면적의 소량 비용은 값비싼 테스트 시간에 절약된 비용보다 더 클 것으로 예상된다.외부 자동 시험 장비.^[1]
DRAM에 최적화된 프로세스로 시작하여 프로세스를 "CPU 프로세스"와 약간 유사하게 수정하고, 그 프로세스의 한계 내에서 범용 CPU(상대적으로 저주파, 그러나 저전력, 매우 높은 대역폭)를 구축한다.

DRAM 프로세스 기술(CPU에 특별히 최적화된 "CPU" 또는 "로직" 프로세스 기술이 아닌)에 구축되도록 설계된 CPU로는 버클리 IRAM 프로젝트, TOMI Technology^[4]^[5], AT&T DSP1 등이 있다.null

메모리 버스-오프칩 메모리는 온칩 메모리 버스의 캐패시턴스(capacitacity)를 많이 가지고 있기 때문에 DRAM과 CPU 칩이 분리된 시스템은 동일한 컴퓨터 성능을 가진 IRAM 시스템의 에너지 소비량의 몇 배를 가질 수 있다.^[1]

컴퓨터용 D램은 기존 D램보다 더 뜨겁게 달릴 것으로 예상되며 칩 온도 상승으로 D램 저장 셀에서 충전이 더 빨리 누출되기 때문에 컴퓨터용 D램은 보다 빈번한 재생이 필요할 것으로 예상된다.^[2]

프로세서 내장/가까이 메모리

PINM(Processor-in/near-memory)은 일반적으로 동일한 실리콘 칩에 있는 메모리와 밀접하게 연결된 컴퓨터 프로세서(CPU)를 말한다.null

이러한 방식으로 프로세싱과 메모리 구성요소를 병합하는 주요 목표는 메모리 지연 시간을 줄이고 대역폭을 늘리는 것이다.또는 데이터를 이동해야 하는 거리를 줄이면 시스템의 전력 요구량이 감소한다.[6]현재 프로세서의 복잡성(따라서 전력 소비량)은 메모리 스톨을 피하기 위한 전략에서 비롯된다.null

예

1980년대 PUSH와 POP을 향상시키기 위해 FOST를 실행한 작은 CPU가 DRAM 칩으로 제작되었고, FOST는 스택 지향 프로그래밍 언어로서 그 효율성이 향상되었다.null

트랜스퍼터는 1980년대 초반에 만들어진 칩 메모리가 커서 내장메모리라는 점에서도 큰 비중을 차지했다.null

주목할 만한 PIM 프로젝트로는 캘리포니아 대학의 버클리 IRAM 프로젝트 (Iram), 버클리^[7] 프로젝트, 노트르담 대학의 PIM 노력이^[8] 있다.null

DRAM 기반 PIM 분류법

DRAM 기반 니어메모리 및 인메모리 설계는 다음 4가지 그룹으로 분류할 수 있다.

DIMM 수준 접근방식은 처리 장치를 메모리 칩 근처에 배치한다.이러한 접근방식은 데이터 레이아웃(예: ^[9]Camelleon, RecNMP )의 변경을 최소화하거나 전혀 요구하지 않는다.
3D 스택 메모리의 논리 계층에 처리 단위를 내장하고 3D 스택 메모리의 높은 대역폭(예: TOP_PIM )을 활용할 수 있는 로직 계층 레벨 접근 방식
은행 수준의 접근방식은 처리 장치를 각 은행 근처에 있는 메모리 레이어 내부에 배치한다.UPMEM과 삼성 PIM이 대표적인 사례다.
서브어레이 레벨 접근 방식은 각 서브어레이 내부에서 데이터를 처리한다.서브어레이 수준 접근방식은 가장 높은 액세스 병렬 처리를 제공하지만 종종 전체 메모리 행(예: DRISA )에 대한 비트 연산이나 단일 월드 ALU(예: Fulcrum ^[14])를 사용한 메모리 행의 순차 처리와 같은 간단한 연산만 수행한다.

참고 항목

메모리를 사용한 컴퓨팅
시냅스도 하나의 칩에 프로세싱과 메모리를 결합한다.

참조

^ ^a ^b ^c 크리스토포로스 E. 코지라키스, 스틸리아노스 페리사키스, 데이비드 패터슨, 토마스 앤더슨 등."억만-트랜지스터 시대의 스케일이 가능한 프로세서: IRAM". IEEE 컴퓨터(매거진)1997. "벡터 IRAM은 메모리 어레이에 병렬 내장 자가 테스트 엔진으로 작동할 수 있어 DRAM 테스트 시간과 관련 비용을 크게 줄일 수 있다."라고 말한다.
^ ^a ^b 마크 오스킨, 프레데릭 T 총, 티모시 셔우드."Active Pages: A Computing Model for Intelligent Memory" 1998.
^ 대니얼 J. 번스타인"NFS의 메쉬 라우팅에 대한 기록적 참고 사항". 2002."컴퓨팅 RAM 프로그래밍"
^ "밀리와트 마이크로프로세서 TOMI"^{[영구적 데드링크]}
^ 김용빈과 톰 첸."Merged DRAM/Logic Technology 평가".1998. "Archived copy" (PDF). Archived from the original (PDF) on 2011-07-25. Retrieved 2011-11-27.{{cite web}}: CS1 maint: 타이틀로 보관된 사본(링크)[1]
^ "GYRFALCON STARTS SHIPPING AI CHIP". electronics-lab. 2018-10-10. Retrieved 5 December 2018.
^ 아이람
^ "PIM". Archived from the original on 2015-11-09. Retrieved 2015-05-26.
^ 하디 아스가리모그하드담 외, "카멜레온:대형 메모리 시스템을 위한 다용도 및 실용적 Near DRAM 가속 아키텍처"
^ 류커 외 "RecNMP: Near-Memory Processing으로 개인화된 권장사항 가속화"
^ Dongping, Zhang 등, "TOP-PIM: 메모리 내 처리량 지향 프로그래밍 가능 처리"
^ 이석한 등 "상업 D램 기술기반 PIM용 하드웨어 아키텍처 및 소프트웨어 스택 : 산업제품"
^ 솽첸 리 외 "DRISA: 드라마 기반의 재구성 가능한 현장 가속기"
^ Marzieh Lenjani 등, "Fulcrum: 유연하고 실용적인 현장 가속기를 위한 단순화된 제어 및 접근 메커니즘".

참고 문헌 목록

Duncan Elliott, Michael Stumm, W. Martin Snelgrove, Christian Cojocaru, Robert McKenzie, "Computational RAM: Implementing Processors in Memory", IEEE Design and Test of Computers, vol. 16, no. 1, pp. 32–41, Jan–Mar 1999. doi:10.1109/54.748803.

[kozyrakis-1] 크리스토포로스 E. 코지라키스, 스틸리아노스 페리사키스, 데이비드 패터슨, 토마스 앤더슨 등."억만-트랜지스터 시대의 스케일이 가능한 프로세서: IRAM". IEEE 컴퓨터(매거진)1997. "벡터 IRAM은 메모리 어레이에 병렬 내장 자가 테스트 엔진으로 작동할 수 있어 DRAM 테스트 시간과 관련 비용을 크게 줄일 수 있다."라고 말한다.

[oskin-2] 마크 오스킨, 프레데릭 T 총, 티모시 셔우드."Active Pages: A Computing Model for Intelligent Memory" 1998.

[3] 대니얼 J. 번스타인"NFS의 메쉬 라우팅에 대한 기록적 참고 사항". 2002."컴퓨팅 RAM 프로그래밍"

[4] "밀리와트 마이크로프로세서 TOMI"^{[영구적 데드링크]}

[5] 김용빈과 톰 첸."Merged DRAM/Logic Technology 평가".1998. "Archived copy" (PDF). Archived from the original (PDF) on 2011-07-25. Retrieved 2011-11-27.{{cite web}}: CS1 maint: 타이틀로 보관된 사본(링크)[1]

[6] "GYRFALCON STARTS SHIPPING AI CHIP". electronics-lab. 2018-10-10. Retrieved 5 December 2018.

[7] 아이람

[8] "PIM". Archived from the original on 2015-11-09. Retrieved 2015-05-26.

[Chameleon-9] 하디 아스가리모그하드담 외, "카멜레온:대형 메모리 시스템을 위한 다용도 및 실용적 Near DRAM 가속 아키텍처"

[RecNMP-10] 류커 외 "RecNMP: Near-Memory Processing으로 개인화된 권장사항 가속화"

[TOP_PIM-11] Dongping, Zhang 등, "TOP-PIM: 메모리 내 처리량 지향 프로그래밍 가능 처리"

[SAMSUGPIM-12] 이석한 등 "상업 D램 기술기반 PIM용 하드웨어 아키텍처 및 소프트웨어 스택 : 산업제품"

[DRISA-13] 솽첸 리 외 "DRISA: 드라마 기반의 재구성 가능한 현장 가속기"

[Fulcrum-14] Marzieh Lenjani 등, "Fulcrum: 유연하고 실용적인 현장 가속기를 위한 단순화된 제어 및 접근 메커니즘".

[1]

[2]

[3]

[4]

[5]

[7]

[8]

[9]

[14]

Search

연산 RAM

네임스페이스

더

목차

개요

프로세서 내장/가까이 메모리

예

DRAM 기반 PIM 분류법

참고 항목

참조

참고 문헌 목록