단순 프로세서의 비동기 배열

Asynchronous array of simple processors

단순 프로세서(AsAP)의 비동기 배열 아키텍처는 재구성 가능한 메쉬 네트워크에 의해 상호 연결된 작은 스크래치 패드 메모리와 함께 복잡성을 줄인 2D 배열로 구성됩니다.AsAP는 데이비스 캘리포니아 대학의 VLSI Computation Laboratory(VCL) 연구진에 의해 개발되었으며, 비교적 작은 회로 영역을 사용하면서 고성능과 에너지 효율을 달성합니다.그것은 [1]2006년에 만들어졌다.

AsAP 프로세서는 미래의 제조 테크놀로지 구현에 매우 적합하며 글로벌하게 비동기 로컬 동기(GALS) 방식으로 클럭킹됩니다.개별 오실레이터는 작업이 없을 때 9사이클에서 완전히 중지(누출 전용)되고 작업 후 1사이클 이내에 최대 속도로 재시작됩니다.칩에는 크리스털 오실레이터, 위상 잠금 루프, 지연 잠금 루프, 글로벌 클럭 신호 또는 글로벌 주파수 또는 위상 관련 신호가 전혀 필요하지 않습니다.

멀티프로세서 아키텍처는 많은 복잡한 DSP 애플리케이션에서 작업 수준의 병렬 처리를 효율적으로 사용하고 세분화된 병렬 처리를 사용하여 많은 대규모 작업을 효율적으로 계산합니다.

주요 기능

단일 AsAP 프로세서와 6x6 AsAP 1.0 칩 블록 다이어그램

AsAP에서는 다음과 같은 몇 가지 새로운 주요 기능이 사용됩니다.

  • 칩 멀티프로세서(CMP) 아키텍처는 많은 DSP 어플리케이션에서 하이 퍼포먼스와 저전력을 실현하도록 설계되어 있습니다.
  • 각 프로세서에 탑재된 작은 메모리와 심플한 아키텍처로 높은 에너지 효율을 실현합니다.
  • 글로벌하게 Asynchronous Local Synchronous(GALS; 비동기 로컬 동기) 크로킹으로 클럭 설계가 심플해지고 확장성이 대폭 향상되며 전력 소모를 더욱 줄일 수 있습니다.
  • 프로세서 간 통신은 긴 글로벌 와이어를 피하고 대규모 어레이 및 고도의 제조 기술에 대한 확장성을 높이기 위해 가장 가까운 인접 네트워크에 의해 실행됩니다.각 프로세서는 임의의 2개의 네이버로부터 데이터를 수신하여 4개의 네이버의 임의의 조합에 데이터를 송신할 수 있습니다.

AsAP 1 칩: 36 프로세서

제1세대 36프로세서 AsAP 칩 다이사진

프로그램 가능한 프로세서 36개를 포함한 칩은 2005년 5월에 합성 표준 셀 기술을 사용하여 0.18 μm CMOS에서 테이프로 마감되어 완전히 작동합니다.칩상의 프로세서는 1.8V에서 520MHz에서 540MHz의 클럭 속도로 동작하며 각 프로세서는 475MHz에서 애플리케이션을 실행하는 동안 평균 32mW의 전력을 방전합니다.

대부분의 프로세서는 2.0V에서 600MHz 이상의 클럭 레이트로 동작합니다.이것에 의해, AsAP는 지금까지 대학에서 설계된 가장 높은 클럭 레이트 가공 프로세서(프로그래머블 또는 비프로그래머블)가 됩니다.이것은, 발표된 연구 논문으로 알려진 것 중, 2번째로 높은 것입니다.

0.9V의 경우 프로세서당 평균 애플리케이션 전력은 116MHz에서 2.4mW입니다.각 프로세서의 점유율은 0.66mm²에 불과합니다.

AsAP 2 칩: 167 프로세서

2세대 167 프로세서 AsAP 2 칩 다이 사진

2세대 65nm CMOS 설계에는 전용 고속 푸리에 변환(FFT), Viterbi 디코더 및 비디오 모션 추정 프로세서를 갖춘 167개의 프로세서, 16KB의 공유 메모리 및 장거리 프로세서 상호 연결이 포함되어 있습니다.프로그래머블 프로세서는 전원 전압과 클럭 주파수를 개별적으로 동적으로 변경할 수 있습니다.칩은 완전히 기능하고 있다.프로세서는 1.3V로 최대 1.2GHz까지 동작합니다.이는 대학에서 설계된 가장 높은 클럭 레이트의 가공 프로세서로 간주됩니다.1.2V에서는 1.07GHz, 100% 활성화 시 47mW로 동작합니다.0.675V에서는 66MHz, 100% 활성 상태에서는 608μW로 작동합니다.이 동작 포인트는, 1조 MAC 또는 산술 논리 유닛(ALU) ops/sec 를 유효하게 해, 소비 전력은 9.2 와트에 불과합니다.MIMD 아키텍처와 미세한 클럭 오실레이터의 스톨로 인해 작업당 에너지 효율은 매우 다양한 워크로드에서 거의 완벽하게 일정하지만 많은 아키텍처에서는 그렇지 않습니다.

적용들

AsAP용 DSP 및 일반 태스크의 많은 코딩이 완료되었습니다.매핑 태스크에는 필터, 컨볼루션 부호화기, 인터리버, 정렬, 제곱근, CORDIC sin/cos/arcsin/arcos, 행렬 곱셈, 의사 난수 생성기, 32~126 길이의 고속 푸리에 변환(FFT), 완전한 k=7 Viterbi 디코더, JPEG 인코더, IEEE 11g 와이어용 완전 호환 베이스 밴드 프로세서가 포함됩니다.H.264 인코더용 완전한 CAVLC 압축 블록.블록 플러그는 수정할 필요 없이 직접 함께 사용할 수 있습니다.전력, throughput 및 영역 결과는 일반적으로 기존 프로그래밍 가능한 DSP 프로세서보다 몇 배 향상됩니다.

이 아키텍처를 통해 하드웨어에 의해 완전히 처리되는 프로그래밍과 프로세서 간 타이밍을 명확하게 구분할 수 있습니다.최근에 완성된 C 컴파일러와 자동 매핑 툴은 프로그래밍을 더욱 단순화합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Yu, Zhiyi; Meeuwsen, Michael J.; Apperson, Ryan W.; Sattari, Omar; Lai, Michael; Webb, Jeremy W.; Work, Eric W.; Truong, Dean; Mohsenin, Tinoosh; Baas, Bevan M. (March 2008). "AsAP: An Asynchronous Array of Simple Processors". IEEE Journal of Solid-State Circuits. 43 (3): 695–705. doi:10.1109/JSSC.2007.916616. ISSN 0018-9200.

외부 링크