R10000

R10000
NEC VR10000

코드명 「T5」로 불리는 R10000은, MIPS Technologies, Inc.(MTI)가 개발MIPS IV Instruction Set Architecture(ISA)의 RISC 마이크로프로세서 실장입니다.MIPS Technologies, Inc.(SGI).수석 디자이너는 Chris Rowen과 Kenneth C입니다.예거.R10000 마이크로아키텍처는 비시퀀셜 다이내믹 이그제큐션 스케줄링을 수반하는 아키텍처(Architecture with Non-sequential Dynamic Execution Scheduling)의 약어인 ANDES라고 불립니다.R10000은 하이엔드의 R8000과 그 외의 R4400을 크게 대체하고 있습니다.MTI는 팹리스 반도체 회사였습니다.R10000은 NEC와 도시바가 제조했습니다.Integrated Device Technology(IDT) 등 MIPS 마이크로프로세서의 이전 제조사는 R4000 및 R4400보다 비용이 많이 들기 때문에 R10000을 제조하지 않았습니다.

역사

R10000은 1996년 1월에 175MHz와 195MHz의 클럭 주파수로 도입되었습니다.150MHz 버전은 1997년에 O2 제품 라인에 도입되었지만 175MHz 버전에 대한 고객의 선호로 인해 곧 단종되었습니다.R10000은 MIPS 주조 공장의 제작 문제로 인해 올해 후반까지 대량으로 구입할 수 없었습니다.195MHz 버전은 1996년 내내 품귀현상을 보여 미화 3,000달러에 판매되었습니다.[1]

1996년 9월 25일, SGI는 그해 3월부터 7월 말 사이에 NEC에 의해 제조된 R10000에 결함이 발생하여 전류가 너무 많이 유입되어 운영 중에 시스템이 종료되었다고 발표했습니다.그 결과 SGI는 시스템에 출하된 10,000대의 R10000을 회수했고, 이는 회사의 수익에 영향을 미쳤다.

1997년에는 0.25µm 프로세스로 제조된 R10000 버전을 통해 마이크로프로세서가 250MHz에 도달할 수 있었습니다.

사용자

R10000 사용자는 다음과 같습니다.

묘사

NEC VR10000 다이샷.

R10000은 레지스터 이름을 변경하고 명령을 순서대로 실행하는 4방향 슈퍼스케일러 설계입니다.이 설계는 R4000과 같은 이전의 MTI 마이크로프로세서와는 다른 것으로, 스칼라 순서로 설계되어 높은 클럭 레이트에 주로 의존하고 있습니다.

R10000은 사이클마다 명령 캐시에서4개의 명령을 가져옵니다.이러한 명령은 디코딩된 후 명령 유형에 따라 정수, 부동소수점 또는 로드/스토어 명령 큐에 배치됩니다.디코드 유닛은 명령 캐시에서 미리 디코딩된 명령의 지원을 받습니다.이 명령어는 명령어마다 5비트를 추가하여 명령어가 실행되는 실행 유닛을 빠르게 식별하고 명령어 포맷을 재정렬하여 디코드 프로세스를 최적화합니다.

각 명령 큐는 디코더로부터 최대 4개의 명령을 받아 병목 현상을 방지할 수 있습니다.명령 큐는 오퍼랜드와 자원의 가용성에 따라 명령어를 실행 유닛에 동적으로 발행합니다.로드/스토어 큐를 제외한 각 큐는 사이클마다 실행 유닛에 대해 최대 2개의 명령을 발행할 수 있습니다.로드/스토어 큐는 하나의 명령만 발행할 수 있습니다.따라서 R10000은 사이클마다 최대 5개의 명령을 발행할 수 있습니다.

정수 단위

정수 유닛은 정수 레지스터 파일과 3개의 파이프라인, 2개의 정수, 1개의 로드스토어로 구성됩니다.정수 레지스터 파일의 폭은 64비트이며 64개의 엔트리를 포함합니다.이 중 32개는 아키텍처 레지스터이고 32개는 레지스터 이름을 변경하는 레지스터입니다.레지스터 파일에는 7개의 읽기 포트와 3개의 쓰기 포트가 있습니다.양쪽 정수 파이프라인은 가산기와 논리 유닛을 가진다.단, 조건부 분기 예측을 확인하기 위한 배럴 시프터 및 하드웨어를 갖춘 것은 제1 파이프라인뿐이다.두 번째 파이프라인은 승수 및 분할기에 액세스하는 데 사용됩니다.멀티플라이는 파이프라인 처리되며 32비트 정수의 경우 6사이클 지연이 발생하고 64비트 정수의 경우 10 사이클 지연이 발생합니다.분할은 파이프라인으로 되어 있지 않습니다.분할기는 사이클당 1비트를 생성하는 비복원 알고리즘을 사용합니다.32비트 분할과 64비트 분할의 지연은 각각 35사이클과 67사이클입니다.

부동 소수점 단위

부동소수점 단위(FPU)는 가산기, 승수, 나눗셈 단위 및 제곱근 단위의 4가지 기능 단위로 구성됩니다.덧셈기와 승수는 파이프라인이지만 나눗셈과 제곱근 단위는 파이프라인되지 않습니다.더하기 및 곱하기 지연 시간은 3사이클이며 더하기 및 곱하기는 매 사이클마다 새 명령을 수락할 수 있습니다.나눗셈 유닛은 나눗셈이 단정도인지 배정도인지에 따라 12사이클 또는 19사이클의 지연시간을 가진다.

제곱근 단위는 제곱근 및 역제곱근 명령을 실행합니다.제곱근 명령은 각각 단정도 또는 2배 정밀도에 대해 18 또는 33 사이클의 지연 시간을 가집니다.새로운 제곱근 명령은 단정도 및 배정도 각각 20 또는 35 사이클마다 분할 유닛에 발행할 수 있다.역제곱근은 단정도(32비트) 및 배정도(64비트)의 경우 각각 30~52사이클의 대기시간이 길어집니다.

부동소수점 레지스터 파일에는 64개의 64비트 레지스터가 포함되어 있습니다.이 중 32개는 아키텍처, 나머지 1개는 레지스터 이름 변경입니다.가산기에는 전용 읽기 및 쓰기 포트가 있지만, 승수는 이를 나눗셈기 및 제곱근 단위와 공유합니다.

나눗셈 단위와 제곱근 단위는 SRT 알고리즘을 사용합니다.MIPS IV ISA에는 다중 추가 명령이 있습니다.이 명령어는 바이패스를 사용하여 R10000에 의해 구현됩니다.곱셈의 결과는 레지스터 파일을 바이패스하여 오퍼랜드로 추가 파이프라인에 전달될 수 있습니다.따라서 퓨전된 다중 추가가 아니며 4사이클의 지연이 있습니다.

캐시

R10000에는 비교적 큰2개의 온칩캐시가 있습니다.32 KB 명령 캐시와 32 KB 데이터 캐시입니다.명령 캐시는 쌍방향 set-associative이며 라인 사이즈는 128바이트입니다.명령은 캐시에 저장되기 전에 각 명령에 4비트(길이 32비트)를 추가하여 부분적으로 디코딩됩니다.

32KB 데이터 캐시는 양방향 인터리빙을 통해 듀얼 포트됩니다.2개의 16KB 뱅크로 구성되어 있으며 각 뱅크는 쌍방향 세트어소시에이션입니다.캐시는 64바이트 행이 있으며, 라이트백 프로토콜을 사용하며, 동일한 클럭 사이클로 캐시를 인덱싱하고 보조 캐시와의 일관성을 유지하기 위해 가상으로 인덱싱되고 물리적으로 태그가 지정됩니다.

외부 세컨더리 유니파이드캐시는 512KB~16MB의 용량을 지원했습니다.이것은 범용 동기식 스태틱랜덤 액세스 메모리(SSRAM)와 함께 실장됩니다.캐시는 9비트의 ECC(Error Correcting Code)에 의해 보호되는 자체 128비트 버스를 통해 액세스됩니다.캐시와 버스는 최대 주파수가 200MHz인 R10000과 같은 클럭환율로 동작합니다.200MHz에서 버스는 3.2GB/s의 최대 대역폭을 제공합니다.캐시는 쌍방향 세트어소시에이션이지만 핀 수가 많아지지 않도록 R10000은 액세스 방법을 예측합니다.

주소 지정

MIPS IV는 64비트 아키텍처이지만 비용 절감을 위해 R10000은 물리 주소 또는 가상 주소 전체를 구현하지 않습니다.대신 40비트의 물리 주소와 44비트의 가상 주소를 가지고 있기 때문에 1TB의 물리 메모리와 16TB의 가상 메모리를 처리할 수 있습니다.

아발란체 시스템 버스

R10000은 Abranche 버스를 사용합니다.Abranche 버스는 최대 100MHz의 주파수로 동작하는 64비트 버스입니다.Ablanche는 다중 주소 및 데이터 버스이기 때문에 100MHz에서는 이론상 최대 대역폭이 800MB/s이지만 주소 전송에 몇 가지 사이클이 필요하기 때문에 최대 대역폭은 640MB/s입니다.

시스템 인터페이스 컨트롤러는 최대 4개의 마이크로프로세서의 글루리스 대칭 멀티프로세서(SMP)를 지원합니다.외부 로직이 탑재된 R10000을 사용하는 시스템은 수백 개의 프로세서로 확장할 수 있습니다.이러한 시스템의 예로는 Origin 2000이 있습니다.

제조

R10000은 약 680만 개의 트랜지스터로 구성되어 있으며, 이 중 약 440만 개의 트랜지스터가 프라이머리 [2]캐시에 포함되어 있습니다.다이 면적은 298.422mm이고2 다이 크기는 16.640x17.934mm입니다.0.35µm 공정으로 제작되어 599패드의 세라믹 랜드 그리드 어레이(LGA)로 패키지화되어 있습니다.R10000이 출시되기 전, 1994년 마이크로프로세서 포럼을 다룬 마이크로프로세서 보고서에서는 527핀의 세라믹 핀 그리드 어레이(CPGA)로 패키지화되어 있다고 보고되었습니다.또, 벤더는 마이크로프로세서 다이와 1MB의 [3]캐시를 포함한 339핀 멀티 칩 모듈(MCM)의 사용 가능성에 대해서도 조사했습니다.

파생상품

R10000은 여러 파생 모델에 의해 확장되었습니다.R12000 이후의 모든 파생 모델은 클럭 주파수를 가능한 한 낮게 유지하여 15~20W의 전력 소모를 유지하므로 SGI의 하이 퍼포먼스 컴퓨팅(HPC) 시스템에 고밀도로 패키지화할 수 있습니다.

R12000

NEC VR12000 다이샷.

R12000은 MIPS에 의해 시작되어 SGI에 의해 완성된 R10000의 파생 모델입니다.그것은 NEC와 도시바에 의해 제조되었다.NEC에 의해 제조된 버전은 VR12000이라고 불립니다.마이크로프로세서는 1998년 11월에 도입되었다.270, 300 및 360MHz에서 사용할 수 있습니다.R12000은 R10000의 후속 모델 제공을 목표로 한 "Beast" 프로젝트가 취소된 후 임시방편으로 개발되었습니다.R12000 사용자에는 NEC, Siemens-Nixdorf, SGI 및 Tandem Computers(나중에 Tandem 인수 후 Compaq)가 포함됩니다.

R12000은 R10000 마이크로아키텍처를 개선합니다.크리티컬 패스를 해결함으로써 클럭 주파수를 향상시키는 추가 파이프라인 스테이지를 삽입합니다.브런치 이력 테이블의 엔트리 수를 늘리고 예측을 개선합니다.큐잉된 명령의 경과시간을 고려하여 명령 큐를 수정하고 오래된 명령을 사용할 수 있습니다.ns는 가능한 경우 새로운 ns보다 먼저 실행됩니다.

R12000은 NEC와 Toshiba가 4레벨의 알루미늄 인터커넥트를 사용하여 0.25µm CMOS 프로세스로 제작했습니다.새로운 프로세스가 사용되었다고 해서 R12000이 마이크로 아키텍처를 조정한 단순한 다이 수축형이었다는 것을 의미하는 것은 아닙니다.다이의 레이아웃은 0.25µm 프로세스를 [4][5]활용할 수 있도록 최적화되어 있습니다.NEC가 제작한 VR12000은 715만개의 트랜지스터를 포함했으며 크기는 15.7x14.6mm(229.22mm2)였다.

R12000A

R12000A는 SGI가 개발한 R12000의 파생 모델입니다.2000년 7월에 도입된 이 제품은 400MHz로 동작하며 NEC에 의해 알루미늄 인터커넥트를 사용한 0.18µm 프로세스로 제작되었습니다.

R14000

R14000은 2001년7월에 발표된 R12000을 한층 더 발전시킨 것입니다.R14000은 500MHz로 동작하며 5레벨의 구리 인터커넥트를 갖춘 0.13µm CMOS 프로세스에 의해 동작합니다.세컨더리 캐시용 더블 데이터 레이트([6]DDR) SSRAM과 200MHz 시스템 버스를 지원함으로써 R12000의 마이크로 아키텍처가 개선되었습니다.

R14000A

R14000A는 2002년 2월에 발표된 R14000을 한층 더 발전시킨 것입니다.600MHz로 동작하며, 약 17W의 방산량을 자랑하며, NEC Corporation에 의해 [6]7레벨의 구리 인터커넥트를 갖춘 0.13µm CMOS 프로세스로 제작되었습니다.

R16000

R16000(코드명 「N0」)은, R10000의 마지막 파생 모델입니다.SGI에 의해 개발되어 8레벨의 구리 인터커넥트를 사용한 0.11µm 프로세스로 NEC에 의해 제조됩니다.이 마이크로프로세서는 2003년 1월 9일에 도입되어 700MHz의 Fuel로 데뷔했으며 Onyx4 Ultimate [7]Vision에도 사용되었습니다.2003년 4월에는 오리진 350용으로 600MHz 버전이 도입되었습니다.64KB 명령 및 데이터 캐시가 개선되었습니다.

R16000A

R16000A는 클럭 레이트가 700MHz 이상인 R16000 마이크로프로세서를 말합니다.첫 번째 R16000A는 800MHz 버전으로 2004년2월 4일에 도입되었습니다.그 후 900MHz 버전이 출시되었으며, 이 버전은 한동안 가장 빠른 R16000A가 되었습니다.SGI는 이후 1.0GHz R16000이 일부 고객에게 출하되었음을 밝혔습니다.R16000 사용자에는 HP와 SGI가 포함되어 있습니다.SGI는 Fuel과 Tezro 워크스테이션, Origin 3000 서버와 슈퍼컴퓨터에 마이크로프로세서를 사용했습니다.HP는 Compaq 경유로 Tandem에서 상속받은 논스톱 Himalaya S 시리즈 폴트 톨러런스 서버에서 R16000A를 사용했습니다.

R18000

R18000은 2001년 Hot Chips 심포지엄에서 Silicon Graphics, Inc.에 의해 대폭 개량된 R10000 마이크로아키텍처 개발을 취소한 것입니다.R18000은 SGI의 ccNUMA 서버와 슈퍼컴퓨터 전용으로 설계되었습니다.각 노드에는 멀티플렉스 버스를 통해 시스템 컨트롤러에 연결된 2개의 R18000이 있으며, 이 컨트롤러는 마이크로프로세서를 하이퍼큐브 네트워크를 통해 로컬 메모리와 시스템의 나머지 부분에 인터페이스합니다.

R18000에서는 부동소수점 명령 큐가 개선되어 부동소수점 유닛이 2개의 멀티플 추가 유닛으로 변경되어 피크 FLOPS 카운트의 4배가 되었습니다.나눗셈과 제곱근은 곱셈-더하기 단위에 병렬로 별도의 비파이프 단위로 수행될 것이다.시스템 인터페이스와 메모리 계층도 대폭 수정되었습니다.52비트의 가상 주소와 48비트의 물리 주소를 가집니다.이전 모델의 양방향 다중 주소 및 데이터 시스템버스는 2개의 단방향 DDR 링크(64비트 다중 주소 및 쓰기 경로 및 128비트 읽기 경로)로 대체되었습니다.패스는 멀티플렉싱을 통해 다른 R18000과 공유할 수 있습니다.버스는 R10000 시스템과의 하위 호환성을 위해 SysAD 또는 Abranche 구성으로 구성할 수도 있습니다.

R18000에는 1MB의 4방향 세트 어소시에이션 세컨더리 캐시가 탑재되어 있습니다.또한 싱글 데이터 레이트(SDR) 또는 더블 데이터 레이트(DDR) SSRAM 또는 DDR SDRAM(용량 2~64MB)으로 구성된 옵션의 3차 캐시로 보완됩니다.L3 캐시는 대기 시간을 줄이기 위해 400KB에 해당하는 캐시 태그를 다이 위에 배치합니다.L3 캐시는 144비트 버스를 통해 액세스 됩니다.이 중 128비트는 데이터용, 16비트는 ECC용입니다.L3 캐시의 클럭환율은 프로그램 가능합니다.

R18000은 9레벨의 구리 인터커넥트를 갖춘 0.13µm CMOS 프로세스인 NEC의 UX5 프로세스로 제작되었습니다.1.2V 전원장치를 사용했을 뿐만 아니라 시스템에 밀착시키기 위해 현재의 서버 마이크로프로세서보다 열방산량이 적었을 것입니다.

메모들

  1. ^ 린리주 구엔납(1997년 1월 27일)."Alpha Sails, PowerPC Fails"마이크로프로세서 보고서, 페이지 1, 6-9, 페이지 8."
  2. ^ Yeager, Kenneth C. (April 1996). "The MIPS R10000 Superscalar Microprocessor" (PDF). IEEE Micro. 16 (2): 28. doi:10.1109/40.491460. Archived from the original (PDF) on 19 July 2011.
  3. ^ Gwennap, Linley (24 October 1994). "MIPS R10000 Uses Decoupled Architecture" (PDF). Microprocessor Report. 8 (14): 4.
  4. ^ Gwennap, Linley (6 October 1997). "MIPS R12000 to Hit 300 MHz" (PDF). Microprocessor Report. 11 (13).
  5. ^ Halfhill, Tom R. (January 1998). "RISC Fights Back with the Mips R12000". Byte. Vol. 23, no. 1. p. 49-50.
  6. ^ a b ComputerWire (2 July 2002). "SGI to develop MIPS chips for Origin, Onyx". The Register.
  7. ^ Silicon Graphics, Inc. (2003년 1월 9일)SGI는 실리콘 그래픽스 Fuel Visual Workstation 패밀리의 가격 대비 성능을 최대 25% 향상시킵니다.(프레스 릴리즈).

레퍼런스