GPFS

GPFS
GPFS
개발자IBM
풀네임IBM Spectrum Scale
소개했다1998년, 24년 전(1998년) AIX 사용
한계
최대 볼륨 크기8 YB
최대 파일 크기8 EB
최대 파일 수파일64 시스템당 2개
특징들
파일 시스템 권한POSIX
투과적 암호화네.
다른.
지원되는 운영 체제AIX, Linux, Windows Server

GPFS(General Parallel File System, 브랜드명 IBM Spectrum Scale)[1]는 IBM이 개발한 고성능 클러스터 파일 시스템 소프트웨어입니다.shared-disk 또는 shared-nothing 분산 병렬 모드 또는 이들의 조합으로 배치할 수 있습니다.Top 500 [2]목록에 있는 슈퍼컴퓨터들뿐만 아니라 세계 최대 규모의 많은 기업들에 의해 사용되고 있다.를 들어, Oak Ridge National Laboratory의 Summit 파일 시스템은 2019년 11월 슈퍼컴퓨터 [4]상위 500개 목록에서 세계에서 가장 빠른 슈퍼컴퓨터 1위를 차지했습니다.Summit은 9,000개가 넘는 POWER9 프로세서와 27,000개의 NVIDIA Volta GPU로 구성된 200 Petaflops 시스템입니다.Alphine이라는 스토리지[5] 파일 시스템은 IBM ESS 스토리지 하드웨어에서 Spectrum Scale을 사용하여 약 2.5개의 스토리지를 제공합니다.TB/s 시퀀셜 I/O 및 2.2TB/s 랜덤 I/O

일반적인 클러스터 파일 시스템과 마찬가지로 GPFS는 클러스터의 여러 노드에서 실행되는 애플리케이션에 동시에 고속 파일 액세스를 제공합니다.AIX 클러스터, Microsoft Windows Server의 Linux [6]클러스터 또는 x86, Power 또는 IBM Z 프로세서 아키텍처에서 실행되는 AIX, Linux 및 Windows 노드의 이기종 클러스터와 함께 사용할 수 있습니다.파일 시스템 스토리지 기능을 제공할 뿐만 아니라 GPFS 클러스터의 관리 및 관리를 위한 도구를 제공하고 원격 클러스터에서 파일 시스템에 대한 공유 액세스를 허용합니다.

역사

GPFS는 1993년에 IBM의 Almaden Research Center의 연구 프로젝트인 Tiger Shark 파일 시스템으로 시작되었습니다.Tiger Shark는 처음에 높은 처리량 멀티미디어 애플리케이션을 지원하도록 설계되었습니다.이 디자인은 과학적 [7]컴퓨팅에 매우 적합한 것으로 판명되었습니다.

또 다른 조상은 IBM의 Vesta 파일 시스템으로, 1992년부터 [8]1995년 사이에 IBM의 Thomas J. Watson Research Center의 연구 프로젝트로 개발되었습니다.Vesta는 병렬 I/O 서브시스템을 갖춘 고성능 멀티컴퓨터에서 실행되는 병렬 애플리케이션의 요구를 수용하기 위해 파일 파티셔닝 개념을 도입했습니다.파티셔닝에서는 파일은 바이트 시퀀스가 아니라 병렬로 액세스할 수 있는 여러 개의 분리된 시퀀스입니다.파티셔닝은 파일 시스템을 호스팅하는 I/O 노드의 수와 유형을 추상화하여 I/O 노드 내의 데이터의 물리적 분포에 관계없이 파일을 논리적으로 분할하여 볼 수 있도록 합니다.분리 시퀀스는 병렬 어플리케이션의 개별 프로세스에 대응하도록 배열되어 확장성이 [9][10]향상됩니다.

베스타는 [11]1994년경 PIOFS 파일 시스템으로 상용화되었고 [12][13]1998년경 GPFS에 의해 계승되었다.오래된 파일 시스템과 새로운 파일 시스템의 주요 차이점은 GPFS가 Vesta/PIOFS가 제공하는 특수 인터페이스를 표준 Unix API로 대체했다는 것입니다. 고성능 병렬 I/O를 지원하는 모든 기능이 사용자에게 숨겨져 후드 [7][13]아래에 구현되었습니다.

GPFS는 1998년부터 IBM의 AIX, 2001년부터 Linux, 2008년부터 Windows Server에서 사용할 수 있습니다.

현재 Top 500 Supercomputing List에 있는 상위 500대 슈퍼컴퓨터에서 사용되고 있습니다.초기부터 디지털 미디어, 그리드 분석 및 확장 가능한 파일 서비스를 비롯한 많은 상용 애플리케이션에 성공적으로 구현되었습니다.

2010년에 IBM은 GPFS-SNC라는 기능이 포함된 GPFS 버전을 선보였습니다. 여기서 SNC는 Shared Nothing Cluster를 나타냅니다.이것은 2012년 12월에 GPFS 3.5와 함께 공식적으로 출시되었으며 현재는 FPO(File Placement Optimizer)로 알려져 있습니다.이것에 의해, 공유 디스크 전용의 서버(SAN 의 사용등)를 필요로 하지 않고, 네트워크에 접속된 서버의 클러스터상에서 로컬로 접속된 디스크를 사용할 수 있습니다.FPO는 SAP HANA 및 DB2 DPF와 같이 공유되지 않는 데이터베이스 클러스터와 같이 데이터 인접성이 높은 워크로드에 적합하며 HDFS 호환 파일 시스템으로 사용할 수 있습니다.

아키텍처

클러스터된 파일 시스템입니다.파일을 구성된 크기의 블록(각각 1MB 미만)으로 분할하여 여러 클러스터 노드에 분산합니다.

이 시스템은 표준 블록 스토리지 볼륨에 데이터를 저장하지만 RAID 블록 스토리지 시스템과 마찬가지로 이중화 및 병렬 액세스를 위해 볼륨을 가상화할 수 있는 내부 RAID 계층을 포함합니다.또한 상위 파일 레벨의 볼륨 간에 복제할 수 있습니다.

아키텍처의 기능은 다음과 같습니다.

  • 디렉토리 트리를 포함한 분산 메타데이터.파일 시스템을 담당하는 단일 "디렉토리 컨트롤러" 또는 "인덱스 서버"는 없습니다.
  • 매우 큰 디렉토리의 디렉토리 엔트리의 효율적인 색인화.
  • 분산 잠금이것에 의해, 배타적인 파일 액세스를 위한 잠금을 포함한, 완전한 POSIX 파일 시스템의 시멘틱스가 가능하게 됩니다.
  • 파티션 인식네트워크에 장애가 발생하면 파일 시스템이 그룹 내의 노드만 볼 수 있는 여러 노드 그룹으로 분할될 수 있습니다.이는 하트비트 프로토콜을 통해 탐지될 수 있으며 파티션이 발생하면 형성된 가장 큰 파티션에 대해 파일 시스템이 활성 상태를 유지합니다.이것에 의해, 파일 시스템이 정상적으로 열화해, 일부의 머신은 동작하고 있습니다.
  • 파일 시스템 유지보수는 온라인으로 수행할 수 있습니다.파일 시스템 유지 보수 작업(새 디스크 추가, 디스크 간 데이터 재조정)의 대부분은 파일 시스템이 가동 중일 때 수행할 수 있습니다.이렇게 하면 파일 시스템을 더 자주 사용할 수 있으므로 슈퍼컴퓨터 클러스터 자체를 더 오래 사용할 수 있습니다.

그 외의 기능에는, 고가용성, 이종 클러스터에서의 사용 기능, 디저스터 리커버리, 시큐러티, DMAPI, HSM, ILM등이 있습니다.

하둡 분산 파일 시스템(HDFS)과 비교

Hadoop의 HDFS 파일 시스템은 일반 하드웨어, 즉 RAID 디스크와 SAN(Storage Area Network)이 없는 데이터 센터에 유사하거나 더 많은 양의 데이터를 저장하도록 설계되었습니다.

  • HDFS는 또한 파일을 블록으로 분할하여 다른 파일 시스템 노드에 저장합니다.
  • GPFS는 완전한 Posix 파일 시스템 시멘틱스를 가지고 있습니다.
  • GPFS는 디렉토리 인덱스 및 기타 메타데이터를 파일 시스템에 배포합니다.이와는 대조적으로 Hadoop은 모든 인덱스 정보를 RAM에 저장해야 하는 대규모 서버인 Primary 및 Secondary Namenode에 이를 보관합니다.
  • GPFS는 파일을 작은 블록으로 나눕니다.Hadoop HDFS는 Namenode의 스토리지 요구 사항이 줄어들기 때문에 64MB 이상의 블록을 선호합니다.작은 블록이나 많은 작은 파일은 파일 시스템의 인덱스를 빠르게 채우므로 파일 시스템의 크기를 제한합니다.

정보 라이프 사이클 관리

스토리지 풀을 사용하면 파일 시스템 내에서 디스크를 그룹화할 수 있습니다.관리자는 성능, 지역 또는 신뢰성의 특성에 따라 디스크를 그룹화하여 스토리지 계층을 생성할 수 있습니다.예를 들어 고성능 파이버 채널 Disk와 경제적인 SATA 스토리지를 사용할 수 있습니다.

파일 세트는 파일 시스템 네임스페이스의 하위 트리로, 네임스페이스를 보다 작고 관리하기 쉬운 단위로 분할할 수 있는 방법을 제공합니다.파일 세트는 할당량을 설정하는 데 사용할 수 있는 관리 경계를 제공하며, 초기 데이터 배치 또는 데이터 마이그레이션을 제어하는 정책에서 지정할 수 있습니다.단일 파일 세트의 데이터는 하나 이상의 저장소 풀에 있을 수 있습니다.파일 데이터의 위치 및 마이그레이션 방법은 사용자 정의 정책의 규칙 집합을 기반으로 합니다.

사용자 정의 정책에는 파일 배치와 파일 관리라는 두 가지 유형이 있습니다.파일 배치 정책은 파일이 생성될 때 파일 데이터를 적절한 저장소 풀로 보냅니다.파일 배치 규칙은 파일 이름, 사용자 이름 또는 파일 세트 등의 특성에 따라 선택됩니다.파일 관리 정책을 사용하면 파일의 데이터를 이동 또는 복제하거나 파일을 삭제할 수 있습니다.파일 관리 정책을 사용하여 디렉터리 구조에서 파일 위치를 변경하지 않고 한 풀에서 다른 풀로 데이터를 이동할 수 있습니다.파일 관리 정책은 마지막 액세스 시간, 경로 이름 또는 파일 크기 등의 파일 속성에 따라 결정됩니다.

정책 처리 엔진은 확장 가능하며 동시에 여러 노드에서 실행할 수 있습니다.이를 통해 수십억 개의 파일이 있는 단일 파일 시스템에 관리 정책을 적용하여 몇 [citation needed]시간 내에 완료할 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ "GPFS (General Parallel File System)". IBM. Retrieved 2020-04-07.
  2. ^ Schmuck, Frank; Roger Haskin (January 2002). "GPFS: A Shared-Disk File System for Large Computing Clusters" (PDF). Proceedings of the FAST'02 Conference on File and Storage Technologies. Monterey, California, US: USENIX. pp. 231–244. ISBN 1-880446-03-0. Retrieved 2008-01-18.
  3. ^ "Summit compute systems". Oak Ridge National Laboratory. Retrieved 2020-04-07.
  4. ^ "November 2019 top500 list". top500.org. Retrieved 2020-04-07.
  5. ^ "Summit FAQ". Oak Ridge National Laboratory. Retrieved 2020-04-07.
  6. ^ Wang, Teng; Vasko, Kevin; Liu, Zhuo; Chen, Hui; Yu, Weikuan (Nov 2014). "BPAR: A Bundle-Based Parallel Aggregation Framework for Decoupled I/O Execution". 2014 International Workshop on Data Intensive Scalable Computing Systems. IEEE. pp. 25–32. doi:10.1109/DISCS.2014.6. ISBN 978-1-4673-6750-9. S2CID 2402391.
  7. ^ a b May, John M. (2000). Parallel I/O for High Performance Computing. Morgan Kaufmann. p. 92. ISBN 978-1-55860-664-7. Retrieved 2008-06-18.
  8. ^ Corbett, Peter F.; Feitelson, Dror G.; Prost, J.-P.; Baylor, S. J. (1993). "Parallel access to files in the Vesta file system". Supercomputing. Portland, Oregon, United States: ACM/IEEE. pp. 472–481. doi:10.1145/169627.169786. ISBN 978-0818643408. S2CID 46409100.
  9. ^ Corbett, Peter F.; Feitelson, Dror G. (August 1996). "The Vesta parallel file system" (PDF). Transactions on Computer Systems. 14 (3): 225–264. doi:10.1145/233557.233558. S2CID 11975458. Retrieved 2008-06-18.
  10. ^ Teng Wang; Kevin Vasko; Zhuo Liu; Hui Chen; Weikuan Yu (2016). "Enhance parallel input/output with cross-bundle aggregation". The International Journal of High Performance Computing Applications. 30 (2): 241–256. doi:10.1177/1094342015618017. S2CID 12067366.
  11. ^ Corbett, P. F.; D. G. Feitelson; J.-P. Prost; G. S. Almasi; S. J. Baylor; A. S. Bolmarcich; Y. Hsu; J. Satran; M. Snir; R. Colao; B. D. Herr; J. Kavaky; T. R. Morgan; A. Zlotek (1995). "Parallel file systems for the IBM SP computers" (PDF). IBM Systems Journal. 34 (2): 222–248. CiteSeerX 10.1.1.381.2988. doi:10.1147/sj.342.0222. Retrieved 2008-06-18.
  12. ^ Barris, Marcelo; Terry Jones; Scott Kinnane; Mathis Landzettel Safran Al-Safran; Jerry Stevens; Christopher Stone; Chris Thomas; Ulf Troppens (September 1999). Sizing and Tuning GPFS (PDF). IBM Redbooks, International Technical Support Organization. see page 1 ("GPFS is the successor to the PIOFS file system").
  13. ^ a b Snir, Marc (June 2001). "Scalable parallel systems: Contributions 1990-2000" (PDF). HPC seminar, Computer Architecture Department, Universitat Politècnica de Catalunya. Retrieved 2008-06-18.
  14. ^ "IBM GPFS FPO (DCS03038-USEN-00)" (PDF). IBM Corporation. 2013. Retrieved 2012-08-12.[영구 데드링크]

외부 링크