병렬 가상 파일 시스템
Parallel Virtual File System원저작자 | Clemson University, Argonne National Laboratory, 오하이오 슈퍼컴퓨터 센터 |
---|---|
개발자 | 월트 리곤, 롭 로스, 필 칸스, 피트 와이코프, 닐 밀러, 롭 래덤, 샘 랭, 브래드 세틀마이어 |
초기 릴리즈 | 2003 |
안정된 릴리스 | 2.8.2 / 2010년 1월 1일; 전( |
기입처 | C |
운영 체제 | Linux 커널 |
면허증. | LGPL |
웹 사이트 | web.archive.org/web/20160701052501 |
PVFS(Parallel Virtual File System)는 오픈 소스 병렬 파일 시스템입니다.병렬 파일 시스템은 파일 데이터를 여러 서버에 분산하여 병렬 응용 프로그램의 여러 작업을 통해 동시 액세스를 제공하는 분산 파일 시스템의 한 유형입니다.PVFS는 대규모 클러스터 컴퓨팅에서 사용하도록 설계되었습니다.PVFS는 대규모 데이터 세트에 대한 고성능 액세스에 중점을 둡니다.서버 프로세스와 클라이언트 라이브러리로 구성되어 있으며, 둘 다 전적으로 사용자 수준의 코드로 작성됩니다.Linux 커널 모듈과 pvfs-client 프로세스를 통해 파일 시스템을 마운트하여 표준 유틸리티와 함께 사용할 수 있습니다.클라이언트 라이브러리는 Message Passing Interface(MPI; 메시지 전달 인터페이스)를 통해 고성능 액세스를 제공합니다.PVFS는 클렘슨 대학의 병렬 아키텍처 연구소와 Argonne 국립 연구소의 수학 및 컴퓨터 과학 부서 및 오하이오 슈퍼 컴퓨터 센터가 공동으로 개발하고 있습니다.PVFS 개발은 NASA Goddard Space Flight Center, DOE Office of Science Advanced Scientific Computing Research 프로그램, NSF PACI 및 HECURA 프로그램 및 기타 정부 및 민간 기관에서 자금을 지원받아 왔습니다.PVFS는 오렌지라고 불리고 있습니다.FS는 최신 개발 부문입니다.
역사
PVFS는 1993년 Walt Ligon과 Eric Blumer에 의해 병렬 프로그램의 I/O 패턴을 연구하기 위한 NASA 조성금의 일환으로 PVM(Parallel Virtual Machine)용 병렬 파일 시스템으로 처음 개발되었습니다.PVFS 버전 0은 IBM T. J. Watson Research [2]Center에서 개발한 병렬 파일 시스템인 Vesta를 기반으로 했습니다.1994년부터 Rob Ross는 TCP/IP를 사용하도록 PVFS를 재작성하여 원래의 많은 Vesta 설계 지점에서 벗어났습니다.PVFS 버전1은 스위치드 FDDI를 사용하여 네트워크로 연결된 DEC Alpha 워크스테이션 클러스터를 대상으로 하고 있습니다.Vesta와 마찬가지로 PVFS는 데이터를 여러 서버에 스트라이핑하여 계층화된 액세스 패턴을 설명하는 파일 뷰에 따라 I/O 요구를 허용합니다.베스타와 달리 스트라이핑과 뷰는 공통 레코드 크기에 의존하지 않았습니다.Ross의 연구는 여러 클라이언트가 동일한 [3]파일에 액세스할 때 디스크 I/O 스케줄링을 수행하는 데 초점을 맞췄습니다.이전 결과에서는 최상의 디스크 액세스 패턴에 따른 스케줄링이 더 바람직하다는 것을 알 수 있었습니다.Ross는 이것이 네트워크의 상대적인 속도나 파일 뷰의 상세 등 많은 요인에 의해 결정된다는 것을 보여주었습니다.경우에 따라서는 네트워크트래픽에 근거한 스케줄링이 바람직하기 때문에 동적으로 적응할 수 있는 스케줄이 최적의 [4]전체적인 퍼포먼스를 제공합니다.
1994년 말, 리곤은 Goddard Space Flight Center(GSFC)에서 Thomas Sterling과 John Dorband를 만나 최초의 베어울프 [5]컴퓨터를 만드는 계획에 대해 논의했다.PVFS는 Linux로 이식되어 새로운 머신에 탑재되는 것으로 합의되었습니다.이후 몇 년간 Ligon과 Ross는 GFC 그룹인 Donald Becker, Dan Ridge, Eric Hendricks와 함께 일했다.1997년 패서디나에서 열린 클러스터 미팅에서 CA 스털링은 PVFS를 오픈 [6]소스 패키지로 출시할 것을 요청했습니다.
PVFS2
1999년 Ligon은 PVFS2000과 이후 PVFS2라는 새로운 버전의 PVFS 개발을 제안했습니다.이 디자인은 처음에 Ligon, Ross, 그리고 Phil Carns에 의해 개발되었습니다.로스는 2000년 박사학위를 마치고 아르곤 국립연구소로 옮겨 설계와 구현은 클렘슨 대학의 리곤, 칸스, 데일 위처치, 하리쉬 라마찬드란, 아르곤 국립연구소와 오하이오 주의 롭 래텀이 맡았다.새로운 파일 시스템은 2003년에 출시되었습니다.새로운 설계에서는 오브젝트 서버, 분산 메타데이터, MPI 기반 뷰, 여러 네트워크 유형 지원, 쉬운 실험과 확장성을 위한 소프트웨어 아키텍처를 특징으로 했습니다.
PVFS 버전1은 2005년에 폐기되었습니다.PVFS 버전2는 Clemson 및 Argonne에서 계속 지원됩니다.Carns는 2006년에 박사 학위를 취득하고, Axicom, Inc.에 입사해, 데이터 마이닝을 위해서 수천개의 노드에 PVFS를 도입했습니다.2008년 Argonne으로 이전하여 Ross, Latham, Sam Lang과 함께 PVFS 작업을 계속하고 있습니다.Brad Settmyer는 Clemson에서 미러링 서브시스템을 개발했으며, 이후 새로운 개발 연구에 사용되는 PVFS의 상세 시뮬레이션을 개발했습니다.Settmyer는 지금 Oak Ridge 국립 연구소에 있습니다.2007년 Argonne은 IBM Blue Gene/[8]P에서 사용하기 위해 PVFS를 이식하기 시작했습니다.2008년에 Clemson은 작은 파일의 대용량 디렉토리, 보안 강화 및 용장성 기능을 지원하기 위한 확장 기능 개발을 시작했습니다.이러한 목표 중 많은 부분이 Blue Gene의 개발과 상충됨에 따라 CVS 소스 트리의 두 번째 분기가 생성되어 "오렌지"로 명명되었으며 원래 분기는 "Blue"로 명명되었습니다.FS는 서로 매우 밀접하게 추적하지만 사용자 요구사항의 두 가지 다른 그룹을 나타냅니다.대부분의 패치와 업그레이드는 두 지점 모두에 적용됩니다.2011년 기준 오렌지FS는 주요 개발 라인입니다.
특징들
PVFS를 사용하는 클러스터에서는 노드가 클라이언트, 데이터 서버, 메타데이터 서버 중 하나 이상으로 지정됩니다.데이터 서버는 파일 데이터를 보관합니다.메타데이터 서버에는 stat-info, Attribute, data-file-handle 및 디렉토리 엔트리가 포함된 메타데이터가 저장됩니다.클라이언트는 네트워크를 통해 서버에 요청을 전송하여 파일 시스템을 사용하는 애플리케이션을 실행합니다.
객체 기반 설계
PVFS에는 객체 기반 설계가 있습니다.즉, 모든 PVFS 서버 요구는 데이터 공간이라고 불리는 객체와 관련되어 있습니다.데이터 공간은 파일 데이터, 파일 메타데이터, 디렉토리 메타데이터, 디렉토리 엔트리 또는 심볼릭 링크를 유지하기 위해 사용할 수 있습니다.파일 시스템의 모든 데이터 공간에는 고유한 핸들이 있습니다.클라이언트 또는 서버는 핸들을 기반으로 데이터 공간을 보유하고 있는 서버를 검색할 수 있습니다.데이터 공간에는 바이테스트 스트림과 키/값 쌍의 두 가지 구성 요소가 있습니다.bytestream은 바이트 순서이며 일반적으로 파일 데이터를 보관하기 위해 사용되며 키/값 쌍은 메타데이터를 보관하기 위해 사용됩니다.객체 기반 설계는 Lustre, Panasas 및 pNFS를 비롯한 많은 분산 파일 시스템에서 일반적인 설계가 되었습니다.
데이터와 메타데이터의 분리
PVFS는 클라이언트가 메타데이터를 얻기 위해 서버에 한 번 액세스한 후 메타데이터 서버와 더 이상 상호 작용하지 않고 데이터 서버에 액세스할 수 있도록 설계되었습니다.이를 통해 시스템에서 중대한 병목 현상이 제거되고 성능이 크게 향상됩니다.
MPI 기반 요구
클라이언트 프로그램이 PVFS에서 데이터를 요구하면 MPI_Datatype에 기반한 데이터 설명을 제공할 수 있습니다.이 기능을 통해 MPI 파일 보기를 파일 시스템에 직접 구현할 수 있습니다.MPI_데이터타입은 복잡한 비연속 데이터 패턴을 기술할 수 있습니다.PVFS 서버와 데이터 코드는 여러 서버와 클라이언트 간에 데이터를 효율적으로 전송하는 데이터 흐름을 구현합니다.
다중 네트워크 지원
PVFS는 파일시스템용으로 특별히 설계된 논블로킹메시지 인터페이스를 제공하는 BMI라는 이름의 네트워킹레이어를 사용합니다.BMI에는 TCP/IP, Myrinet, Infiniband,[9] Portals 등 고성능 컴퓨팅에 사용되는 여러 네트워크용 구현 모듈이 있습니다.
스테이트리스(잠금 없음) 서버
PVFS 서버는 서로 또는 클라이언트와 상태를 공유하지 않도록 설계되어 있습니다.서버가 크래쉬 했을 경우, 그 대신에 다른 서버를 간단하게 재기동할 수 있습니다.업데이트는 잠금을 사용하지 않고 수행됩니다.
사용자 레벨의 실장
PVFS 클라이언트 및 서버는 사용자 수준에서 실행됩니다.커널을 변경할 필요가 없습니다.다른 파일 시스템과 마찬가지로 PVFS 파일 시스템을 마운트할 수 있는 옵션 커널 모듈이 있습니다.또한 프로그램은 MPI-IO나 Posix와 같은 사용자 인터페이스에 직접 링크할 수 있습니다.이 기능에 의해, PVFS 의 설치가 용이하게 되어, 시스템 크래시의 발생을 억제할 수 있습니다.
시스템 레벨 인터페이스
PVFS 인터페이스는 시스템레벨로 통합하도록 설계되어 있습니다.Linux VFS와 유사하기 때문에 마운트 가능한 파일 시스템으로 구현이 용이하지만 MPI-IO나 Posix와 같은 사용자 수준의 인터페이스에도 동일하게 적용할 수 있습니다.또한 기본 파일 시스템의 많은 기능을 제공하므로 인터페이스가 필요에 [10][11]따라 이러한 기능을 활용할 수 있습니다.
아키텍처
![]() |
PVFS는 4개의 주요 컴포넌트와 다수의 유틸리티 프로그램으로 구성됩니다.컴포넌트는 PVFS2 서버, pvfslib, PVFS 클라이언트코어 및 PVFS 커널 모듈입니다.유틸리티에는 karma 관리도구, 유틸리티(pvfs-ping, pvfs-ls, pvfs-cp 등)가 포함되어 있으며 커널 모듈(주로 유지보수 및 테스트용)을 사용하지 않고 파일 시스템에서 직접 작동합니다.또 하나의 주요 설계 포인트는 클라이언트와 서버 간에 전달되는 메시지를 설명하는 PVFS 프로토콜입니다. 단, 이는 엄밀하게는 컴포넌트가 아닙니다.
PVFS2 서버
PVFS 서버는 I/O노드로 지정된 노드에서 프로세스로 실행됩니다.I/O 노드는 대부분 전용 노드이지만 애플리케이션 작업을 실행하는 일반 노드일 수도 있습니다.PVFS 서버는 보통 루트로 실행되지만 필요에 따라 사용자로 실행할 수 있습니다.각 서버는 여러 개의 개별 파일 시스템을 관리할 수 있으며 메타데이터 서버, 데이터 서버 또는 둘 다로 실행되도록 지정됩니다.모든 Configuration은 명령줄에서 지정된 Configuration파일에 의해 제어되며 특정 파일시스템을 관리하는 모든 서버는 동일한 Configuration파일을 사용합니다.서버는 네트워크를 통해 요청을 수신하고 디스크 I/O와 관련된 요청을 수행한 후 원래 요청자에게 응답합니다.요청은 일반적으로 응용 프로그램 작업을 실행하는 클라이언트 노드에서 발생하지만 다른 서버에서 발생할 수 있습니다.서버는 요청 프로세서, 작업 계층, Trove, BMI 및 흐름 계층으로 구성됩니다.
리퀘스트 프로세서
요청 프로세서는 서버 프로세스의 메인루프와 다수의 스테이트 머신으로 구성됩니다.스테이트 머신은 서버와 클라이언트 내의 동시성을 관리하는 PVFS용으로 개발된 단순한 언어를 기반으로 합니다.스테이트 머신은 다수의 스테이트로 구성됩니다.각 스테이트액션 함수는 C 스테이트액션 함수를 실행하거나 네스트된(서브루틴) 스테이트 머신을 호출합니다.어느 경우든 반환 코드는 다음으로 이동할 상태를 선택합니다.상태 액션 함수는 일반적으로 Trove 또는 BMI를 통해 일종의 I/O를 수행하는 작업 계층을 통해 작업을 제출합니다. 작업은 비블로킹이므로 작업이 실행되면 상태 시스템의 실행이 지연되어 다른 상태 머신이 다른 요청을 처리할 수 있습니다.Jobs가 완료되면 메인 루프가 관련된 상태 머신을 재시작합니다.요청 프로세서에는 PVFS 요청 프로토콜에 정의된 다양한 요청 유형 각각에 대한 상태 머신과 내부적으로 사용되는 여러 중첩된 상태 머신이 있습니다.스테이트 머신 아키텍처에서는, 새로운 요구를 서버에 간단하게 추가해, 특정의 상황에 맞추어 기능을 추가하거나 최적화할 수 있습니다.
작업 계층
작업 계층은 Trove, BMI 및 흐름 작업을 제출하고 완료 여부를 보고하기 위한 공통 인터페이스를 제공합니다.또한 요청 스케줄러를 비블로킹작업으로 구현하여 어떤 오브젝트에서 어떤 요구가 진행 중인지 기록하고 동일한 파일데이터에서 동시에 동작하여 발생하는 일관성 오류를 방지합니다.
트로브
Trove는 로컬 서버에 저장된 객체에 대한 I/O를 관리합니다.Trove는 데이터 공간 집합에서 작동합니다.컬렉션에는 독자적인 핸들 영역이 있어 개별 PVFS 파일시스템을 구현하기 위해 사용됩니다.데이터 공간은 PVFS 오브젝트이며 고유한(컬렉션 내에) 핸들을 가지며 1개의 서버에 저장됩니다.핸들은 설정 파일의 테이블을 통해 서버에 매핑됩니다.데이터 공간은 바이테스트스트림과 키/값 쌍의 두 부분으로 구성됩니다.bytestream은 길이가 불분명한 바이트의 시퀀스이며 일반적으로 로컬 파일 시스템의 파일에 파일 데이터를 저장하는 데 사용됩니다.키/값 쌍은 메타데이터, 속성 및 디렉토리 엔트리를 저장하는 데 사용됩니다.Trove는 명확하게 정의된 인터페이스를 가지고 있으며 다양한 방법으로 구현할 수 있습니다.현재까지 구현된 것은 Berkeley DB 데이터베이스에 [12]bytestream과 키/값 쌍을 파일에 저장하는 Trove-dbfs 구현뿐입니다.trove 조작은 논블로킹으로 API는 다양한 컴포넌트를 읽거나 쓸 수 있는 포스트 기능과 체크 또는 완료를 기다리는 함수를 제공합니다.
BMI
플로우
pvfslib
PVFS 클라이언트코어
PVFS 커널 모듈
「 」를 참조해 주세요.
레퍼런스
- ^ A. Blumer와 W. B. Ligon, "병렬 가상 파일 시스템", 1994 PVM 사용자 그룹 미팅, 1994.
- ^ 피터 F.콜벳, Dror G.Feitelson, The Vesta parallel file system, ACM Transactions on Computer Systems(TOCS), v.14 n.3, 페이지 2.25-264, 1996년 8월.
- ^ W. B. Ligon, III 및 R. B. Ross, "고성능 분산 애플리케이션을 위한 병렬 파일 시스템의 구현과 퍼포먼스", 제5회 고성능 분산 컴퓨팅에 관한 IEEE 심포지엄, 1996년 8월.
- ^ W. B. Ligon, III 및 R. B. Ross, "클러스터 병렬 I/O 시스템의 서버측 스케줄링", 클러스터 컴퓨팅의 병렬 I/O, Christophe Cérin 및 Hai Jin 편집자, Kogan Page Science, 2003년 9월.
- ^ W. B. 리곤 3세, R. B. 로스, D.Becker, P. Merkey, "Beowulf: Low-Cost Supercomputing Using Linux", IEEE Software 매거진 Linux 특집호, Volume 16, No.1, 79, 1999년 1월.
- ^ Walt Ligon과 Rob Ross, "Parallel I/O and the Parallel Virtual File System", Linux를 사용한 베어울프 클러스터 컴퓨팅, 제2판, William Gropp, Ewing Lusk 및 Thomas Sterling, 편집자 489-530페이지, MIT Press, 2003년 11월
- ^ P. H. 칸스, W. B. 리곤 III, R. B. 로스 및 R.Thakur, "PVFS: Linux 클러스터용 병렬 파일 시스템", Extreme Linux 워크숍, 애틀랜타, 2000년 10월최우수 학술대회 논문상.
- ^ Samuel Lang, Philip Carns, Robert Latham, Robert Ross, Kevin Hams, William Allcock, "I/O Performance Challenges at Leadership Scale", Proceedings of Supercomputing, 2009
- ^ 필립 H. 칸스, 월터 B.III, Robert Ross, Pete Wyckoff, "BMI: 병렬 I/O를 위한 네트워크 추상화 레이어", IPDPS '05, 2005 진행
- ^ M. Vilayannur, S. Lang, R. Ross, R. Klundt, L. Ward, "POSIX I/O 인터페이스 확장: 병렬 파일 시스템 관점", 기술 메모 ANL/MCS-TM-302, 2008.
- ^ A를 스왑합니다.패틸, 가스 AGibson, Gregory R. Ganger, Julio Lopez, Milo Polte, Wittawat Tantisiroj, Lin Xiao, "스케일러블 파일 시스템을 위한 API 검색:테이블 아래 또는 그 위?" USENIX Hot Cloud Workshop 2009.
- ^ RCE 35: PVFS 병렬 가상 파일 시스템
외부 링크
- 공식 웹사이트
- 주황색 파일 시스템 - 병렬 가상 파일 시스템의 분기
- 차세대 병렬 파일 시스템의 아키텍처
- 비디오 아카이브