데이터 그리드
Data grid데이터 그리드는 개인 또는 사용자 그룹이 지리적으로 분산된 방대한 양의 데이터에 액세스,[1] 수정 및 전송할 수 있는 기능을 제공하는 아키텍처 또는 서비스 세트입니다.데이터 그리드는 여러 관리 도메인의 데이터와 리소스를 통합하여 요청에 따라 사용자에게 제공하는 다수의 미들웨어 애플리케이션과 서비스를 통해 이를 가능하게 합니다.데이터 그리드의 데이터는 단일 사이트 또는 여러 사이트에 배치할 수 있으며,[2] 각 사이트는 데이터에 액세스할 수 있는 사용자에 대한 일련의 보안 제한에 따라 관리 도메인이 될 수 있습니다.마찬가지로 데이터의 여러 복제본은 원래 관리 도메인 외부에 있는 그리드 전체에 분산될 수 있으며, 원본 데이터에 대한 보안 제한은 복제본에 동일하게 [3]적용되어야 합니다.특별히 개발된 데이터 그리드 미들웨어는 액세스를 제어하고 최대한 효율적으로 사용할 수 있도록 함으로써 사용자와 사용자가 요구하는 데이터 간의 통합을 처리합니다.인접한 다이어그램은 데이터 그리드의 개략적인 뷰를 나타냅니다.
미들웨어
미들웨어는 데이터 그리드 내에서 데이터셋과 파일을 효율적으로 관리하는 데 필요한 모든 서비스와 애플리케이션을 제공하는 동시에 사용자가 데이터셋과 [4]파일에 빠르게 액세스할 수 있도록 지원합니다.데이터 그리드를 운용 가능하게 하기 위해서는 많은 개념과 툴을 사용할 수 있어야 합니다.그러나 동시에 사용자와 비교하여 접근 요건, 보안 및 자원의 위치가 다르기 때문에 모든 데이터 그리드에 동일한 기능과 서비스가 필요한 것은 아닙니다.어떤 경우에도 대부분의 데이터 그리드에는 범용 네임스페이스, 데이터 전송 서비스, 데이터 액세스 서비스, 데이터 복제 및 자원 관리 서비스를 제공하는 유사한 미들웨어 서비스가 있습니다.데이터 그리드의 기능적 기능에 중요한 역할을 합니다.
유니버설 네임스페이스
데이터 그리드 내의 데이터 소스는 서로 다른 파일 명명 규칙을 사용하여 여러 개별 시스템 및 네트워크로부터의 데이터로 구성되기 때문에 사용자가 데이터 그리드 내의 데이터를 찾고 기존 물리적 파일 이름(PFN)만을 기반으로 필요한 데이터를 검색했다는 것을 알기 어려울 수 있습니다.Universal 또는 Unified 네임스페이스를 사용하면 PFN에 [5]매핑되는 데이터 그리드 내에서 참조할 수 있는 Logical File Name(LFN; 논리 파일 이름)을 생성할 수 있습니다.LFN이 요구 또는 쿼리되면 일치하는 모든 PFN이 반환되어 요청된 데이터의 가능한 복제가 포함됩니다.그런 다음 최종 사용자는 반환된 결과 중에서 가장 적합한 복제본을 선택할 수 있습니다.이 서비스는 일반적으로 SRB([6]스토리지 리소스 브로커)라고 하는 관리 시스템의 일부로 제공됩니다.LFN과 PFN 간의 파일 위치 및 매핑에 대한 정보는 메타데이터 또는 복제 [7]카탈로그에 저장할 수 있습니다.복제본 카탈로그에는 여러 복제본 PFN에 매핑되는 LFN에 대한 정보가 포함됩니다.
데이터 전송 서비스
또 다른 미들웨어 서비스는 데이터 전송 또는 데이터 전송을 제공하는 서비스입니다.데이터 전송에는 내장해성 및 데이터 [8]액세스와 같은 항목을 포함하기 위해 비트 전송에만 국한되지 않는 여러 기능이 포함됩니다.데이터 그리드의 폴트 톨러런스는 요청된 모든 데이터가 [9]수신될 때까지 중단될 때마다 데이터 전송을 재개하는 메커니즘을 제공함으로써 달성할 수 있습니다.데이터 전송 전체를 처음부터 시작하여 전송이 중단된 곳부터 재개하는 방법에는 여러 가지가 있습니다.예를 들어 GridFTP는 처음부터 전체 전송을 시작하지 않고 마지막으로 확인된 바이트에서 데이터를 전송함으로써 내결함성을 제공합니다.
또한 데이터 전송 서비스는 [10]파일 전송을 위한 호스트 간의 낮은 수준의 액세스 및 연결을 제공합니다.데이터 전송 서비스는 전송을 구현하기 위해 여러 모드를 사용할 수 있으며, 여기에는 여러 데이터 스트림이 동일한 채널을 통해 사용되는 병렬 데이터 전송 또는 두 개 이상의 스팀으로 파일의 다른 블록에 동시에 액세스하여 ne의 기본 내장 기능을 사용하는 스트라이프 데이터 전송이 포함됩니다.더 빠른 [11]전송 속도를 지원하기 위해 특별히 개발된 프로토콜 또는 tork 하드웨어.데이터 전송 서비스에는 데이터의 라우팅과 전송을 용이하게 하는 네트워크 오버레이 기능과 사용자가 시스템에 로컬인 것처럼 원격 파일을 볼 수 있는 파일 I/O 기능이 선택적으로 포함될 수 있습니다.데이터 전송 서비스는 서로 다른 시스템 간의 액세스 및 사용자에게 전송의 복잡성을 숨기므로 하나의 통합된 데이터 소스로 간주됩니다.
데이터 액세스 서비스
데이터 액세스 서비스는 데이터 전송 서비스와 연계하여 데이터 [12]그리드 내의 데이터 전송에 대한 보안, 액세스 제어 및 관리를 제공합니다.보안 서비스는 사용자를 올바르게 식별하기 위한 인증 메커니즘을 제공합니다.인증의 일반적인 보안 형식에는 패스워드 또는 Kerberos(프로토콜)의 사용이 있습니다.인가 서비스는 인증을 통해 식별된 후 사용자가 액세스할 수 있는 것을 제어하는 메커니즘입니다.일반적인 형식의 인가 메커니즘은 파일 권한만큼 단순할 수 있습니다.단, 데이터에 대한 보다 엄격한 제어 접근은 ACL(Access Control List), RBAC(Role-Based Access Control) 및 TBAC([13]Tasked-Based Authorization Controls)를 사용하여 이루어집니다.이러한 유형의 제어는 파일에 대한 세부적인 액세스를 제공하기 위해 사용할 수 있습니다. 여기에는 액세스 시간 제한, 읽기 또는 쓰기 가능한 파일을 결정하는 세부적인 제어에 대한 액세스 기간 등이 포함됩니다.데이터 전송의 기밀성을 보호하기 위해 존재하는 최종 데이터 액세스 서비스는 [14]암호화입니다.이 태스크의 가장 일반적인 암호화 형식은 전송 중에 SSL을 사용하는 것입니다.이러한 모든 액세스 서비스는 데이터 그리드 내에서 작동하지만 데이터셋을 호스팅하는 다양한 관리 도메인 내의 액세스 서비스는 액세스 규칙을 적용하기 위해 그대로 유지됩니다.데이터 그리드 액세스 서비스가 관리 도메인 액세스 서비스와 보조를 맞춰야 작동합니다.
데이터 리플리케이션 서비스
확장성, 빠른 액세스 및 사용자 협업에 대한 요구사항을 충족하기 위해 대부분의 데이터 그리드는 분산 스토리지 [15]아키텍처 내의 포인트로 데이터셋 복제를 지원합니다.복제본을 사용하면 사용자가 필요로 하는 사이트에 전략적으로 가깝게 또는 내부에 복제본을 배치할 수 있기 때문에 여러 사용자가 데이터셋에 보다 빠르게 액세스하고 대역폭을 유지할 수 있습니다.그러나 데이터셋 복제 및 복제본 생성은 사이트 내 스토리지 가용성과 사이트 간 대역폭에 따라 제한됩니다.복제본 데이터 세트의 복제 및 생성은 복제본 관리 시스템에 의해 제어됩니다.복제본 관리 시스템은 입력 요청을 기반으로 복제본에 대한 사용자 요구를 결정하고 스토리지 가용성과 [16]대역폭을 기반으로 복제본을 생성합니다.그런 다음 모든 복제본은 사용자가 조회할 위치에 대해 데이터 그리드에 따라 카탈로그화되거나 디렉토리에 추가됩니다.복제 관리 시스템이 수행하는 작업을 수행하려면 기본 스토리지 인프라를 관리할 수 있어야 합니다.또한 데이터 관리 시스템은 복제본 변경 내용이 적시에 모든 노드에 전파되도록 보장합니다.
레플리케이션 갱신 전략
복제 관리 시스템은 여러 가지 방법으로 복제본 업데이트를 처리할 수 있습니다.업데이트는 단일 마스터 복제본이 다른 모든 항목을 업데이트하는 중앙 집중식 모델 또는 모든 피어가 [17]서로 업데이트하는 분산형 모델을 중심으로 설계될 수 있습니다.노드 배치 토폴로지도 복제본 업데이트에 영향을 줄 수 있습니다.계층 토폴로지가 사용되는 경우 업데이트는 특정 경로를 통해 트리와 같은 구조로 흐릅니다.플랫 토폴로지에서는 업데이트가 이루어지는 방법은 노드 간의 피어 관계에 전적으로 달려 있습니다.플랫 토폴로지와 계층 토폴로지를 모두 포함하는 하이브리드토폴로지에서는 특정 경로를 통해 피어 간에 갱신이 이루어질 수 있습니다.
레플리케이션 배치 전략
레플리케이션 관리 시스템은, 레플리케이션의 작성과 배치를 처리해, 유저 커뮤니티에 최적인 서비스를 제공할 수 있습니다.스토리지 아키텍처가 충분한 사이트 스토리지를 갖춘 복제본 배치를 지원하는 경우 데이터셋에 액세스하는 사용자의 요구와 [18]복제본 배치 전략에 따라 달라집니다.데이터 그리드 내에서 데이터셋의 복제본 배치를 가장 잘 관리하여 사용자 요구사항을 충족하는 방법에 대해 수많은 전략이 제안되고 테스트되었습니다.모든 요건에 가장 적합한 하나의 보편적인 전략은 없습니다.최적의 사용 전략을 결정하는 것은 데이터 그리드의 유형과 액세스에 대한 사용자 커뮤니티 요건의 문제입니다.의료용 [19]파일을 다루는 연구 프로젝트에서 유용한 기밀성을 위해 파일이 암호화되어 있는 경우에도 복제본을 만들 수 있습니다.다음 섹션에서는 복제품 배치에 대한 몇 가지 전략에 대해 설명합니다.
동적 리플리케이션
동적 복제는 데이터의 [20]중요도에 따라 복제본을 배치하는 방법입니다.이 방법은 계층 복제 모델을 중심으로 설계되었습니다.데이터 관리 시스템은 모든 노드에서 사용 가능한 스토리지를 추적합니다.또, 사이트의 데이터 클라이언트(사용자)가 요구하고 있는 요구(히트)도 추적합니다.특정 데이터 세트의 히트 수가 복제 임계값을 초과하면 사용자의 클라이언트에 직접 서비스를 제공하는 서버에 복제본이 생성됩니다.아버지로 알려진 직접 서비스 서버에 충분한 공간이 없는 경우 계층에 있는 아버지의 아버지가 복제본 수신 대상이며, 복제본이 소진될 때까지 체인을 통해 계속됩니다.또한 데이터 관리 시스템 알고리즘을 사용하면 액세스 값이 null이거나 저장되는 데이터의 빈도보다 낮은 값을 가진 복제본을 동적으로 삭제하여 공간을 확보할 수 있습니다.이를 통해 응답 시간, 복제본 수 측면에서 시스템 성능이 향상되고 데이터 그리드 간의 로드 밸런싱을 지원합니다.이 방법은 또한 동적 알고리즘을 사용하여 복제본 작성 비용이 실제로 [21]위치에 따라 예상되는 이득을 얻을 가치가 있는지 여부를 결정할 수 있습니다.
적응형 리플리케이션
동적 복제와 같은 이 복제 방법은 대부분의 데이터 그리드에서 볼 수 있는 계층적 복제 모델을 중심으로 설계되었습니다.이 알고리즘은 동적 복제와 유사한 알고리즘으로 작동하며, 파일 액세스 요청이 복제해야 하는 파일을 결정하는 데 중요한 요소입니다.단, 중요한 차이점은 복제 작성 횟수와 빈도가 일정 [22]기간 동안 클라이언트의 요청 도착 속도에 따라 계산되는 동적 임계값에 맞춰진다는 것입니다.평균 요청 수가 이전 임계값을 초과하여 증가 추세를 보이고 스토리지 사용률이 더 많은 복제본을 만들 수 있는 용량을 나타내는 경우 더 많은 복제본을 만들 수 있습니다.동적 복제와 마찬가지로, 현재 복제 간격에 작성되지 않은 낮은 임계값을 가진 복제본의 제거를 제거하여 새 복제본을 위한 공간을 확보할 수 있습니다.
이전 적응형 및 동적 복제 방법과 마찬가지로 균등 공유 복제는 계층 복제 모델을 기반으로 합니다.또, 앞의 2개의 경우와 같이, 파일의 인기는, 레플리케이트 하는 파일을 결정하는 중요한 역할을 합니다.이 방법의 차이점은 복제본의 배치가 [citation needed]후보 서버의 액세스 부하와 저장소 부하에 기반한다는 것입니다.후보 서버에는 충분한 저장 공간이 있을 수 있지만 저장된 파일에 액세스하기 위해 많은 클라이언트를 처리합니다.이 후보에 복제를 배치하면 이 후보 서버에 액세스하는 모든 클라이언트의 성능이 저하될 수 있습니다.따라서 이 방법에 의한 복제본의 배치는 액세스 부하에 대한 각 후보 노드를 평가하여 복제본 배치에 적합한 노드를 찾아냄으로써 이루어진다.모든 후보 노드의 액세스 부하가 동등하고 액세스 부하가 없거나 다른 노드보다 적은 경우, 스토리지 부하가 가장 낮은 후보 노드가 복제품을 호스트하도록 선택됩니다.필요에 따라 사용되지 않거나 요청된 하위 복제를 제거하는 데 설명된 다른 복제 방법과 유사한 방법이 사용됩니다.제거된 복제본은 나중에 다시 사용할 수 있도록 상위 노드로 이동될 수 있습니다.
기타 레플리케이션
위의 세 가지 복제본 전략은 데이터 그리드 내에 복제본을 배치하는 데 사용할 수 있는 여러 복제 전략 중 세 가지에 불과하며, 이러한 전략은 성능과 액세스를 향상시킵니다.다음은 앞서 설명한 복제 [23]전략과 함께 제안 및 테스트된 몇 가지 예입니다.
- 정적 – 복제 중인 파일에 대한 동적 변경 없이 고정 복제 노드 세트를 사용합니다.
- Best Client – 각 노드는 미리 설정된 시간 간격 동안 받은 파일당 요청 수를 기록합니다. 요청 수가 파일의 설정된 임계값을 초과하면 해당 파일을 가장 많이 요청한 복제본이 생성됩니다. 오래된 복제본은 다른 알고리즘에 따라 제거됩니다.
- 캐스케이드: 미리 설정된 시간 간격 동안 수신된 파일별 요구를 임계값과 비교하는 계층 노드 구조에서 사용됩니다.임계값을 초과하면 루트에서 아래로 내려가는 첫 번째 계층에 복제본이 생성됩니다. 임계값을 다시 초과하면 복제본이 클라이언트 자체에 배치될 때까지 워터폴 효과처럼 다음 계층에 복제본이 추가됩니다.
- 플레인 캐싱– 클라이언트가 파일을 요구하면 해당 파일은 클라이언트에 복사본으로 저장됩니다.
- 캐싱과 캐스케이드– 캐싱과 캐스케이드의 2가지 전략을 조합합니다.
- Fast Spread – 계층 노드 구조에서도 이 전략은 파일을 요구하는 클라이언트 경로의 모든 노드를 자동으로 채웁니다.
작업 스케줄링 및 리소스 할당
대규모 및 이질성과 같은 데이터 그리드 시스템의 특성에는 특정 작업 스케줄링 및 자원 할당 방법이 필요합니다.이 문제를 해결하기 위해 대부분의 시스템에서는 기존의 확장 스케줄링 [24]방법을 사용합니다.또, 가상 머니나 노드의 평판 등, 자율 노드에 대한 인센티브에 근거해, 근본적으로 다른 방법을 초대하는 경우도 있습니다.데이터 그리드의 또 다른 특성인 다이내믹스는 노드 연결 및 연결 해제의 연속 프로세스와 작업 실행 중 로컬 부하 불균형으로 구성됩니다.이로 인해 작업에 대한 초기 리소스 할당 결과가 오래되거나 최적화되지 않을 수 있습니다.그 결과 대부분의 데이터 그리드는 부하 밸런싱, 연결 해제 노드 교체, 새로 연결된 노드의 이익 사용, 장애 발생 후 작업 실행 복구 등 시스템이 동적 변화에 반영할 수 있는 실행 시간 적응 기술을 사용합니다.
자원 관리 시스템(RMS)
자원 관리 시스템은 데이터 그리드의 핵심 기능을 나타냅니다.스토리지 리소스와 관련된 모든 작업을 관리하는 시스템의 심장입니다.일부 데이터 그리드에서는 단일 RMS를 사용하는 대신 서로 다른 관리 정책과 데이터 그리드 내에서 발견되는 다양한 가능성 때문에 연합 RMS 아키텍처를 작성할 필요가 있을 수 있습니다.이 경우 연합 RMS는 합의된 일련의 시스템에 기반하여 상호 운용성을 가능하게 하는 아키텍처를 채택합니다.스토리지 [25]리소스와 관련된 작업을 위한 프로토콜입니다.
RMS 기능 기능
- 요청 유형과 정책에 따라 데이터 리소스에 대한 사용자 및 애플리케이션 요청 이행. RMS는 여러 정책과 여러 요청을 동시에 지원할 수 있습니다.
- 복제본 스케줄링, 타이밍 및 작성
- 데이터 그리드 리소스 내에서 인증, 인가 및 액세스를 포함하는 정책 및 보안 적용
- 사이트 자율성을 유지하면서 서로 다른 관리 정책을 가진 시스템을 상호 운용할 수
- 요청 시 서비스 품질(QoS) 지원(기능이 있는 경우)
- 시스템 폴트 톨러런스 및 안정성 요건 적용
- 디스크 스토리지, 네트워크 대역폭 및 데이터 그리드의 일부로서 직접 또는 상호 작용하는 기타 리소스 관리
- 관리 도메인의 리소스에 관한 트러스트를 관리합니다.도메인에 따라서는 RMS 또는 페더레이션의 조정이 필요한 참여 방법에 추가 제한이 있을 수 있습니다.
- 데이터 그리드와 관련하여 적응성, 확장성 및 확장성을 지원합니다.
토폴로지
데이터 그리드는 과학계의 요구를 충족시키기 위해 여러 토폴로지를 염두에 두고 설계되었습니다.오른쪽에는 데이터 [26]그리드에 사용된 다양한 토폴로지의 4개의 다이어그램이 있습니다.각 토폴로지에는 최적의 활용처가 특정되어 있습니다.이러한 토폴로지에 대해서는, 이하에 자세하게 설명합니다.
페더레이션 토폴로지는 기존 시스템의 데이터를 공유하는 기관에게 적합합니다.이를 통해 각 기관이 데이터를 제어할 수 있습니다.적절한 허가를 받은 기관이 다른 기관에 데이터를 요청할 경우, 요청 기관에 데이터가 전달되는지 여부는 요청을 받은 기관이 판단할 수 있습니다.연방은 기관 간에 느슨하게 통합되거나 긴밀하게 통합되거나 둘 다 조합될 수 있습니다.
Monadic topology에는 수집된 모든 데이터가 입력되는 중앙 저장소가 있습니다.그러면 중앙 저장소는 데이터에 대한 모든 쿼리에 응답합니다.다른 토폴로지와 비교하여 이 토폴로지에는 복제본이 없습니다.데이터는 웹 포털을 통해 중앙 저장소에서만 액세스할 수 있습니다.이 데이터 그리드토폴로지를 사용하는 프로젝트 중 하나가 미국의 [27]지진공학 시뮬레이션 네트워크(NEES)입니다.이 방법은 데이터에 대한 모든 액세스가 로컬이거나 고속 연결이 가능한 단일 영역 내에 있을 때 잘 작동합니다.
계층형 토폴로지는 단일 데이터 소스가 있고 전 세계 여러 곳에 분산되어야 하는 공동 작업에 적합합니다.이러한 토폴로지의 이점을 얻을 수 있는 프로젝트 중 하나는 엄청난 양의 데이터를 생성하는 대형 강입자 가속기를 실행하는 CERN입니다.이 데이터는 1개의 소스에 배치되어 있으며, 이 프로젝트에서 협력하고 있는 조직에 전 세계에 배포해야 합니다.
하이브리드 토폴로지는 앞서 말한 토폴로지의 임의의 조합으로 구성된 아키텍처를 포함하는 구성입니다.프로젝트를 수행하는 연구자들이 공동 작업을 쉽게 할 수 있도록 함으로써 결과를 추가 연구에 공유하고자 하는 상황에서 주로 사용됩니다.
역사
테라바이트 및 페타바이트 크기의 데이터 세트가 사이트 [28]간 전송의 표준이 되고 있는 기후 모델링과 관련하여 데이터 그리드의 필요성이 과학계에 의해 처음 인식되었습니다.데이터 그리드에 대한 보다 최근의 연구 요구사항은 CERN의 LHC(Large Hadron Collider), LIGO(Laser Interferometer Gravitational Wave Observatory) 및 Sloan Digital Sky Survey(SDSS)에 의해 주도되었습니다.이러한 과학적 기구의 예는 지리적으로 분산된 대규모 [29][30]연구자 그룹이 접근해야 하는 대량의 데이터를 생성한다.데이터 [31]그리드의 다른 용도에는 정부, 병원, 학교 및 기업이 있으며, 데이터 그리드를 사용하여 분산되어 있는 개별 데이터 시스템에 대한 액세스를 제공함으로써 서비스를 개선하고 비용을 절감하려는 노력이 있습니다.
초창기부터 과학계를 지원하는 데이터 그리드의 개념은 슈퍼컴퓨터를 [32]메타컴퓨터에 연결하는 방법으로 처음 구상된 "그리드"의 전문적 확장으로 생각되었습니다.그러나 이는 단기간에 이루어졌으며 그리드는 웹상의 모든 장소에서 컴퓨터를 연결하여 원하는 파일 및 리소스에 액세스할 수 있는 능력을 의미하게 되었습니다. 이는 장치를 연결하는 것만으로 그리드를 통해 전기를 공급하는 방식과 유사합니다.장치는 연결을 통해 전기를 공급받으며 연결은 특정 콘센트에 국한되지 않습니다.이를 통해 데이터 그리드는 분산 컴퓨팅을 위한 리소스를 제공할 수 있는 통합 아키텍처로 제안되었습니다.또한 각 쿼리에 기가바이트에서 테라바이트의 데이터를 제공하면서 동시에 수천 개의 쿼리를 처리할 수 있습니다.데이터 그리드에는 [33]웹으로 알려진 기존 프레임워크 내에서 작동하면서 여러 광역 네트워크를 통해 데이터 그리드 성능 및 운영의 모든 측면을 관리할 수 있는 자체 관리 인프라가 포함됩니다.
또한 데이터 그리드는 과학계에 유용하기 위해 데이터 그리드가 무엇을 할 수 있어야 하는지에 대해서도 보다 최근에 정의되었다.이 이론의 지지자들은 몇 가지 [34]기준에 도달했다.첫째, 사용자는 데이터 그리드의 여러 데이터셋에서 데이터 그리드 내의 해당 리소스를 검색하고 검색할 수 있어야 합니다.둘째, 사용자는 데이터 그리드 내에서 다양한 복제본 중에서 자신의 요구사항에 가장 적합한 데이터셋을 찾을 수 있어야 합니다.셋째, 사용자는 대규모 데이터셋을 단시간에 포인트 간에 전송 및 이동할 수 있어야 합니다.넷째, 데이터 그리드는 데이터 그리드 내에서 데이터셋의 여러 복사본을 관리하는 수단을 제공해야 합니다.마지막으로 데이터 그리드는 데이터 그리드 내의 사용자 액세스 제어(사용자가 어떤 데이터에 액세스할 수 있는지)를 통해 보안을 제공해야 합니다.
데이터 그리드는 확대되는 커뮤니티의 요구를 충족시키기 위해 지속적으로 변화하고 성장하는 기술입니다.데이터 그리드를 실현하기 위한 초기 프로그램 중 하나는 1997년 [35]시카고 대학에서 국방고등연구계획국(DARPA)의 자금 지원을 받았습니다.DARPA에 의해 생성된 이 연구는 데이터 그리드를 가능하게 하는 오픈 소스 도구를 만드는 과정에서도 계속되어 왔습니다.데이터 그리드에 대한 새로운 요구사항이 대두됨에 따라 Globus Toolkit과 같은 프로젝트가 등장하거나 격차를 해소하기 위해 확장될 것입니다.데이터 그리드는 "Grid"와 함께 계속 진화할 것입니다.
메모들
- ^ Allcock, Bill; Chervenak, Ann; Foster, Ian; 등.데이터 그리드 도구: 분산된 빅 데이터에 대한 과학 지원
- ^ 베누고팔, 스리쿠마르, 부야, 라즈쿠마르, 라마모하나라오, 코타기리.분산 데이터 공유를 위한 데이터 그리드 분류 - 관리 및 처리 p.37
- ^ 쇼푸자만, 모하마드, 그레이엄, 피터, 에스키시오글루, 라싯계층형 데이터 그리드에 적응형 복제품 배치. 페이지 15
- ^ 파달라, 프라디프그리드 시스템용 데이터 미들웨어 조사 1페이지
- ^ 파달라, 프라디프그리드 시스템용 데이터 미들웨어 조사
- ^ 아르콧, 라자세카르, 완, 마이클, 무어, 레이건, 슈로더, 웨인, 크레메넥.스토리지 리소스 브로커 – 분산된 데이터를 그리드로 관리
- ^ 베누고팔, 스리쿠마르, 부야, 라즈쿠마르, 라마모하나라오, 코타기리.분산 데이터 공유를 위한 데이터 그리드 분류법 - 관리 및 처리 페이지 11
- ^ Coetzee, Serena.동적 SDI의 데이터를 처리하는 데이터 그리드 접근방식을 위한 참조 모델 p.16
- ^ 베누고팔, 스리쿠마르, 부야, 라즈쿠마르, 라마모하나라오, 코타기리.분산 데이터 공유를 위한 데이터 그리드 분류법 - 관리 및 처리 페이지 21
- ^ Allcock, Bill, Foster, Ian, Nefedova, Veronika, Chervenak, Ann, Deelman, Ewa, Kesselman, Carl.기후 시뮬레이션 데이터에 대한 고성능 원격 액세스:데이터 그리드 테크놀로지의 과제입니다.
- ^ 이즈마일로프, 라우프, 간글리, 샘랏, 투, 난.데이터 그리드의 고속 병렬 파일 리플리케이션(p.2
- ^ 라만, 비제이산카르, 나랑, 인더팔, 크로네, 크리스, 하스, 로라, 말라이카, 수잔.그리드상의 데이터 액세스 및 데이터 처리를 위한 서비스
- ^ Thomas, R. K. 및 Sandhu R. S. 태스크 기반 인증 제어(tbac): 액티브하고 엔터프라이즈 지향적인 인증 관리를 위한 모델 패밀리
- ^ 스리엘라타, 말렘파티데이터 기밀 유지를 위한 그리드 기반 접근법. 페이지 1
- ^ 셰르베낙, 앤, 슐러, 로버트, 케셀만, 칼, 코란다, 스콧, 모, 브라이언과학적 협업을 위한 광역 데이터 복제
- ^ 라메하메디, 후다, 볼레슬라프, 셴투, 주준, 딜만, 에와.그리드 환경에서의 데이터 리플리케이션 전략
- ^ 라메하메디, 후다, 볼레슬라프, 셴투, 주준, 딜만, 에와.그리드 환경에서의 데이터 리플리케이션 전략
- ^ 파달라, 프라디프그리드 시스템용 데이터 미들웨어 조사
- ^ 크랜티, G.와 레카, D.샤시.데이터 그리드의 보호된 데이터 객체 복제(p.40)
- ^ 벨랄렘, 갈렘, 메루펠, 바흐타계층 데이터 그리드의 복제본 관리 및 배치
- ^ 라메하메디, 후다, 볼레슬라프, 셴투, 주준, 딜만, 에와.그리드 환경에서의 데이터 리플리케이션 전략
- ^ 쇼푸자만, 모하마드, 그레이엄, 피터, 에스키시오글루, 라싯계층형 데이터 그리드에 적응형 복제 배치
- ^ 랑가나단, 카비타, 포스터, 이안고성능 데이터 그리드를 위한 동적 복제 전략 식별
- ^ 에피마호프, 이고르, 하메를랭, 압델카데르, 딜론, 타람, 몰반, 프랑크데이터 그리드 시스템에서 쿼리 최적화를 위한 리소스 스케줄링 방법
- ^ 크라우터, 클라우스, 부야, 라즈쿠마르, 마헤스와란, 무투쿠마루.분산 컴퓨팅을 위한 그리드 자원 관리 시스템의 분류 및 조사
- ^ 주, 리춘.그리드 데이터베이스 페더레이션에서의 메타데이터 관리
- ^ 베누고팔, 스리쿠마르, 부야, 라즈쿠마르, 라마모하나라오, 코타기리.분산 데이터 공유를 위한 데이터 그리드 분류법 - 관리 및 처리 페이지 16
- ^ Allcock, Bill, Foster, Ian, Nefedova, Veronika, Chervenak, Ann, Deelman, Ewa, Kesselman, Carl.기후 시뮬레이션 데이터에 대한 고성능 원격 액세스:데이터 그리드 테크놀로지의 과제입니다.
- ^ Allcock, Bill; Chervenak, Ann; Foster, Ian; 등 페이지 571
- ^ Tierney, Brian L. 데이터 그리드 및 데이터 그리드 성능 문제. 페이지 7
- ^ 티보도, P. 정부 데이터 그리드 프로젝트 계획
- ^ 하인가트너, 더글라스그리드: 차세대 인터넷
- ^ 하인가트너, 더글라스그리드: 차세대 인터넷
- ^ 베누고팔, 스리쿠마르, 부야, 라즈쿠마르, 라마모하나라오, 코타기리.분산 데이터 공유를 위한 데이터 그리드 분류법 - 관리 및 처리 페이지 1
- ^ 글로버스. 글로버스 툴킷에 대해서
레퍼런스
- Allcock, Bill; Chervenak, Ann; Foster, Ian; Kesselman, Carl; Livny, Miron (2005). "Data Grid tools: enabling science on big distributed data". Journal of Physics: Conference Series. 16 (1): 571–575. Bibcode:2005JPhCS..16..571A. CiteSeerX 10.1.1.379.4325. doi:10.1088/1742-6596/16/1/079.
- Allcock, Bill; Foster, Ian; Nefedova, Veronika l; Chervenak, Ann; Deelman, Ewa; Kesselman, Carl; Lee, Jason; Sim, Alex; Shoshani, Arie; Drach, Bob; Williams, Dean (2001). "High-performance remote access to climate simulation data: A challenge problem for data grid technologies". ACM Press. CiteSeerX 10.1.1.64.6603.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말)
- Arcot, Rajasekar; Wan, Michael; Moore, Reagan; Schroeder, Wayne; Kremenek, George. "Storage resource broker – managing distributed data in a grid". Archived from the original on May 7, 2006. Retrieved April 28, 2012.
- Belalem, Ghalem; Meroufel, Bakhta (2011). "Management and placement of replicas in a hierarchical data grid". International Journal of Distributed and Parallel Systems. 2 (6): 23–30. doi:10.5121/ijdps.2011.2603. Retrieved April 28, 2012.
- Chervenak, A.; Foster, I.; Kesselman, C.; Salisbury, C.; Tuecke, S. (2001). "The data grid: towards an architecture for the distributed management and analysis of large scientific datasets" (PDF). Journal of Network and Computer Applications. 23 (3): 187–200. CiteSeerX 10.1.1.32.6963. doi:10.1006/jnca.2000.0110. Retrieved April 11, 2012.
- Chervenak, Ann; Schuler, Robert; Kesselman, Carl; Koranda, Scott; Moe, Brian (November 14, 2005). "Wide area data replication for scientific collaborations" (PDF). IEEE. Retrieved April 25, 2012.
- Coetzee, Serena (2012). "Reference model for a data grid approach to address data in a dynamic SDI". GeoInformatica. 16 (1): 111–129. doi:10.1007/s10707-011-0129-4. hdl:2263/18263. S2CID 19837152.
- Epimakhov, Igor; Hameurlain, Abdelkader; Dillon, Tharam; Morvan, Franck (2011). "Resource Scheduling Methods for Query Optimization in Data Grid Systems". Advances in Databases and Information Systems. 15th International Conference, ADBIS 2011. Vienna, Austria: Springer Berlin Heidelberg. pp. 185–199. doi:10.1007/978-3-642-23737-9_14.
- Globus (2012). "About the globus toolkit". Globus. Retrieved May 27, 2012.
- Heingartner, Douglas (March 8, 2001). "The Grid: The Next-Gen Internet". Wired. Archived from the original on May 4, 2012. Retrieved May 13, 2012.
- Izmailov, Rauf; Ganguly, Samrat; Tu, Nan (2004). "Fast parallel file replication in data grid" (PDF). Archived from the original (PDF) on April 21, 2012. Retrieved May 10, 2012.
- Kranthi, G. Aruna; Rekha, D. Shashi (2012). "Protected data objects replication in data grid". International Journal of Network Security & Its Applications. 4 (1): 29–41. doi:10.5121/ijnsa.2012.4103. ISSN 0975-2307.
- Krauter, Klaus; Buyya, Rajkumar; Maheswaran, Muthucumaru (2002). "A taxonomy and survey of grid resource management systems for distributed computing". Software: Practice and Experience. 32 (2): 135–164. CiteSeerX 10.1.1.38.2122. doi:10.1002/spe.432. S2CID 816774.
- Lamehamedi, Houda; Szymanski, Boleslaw; Shentu, Zujun; Deelman, Ewa (2002). "Data replication strategies in grid environments". Fifth International Conference on Algorithms and Architectures for Parallel Processing (ICA3PP’02). Press. pp. 378–383. CiteSeerX 10.1.1.11.5473.
- Padala, Pradeep. "A survey of data middleware for Grid systems". CiteSeerX 10.1.1.114.1901.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말)
- Raman, Vijayshankar; Narang, Inderpal; Crone, Chris; Hass, Laura; Malaika, Susan (February 9, 2003). "Services for data access and data processing on grids" (PDF). Retrieved May 10, 2012.
- Ranganathan, Kavitha; Foster, Ian (2001). "Identifying dynamic replication strategies for a high performance data grid". In Proc. of the International Grid Computing Workshop. pp. 75–86. CiteSeerX 10.1.1.20.6836. doi:10.1007/3-540-45644-9_8.
- Shorfuzzaman, Mohammad; Graham, Peter; Eskicioglu, Rasit (2010). "Adaptive replica placement in hierarchical data grids". Journal of Physics: Conference Series. 256 (1): 1–18. Bibcode:2010JPhCS.256a2020S. doi:10.1088/1742-6596/256/1/012020.
- Sreelatha, Malempati (2011). "Grid based approach for data confidentiality". International Journal of Computer Applications. 25 (9): 1–5. Bibcode:2011IJCA...25i...1M. CiteSeerX 10.1.1.259.4326. doi:10.5120/3063-4186. ISSN 0975-8887.
- Thibodeau, P. (May 30, 2005). "Governments plan data grid projects". Computerworld. 39 (42): 14. ISSN 0010-4841. Retrieved April 28, 2012.
- Thomas, R. K.; Sandhu, R. S. (1997). "Task-based authorization controls (tbac): a family of models for active and enterprise-oriented authorization management" (PDF). Retrieved April 28, 2012.
- Tierney, Brian L. (2000). "Data grids and data grid performance issues" (PDF). Retrieved April 28, 2012.
- Venugopal, Srikumar; Buyya, Rajkumar; Ramamohanarao, Kotagiri (2006). "A taxonomy of data grids for distributed data sharing, management and processing" (PDF). ACM Computing Surveys. 38 (1): 1–60. arXiv:cs/0506034. CiteSeerX 10.1.1.59.6924. doi:10.1145/1132952.1132955. S2CID 1379579. Retrieved April 10, 2012.
- Zhu, Lichun. "Metadata management in grid database federation" (PDF). Retrieved May 15, 2012.[영구 데드링크]
추가 정보
- Allcock, W. (April 2003). "Gridftp: protocol extensions to ftp for the grid" (PDF). Argonne National Laboratory. Retrieved April 20, 2012.
- Allcock, W.; Bresnahan, J.; Kettimuthu, R.; Link, M.; Dumitrescu, C.; Raicu, I.; Foster, I. (November 2005). "The globus striped gridftp framework and server" (PDF). ACM Press. Retrieved April 20, 2012.
- Foster, Ian; Kesselman, Carl; Tuecke, Steven (2001). "The anatomy of the grid enabling scalable virtual organizations" (PDF). International Journal of High Performance Computing Applications. 15 (3): 200–222. arXiv:cs/0103025. Bibcode:2001cs........3025F. CiteSeerX 10.1.1.24.9069. doi:10.1177/109434200101500302. S2CID 28969310. Retrieved April 10, 2012.
- Foster, Ian; Kesselman, Carl; Nick, Jeffrey M.; Tuecke, Steven (June 22, 2002). "The physiology of the grid: an open grid services architecture for distributed systems integration". Archived from the original on March 22, 2008. Retrieved May 10, 2012.
- Hancock, B. (2009). "A simple data grid using the inferno operating system". Library Hi Tech. 27 (3): 382–392. doi:10.1108/07378830910988513.
- Hoschek, W.; McCance, G. (October 10, 2001). "Grid enabled relational database middleware" (PDF). Global Grid Forum. Archived from the original (PDF) on January 28, 2006. Retrieved April 22, 2012.
- Kunszt, Peter Z.; Guy, Leanne P. (July 7, 2002). "The open grid services architecture and data grids" (PDF). Retrieved May 10, 2012.
- Moore, Reagan W. "Evolution of data grid concepts" (PDF). Archived from the original (PDF) on February 12, 2014. Retrieved May 10, 2012.
- Rajkumar, Kettimuthu; Allcock, William; Liming, Lee; Navarro, John-Paul; Foster, Ian (March 30, 2007). "GridCopy moving data fast on the grid" (PDF). International parallel and distributed processing symposium (IPDPS 2007). Long Beach: IEEE International. pp. 1–6. Retrieved April 29, 2012.
- Thenmozhi, N.; Madheswaran, M. (2011). "Content based data transfer mechanism for efficient bulk data transfer in grid computing environment". International Journal of Grid Computing & Applications. 2 (4): 49–62. doi:10.5121/ijgca.2011.2405. ISSN 2229-3949. Retrieved April 28, 2012.
- Tu, Manghui; Li, Peng; I-Ling, Yen; Thuraisingham, Bhavani; Khan, Latifur (2010). "Secure data objects replication in data grid" (PDF). IEEE Transactions on Dependable and Secure Computing. 7 (1): 50–64. doi:10.1109/tdsc.2008.19. S2CID 8934783. Retrieved April 26, 2012.[영구 데드링크]