HPCC

HPCC

DAS(Data Analytics Supercomputer)라고도 알려진 HPCC(High-Performance Computing Cluster)는 LexisNexis Risk Solutions가 개발한 오픈 소스, 데이터 집약적인 컴퓨팅 시스템 플랫폼이다. HPCC 플랫폼은 범용 컴퓨팅 클러스터에 구현된 소프트웨어 아키텍처를 통합하여 빅데이터를 활용한 애플리케이션에 고성능의 데이터 병렬 처리를 제공한다. [1] HPCC 플랫폼에는 인덱스 데이터 파일(Roxie)을 사용한 병렬 배치 데이터 처리(Tor)와 고성능 온라인 쿼리 애플리케이션을 모두 지원하는 시스템 구성이 포함되어 있다. [2] HPCC 플랫폼은 또한 ECL이라 불리는 병렬 데이터 처리를 위한 데이터 중심 선언 프로그래밍 언어를 포함한다. [3]

HPCC 공개 공개는 10년간의 사내 개발(렉시스넥시스에 따르면) 끝에 2011년 발표됐다. Hadoop[4] 및 기타 빅데이터 플랫폼의 대안이다. [5]

시스템 아키텍처

그림 2. 토르 처리 클러스터

HPCC 시스템 아키텍처는 TorrRoxie의 두 가지 뚜렷한 클러스터 처리 환경을 포함하며, 각 환경은 병렬 데이터 처리 목적에 따라 독립적으로 최적화될 수 있다.

이러한 플랫폼 중 첫 번째 플랫폼은 Tor라고 불리며, 데이터 정제 및 위생에 일반적으로 사용되는 모든 유형의 대량 원시 데이터의 일반적 처리, 원시 데이터의 ETL(추출, 변환, 로드) 처리, 기록 연결 및 개체 해결, 대규모 애드호크 복합 분석(ad-hoc complex analti)을 목적으로 한다.cs, 그리고 고성능 구조 쿼리 및 데이터 웨어하우스 애플리케이션을 지원하는 핵심 데이터 및 인덱스 생성. 데이터 정제소 이름 토르는 많은 양의 원시 데이터를 유용한 정보로 뭉개버리는 상징적인 큰 망치로 신화 속의 노르웨이의 천둥의 신을 지칭하는 것이다. Thor 클러스터는 기능, 실행 환경, 파일 시스템 및 기능이 Google 및 Hadoop MapReduce 플랫폼과 유사하다.

그림 2는 확장 가능한 데이터 집약적인 컴퓨팅 애플리케이션을 위한 일괄 작업 실행 엔진의 역할을 하는 물리적 토르 처리 클러스터를 나타낸다. 토르 마스터 및 슬레이브 노드 외에도, 완전한 HPCC 처리 환경을 구현하기 위해서는 추가적인 보조 및 공통 구성요소가 필요하다.

그림 3. 록시 처리 클러스터

두 번째 병렬 데이터 처리 플랫폼은 Roxie라고 불리며 빠른 데이터 전달 엔진으로서의 기능을 한다. 이 플랫폼은 수천 개의 동시 질의와 사용자들을 지원하는 웹 서비스 인터페이스를 통해 온라인 애플리케이션의 병렬 데이터 액세스 처리 요구 사항을 전달하는 온라인 고성능 구조 쿼리 및 분석 플랫폼 또는 데이터 웨어하우스로 설계되었다. Roxie는 분산형 인덱스 파일 시스템을 활용하여 최적화된 실행 환경과 고성능 온라인 처리를 위한 파일 시스템을 이용한 쿼리 병렬 처리를 제공한다. Roxie 클러스터는 HBaseHive 기능이 추가된 ElasticSearch 및 Hadoop과 기능 면에서 유사하며 실시간에 가까운 예측 가능한 쿼리 지연 시간을 제공한다. Thor와 Roxie 클러스터는 모두 응용 프로그램 구현, 연속성 및 프로그래머 생산성을 높이기 위해 ECL 프로그래밍 언어를 사용한다.

그림 3은 고성능 쿼리 및 데이터 웨어하우징 애플리케이션을 위한 온라인 쿼리 실행 엔진의 역할을 하는 물리적 Roxie 처리 클러스터를 나타낸 것이다. Roxie 클러스터에는 쿼리 처리를 위한 서버 및 작업자 프로세스가 있는 여러 노드, 클러스터에 대한 외부 클라이언트 액세스를 위한 인터페이스를 제공하는 ESP 서버라는 추가 보조 구성요소, HPCC 환경에서 Thor 클러스터와 공유되는 추가 공통 구성요소가 포함된다. Roxie 클러스터 없이 Thor 프로세싱 클러스터를 구현하고 사용할 수 있지만, Roxie 클러스터를 포함하는 HPCC 환경도 Tor 클러스터를 포함해야 한다. Thor 클러스터는 Roxie 클러스터에서 사용하는 분산 인덱스 파일을 작성하고 인덱스 파일과 함께 Roxie 클러스터에 배포할 온라인 쿼리를 개발하는 데 사용된다.

그림 4. HPCC 소프트웨어 아키텍처

소프트웨어 아키텍처

HPCC 소프트웨어 아키텍처는 Thor 및 Roxie 클러스터뿐만 아니라 공통 미들웨어 구성요소, 외부 통신 계층, 최종 사용자 서비스와 시스템 관리 도구를 모두 제공하는 클라이언트 인터페이스, 모니터링을 지원하고 외부 s에서 파일 시스템 데이터를 로드 및 저장하기 위한 보조 구성요소를 통합한다.usces. Roxie는 때때로 자체 인덱스를 구축하는데 사용되지만, 일반적으로 HPCC 환경은 Thor 클러스터 또는 Thor 및 Roxie 클러스터만 포함한다. 전체적인 HPCC 소프트웨어 아키텍처는 그림 4와 같다.

HPCC 시스템

HPCC 시스템즈(High Performance Computing Cluster)는 LexisNexis Risk Solutions의 일부로서 HPCC 소프트웨어를 홍보하고 판매하기 위해 결성되었다. 2011년 6월, 오픈 소스 이중 라이선스 모델에 의한 소프트웨어 제공을 발표했다.[6][7][8][9]

HPCC Systems는 Community Edition과 Enterprise Edition을 모두 제공한다. Community Edition은 무료로 다운로드할 수 있으며, 소스 코드를 포함하고 있으며 Apache License 2.0에 따라 릴리스된다. Enterprise Edition은 유료 상업용 라이센스로 제공되며 교육, 지원, 보상 및 추가 모듈을 포함한다. 2011년 11월, HPCC Systems는 Amazon Web Services에 Thor Data 정제 클러스터 가용성을 발표했다.[10] 2012년 1월, HPCC Systems는 분산형 머신러닝 알고리즘을 발표했다.[11]

참고 항목

참조

  1. ^ A.M. Middleton의 클라우드 컴퓨팅 핸드북, "클라우드 컴퓨팅을 위한 데이터 집약적 기술" 클라우드 컴퓨팅 핸드북. 2010년 스프링거
  2. ^ "HPCC Systems: Introduction to HPCC (High-Performance Computing Cluster)". 24 May 2011. CiteSeerX 10.1.1.456.3571. Cite 저널은 필요로 한다. journal= (도움말)
  3. ^ A.M. Middleton의 데이터 집약적 컴퓨팅 핸드북, "ECL/HPCC: 빅 데이터에 대한 통합된 접근 방식" 데이터 집약적 컴퓨팅 핸드북. 스프링거, 2011년
  4. ^ "LexisNexis Will Open-Source Its Hadoop Alternative for Handling Big Data". ReadWrite. 15 June 2011. Retrieved 20 November 2014.
  5. ^ "9 Useful Open Source Big Data Tools". EnterpriseAppsToday. 11 Nov 2015. Retrieved 18 November 2015.
  6. ^ "LexisNexis open-sources its Hadoop killer". GigaOM. 15 June 2011. Retrieved 8 November 2014.
  7. ^ "LexisNexis Will Open-Source Its Hadoop Alternative for Handling Big Data". ReadWrite. 15 June 2011. Retrieved 20 November 2014.
  8. ^ "HPCC A New/Old Kid In Town To Take On Hadoop". NetworkWorld. 16 June 2011. Retrieved 2 December 2014.
  9. ^ "LexisNexis Joins Linux Foundation". The Linux Foundation. 17 June 2011. Retrieved 29 November 2014.
  10. ^ "HPCC Announces Availability of ETL Cluster On Amazon Web Services". Cloud Computing Today. 17 December 2012. Retrieved 30 November 2014.
  11. ^ "HPCC Systems Intros Machine Learning Beta". Datanami. 31 January 2012. Retrieved 29 November 2014.

외부 링크