분산 R
Distributed R개발자 | HP |
---|---|
안정된 릴리스 | 1.2.0[1] / 2015년 10월 ; 2015년 22일) |
저장소 | |
기입처 | C++, R |
운영 체제 | 리눅스 |
유형 | 기계 학습 알고리즘 |
면허증. | GNU 일반 공중 라이선스 |
웹 사이트 | www |
Distributed R은 R 언어용 오픈소스 고성능 플랫폼입니다.여러 처리 노드 간에 태스크를 분할하여 실행 시간을 단축하고 대용량 데이터 세트를 분석합니다.분산 R은 분산 데이터 구조, 분산 데이터에 대한 함수를 실행하기 위한 병렬 프리미티브, 태스크 스케줄러 및 다중 데이터 [2]로더를 추가함으로써 R을 강화한다.주로 머신 러닝 태스크의 분산 버전을 구현하는 데 사용됩니다.분산 R은 C++ 및 R로 쓰여져 있으며 R의 익숙한 모양과 느낌을 유지합니다.2015년 2월[update] 현재 Hewlett-Packard([3]HP)는 Vertica 데이터베이스에서 고속 데이터 로더 등의 독자 사양 추가를 통해 Distributed R에 대한 엔터프라이즈 지원을 제공하고 있습니다.
역사
분산 R은 Indrajit Roy, Shivaram Venkataraman, Alvin AuYoung, Robert S에 의해 2011년에 시작되었습니다.HP [4]Labs의 연구 프로젝트로서 Schreiber.2014년에 GPLv2 라이선스로 오픈 소스되었으며 GitHub에서 이용 가능합니다.
2015년 2월 Distributed R은 [5]HP의 엔터프라이즈 지원과 함께 첫 번째 안정 버전 1.0에 도달했습니다.
구성 요소들
Distributed R은 R에서 분산 애플리케이션을 구현 및 실행하기 위한 플랫폼입니다.목표는 R의 심플함과 외관을 유지하면서 분산 컴퓨팅을 위해 R을 확장하는 것입니다.Distributed R은 다음 컴포넌트로 구성됩니다.
- 분산 데이터 구조:분산 R은 어레이, data.frame 및 목록과 같은 R의 공통 데이터 구조를 확장하여 여러 노드에 걸쳐 데이터를 저장합니다.해당하는 분산 R 데이터 구조는 darray, dframe 및 dlist입니다.colSums, rowSums, nrow 등 R의 많은 공통 데이터 구조 연산도 분산 데이터 구조에서 사용할 수 있습니다.
- 병렬 루프: 프로그래머는 포어치라고 불리는 병렬 루프를 사용하여 분산된 데이터 구조를 조작하고 태스크를 병렬로 실행할 수 있습니다.프로그래머는 응용 프로그램을 표현하기 위한 데이터 구조와 함수만 지정하며 런타임은 작업을 예약하고 필요한 경우 데이터를 이동합니다.
- 분산 알고리즘: 클러스터링, 분류, 회귀 등의 일반적인 기계 학습 및 그래프 알고리즘의 분산 버전입니다.
- 데이터 로더: 사용자는 분산 R구조를 활용하여 서로 다른 소스에서 데이터를 로드하는 병렬 커넥터를 구현할 수 있습니다.Distributed R은 이미 파일 및 데이터베이스에서 분산 데이터 구조로 데이터를 로드하는 구현을 제공합니다.
데이터베이스와의 통합
HP Vertica는 데이터베이스 및 오픈 소스 Distributed R 플랫폼과의 긴밀한 통합을 제공합니다.HP Vertica 7.1에는 Vertica 데이터베이스에서 Distribute R로 고속 병렬 로딩이 가능한 기능이 포함되어 있습니다.이 병렬 Vertica 로더는 기존 ODBC 기반 커넥터보다 5배 이상 빠를 수 있습니다.Vertica 데이터베이스는 데이터베이스 내에서의 머신러닝 모델 전개도 지원합니다.분산 R 사용자는 분산 알고리즘을 호출하여 머신 러닝 모델을 만들고 Vertica 데이터베이스에 전개하며 데이터베이스 내 스코어링 및 예측에 모델을 사용할 수 있습니다.Vertica 데이터베이스 및 분산 R 통합의 아키텍처 세부 사항은 [6]Sigmod 2015 백서에 설명되어 있습니다.
레퍼런스
- ^ "Release 1.2.0". 22 October 2015. Retrieved 20 July 2018.
- ^ Venkataraman, Shivaram; Bodzsar, Erik; Roy, Indrajit; AuYoung, Alvin; Schreiber, Robert S. (2013). "Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices" (PDF). European Conference on Computer Systems (EuroSys). Archived from the original (PDF) on 2015-03-01.
- ^ Gagliordi, Natalie. "HP adds scale to open-source R in latest big data platform". ZDNet. Retrieved 17 February 2015.
- ^ Venkataraman, Shivaram; Roy, Indrajit; AuYoung, Alvin; Schreiber, Robert S. (2012). "Using R for Iterative and Incremental Processing". Workshop on Hot Topics in Cloud Computing (HotCloud).
- ^ "HP Delivers Predictive Analytics at Big Data Scale". hp.com. 17 February 2015. Retrieved 17 February 2015.
- ^ Prasad, Shreya; Fard, Arash; Gupta, Vishrut; Martinez, Jorge; LeFevre, Jeff; Xu, Vincent; Hsu, Meichun; Roy, Indrajit (2015). "Enabling predictive analytics in Vertica: Fast data transfer, distributed model creation and in-database prediction". ACM SIGMOD International Conference on Management of Data.