데이터 분석 라이브러리
Data Analytics Library개발자 | 인텔(R) |
---|---|
초기 릴리즈 | 2015년 8월 | , 전(
안정된 릴리스 | 2021년 업데이트 4 /[1] 전 |
저장소 | |
기입처 | C++, Java, Python[2] |
운영 체제 | Microsoft Windows, Linux, macOS[2] |
플랫폼 | 인텔 ATOM, 인텔 Core, 인텔 Xeon[2] |
유형 | 라이브러리 또는 프레임워크 |
면허증. | Apache 라이센스 2[3].0 |
웹 사이트 | software |
oneAPI Data Analytics Library (1DAL, 구 Intel Data Analytics Acceleration Library 또는 Intel DAAL)는 빅데이터 [4][5][6][7]문제 해결과 관련된 가장 일반적인 데이터 분석 단계에 최적화된 알고리즘 구성 요소 라이브러리입니다.
라이브러리는 인텔 프로세서를 지원하며 Windows, Linux 및 MacOS 운영 [2]체제에서 사용할 수 있습니다.라이브러리는 Hadoop, Spark, R 및 Matlab을 [4][8]비롯한 일반적인 데이터 플랫폼을 사용하도록 설계되었습니다.
역사
인텔은, 2020년 12월 8일에 인텔·데이터·애널리틱·라이브러리(oneDAL)를 개시했습니다.또한 2015년 8월 25일 데이터 분석 액셀러레이션 라이브러리(Data Analytics Acceleration Library)를 출시하여 인텔 데이터 분석 가속 라이브러리(Intel DAAL 2016)[9]로 명명하였습니다.oneDAL은 인텔 oneAPI Base Toolkit에 상용 제품으로 번들되어 있습니다.스탠드아론 버전은 상업용 [3][10]또는 무료로 구입할 수 있으며, 유일한 차이점은 지원 및 유지 보수입니다.
면허증.
Apache 라이센스 2.0
세부 사항
기능 카테고리
인텔 DAAL에는 다음과 같은 [11][4][12]알고리즘이 있습니다.
- 분석.
- 주문량이 적은 순간:데이터 세트에 대한 최소, 최대, 평균, 표준 편차, 분산 등을 계산합니다.
- 분위수: 관측치를 분위수 순서로 정의된 동일한 크기의 그룹으로 나눕니다.
- 상관 행렬 및 분산-공분산 행렬: 변수 간의 통계적 종속성을 이해하기 위한 기본 도구입니다.상관도는 한 변화가 다른 변화의 가능성을 나타내는 경향을 나타냅니다.
- 코사인 거리 행렬: 코사인 거리를 사용하여 쌍방향 거리를 측정합니다.
- 상관 거리 행렬: 상관 거리를 사용하여 항목 간의 쌍별 거리를 측정합니다.
- 클러스터링: 데이터를 레이블이 없는 그룹으로 그룹화합니다.이것은 의지할 수 있는 확립된 모델이 없는 "무감독 학습"에서 사용되는 전형적인 기술이다.인텔 DAAL은 클러스터링을 위해 K-Means와 "EM for GMM"의 2가지 알고리즘을 제공합니다.
- 주요 컴포넌트 분석(PCA): 치수 축소를 위한 가장 일반적인 알고리즘입니다.
- 연결 규칙 마이닝:공존 패턴을 검출하고 있습니다.흔히 "장바구니 채굴"이라고 알려져 있다.
- 매트릭스 분해를 통한 데이터 변환: DAAL은 Cholesky, QR 및 SVD 분해 알고리즘을 제공합니다.
- 특이치 검출:다른 관측치의 일반적인 분포와 비정상적으로 멀리 있는 관측치를 식별합니다.
- 트레이닝과 예측
- 회귀
- 선형 회귀 분석:가장 간단한 회귀 분석법입니다.종속 변수(예측할 사항)와 설명 변수(알려진 사항) 간의 관계를 모형화하기 위해 선형 방정식을 적합시킵니다.
- 분류:여러 레이블이 지정된 그룹에 항목을 할당하기 위한 모델 구축.DAAL은 Nave Bayes 분류자, Support Vector Machine, 멀티 클래스 분류자 등 이 영역에 여러 알고리즘을 제공합니다.
- 추천 시스템
- 뉴럴 네트워크
- 회귀
인텔 DAAL은 3가지 처리 모드를 지원했습니다.
- 배치 처리:모든 데이터가 메모리에 들어맞으면 데이터를 한 번에 처리하는 함수가 호출됩니다.
- 온라인 처리(스트리밍이라고도 함): 모든 데이터가 메모리에 맞지 않는 경우.인텔 ® DAAL은 데이터 청크를 개별적으로 처리하고 최종 단계에서 모든 부분 결과를 통합할 수 있습니다.
- 분산 처리: DAAL은 MapReduce와 유사한 모델을 지원합니다.클러스터의 소비자는 로컬 데이터를 처리하고(맵 단계), 생산자 프로세스는 소비자로부터 부분 결과를 수집 및 결합합니다(축소 단계).인텔 DAAL은 통신 기능을 개발자에게 완전히 맡김으로써 이 모드에서 유연성을 제공합니다.개발자는 Hadoop이나 Spark와 같은 프레임워크에서 데이터 이동을 사용하거나 MPI로 통신을 명시적으로 코딩할 수 있습니다.
레퍼런스
- ^ "Intel® Data Analytics Acceleration Library Release Notes". software.intel.com.
- ^ a b c d 인텔 ® 데이터 분석 액셀러레이션 라이브러리 (인텔 ® DAAL)인텔 ® 소프트웨어
- ^ a b "Open Source Project: Intel Data Analytics Acceleration Library (DAAL)".
- ^ a b c "DAAL github".
- ^ "Intel Updates Developer Toolkit with Data Analytics Acceleration Library".
- ^ "Intel adds big data functions to math libraries".
- ^ "Intel Leverages HPC Core for Analytics Tooling Push". nextplatform.com. 2015-08-25.
- ^ "Try Out Intel DAAL to Process Big Data".
- ^ "Intel Data Analytics Acceleration Library".
- ^ "Community Licensing of Intel Performance Libraries".
- ^ 인텔(R) 데이터 분석 액셀러레이션 라이브러리 개발자 가이드 2020
- ^ "Introduction to Intel DAAL, Part 1: Polynomial Regression with Batch Mode Computation".