아파치 드루이드
Apache Druid![]() | |
원저작자 | 팡진 양, 지안 멀리노, 에릭 체터, 바딤 오기에베츠키 |
---|---|
개발자 | Apache 소프트웨어 재단 |
안정된 릴리스 | 2021년[2] 12월 11일 / 0.22.1, 전 ( ) |
저장소 | github.com/apache/druid |
기입처 | 자바 |
운영 체제 | 크로스 플랫폼 |
유형 | |
면허증. | Apache 라이센스 2.0 |
웹 사이트 | druid |
Druid는 Java로 작성된 컬럼 지향 오픈 소스 분산 데이터 저장소입니다.Druid는 대량의 이벤트 데이터를 빠르게 수집하고 데이터 위에 [3]짧은 지연 시간 쿼리를 제공하도록 설계되었습니다.Druid라는 이름은 많은 롤플레잉 게임에서 Druid 클래스에서 유래했습니다.이것은 시스템 아키텍처가 다양한 유형의 데이터 문제를 해결하기 위해 바뀔 수 있다는 것을 반영하기 위해서입니다.
Druid는 대량의 실시간 [4]및 이력 데이터를 분석하기 위해 비즈니스 인텔리전스 OLAP 애플리케이션에서 일반적으로 사용됩니다.Druid는 [4]Alibaba, [4]Airbnb, Cisco,[5][4] eBay,[6] Lyft,[7] Netflix,[8] PayPal,[4] Pinterest,[9] [10]Twitter, Walmart,[11] Wikimedia[12] Foundation 및 [13]Yahoo와 같은 기술 회사에서 생산용으로 사용됩니다.
역사
Druid는 2011년 Eric Tschetter, Fangjin Yang, Gian Merlino 및 Vadim[14] Ogievetsky에 의해 Metamarkets의 분석 제품에 힘을 실어주기 위해 시작되었습니다.이 프로젝트는 2012년 [15][16]10월 GPL 라이선스에 따라 오픈 소스되었으며 2015년 [17][18]2월 Apache 라이선스로 이전되었습니다.
아키텍처
완전히 도입된 Druid는 특수 프로세스 클러스터(Druid에서는 노드라고 함)로 실행되며 데이터가 용장하게 저장되고 단일 [20]장애 지점이 없는 폴트 톨러런스 아키텍처를[19] 지원합니다.클러스터에는 조정을 위한 외부 의존관계(Apache ZooKeeper), 메타데이터 스토리지(MySQL, Postgre 등)가 포함됩니다.SQL 또는 Derby) 및 영구 데이터 백업을 위한 심층 스토리지 시설(예: HDFS 또는 Amazon S3)을 제공합니다.
쿼리 관리
클라이언트는 먼저 히트한 브로커 노드를 쿼리하여 적절한 데이터 노드(이력 노드 또는 실시간 노드)로 전송합니다.Druid 세그먼트는 분할될 수 있으므로 수신 쿼리에는 클러스터 내의 다른 노드에 저장된 여러 세그먼트 및 파티션(또는 조각)의 데이터가 필요할 수 있습니다.브로커는 필요한 데이터를 가진 노드를 파악하고 집계 결과를 반환하기 전에 일부 결과를 병합할 수 있습니다.
클러스터 관리
이력 노드의 데이터 관리와 관련된 작업은 코디네이터 노드에 의해 감시됩니다.Apache ZooKeeper는 모든 노드를 등록하고 노드 간 통신의 특정 측면을 관리하며 리더 선출을 제공하기 위해 사용됩니다.
특징들
- 낮은 레이텐시(스트리밍) 데이터 수집
- 임의 슬라이스 및 주사위 데이터 탐색
- 서브세컨드 분석 쿼리
- 대략적이고 정확한 계산
「 」를 참조해 주세요.
레퍼런스
- ^ "Apache Druid at GitHub". github.com. Retrieved 4 May 2021.
- ^ https://github.com/apache/druid/releases/tag/druid-0.22.1; 발행일 : 2021년 12월 11일, 취득일 : 2021년 12월 11일.
- ^ Hemsoth, Nicole, , Datanami, 2012년 11월 8일
- ^ a b c d e druid. "Druid Powered by Druid". druid.apache.org. Retrieved 2016-06-29.
- ^ Butler, Brandon. "Under the hood of Cisco's Tetration Analytics platform". Retrieved 2016-06-23.
- ^ "Druid at Pulsar - ebay的专栏 - 博客频道 - CSDN.NET". blog.csdn.net. Retrieved 2016-06-23.
- ^ Streaming SQL and Druid by Arup Malakar, retrieved 2020-01-29
- ^ "The Netflix Tech Blog: Announcing Suro: Backbone of Netflix's Data Pipeline". techblog.netflix.com. Retrieved 2016-06-23.
- ^ Pinterest: Powering Ad Analytics with Apache Druid, retrieved 2020-01-29
- ^ "Interactive Analytics at MoPub: Querying Terabytes of Data in Seconds". blog.twitter.com. Retrieved 2020-01-29.
- ^ Nayak, Amaresh (2018-02-23). "Event Stream Analytics at Walmart with Druid". Medium. Retrieved 2020-01-29.
- ^ "Conferences - O'Reilly Media".
- ^ "Complementing Hadoop at Yahoo: Interactive Analytics with Druid". Retrieved 2016-06-23.
- ^ "Druid: A Real-time Analytical Data Store" (PDF).
- ^ Tschetter, Eric, , druid.apache.org, 2012년 10월 24일
- ^ Higginbotham, Stacey, GigaOM, 2012년 10월 24일
- ^ Harris, Derrick (2015-02-20). "The Druid real-time database moves to an Apache license". Retrieved 2015-08-04.
- ^ "Druid Gets Open Source-ier Under the Apache License". Retrieved 2015-08-04.
- ^ "Druid Project Documentation".
- ^ 양, 팽진;Tschetter, Eric; Léauté, Xavier; Ray, Nelson; Merlino, Gian; Ganguli, Deep. , Metamarkets, 2014년 2월 6일 취득