집계(데이터 웨어하우스)

데이터 웨어하우스의 기본 아키텍처

Aggregate는 데이터 웨어하우스의 치수 모델에 사용되어 대용량 데이터 세트를 쿼리하는 데 걸리는 시간에 긍정적인 효과를 낸다.가장 간단한 형태에서 Aggregate는 SQL 조회를 수행하여 도출할 수 있는 간단한 요약 테이블이다.골재의 보다 일반적인 용도는 치수를 취하여 이 치수의 세분성을 변경하는 것이다.치수의 세분성을 변경할 때 팩트 테이블은 새로운 차원의 새로운 곡물에 맞게 부분적으로 요약되어야 하며, 따라서 새로운 차원 및 팩트 테이블을 생성하여 이 새로운 수준의 곡물에 적합해야 한다.집계는 일반적으로 미리 계산되고 부분적으로 요약된 데이터로, 새로 집계된 테이블에 저장되기 때문에 집계를 사전 계산된 요약 데이터라고 부르기도 한다.사실들을 종합할 때, 그것은 차원성을 제거하거나 사실을 롤업된 차원과 연관시킴으로써 이루어진다.롤업 치수는 세분화된 기본 사실들과 관련된 치수의 축소된 버전이어야 한다.이러한 방식으로 집계된 치수 표는 기본 치수 표에 따라야 한다.^[1]따라서 Aggregate가 데이터 웨어하우스의 성능을 이처럼 획기적으로 향상시킬 수 있는 이유는 쿼리에 응답할 때 액세스할 행의 수를 줄이기 때문이다.^[2]

데이터 웨어하우징의 초기 설계자 중 한 명으로 널리 평가받고 있는 Ralph Kimball은 다음과 같이 말한다.^[3]

대규모 데이터 웨어하우스에서 성능에 영향을 미치는 가장 극적인 방법은 1차 기본 기록과 공존하는 적절한 집계(요약) 기록 세트를 제공하는 것이다.Aggregate는 성능에 매우 중요한 영향을 미칠 수 있으며, 경우에 따라 질의 속도를 100 또는 심지어 1,000배까지 높일 수 있다.이렇게 눈부신 이익을 거둘 수 있는 다른 수단은 존재하지 않는다.

골재와 원자 데이터가 있으면 치수 모델의 복잡성이 증가한다.이러한 복잡성은 데이터 웨어하우스 사용자에게 투명해야 하므로, 요청이 있을 경우 데이터 웨어하우스는 정확한 곡물로 테이블의 데이터를 반환해야 한다.따라서 데이터 웨어하우스에 대한 요청이 있을 때는 정확한 곡물로 정확한 표를 결정하는 데 도움이 되도록 종합적인 네비게이터 기능을 구현해야 한다.가능한 집계의 수는 치수 세분화의 가능한 모든 조합에 의해 결정된다.가능한 모든 집계를 작성하기 위해 많은 오버헤드를 발생시키므로, 집계를 작성할 표의 하위 집합을 선택하는 것이 좋다.이 하위 집합을 선택하고 작성할 집계를 결정하는 가장 좋은 방법은 쿼리를 모니터링하고 쿼리 패턴과 일치하도록 집계를 설계하는 것이다.^[4]

집계 네비게이터

치수 모델에 집계 데이터를 포함하면 환경이 더욱 복잡해진다.사용자에게 이러한 추가적인 복잡성을 투명하게 하기 위해 Aggregate Navigation이라고 하는 기능을 사용하여 정확한 곡물 수준의 치수 및 팩트 테이블을 쿼리한다.집계 탐색은 기본적으로 쿼리를 검사하여 더 작은 집계 테이블을 사용하여 응답할 수 있는지 확인하십시오.^[5]

Aggregate Navigator 구현은 다양한 기술에서 확인할 수 있다.

OLAP 엔진
구체화된 뷰
관계형 OLAP(ROLAP) 서비스
BI 응용 프로그램 서버 또는 쿼리 도구

후자의 경우 단 하나의 프런트 엔드 BI 도구로^[6] 제한되므로, 일반적으로 초기 세 가지 기술 중 하나를 사용하는 것이 권장된다.

문제/문제

치수 모델은 대용량 데이터 집합의 Aggregate에서만 이득을 얻으므로 Aggregate 사용을 고려해야 하는 데이터 집합의 크기는?
마찬가지로 데이터 웨어하우스는 직접 쿼리에 비해 너무 큰 데이터 세트를 항상 처리하고 있는가, 아니면 새로운 데이터 웨어하우스 프로젝트를 시작할 때 집계 테이블을 생략하는 것이 때로는 좋은가?따라서 새로운 데이터 웨어하우스 구축의 첫 번째 반복에서 집계를 생략하는 것이 치수 모델의 구조를 단순화할 것인가?

참조

^ Ralph Kimball; Margy Ross (2002). The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second ed.). Wiley Computer Publishing. p. 356. ISBN 0-471-20024-7.
^ Christopher Adamson, 데이터 웨어하우스 Aggregate 마스터: 스타 스키마 성능 솔루션, Wiley Publishing, Inc., 2006 ISBN 978-0-471-77709-0, 23페이지
^ "Aggregate Navigation With (Almost) No Metadata". 1995-08-15. Archived from the original on 2010-12-11. Retrieved 2010-11-22.
^ Kimball & Data Warehouse 툴킷, 페이지 355.
^ Kimball & Data Warehouse Toolkit, 페이지 137.
^ Kimball & Data Warehouse 툴킷, 페이지 354.

[1] Ralph Kimball; Margy Ross (2002). The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second ed.). Wiley Computer Publishing. p. 356. ISBN 0-471-20024-7.

[2] Christopher Adamson, 데이터 웨어하우스 Aggregate 마스터: 스타 스키마 성능 솔루션, Wiley Publishing, Inc., 2006 ISBN 978-0-471-77709-0, 23페이지

[3] "Aggregate Navigation With (Almost) No Metadata". 1995-08-15. Archived from the original on 2010-12-11. Retrieved 2010-11-22.

[FOOTNOTEKimballData_Warehouse_Toolkit355-4] Kimball & Data Warehouse 툴킷, 페이지 355.

[FOOTNOTEKimballData_Warehouse_Toolkit137-5] Kimball & Data Warehouse Toolkit, 페이지 137.

[FOOTNOTEKimballData_Warehouse_Toolkit354-6] Kimball & Data Warehouse 툴킷, 페이지 354.

[1]

[2]

[3]

[4]

[5]

[6]

Search

집계(데이터 웨어하우스)

네임스페이스

더

집계 네비게이터

문제/문제

참조