엠트리

컴퓨터 과학에서 M-tree는 R-tree와 B-tree와 유사한 나무 데이터 구조다.미터법을 사용하여 구성되며 효율적인 범위와 k-NN(k-near) 쿼리를 위해 삼각형 불평등에 의존한다.M-tree는 여러 조건에서 좋은 성능을 발휘할 수 있는 반면, 트리 역시 큰 겹침을 가질 수 있으며 중첩을 가장 잘 피할 수 있는 방법에 대한 명확한 전략이 없다.또한 삼각불평등을 만족시키는 거리함수에만 사용할 수 있는 반면, 정보 검색에 사용되는 많은 진보된 이종함수는 이를 만족시키지 못한다.^[1]

개요

ELKI를 사용하여 시각화된 2D M-Tree.모든 푸른 구(리프)는 붉은 구(디렉토리 노드)에 담겨 있다.잎은 겹치지만 너무 많지는 않다; 여기서 디렉토리 노드는 훨씬 더 겹친다.

모든 트리 기반 데이터 구조에서와 같이, M-Tree는 노드와 리프로 구성되어 있다.각 노드에는 이를 고유하게 식별하는 데이터 개체와 하위 트리에 대한 포인터가 있다.모든 리프에는 여러 개의 데이터 개체가 있다.각 노드에 대해 원하는 메트릭 공간에서 볼(Ball)을 정의하는 $r$ 반지름 $r$ $r$ 이(가) 있다.따라서 특정 노드 $N$ $N$ 에 있는 $l$ 모든 노드 $n$ ${\$ displaystyle n $}$ 및 $n$ $리프$ $n$ l $N$ $displaystyle$ $l}$ 이(가) N ${\displaystyle$ $N$ $}$ 에서 $r$ $N$ 최대 $거리$ r ${\$ $displaystystyle$ r $}$ 에 $N$ 있고 노드 $상위$ N ${\displaystyle$ N}이(가 있음)인 $l$ 모든 $노드$ n ${\$ displaystyp $}$ 그로부터의 거리를 측정하다

M-트리 건설

구성 요소들

M-Tree에는 다음과 같은 구성 요소와 하위 구성 요소가 있다.

잎이 아닌 노드
1. 라우팅 개체 N의_RO 집합.
2. 노드의 상위 개체 O에_p 대한 포인터.
리프 노드
1. 개체_O N의 집합.
2. 노드의 상위 개체 O에_p 대한 포인터.
라우팅 개체
1. (특성 값) 라우팅 개체 O_r.
2. 커버 반지름 r(O_r)
3. 커버 트리 T(O_r)에 대한 포인터.
4. 상위 객체 d(O_r,P(O_r))로부터의 O_r 거리
오브젝트
1. (특징값:) 객체_j O.
2. 개체 식별자 oid(O_j).
3. 상위 객체 d(O_j,P(O_j))로부터의 O_j 거리

삽입하다

주된 아이디어는 우선 새로운 $객체$ O가 속하는 리프 노드 N을 찾는 $것$ 이다. $N$ 이 가득 차지 않으면 $N$ 에 연결하고, $N$ 이 가득 차면 메소드를 호출하여 $N$ 을 분할하십시오.알고리즘은 다음과 같다.

알고리즘 삽입 입력: M-Tree  $MT$ 의 노드  $N$ , 엔트리  $O_{n}$   ${\$  출력 $O_{n}$ :원본 MT +  $O_{n}$   $O_{n}$   ${\$ 의 모든 항목을 포함하는  $MT$ 의 새 인스턴스

 $N_{e}\gets N$ 's routing objects or objects   if  $N$  is not a leaf then   {        /* Look for entries that the new object fits into */        let  $N_{in}$  be routing objects from  $N_{e}$ 's set of routing objects  $N_{RO}$  such that  $d(O_{r},O_{n})\leq r(O_{r})$  if  $N_{in}$  is not empty then        {           /* If there are one or more entry, then look for an entry such that is closer to the new object */            $O_{r}^{*}\gets \min _{O_{r}\in N_{in}}d(O_{r},O_{n})$  $O_{r}^{*}\gets \min _{O_{r}\in N_{in}}d(O_{r},O_{n})$         }        else        {           /* If there are no such entry, then look for an object with minimal distance from */            /* its covering radius's edge to the new object */            $O_{r}^{*}\gets \min _{O_{r}\in N_{in}}d(O_{r},O_{n})-r(O_{r})$  $O_{r}^{*}\gets \min _{O_{r}\in N_{in}}d(O_{r},O_{n})-r(O_{r})$            /* Upgrade the new radii of the entry */            $r(O_{r}^{*})\gets d(O_{r}^{*},O_{n})$         }        /* Continue inserting in the next level */        return insert( $T(O_{r}^{*}),O_{n}$  ${\$  $O_{n}}$ ); else   {        /* If the node has capacity then just insert the new object */        if  $N$  is not full then        { store( $N,O_{n}$ ) }        /* The node is at full capacity, then it is needed to do a new split in this level */        else        { split( $N,O_{n}$ ) }}

"직접"은 할당을 의미한다.예를 들어, "가장 큰 ←항목"은 가장 큰 값이 항목의 가치를 변화시킨다는 것을 의미한다.
"return"은 알고리즘을 종료하고 다음 값을 출력한다.

분할

분할 방법이 트리의 루트에 도착하면, $N$ 에서 두 개의 라우팅 객체를 선택하고, 원본 $N$ 에 있는 모든 객체를 포함하는 두 개의 새로운 노드를 생성하여 새로운 루트에 저장한다.분할 방법이 트리의 루트가 아닌 노드 $N$ 에 도착하는 경우, 방법은 $N$ 에서 두 개의 새로운 라우팅 개체를 선택하고, N $N_{1}$ ${\$ 1} 및 $N_{2}$ $N_{2}$ ${\$ }}개의 $N_{1}$ 새로운 노드에서 $N$ 의 모든 라우팅 개체를 다시 정렬하고 $N_{2}$ 이러한 새 노드를 오리기나의 상위 $N_{p}$ 노드 $N_{p}$ $N_{p}$ ${\$ 에 저장한다. $L$ . $N_{p}$ $N_{p}$ ${\$ 이 $N_{{p}}$ (가) $N_{2}$ 2 $N_{2}$ {\ $displaystyle N_{2$ }}개를 저장할 용량이 충분하지 않을 경우 분할을 반복해야 한다 $N_{2}$ 알고리즘은 다음과 같다.

알고리즘 분할 입력: M-Tree  $MT$ 의 노드  $N$ , 엔트리  $O_{n}$   ${\$  출력 $O_{n}$ :새 파티션을 포함하는  $MT$ 의 새 인스턴스.

/* 이제 새로운 라우팅 개체는 노드에 있는 모든 개체와 새로운 라우팅 개체  $*/$  $N$ 이 루트가 아닌 경우 $N\cup O$  { /* $N\cup O$ 노드와 상위 라우팅 개체  $가져오기$ */  $O$ p {\ $displaystyle$   $O_{p}$ 가  $N$ 의 상위 라우팅 개체인 $O_{{p}}$  경우 N $N\cup O$ let O {\ $displaystyle$  O_ ${$ p}가  $N$ 의 상위 라우팅 개체로  $N_{p}$  $yle N_{p}}$  be the parent node of  $N$    }   /* This node will contain part of the objects of the node to be split */   Create a new node  $N'$    /* Promote two routing objects from the node to be split, to be new routing objects */   Create new objects  $O_{p1}$  and  $O_{p2}$ .   Promote( $N,O_{p1},O_{p2}$  $N,O_{p1},O_{p2}$ )   /* Choose which objects from the node being split will act as new routing objects */   Partition( $N,O_{p1},O_{p2},N_{1},N_{2}$ )   /* Store entries in each new routing object */   Store  ${\displaystyle N_{$  $1}}$ 's entries in  $N$  and  $N_{2}$ 's entries in  $N'$  if  $N$  is the current root then   {       /* Create a new node and set it as new root and store the new routing objects */       Create a new root node  $N_{p}$  Store  $O_{p1}$  and  ${\displaystyle O$  $_{p2}}$  in  $N_{p}$    }   else   {       /* Now use the parent routing object to store one of the new objects */       Replace entry  $O_{p}$  with entry  $O_{p1}$  in  $N_{p}$  if  $N_{p}$  is no full then{ /* 두 번째 라우팅 개체는 여유 용량이 있는 경우에만 상위 항목에 저장된다 */ N p  ${\$ 에 O  $O_{p2}$   $O_{p2}$   ${\$   $N_{p}$   $N_{p}$  {\p} 다른 /*사용 가능한 용량이 없는 경우 레벨을 위로 분할*/ $N_{p}$  분할( $N_{p},O_{p2}$  p $N_{p},O_{p2}$ , O  $N_{p},O_{p2}$   $N_{p},O_{p2}$   ${\$ ) $tyle N_{p},O_{p2}}$  ) $N_{p},O_{p2}$ }}

"직접"은 할당을 의미한다.예를 들어, "가장 큰 ←항목"은 가장 큰 값이 항목의 가치를 변화시킨다는 것을 의미한다.
"return"은 알고리즘을 종료하고 다음 값을 출력한다.

M-트리 쿼리

범위 쿼리

범위 쿼리는 최소 유사성/최대 거리 값이 지정된 곳이다.For a given query object $Q\in D$ and a maximum search distance $r(Q)$ , the range query range(Q, r(Q)) selects all the indexed objects $O_{j}$ such that $d(O_{j},Q)\leq r(Q)$ .^[2]

알고리즘 범위검색(RangeSearch)은 루트 노드에서 시작하여 적격 객체로 이어지는 것에서 제외할 수 없는 모든 경로를 재귀적으로 통과시킨다.

알고리즘 범위검색 입력: M-Tree MT의  $노드$  N, Q: 쿼리 개체,  $r(Q)$ (  $r(Q)$ )  ${\displaystyle$  r $(Q)}$ : 검색 반지름

 $d(Oj,Q)\leq r(Q)$ : d $d(Oj,Q)\leq r(Q)$ (  $d(Oj,Q)\leq r(Q)$  j $d(Oj,Q)\leq r(Q)$ ,  $d(Oj,Q)\leq r(Q)$ )  $d(Oj,Q)\leq r(Q)$   $d(Oj,Q)\leq r(Q)$ (  $d(Oj,Q)\leq r(Q)$ )  ${\displaystyle d(Oj,Q)\leq$  r $(Q)}$ 과 같은 모든 DB 개체

{    let  $O_{p}$  be the parent object of node  $N$ ; if  $N$  is not a leaf then {      for each entry( $O_{r}$ ) in  $N$  do {           if  $d(O_{p},Q)-d(O_{r},O_{p}) \leq r(Q)+r(O_{r})$  then {Compute  $d(O_{r},Q)$ ; if  $d(O_{r},Q)\leq r(Q)+r(O_{r})$  then RangeSearch(*ptr( $T(O_{r}$ )), $Q$ , $r(Q)$ );            }     }   }   else {      for each entry( ${\displa$  $ystyle O_{j}}$ ) in  $N$  do {           if  $d(O_{p},Q)-d(O_{j},O_{p}) \leq r(Q)$  then {              Compute  $d(O_{j},Q)$ ; if  $d(O_{j},Q)$  ≤  $r(Q)$  then add  $oid(O_{j})$  $oid(O_{j})$   $oid(O_{j})$  (  $oid(O_{j})$   $oid(O_{j})$ )  ${\displaystyle oid(O_{j}})$  결과 $oid(O_{{j}})$ : } } } }

"직접"은 할당을 의미한다.예를 들어, "가장 큰 ←항목"은 가장 큰 값이 항목의 가치를 변화시킨다는 것을 의미한다.
"return"은 알고리즘을 종료하고 다음 값을 출력한다.

$oid(O_{j})$ $oid(O_{j})$ $oid(O_{j})$ ( O $oid(O_{j})$ ) ${\displaystyle oid(O_{j}})$ 는 $oid(O_{{j}})$ 별도의 데이터 파일에 있는 개체의 식별자다.
$T(O_{r})$ ( $T(O_{r})$ $T(O_{r})$ ) ${\displaystyle T(O_{r}})$ 는 $T(O_{{r}})$ $O_{r}$ 트리 – $O_{r}$ r ${\$ 의 피복 트리.

k-NN 쿼리

K 가장 가까운 이웃(k-NN) 쿼리는 입력 세트의 카디널리티를 입력 매개 변수로 사용한다.주어진 쿼리 객체 Q ∈ D와 정수 k ≥ 1에 대해 k-NN 쿼리 NN(Q, k)은 거리 함수 d에 따라 Q로부터 최단 거리를 가지는 k-N 인덱싱 객체를 선택한다.^[2]

참고 항목

세그먼트 트리
Interval tree - 1차원(일반적으로 시간) 동안 퇴화된 R-Tree.
경계 볼륨 계층 구조
공간지수
기스트

참조

^ Ciaccia, Paolo; Patella, Marco; Zezula, Pavel (1997). "M-tree An Efficient Access Method for Similarity Search in Metric Spaces" (PDF). Proceedings of the 23rd VLDB Conference Athens, Greece, 1997. IBM Almaden Research Center: Very Large Databases Endowment Inc. pp. 426–435. p426. Retrieved 2010-09-07.
^ ^a ^b P. Ciaccia; M. Patella; F. Rabitti; P. Zezula. "Indexing Metric Spaces with M-tree" (PDF). Department of Computer Science and Engineering. University of Bologna. p. 3. Retrieved 19 November 2013.

[p426-1] Ciaccia, Paolo; Patella, Marco; Zezula, Pavel (1997). "M-tree An Efficient Access Method for Similarity Search in Metric Spaces" (PDF). Proceedings of the 23rd VLDB Conference Athens, Greece, 1997. IBM Almaden Research Center: Very Large Databases Endowment Inc. pp. 426–435. p426. Retrieved 2010-09-07.

[Univ_Bologna_Range-2] P. Ciaccia; M. Patella; F. Rabitti; P. Zezula. "Indexing Metric Spaces with M-tree" (PDF). Department of Computer Science and Engineering. University of Bologna. p. 3. Retrieved 19 November 2013.

[1]

[2]

v t 트리 데이터 구조
나무 검색 (이중 세트/관련 배열)	2–3 2–3–4 AA (a,b) AVL B B+ B* B^x (최적) 이진 검색 춤 HTree 간격 오더통계 (좌편향) 빨강-검은색 희생양 스플레이 T 트레프 UB 무게균형
힙스	이진수 이항체 브로달 피보나치 좌익 페어링 스큐 판 엠드 보아스 약한
시도하다	씨트리 C-트리(압축 ADT) 해시 라딕스 접미사 3차 검색 X-fast Y-fast
공간 데이터 분할 트리	볼 BK BSP 카르테시안 힐베르트 R k-d(일반적으로 k-d) M 미터법 MVP 옥트리 PH 우선 순위 R 쿼드 R R+ R* 세그먼트 부사장 X
다른 나무들	커버 지수적 펜윅 손가락 프랙탈 트리 지수 퓨전 해시 캘린더 아이 디스턴스 케이애리 왼손잡이 우시블링 링크/컷 로그 구조 병합 머클 p q. 범위 SPQR 톱

Search

엠트리

네임스페이스

더

목차

개요