우코넨 알고리즘

컴퓨터 공학에서 Ukkonen 알고리즘은 접미사 트리를 구성하는 선형 시간 온라인 알고리즘으로,^[1] 1995년에 Esko Ukonen이 제안했다.알고리즘은 문자열의 첫 번째 문자를 포함하는 암묵적인 접미사 트리로 시작합니다.그런 다음 스트링을 단계별로 진행하여 트리가 완성될 때까지 연속되는 문자를 추가합니다.이러한 문자 순서의 추가에 의해 Ukkonen 알고리즘의 "온라인" 속성이 부여됩니다.피터 와이너가 제시한 원래의 알고리즘은 마지막 문자에서 가장 짧은 접미사에서 가장 긴 접미사로 거꾸로 진행되었습니다.^[2]Edward M. McCreight는 가장 긴 ^[3]접미사에서 가장 짧은 접미사로 더 간단한 알고리즘을 발견했습니다.

암묵적 접미사 트리

Ukkonen 알고리즘을 사용하여 서픽스 트리를 생성할 때 문자열 S의 문자에 따라 중간 단계에서 암묵적인 서픽스 트리를 볼 수 있습니다.암묵적 접미사 트리에서는 $(또는 다른 종단 문자) 라벨이 있는 에지 및 내부 노드가 존재하지 않으며, 내부 노드가 1개만 외부로 출력되지 않습니다.

Ukkonen 알고리즘 개요 설명

Ukonen의 알고리즘은 S(S는 길이 n의 문자열)의 각 접두사 S[1...i]에 대해 암묵적인 접미사 트리_i T를 구축한다.먼저 T를 1자로^st, T를₂ 2자로^nd, T를₃ 3자로, T를^rd 3자로, T를_n n자로^th 작성합니다₁.Ukkonen 알고리즘을 사용하는 접미사 트리에서 다음 특성을 찾을 수 있습니다.

암묵적 서픽스트리_i+1 T는 암묵적 서픽스트리_i T 위에 구축됩니다.
Ukkonen 알고리즘은 항상 지금까지 본 문자의 서픽스 트리를 구축하기 때문에 온라인 속성을 가지므로 알고리즘의 실행 시간은 O(n)가 됩니다.
Ukonen의 알고리즘은 n개의 위상(길이 n의 문자열의 각 문자에 대해 1개의 위상)으로 나뉩니다.
각 위상 i+1은 S[1...i+1]의 각 i+1 접미사에 대해 각각 하나씩 i+1 확장자로 더욱 분할됩니다.

접미사 확장자는 지금까지 작성된 접미사 트리에 다음 문자를 추가하는 것입니다.위상 i+1의 확장 j에서 알고리즘은 S[j...i](이전 단계 i에 의해 이미 트리 내에 있음)의 끝을 찾아 S[j...i]를 확장하여 접미사 S[j...i+1]가 트리 내에 있음을 확인한다.확장 규칙에는 다음 3가지가 있습니다.

S[j...i]라는 라벨이 붙은 루트로부터의 경로가 리프 엣지에서 끝나는 경우(즉, S[i]는 리프 엣지의 마지막 문자임), 문자 S[i+1]가 해당 리프 엣지의 라벨 끝에 추가됩니다.
S[j...i]라는 라벨이 붙은 루트의 경로가 리프 이외의 에지에서 종료되고(즉, 경로의 S[i] 뒤에 문자가 더 있음) 다음 문자가 S[i+1]가 아닌 경우, 라벨 S[i+1]와 번호 j를 가진 새 리프 에지가 문자 S[i+1]부터 생성됩니다.또한 S[1...i]가 리프 이외의 에지 내부에서 끝나는 경우에도 새 내부 노드가 생성됩니다.
S[j]라는 라벨이 붙은 루트로부터의 패스인 경우.i]는 잎이 아닌 가장자리에서 끝납니다(즉, 경로의 S[i] 뒤에 더 많은 문자가 있습니다). 다음 문자는 s[i+1](이미 트리에 있음). 아무것도 하지 않습니다.

주의할 점은 특정 노드(루트 또는 내부)에서 1개의 문자로 시작하는 엣지는 1개뿐이라는 것입니다.같은 문자로 시작하는 노드에서는 둘 이상의 에지가 출력되지 않습니다.

실행 시간

앞으로 서픽스 트리를 생성하기 위한 간단한 구현에서는 O $(n 2)$ 또는 $O (n 3)$ 시간의 복잡성이 빅 O 표기법( $n$ 은 문자열 길이)으로 $요구$ 됩니다.다수의 알고리즘 기술을 이용함으로써 Ukkonen은 이것을 O $(n)($ 선형) 시간, $그리고$ 일반적으로 O $(n$ $log$ n $)$ 로 $줄여$ 앞의 두 알고리즘의 런타임 성능과 일치시켰다.