결정론적 비순환 유한 상태 오토마톤

문자열 "tap", "taps", "top" 및 "tops"는 trie(왼쪽)와 DAFSA(오른쪽)에 저장됩니다.EOW는 End-of-word의 약자입니다.

컴퓨터 과학에서, 결정론적 원자가 비고리형인 유한 상태 automaton(DAFSA)[1]또한 그것은 지정된 문자열은 테스트한 쿼리 작업할 수 문자열의 집합을 나타낸 연출한 원자가 비고리형인 단어 그래프(DAWG, 접미사 index[2]그런 이름 또한 관련 데이터 구조에 대해 언급하고 있는 기능)데이터 구조라고 불렀다.s몸 상태를그는 그 길이에 비례하여 시간을 정했다.알고리즘은 이러한 자동 ^[1]데이터를 최소화하고 구축 및 유지하기 위해 존재합니다.

DAFSA는 단일 소스 정점(착신 모서리가 없는 정점)을 가진 방향 비순환 그래프의 형태를 취하는 유한 상태 인식자의 특수한 경우이며, 여기서 그래프의 각 모서리는 문자 또는 기호로 라벨이 지정되며, 각 정점은 가능한 각 문자 또는 기호별로 최대 1개의 발신 모서리를 가집니다.DAFSA에 의해 표현되는 문자열은 소스 정점에서 싱크 정점(발신 에지가 없는 정점)까지의 그래프 내 경로에 있는 기호로 구성됩니다.사실 결정론적 유한 상태 자동화는 유한한 문자열 집합을 인식하는 경우에만 ^[1]비순환적입니다.

시행과의 비교

복수의 패스에 의해 같은 정점에 도달할 수 있도록 함으로써 DAFSA는 강하게 관련된 트라이 데이터 구조보다 훨씬 적은 정점을 사용할 수 있다.예를 들어 "tap", "taps", "top" 및 "tops"의 네 가지 영어 단어를 생각해 보십시오.이들 4개의 워드의 트리에는 12개의 정점이 있으며, 각 스트링에 대해 각각1개씩 이들 워드의 프리픽스로 형성되어 있거나 스트링의 끝 마커가 이어지는 워드에 대해1개씩 형성되어 있습니다.그러나 DAFSA는 0 µi µ5에 대해 6개의 정점_i v만을 사용하여 동일한 4개의 단어를 나타낼 수 있습니다. 즉, "t"라는₀ 라벨이 붙은 v에서 v로₁₂₂₃ 라벨이 지정된 v에서 v로 라벨이₁₃₄ 지정된 v와 v로 라벨이 지정된 v에서 v로₄ 라벨이 지정된 v와 v-string의 끝과₅ v-string으로 라벨이 지정된 v에서 v로 라벨이 지정된 v로 라벨이 지정된 v로 라벨이 지정된 v-string으로 라벨이 지정된 v로 라벨이 지정된 v로 표시된 v-string의 끝을 사용할 수 있습니다₃.메모리와 기능 사이에는 트레이드오프가 있습니다.표준 DAFSA는 그 안에 단어가 존재하는지 여부를 알려 줄 수 있지만, 그 단어에 대한 보조 정보를 나타낼 수는 없기 때문입니다.반면 트라이는 가능합니다.

DAFSA와 trie의 주요 차이점은 문자열을 저장할 때 서픽스와 infix 용장성이 배제된다는 것입니다.trie를 사용하면 의사나 박사 등 모든 공통 프레픽스가 문자열 간에 공유되므로 프레픽스의 용장성이 제거됩니다.DAFSA에서는 공통 접미사도 공유되며, 서로 동일한 접미사를 가질 수 있습니다.일반적인 영어 단어 사전의 경우 이는 메모리 사용량을 크게 줄일 수 있습니다.

DAFSA의 단말 노드는 복수의 패스에 의해 도달할 수 있기 때문에 DAFSA는 각 패스에 관한 보조 정보, 예를 들어 영어에서의 단어의 빈도를 직접 저장할 수 없다.단, 각 노드에 대해 해당 지점을 통과하는 고유 경로의 수를 구조체에 저장하는 경우 이를 사용하여 단어 또는 해당 ^[3]색인이 지정된 단어의 색인을 검색할 수 있습니다.그런 다음 보조 정보를 배열에 저장할 수 있습니다.

레퍼런스

^ ^a ^b ^c 얀 다치욱, 스토얀 미호프, 브루스 왓슨, 리처드 왓슨(2000).최소 비순환 유한 상태 오토마타의 증분 구성.컴퓨터 언어학 26 (1): 3-16.
^ 이 문서에는 NIST 문서의 퍼블릭 도메인 자료가 포함되어 있습니다.Black, Paul E. "directed acyclic word graph". Dictionary of Algorithms and Data Structures.
^ Kowaltowski, T.; CL Lucchesi (1993). "Applications of finite automata representing large vocabularies". Software-Practice and Experience. 1993: 15–30. CiteSeerX 10.1.1.56.5272.

Blumer, A.; Blumer, J.; Haussler, D.; Ehrenfeucht, A.; Chen, M.T.; Seiferas, J. (1985), "The smallest automaton recognizing the subwords of a text", Theoretical Computer Science, 40: 31–55, doi:10.1016/0304-3975(85)90157-4
데이터 구조의 초기 설명 중 하나Appel, Andrew; Jacobsen, Guy (1988), "The World's Fastest Scrabble Program" (PDF), Communications of the ACM, 31 (5): 572–578, doi:10.1145/42411.42420.
를 클릭합니다Jansen, Cees J. A.; Boekee, Dick E. (1990), "On the significance of the directed acyclic word graph in cryptology", Advances in Cryptology — AUSCRYPT '90, Lecture Notes in Computer Science, vol. 453, Springer-Verlag, pp. 318–326, doi:10.1007/BFb0030372, ISBN 3-540-53000-2.
Epifanio, Chiara; Mignosi, Filippo; Shallit, Jeffrey; Venturini, Ilaria (2004), "Sturmian graphs and a conjecture of Moser", in Calude, Cristian S.; Calude, Elena; Dineen, Michael J. (eds.), Developments in language theory. Proceedings, 8th international conference (DLT 2004), Auckland, New Zealand, December 2004, Lecture Notes in Computer Science, vol. 3340, Springer-Verlag, pp. 175–187, ISBN 3-540-24014-4, Zbl 1117.68454
Tresoldi, Tiago (2020), "DAFSA: a Python library for Deterministic Acyclic Finite State Automata", Journal of Open Source Software, 5 (46): 1986, doi:10.21105/joss.01986 오픈 소스 Python 구현입니다.

외부 링크

http://pages.pathcom.com/~vadco/http: JohnPaul Adamovsky는 정수 배열을 사용하여 DAFSA를 구축하는 방법을 설명합니다.
http://pages.pathcom.com/~vadco/cwg.html - JohnPaul Adamovsky는 여러 정수 배열이 있는 새로운 인코딩을 사용하여 DAFSA 해시 함수를 구성하는 방법을 설명합니다.이 부호화는 Caroline Word Graph(CWG)라고 불립니다.

[daciuk-1] 얀 다치욱, 스토얀 미호프, 브루스 왓슨, 리처드 왓슨(2000).최소 비순환 유한 상태 오토마타의 증분 구성.컴퓨터 언어학 26 (1): 3-16.

[2] 이 문서에는 NIST 문서의 퍼블릭 도메인 자료가 포함되어 있습니다.Black, Paul E. "directed acyclic word graph". Dictionary of Algorithms and Data Structures.

[kowaltowski1993-3] Kowaltowski, T.; CL Lucchesi (1993). "Applications of finite automata representing large vocabularies". Software-Practice and Experience. 1993: 15–30. CiteSeerX 10.1.1.56.5272.

[1]

[3]

v t 잘 알려진 데이터 구조
종류들	수집 컨테이너.
추상적인	연관 배열 멀티맵 데이터 구조 검색 목록. 스택 큐 더블 엔드 큐 priority 큐 이중 엔드 priority 큐 세트 멀티셋 디조인트 세트
어레이	비트 배열 순환 버퍼 다이내믹 어레이 해시 테이블 해시 어레이 트리 희박 행렬
링크되어 있다	어소시에이션리스트 링크 리스트 스킵 리스트 언롤링된 링크 리스트 XOR 링크 리스트
나무들	B-트리 이진 검색 트리 AA나무 AVL 트리 붉은색-검은색 셀프밸런싱 트리 스플레이 트리 히프 이진 힙 이항 힙 피보나치 힙 R 트리 R* 트리 R+ 트리 힐베르트 R-트리 트리 해시 트리
그래프	이항 결정도 방향 비순환 그래프 지시 비순환 단어 그래프
데이터 구조 목록

v t 줄들
문자열 메트릭	대략적인 문자열 매칭 비트맵 알고리즘 다메라우-레벤슈테인 거리 거리 편집 게스탈트 패턴 매칭 해밍 거리 자로-윙클러 거리 리 거리 레벤슈테인 오토마톤 레벤슈테인 거리 바그너-피셔 알고리즘
문자열 검색 알고리즘	사도-장칼로 알고리즘 Boyer-Moore 문자열 검색 알고리즘 보이어-무어-호스풀 알고리즘 크누스-모리스-프랫 알고리즘 라빈-카르프 알고리즘
다중 문자열 검색	아호코라식 Commentz-Walter 알고리즘
정규 표현	정규 표현 엔진 비교 정규 문법 톰슨 구조 비결정론적 유한 오토마톤
시퀀스 얼라인먼트	히르슈베르크 알고리즘 니들맨분쉬 알고리즘 스미스-워터맨 알고리즘
data 구조	DAFSA 서픽스 배열 서픽스 오토마톤 접미사 트리 일반 접미사 트리 출렁 삼원 검색 트리 트리
다른.	해석 패턴 매칭 압축 패턴 매칭 최장 공통 서브시퀀스 최장 공통 서브스트링 순차적 패턴 마이닝 정렬

Search

결정론적 비순환 유한 상태 오토마톤

네임스페이스

더

시행과의 비교

레퍼런스

외부 링크