유니코드 결합 알고리즘
Unicode collation algorithm![]() |
유니코드 결합 알고리즘(UCA)은 유니코드 기술 보고서 #10에 정의된 알고리즘으로, 유니코드로 나타낼 수 있는 모든 쓰기 시스템과 언어에서 텍스트를 나타내는 문자열에서 이진 키를 생성하기 위한 사용자 정의 가능한 방법이다. 그런 다음 이 키들은 대소문자, 억양 등을 무시하는 옵션과 함께 언어의 규칙에 따라 이들을 결합하거나 정렬하기 위해 바이트 단위로 효율적으로 사용될 수 있다.
유니코드 기술 보고서 #10도 기본 유니코드 정렬 요소 표(DUCET)를 지정한다. 이 데이터 파일은 기본 데이터 정렬 순서를 지정한다. DUCET는 다양한 언어에 대해 사용자 정의가 가능하다. 이러한 사용자 정의는 유니코드 CLDR(Common Locale Data Repository)에서 찾을 수 있다.
UCA의 오픈 소스 구현은 유니코드를 위한 국제 컴포넌트 ICU에 포함되어 있다. ICU는 맞춤화를 지원하며, CLDR의 데이터 정렬 맞춤법도 ICU에 포함된다. 맞춤화 효과와 많은 언어별 맞춤법이 온라인 ICU 로케일 탐색기에 표시된다.
참고 항목
- 데이터 정렬
- ISO/IEC 14651
- 유럽 주문 규칙(EOR)
- CLDR(공통 로케일 데이터 저장소)
외부 링크
- 유니코드 정렬 알고리즘: 유니코드 기술표준 #10
- Mimer SQL 유니코드 정렬 차트
도구들
- ICU Locale Explorer [link breaked as 2021-10-10] 유니코드용 국제 구성요소를 이용한 유니코드 정렬 알고리즘의 온라인 시연
- 2021-10-10년 현재 아직 가동 중인 ICU 결합 데모
- msort 정렬 프로그램은 데이터 정렬을 정의하고 키를 추출하는 데 있어 비정상적인 수준의 유연성을 제공한다.