MARC-8
MARC-8MARC-8 문자 집합은 MARC-21 라이브러리 [1]레코드에서 사용되는 MARC 표준입니다.MARC 형식은 서지 및 관련 정보를 기계 판독 가능한 형태로 표현 및 전달하기 위한 표준으로, 라이브러리 데이터베이스 시스템에서 자주 사용됩니다.현재 MARC-8로 알려진 문자 인코딩은 1968년에 MARC 형식의 일부로 도입되었습니다.원래 라틴 알파벳을 기반으로 한 JACKPHY 이니셔티브는 1979년부터 1983년까지 일본어, 아랍어, 중국어 및 히브리어(특히) 문자를 포함하도록 레퍼토리를 확장했으며, 이후 키릴어와 그리스어 문자를 추가했다.MARC-21 레코드의 MARC-8에서 문자를 나타낼 수 없는 경우 UTF-8을 사용해야 합니다.UTF-8은 라이브러리 데이터 외부에서 거의 사용되지 않는 MARC-8보다 더 많은 문자를 지원합니다.
기술적 세부사항
MARC-8은 ISO-2022 인코딩의 배리언트를 사용합니다.이스케이프 문자를 사용하여 7비트 ASCII 범위를 넘는 문자를 나타냅니다.
일반적으로 Unicode와 동일한 논리 BiDi 순서를 사용합니다.
문자와 기본 문자의 조합 순서가 Unicode에서 사용되는 순서와는 다릅니다.다음은 몇 가지 예입니다.조합된 문자가 유니코드 정규화로 항상 역순으로 저장되는 것은 아닙니다.MARC-21 규격에서는, MARC-8 Unicode 변환의 문제를 보다 자세하게 설명하고 있습니다.
표시됨 성격 | 유니코드 | MARC-8 |
---|---|---|
아 | ́ a | § a |
ậ | ̣ a a | ̂ 、 a |
코드 구조
ISO/IEC 2022 코딩은 문자 코드와 표시된 문자 사이의 2계층 매핑을 지정합니다.MARC-8에서는 7비트 ASCII 그래픽스 범위(0x20~0x7F)의 문자 코드를 "G0" 코드라고 하며, "하이 ASCII" 범위(0xA0~0x)의 코드를 "G0" 코드라고 합니다.FF)는 "G1" 코드라고 불립니다.ESC I F 형식의 이스케이프 문자, 중간 문자 시퀀스 및 최종 문자로 이루어진 복수 바이트 이스케이프 시퀀스에 의해 그래픽 문자 세트가 지정되고 호출된다.
다음 표는 ESC 바이트(16진수 1B) 뒤의 중간 바이트와 대응하는 ASCII 문자를 나타내고 있습니다.
G0 세트 | G1 세트 | |||||||
---|---|---|---|---|---|---|---|---|
SBCS | MBCS | SBCS | MBCS | |||||
표준 ISO-2022 | 28 | ( | 24 | $ | 29 | ) | 24 29 | $) |
대체 ISO-2022 (추가 63+16 세트) | 2C | , | 24 2C | $, | 이차원 | - | 2D x 24 | $- |
다음 표는 마지막 바이트(16진수)와 중간 바이트 뒤에 대응하는 ASCII 문자를 나타내고 있습니다.
바이트 수 | 성격. | 이름. | 유형 | 댓글 |
---|---|---|---|---|
31 | 1 | 중국어, 일본어, 한국어(EACC) | MBCS | |
32 | 2 | 기본 히브리어 | SBCS | |
33 | 3 | 기본 아랍어 | SBCS | |
34 | 4 | 확장 아랍어 | SBCS | |
42 | B | 기본 라틴어(ASCII) | SBCS | |
21 45 | !E | 확장 라틴어(ANSEL) | SBCS | 기술적으로는 21(16진수)은 이 이스케이프 시퀀스의 중간 세그먼트의 두 번째 바이트입니다. |
4E | N | 기본 키릴 문자 | SBCS | |
51 | Q | 확장 키릴 문자 | SBCS | |
53 | S | 기본 그리스어 | SBCS |
EACC는 MARC-8의 유일한 멀티바이트 부호화로 각 CJK 문자를 3개의 ASCII 바이트로 부호화합니다.
예를 들어 U+4EBA CJK 문자(')를 인코딩하려면 다음 바이트가 필요합니다.
\x1B\x24\x31\x30\x64
\x1B\x24\x31은 EACC/CJK로 전환되고 \x21\x30\x64는 U+4EBA에 대응합니다.
커스텀 세트 확장
ISO-2022 문자 집합 외에 다음과 같은 사용자 지정 집합도 사용할 수 있습니다.바이트 지정은 이스케이프 바이트(16진수 1B) 뒤에 있습니다.중간 바이트는 없습니다.
바이트 수 | 성격. | 이름. | 유형 | 댓글 |
---|---|---|---|---|
62 | b | 첨자 집합 | SBCS | |
67 | g | 그리스 기호 집합 | SBCS | 알파벳, 베타, 감마 문자는 일반적으로 유니코드에 라운드 트립 맵되지 않습니다. |
70 | p | 위첨자 집합 | SBCS | |
73 | s | 기본 라틴어(ASCII) | SBCS |
레퍼런스
- ^ "Character Sets: Introduction: MARC 21 Specifications for Record Structure, Character Sets, and Exchange Media (Library of Congress)". Library of Congress.
- ^ "Character Sets: MARC-8 Encoding Environment: MARC 21 Specifications for Record Structure, Character Sets, and Exchange Media (Library of Congress)". Library of Congress.
- ^ "Character Sets: MARC-8 Encoding Environment: MARC 21 Specifications for Record Structure, Character Sets, and Exchange Media (Library of Congress)". Library of Congress.
- ^ "Character Sets: MARC-8 Encoding Environment: MARC 21 Specifications for Record Structure, Character Sets, and Exchange Media (Library of Congress)". Library of Congress.