MARC-8

MARC-8

MARC-8 문자 집합은 MARC-21 라이브러리 [1]레코드에서 사용되는 MARC 표준입니다.MARC 형식은 서지 및 관련 정보를 기계 판독 가능한 형태로 표현 및 전달하기 위한 표준으로, 라이브러리 데이터베이스 시스템에서 자주 사용됩니다.현재 MARC-8로 알려진 문자 인코딩은 1968년에 MARC 형식의 일부로 도입되었습니다.원래 라틴 알파벳기반으로 한 JACKPHY 이니셔티브는 1979년부터 1983년까지 일본어, 아랍어, 중국어 및 히브리어(특히) 문자를 포함하도록 레퍼토리를 확장했으며, 이후 키릴어와 그리스어 문자를 추가했다.MARC-21 레코드의 MARC-8에서 문자를 나타낼 수 없는 경우 UTF-8을 사용해야 합니다.UTF-8은 라이브러리 데이터 외부에서 거의 사용되지 않는 MARC-8보다 더 많은 문자를 지원합니다.

기술적 세부사항

MARC-8은 ISO-2022 인코딩의 배리언트를 사용합니다.이스케이프 문자를 사용하여 7비트 ASCII 범위를 넘는 문자를 나타냅니다.

일반적으로 Unicode와 동일논리 BiDi 순서를 사용합니다.

문자와 기본 문자의 조합 순서가 Unicode에서 사용되는 순서와는 다릅니다.다음은 몇 가지 예입니다.조합된 문자가 유니코드 정규화로 항상 역순으로 저장되는 것은 아닙니다.MARC-21 규격에서는, MARC-8 Unicode 변환의 문제를 보다 자세하게 설명하고 있습니다.

표시됨

성격

유니코드

NFD

MARC-8
́ a § a
̣ a a ̂ 、 a

코드 구조

ISO/IEC 2022 코딩은 문자 코드와 표시된 문자 사이의 2계층 매핑을 지정합니다.MARC-8에서는 7비트 ASCII 그래픽스 범위(0x20~0x7F)의 문자 코드를 "G0" 코드라고 하며, "하이 ASCII" 범위(0xA0~0x)의 코드를 "G0" 코드라고 합니다.FF)는 "G1" 코드라고 불립니다.ESC I F 형식의 이스케이프 문자, 중간 문자 시퀀스 및 최종 문자로 이루어진 복수 바이트 이스케이프 시퀀스에 의해 그래픽 문자 세트가 지정되고 호출된다.

다음 표는 ESC 바이트(16진수 1B) 뒤의 중간 바이트와 대응하는 ASCII 문자를 나타내고 있습니다.

중간[2] 바이트
G0 세트 G1 세트
SBCS MBCS SBCS MBCS
표준 ISO-2022 28 ( 24 $ 29 ) 24 29 $)
대체 ISO-2022 (추가 63+16 세트) 2C , 24 2C $, 이차원 - 2D x 24 $-

다음 표는 마지막 바이트(16진수)와 중간 바이트 뒤에 대응하는 ASCII 문자를 나타내고 있습니다.

최종[3] 바이트 수
바이트 수 성격. 이름. 유형 댓글
31 1 중국어, 일본어, 한국어(EACC) MBCS
32 2 기본 히브리어 SBCS
33 3 기본 아랍어 SBCS
34 4 확장 아랍어 SBCS
42 B 기본 라틴어(ASCII) SBCS
21 45 !E 확장 라틴어(ANSEL) SBCS 기술적으로는 21(16진수)은 이 이스케이프 시퀀스의 중간 세그먼트의 두 번째 바이트입니다.
4E N 기본 키릴 문자 SBCS
51 Q 확장 키릴 문자 SBCS
53 S 기본 그리스어 SBCS

EACC는 MARC-8의 유일한 멀티바이트 부호화로 각 CJK 문자를 3개의 ASCII 바이트로 부호화합니다.

예를 들어 U+4EBA CJK 문자(')를 인코딩하려면 다음 바이트가 필요합니다.

\x1B\x24\x31\x30\x64

\x1B\x24\x31은 EACC/CJK로 전환되고 \x21\x30\x64는 U+4EBA에 대응합니다.

커스텀 세트 확장

ISO-2022 문자 집합 외에 다음과 같은 사용자 지정 집합도 사용할 수 있습니다.바이트 지정은 이스케이프 바이트(16진수 1B) 뒤에 있습니다.중간 바이트는 없습니다.

최종[4] 바이트 수
바이트 수 성격. 이름. 유형 댓글
62 b 첨자 집합 SBCS
67 g 그리스 기호 집합 SBCS 알파벳, 베타, 감마 문자는 일반적으로 유니코드에 라운드 트립 맵되지 않습니다.
70 p 위첨자 집합 SBCS
73 s 기본 라틴어(ASCII) SBCS

레퍼런스

  1. ^ "Character Sets: Introduction: MARC 21 Specifications for Record Structure, Character Sets, and Exchange Media (Library of Congress)". Library of Congress.
  2. ^ "Character Sets: MARC-8 Encoding Environment: MARC 21 Specifications for Record Structure, Character Sets, and Exchange Media (Library of Congress)". Library of Congress.
  3. ^ "Character Sets: MARC-8 Encoding Environment: MARC 21 Specifications for Record Structure, Character Sets, and Exchange Media (Library of Congress)". Library of Congress.
  4. ^ "Character Sets: MARC-8 Encoding Environment: MARC 21 Specifications for Record Structure, Character Sets, and Exchange Media (Library of Congress)". Library of Congress.

외부 링크