JIS X 0208

JIS X 0208
JIS X 0208
에일리어스JIS C6226
언어일본어, 영어, 러시아어, 불가리아어
부분 지원: 그리스어, 중국어
표준.JIS X 0208:1978 ~ 1997
분류ISO 2022, DBCS, CJK 인코딩
내선번호ARIB STD B24 한자, NEC PC98 DBCS
인코딩 형식
  • Shift JIS ('SJIS')
  • ISO-2022-JP ('JIS')
  • EUC-JP ('UJIS')
선행JIS X 0201
에 의해 성공자JIS X 0213
기타 관련 부호화KS X 1001, GB 2312, JIS X 0212

JIS X 0208은 일본 산업 규격으로 지정된 2바이트 문자 집합으로, 일본어 텍스트, 지명, 개인 이름 등에 적합한 6879개의 그래픽 문자를 포함합니다.현행 규격의 정식 명칭은 정보교환용 7비트8비트 더블바이트 코드 한자 세트(7비트, 8비트 코드화 2비트, Nana-Bitto Ooyobi Hachi-Bitto No Ni-Baito Joho Koka'Kanja)이다.1978년 JIS C6226으로 설립되어 1983년, 1990년, 1997년에 개정되었다.이것은 IBM에 의해 코드 페이지 952라고도 불립니다.1978년 버전은 IBM에 의해 Code page 955라고도 불립니다.

사용 범위 및 호환성

JIS X 0208이 확립하는 문자 집합은 주로 데이터 처리 시스템과 접속 장치 간 또는 데이터 통신 시스템 간의 정보 교환을 목적으로 한다.이 문자 세트는 데이터 처리 및 텍스트 처리에 사용할 수 있습니다.

문자 집합의 부분 구현은 호환성이 없는 것으로 간주됩니다.제1규격의 원초안이 레벨1과 레벨2의 문자를 구분하고 레벨간 변형문자(이타이지)를 섞는 등 적어도 제1규격과 제2규격에서는 비한자일 것으로 추측된다.i와 레벨 1만의 실장 일본의 컴퓨터 시스템은 한 때 개발을 검토했습니다.다만, 이러한 실장은 호환성이 있다고 특정된 적이 없습니다만, 초기 NEC PC-9801 등의 예는 존재합니다.[1]

JIS X 0208:1997 규격에는 호환성에 관한 규정이 있지만, 현시점에서는 이 규격이 호환성을 증명하지 않으며, 자기 [2]호환성의 선언에 해당하는 공식적인 제조 규격도 아니라고 일반적으로 간주되고 있다.따라서 사실상 JIS X 0208 호환 제품은 존재하지 않는 것으로 간주됩니다.JIS X 0208에는 「준교 서포트의 용어가 포함되어 있습니다만, 이러한 용어의 의미는 사람에 따라 다릅니다.

코드 차트

리드 바이트

첫 번째 부호화 바이트는 행 또는 셀 번호 + 0x20 또는 10진수 32에 대응합니다(아래 참조).따라서 0x21로 시작하는 코드 세트는 행 번호 1을 가지며, 셀 1은 0x21(또는 33)의 연속 바이트를 가진다.

한자가 아닌 문자에 사용되는 리드 바이트의 경우 이 페이지의 해당 리드 바이트 아래에 인코딩된 문자를 나열하는 차트에 대한 링크가 제공됩니다.한자에 사용되는 리드 바이트의 경우 Wiktionary 한자 인덱스의 해당 섹션에 대한 링크가 제공됩니다.

JIS X 0208(리드바이트)
0 1 2 3 4 5 6 7 8 9 A B C D E F
2배 SP 1-_ 2-_ 3-_ 4-_ 5-_ 6-_ 7-_ 8-_ 9-_ 10-_ 11-_ 12-_ 13-_ 14-_ 15-_
3배 16-_ 17-_ 18-_ 19-_ 20-_ 21-_ 22-_ 23-_ 24-_ 25-_ 26-_ 27-_ 28-_ 29-_ 30-_ 31-_
4배 32-_ 33-_ 34-_ 35-_ 36-_ 37-_ 38-_ 39-_ 40-_ 41-_ 42-_ 43-_ 44-_ 45-_ 46-_ 47-_
5배 48-_ 49-_ 50-_ 51-_ 52-_ 53-_ 54-_ 55-_ 56-_ 57-_ 58-_ 59-_ 60-_ 61-_ 62-_ 63-_
6배 64-_ 65-_ 66-_ 67-_ 68-_ 69-_ 70-_ 71-_ 72-_ 73-_ 74-_ 75-_ 76-_ 77-_ 78-_ 79-_
7배 80-_ 81-_ 82-_ 83-_ 84-_ 85-_ 86-_ 87-_ 88-_ 89-_ 90-_ 91-_ 92-_ 93-_ 94-_

한자가 아닌 행

문자 집합 0x21(1행, 특수 문자)

벤더에 따라서는, 이 세트에 대해서 다음의 것과 약간 다른 Unicode 매핑을 사용하고 있습니다.예를 들어 Microsoft는 Kuten 1-29(JIS 0x213D)를 U+2015(수평 막대)[3]에 매핑하고 Apple은 U+2014(Em [4]Dash)에 매핑합니다.마찬가지로 Microsoft는 kuten 1-61(JIS 0x215D)을 U+FF0D[3](U+002D 하이픈-마이너스의 전폭 형식)에 매핑하고 Apple은 이를 U+2212(마이너스 [4]기호)에 매핑합니다.웨이브 대시의 유니코드 매핑도 벤더마다 다릅니다.아래 각주가 있는 셀을 참조하십시오.

ASCII 및 JISCII 구두점(여기서는 짙은 녹색 테두리로 표시됨)은 JIS X 0208과 ASCII 또는 JIS X 0201을 조합한 인코딩(Shift JIS, EUC-JP, ISO 2022-JP 등)으로 사용되는 경우 하프폭풀폭 폼블록에 대한 대체 매핑을 사용할 수 있습니다.

JIS X 0208 (0x21로 프리픽스)
0 1 2 3 4 5 6 7 8 9 A B C D E F
2배 IDSP , . : ; ? ! ´ ` ¨
3배 ^ _ [b] /
4배 \ [c] [d] ( ) [ ]
5배 { } + [e] ± ×
6배 ÷ = < > > ° ¥
7배 $ ¢ £ % # & * @ §

문자 집합 0x22(2행, 특수 문자)

1978년 표준 버전에 포함된 0x2221-0x222E(쿠텐 2-1~2-14 또는 아래 표의 첫 줄)를 제외하고 1983년에 대부분의 문자가 추가되었습니다.

JIS X 0208 (0x22 프리픽스)
0 1 2 3 4 5 6 7 8 9 A B C D E F
2배
3배
4배 ¬
5배
6배
7배

문자 집합 0x23(3행 번호, 숫자 및 로마자)

이 세트에는 ISO 646 불변 집합의 부분 집합(따라서 ASCII 및 JIS X 0201 로마 집합의 부분 집합), 구두점과 기호를 뺀 부분 집합이 포함되어 있으며, 이 두 집합은 아랍 숫자 및 기본 라틴 알파벳의 두 가지 경우를 모두 포함합니다.JIS X 0208을 ASCII 또는 JIS X 0201(EUC-JP, Shift JIS, ISO 2022-JP 등)과 조합한 인코딩으로 사용하는 경우, 이 세트의 문자는 HalfwidthFullwidth Forms 블록에 대한 대체 Unicode 매핑을 사용할 수 있습니다.

KPS 9566의 3행과 이 행이 정확히 일치하는 을 비교합니다.KS X 1001 및 GB 2312의 3을 비교하고 대조합니다.이 행에는 영숫자 서브셋뿐만 아니라 ISO 646의 국가별 변형 전체가 포함됩니다.

JIS X 0208 (0x23 프리픽스)
0 1 2 3 4 5 6 7 8 9 A B C D E F
2배
3배 0 1 2 3 4 5 6 7 8 9
4배 A B C D E F G H I J K L M N O
5배 P Q R S T U V W X Y Z
6배 a b c d e f g h i j k l m n o
7배 p q r s t u v w x y z

문자 집합 0x24(4행, 히라가나)

이 행에는 일본어 히라가나가 포함되어 있습니다.

GB 2312의 4행과 이 행과 일치하는 행을 비교합니다.KPS 9566KS X 100110행은 같은 레이아웃이지만 다른 행으로 비교 대조한다.

JIS X 0208 (0x24 프리픽스)
0 1 2 3 4 5 6 7 8 9 A B C D E F
2배
3배
4배
5배
6배
7배

문자 집합 0x25 (5행, 가타카나)

이 행에는 일본어 가타카나가 들어 있습니다.

GB 2312의 5행과 이 행과 일치하는 행을 비교합니다.KPS 9566과 KS X 1001의 11을 같은 레이아웃으로 다른 행으로 비교 대조한다.JIS X 0201에서 사용하는 가타카나 레이아웃의 차이를 비교합니다.

JIS X 0208 (0x25 프리픽스)
0 1 2 3 4 5 6 7 8 9 A B C D E F
2배
3배
4배
5배
6배
7배

문자 집합 0x26(6행, 그리스어)

이 행은 분음 부호나 최종 시그마 없이 현대 그리스어 알파벳에 대한 기본 지원을 포함합니다.

GB 2312 GB 123456행과 KPS 9566의 6행비교합니다.이 행은 같은 레이아웃에 같은 그리스 문자를 포함합니다.단, GB 12345에는 세로 표시 폼이 추가되어 있고 KPS 9566에는 로마 숫자가 추가되어 있습니다.KS X 1001의 5를 비교 대조하여 그리스 문자를 상쇄하여 로마 숫자를 먼저 포함합니다.

JIS X 0208 (0x26 프리픽스)
0 1 2 3 4 5 6 7 8 9 A B C D E F
2배 알파 β Γ Δ Ε Ζ Η Θ Ι Κ Λ 마이크로미터 Ν Ξ ο
3배 Π Ρ Σ Τ Υ Φ Χ Ψ Ω
4배 α β γ δ ε ζ η θ ι κ λ μ ν ξ opus
5배 π ρ σ τ υ φ χ ψ ω
6배
7배

문자 집합 0x27(7행, 키릴 문자)

이 행에는 현대 러시아어 알파벳이 포함되어 있어 키릴 문자의 다른 형식을 나타내기에는 충분하지 않습니다.

GB 2312의 7행과 이 행과 일치하는 행을 비교합니다.KS X 100112행과 KPS 9566의 5행은 같은 레이아웃(다른 행)을 사용하여 비교 대조합니다.

JIS X 0208 (0x27 프리픽스)
0 1 2 3 4 5 6 7 8 9 A B C D E F
2배 А Б В Г Д Е Ё Ж З И Й К Л М Н
3배 О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э
4배 Ю Я
5배 а б в г д е ё ж з и й к л м н
6배 о п р с т у ф х ц ч ш щ ъ ы ь э
7배 ю я

캐릭터 0x28(열 번호 8박스 그림 그리기)을 세웠다.

이번 세트에서 인물들은 1983년에 이 표준의 원래 1978년 개정에서 참석하지 않었다 추가되었다.

JISX0208(0x28 맨).
0 1 2 3 4 5 6 7 8 9 A B C D E F
2배
3배
4배
5배
6배
7배

확장 문자 0x2D(열 번호 13, NEC특수 문자)을 세웠다.

Rows 9일까지 15은 JISX0208 표준의 공석이 생긴다.

하지만, 연속 13일 다음과 같은 레이아웃, 먼저 선관위에 의해 도입된 일반적인 확장이다.그것은( 사소한 변화가 있는, 각주에서 지적했듯이)Windows-932[3](는 WHATWG 인코딩 표준에 의해 HTML5에서 사용하는 알맞다)에 의해, MacJapanese의 경우에는 PostScript를 변형( 하지만, 이후 KanjiTalk 버전 7이 아니라 정기적인 변형)[5], JISX0213(JISX의 후임자 0208)에서 사용됩니다.[5][6]Windows-932/WHATWG 및 JIS X 0213에 의해 작성된 다른 확장과 달리 이 두 행은 충돌하지 않고 일치하므로 이 행의 대부분 디코딩이 JIS X 0213에 의해 작성된 다른 확장보다 더 잘 지원됩니다.

JIS X 0208의 NEC 특수 문자(0x2D로 프리픽스)
0 1 2 3 4 5 6 7 8 9 A B C D E F
2배
3배 [f]
4배
5배 [f] [g]
6배
7배 [h] [h] [h] [h] [h] [h] [h] [h] [h] [f] [f]

한자 행

코드 구조

코드 포인트를 나타내기 위해 1바이트 코드에는 열/줄 번호를 사용하고 2바이트 코드에는 쿠텐 번호를 사용합니다.코드에 의존하지 않고 문자를 식별하는 방법에는 문자 이름이 사용됩니다.

싱글 바이트 코드

거의 모든 JIS X 0208 도형 문자 코드는 각각 최소 7비트의 2바이트로 표현된다.단, 모든 컨트롤 문자와 플레인 스페이스는 (이데오그래피 공간은 아니지만) 1바이트 코드로 표시됩니다.1 바이트 코드의 비트 조합( 「 「 「 「 bitto kumiawase 」 )을 나타내기 위해서, 2 개의 10 진수( 번호와 행 번호)를 사용합니다.7비트 중 3비트 또는 8비트 중 4비트의 상위비트가 각각 0~7비트 또는 0~15비트 중 상위비트가 열번호를 형성한다.0 ~ 15 의 4 개의 하위 비트가 회선 번호를 형성합니다.각 10진수는 1자리 16진수에 대응합니다.예를 들어, 도형 문자 「스페이스」에 대응하는 비트 조합은, 7 비트 번호로서 010 0000, 8 비트 번호로서 0010 0000이다.열/행 표기법에서는 2/0으로 표시됩니다.같은 싱글바이트 코드의 다른 표현에는 16진수로서 0x20, 단일 10진수로서 32가 있습니다.

코드 포인트 및 코드 번호

더블바이트 코드는 94개의 번호부 그룹으로 나누어져 있으며 각각 행(,, ku, light)이라고 불립니다. 「섹션」).각 행에는 94개의 번호가 매겨져 있으며, 각각 ( (, 10, 점등)이라고 불립니다. 포인트)[i]이것에 의해, 합계 8836(94 × 94)의 코드 포인트가 가능하게 됩니다(다만, 모두 할당되어 있는 것은 아닙니다만, 이하를 참조해 주세요).이러한 코드 포인트는, 94 행의 코드 테이블에 표준으로 배치되어 있습니다.

행 번호 및 셀 번호(표준 JIS X 0208 코드의 경우 각각 1~94의 번호가 매겨짐)는 더블바이트 코드 포인트를 나타내기 위해 사용되는 쿠텐(点点) 포인트를 형성한다.코드 번호 또는 쿠텐 번호(区天 (, kuten bango)는 행과 셀 번호를 하이픈으로 구분하여 "row-cell" 형태로 표현한다.예를 들어 문자 '"'은 16행, 셀 1에 코드 포인트가 있으므로 코드 번호는 '16-01'로 표현된다.

7비트 JIS X 0208(JIS X 0202/ISO-2022-JP 로 스위칭 할 수 있는 경우)에서는, 양쪽의 바이트는, 0x21(행 또는 셀 번호1 에 사용)~0x7E(행 또는 셀 번호94 에 사용)의 94 바이트 범위로 할 필요가 있습니다.이것은, 7 비트의 ASCII 문자 카운팅에 사용되는 범위와 정확하게 일치하고 있지 않습니다.이것에 의해,[7] 각 번호에 0x20(32)을 가산해 부호화 바이트를 얻는다.예를 들어 위의 16-01("")의 예는 바이트로 표시됩니다.0x30 0x218비트 EUC-JP에서는 대신 0xA1 ~0xFE 의 범위(높은 비트를 1 로 설정)가 사용되고 있습니다만, Shift JIS 의 다른 인코딩에서는 보다 복잡한 변환이 사용됩니다.Shift JIS에는 JIS X 0208 자체에 필요한 것보다 더 많은 인코딩 공간이 포함되어 있습니다.JIS X 0208에 대한 일부 Shift JIS 고유 확장 기능에서는 [8]94 이상의 행 번호를 사용합니다.

This structure is also used in the Mainland Chinese GB 2312, where it is natively known as 区位; qūwèi, and the South Korean KS C 5601 (currently KS X 1001), where the ku and ten are respectively known as hang[9] (; ; haeng) and yol[9] (; ; yeol).최신 JIS X 0213은 여러 평면(,, men, light)을 가지고 있어 이 구조를 확장한다. CNS 11643에 의해 사용되는 구조이며 CCII에 의해 사용되는 구조물과 관련이 있다.

할당되지 않은 코드 포인트

Among the 2-byte codes, rows 9 to 15 and 85 to 94 are unassigned code points (空き領域, aki ryōiki); that is, they are code points with no characters assigned to them.또한 다른 행의 일부 셀도 기본적으로 할당되지 않은 코드 포인트입니다.

이러한 빈 영역에는 기본적으로 사용하지 않는 코드 포인트가 포함되어 있습니다.관계 당사자 간에 사전 합의가 있는 경우를 제외하고, 미지정 코드 포인트에 정보 교환용 문자(가이지)를 할당해서는 안 된다.

할당되지 않은 코드 포인트에 문자를 할당하는 경우에도 표준에서 정의된 그래픽 문자를 할당하지 않아야 합니다.또한 동일한 문자를 할당되지 않은 여러 코드 포인트에 할당하지 않아야 합니다.문자는 세트에 중복되지 않아야 합니다.

또, 미지정 코드 포인트에 문자를 할당할 때는, 한자 문자에 대해 통일성에 주의할 필요가 있다.예를 들어 25열 셀66은 '높음' 또는 '비싼'을 뜻하는 한자에 대응하고, 중간( ()에 '입'자())와 유사한 성분이 있는 형태와 같은 위치( the)에 사다리 모양 구조를 가진 흔하지 않은 형태를 모두 같은 코드 포인트에 포함시킨다.따라서 지점 25-66을 "입" 형식으로 제한하고 후자의 "더" 형식을 할당되지 않은 코드 포인트에 할당하는 것은 기술적으로 표준을 위반하는 것입니다.

다만, 실제로는, Windows-932 MacJapanese 등, 벤더 고유의 Shift JIS 배리언트에서는, JIS X 0208 의 부호화 스페이스의 할당되지 않은 행에 벤더 내선 번호가 부호화되어 있습니다.또한 JIS X 0208에서 할당되지 않은 대부분의 코드는 새로운 JIS X 0213 규격에 의해 할당된다.

캐릭터명

각 JIS X 0208 문자에는 이름이 부여됩니다.캐릭터의 이름을 사용하는 것으로, 코드에 의존하지 않고 문자를 식별할 수 있습니다.문자의 이름은 다른 문자 집합 표준(특히 Universal Coded Character Set(UCS/Unicode))과 함께 조정되므로 유니코드 등의 문자 집합에 문자를 매핑할 수 있습니다.예를 들어 ISO/IEC 646 International Reference Version (US-ASCII) column 4행 1의 문자와 JIS X 0208행 3셀 33의 문자의 이름은 모두 "LATIN 대문자 A"입니다.따라서 ASCII의 4/1 문자와 JIS X 0208의 3-33 문자는 같은 문자로 간주할 수 있습니다(단, 실제로는 ASCII를 별도로 제공하는 인코딩에 의해 JIS X 0208 문자에 대체 매핑이 사용됩니다).반대로 ASCII 문자 2/2(따옴표), 2/7(아포스트로피), 2/13(하이픈 마이너스) 및 7/14(칠데)는 이 표준에는 존재하지 않는 문자라고 판단할 수 있습니다.

한자가 아닌 문자의 문자 이름에는 대문자 로마자, 공백 및 하이픈이 사용됩니다.한자가 아닌 문자는 일본어의 통칭(通名)이 붙지만,[j] 이러한 명칭에 대한 규정은 존재하지 않는다.한편, 한자의 이름은 UCS/Unicode에서의 대응하는 16진수 표현에 따라 기계적으로 설정됩니다.한자의 이름은 Unicode 코드 포인트 앞에 "CJK UNIED IDEOGRAPH-"를 붙이면 얻을 수 있습니다.예를 들어 열 16 셀1(')은 UCS의 U+4E9C에 대응하고 있기 때문에, 그 이름은 「CJK UNIED IDEOGRAPH-4E9C」가 됩니다.한자는 일본인의 일반적인 이름이 아니다.

한자 집합

개요

JIS X 0208은 7비트 또는 8비트의 2바이트 코드에 대응하는 6879개의 그래픽 문자 세트를 규정합니다.JIS X 0208에서는 이를 한자 세트(漢子, ji子, ji子, an子, an子 등 6355개의 한자와 524개의 비한자(非子, an子, an子)를 포함한 한자 세트라고 합니다.

특수 문자
행 1과 행 2를 점유합니다.「사상 공간」( )이나 「키주츠키고」 , 18개의 기술자 기호(키주츠키고)쉼표, 다쿠텐, 하다쿠텐발음이 다른 기호 8개, 가나 또는 한자 오는 기호 10개, 를 들면 가나 마타·한자·한자·니지·모노키루)있습니다.45개의 수학 기호(가쿠주쓰 기고)32개의 단위 기호(통화 기호와 우편 기호 포함)로 총 147자입니다.
숫자
3행의 일부를 차지합니다.'0'에서 '9'까지의 10자리 숫자.
라틴 문자
3행의 일부를 차지합니다.영문 알파벳의 대소문자 26자로 총 52자입니다.
히라가나
4열을 차지합니다.무음 가나 48자( 우리 포함), 유성 가나 20자(다쿠텐), 반음 가나 5자(한다쿠텐), 구개음·동화음용 작은 가나 10자(총 83자).
가타카나
5열을 차지합니다.86자로, 히라가나 문자에 상당하는 가타카나 외에 작은/ 가나(//))와 부 가나( ()가 있다.
그리스 문자
행 6을 점유합니다.대소문자 형태의 그리스 알파벳 24자(마지막 시그마 제외)로 총 48자입니다.
키릴 문자
열 7을 점유합니다.대소문자 러시아어 알파벳 33자로 총 66자입니다.
상자 그리기 문자
8열을 차지합니다.얇은 세그먼트, 두꺼운 세그먼트, 얇은 세그먼트와 두꺼운 세그먼트가 혼합된 합계 32개.
한자
16행부터 47행까지 레벨1의 2965 문자( 「1」 「dai ichi suijun」), 48행부터 84행까지 레벨2 3390 문자( 「2」 「dai ni suijun」)로 합계 6355 문자입니다.

특수 문자, 숫자 및 라틴 문자

한자 집합의 특수 문자에 대해서는, ISO/IEC 646:1991(ASCII 상당)의 국제 기준 버전(IRV)의 그래픽 문자 집합의 일부 문자가 JIS X 0208에 없다.위의 4가지 문자 "QUATION MARK", "APOSTROPHE", "HYPHEN-MINUS", "TILDE"가 있습니다.앞의 3개는 한자 집합에서 다른 코드 포인트로 분할됩니다(니시무라, 1978; JIS X 0221-1:2001 표준, 섹션 3.8.7).IRV의 "TILDE"는 한자 집합에 대응하는 문자가 없습니다.

다음 표에서 해당 ISO/IEC 646:1991 IRV 문자는 JIS X 0208의 복수 동위원소와 비교되지만 IRV 문자 "TILDE"는 JIS X 0208의 "WAVE DASH"와 비교됩니다."Symbol" 열의 엔트리는 UCS/Unicode 코드 포인트를 사용하기 때문에 표시의 자세한 내용은 다를 수 있습니다.

정확한 JIS X 0208을 지원하지 않는 ASCII/IRV 문자는 나중에 JIS X 0213에 의해 코드 포인트가 할당되었습니다.이것들도 Microsoft의 4개의 문자의 매핑과 같이 아래에 나열되어 있습니다.

ISO/IEC 646:1991 IRV(ASCII)와 JIS X 0208의 비엄격한 대응
ISO/IEC 646:1991 IRV JIS X 0208
열/선 x0213[6] 마이크로소프트 기호. 이름. 쿠텐 기호. 이름.
2/2 1-2-16 92-94[A]
115-24[B]
" 따옴표 1-15 ¨ 디아레시스
1-40 왼쪽 큰따옴표
1-41 오른쪽 큰따옴표
1-77 더블 프라임
2/7 1-2-15 92-93[A]
115-23[B]
' 아포스트로피 1-13 ´ 급성 악센트
1-38 왼쪽 작은따옴표
1-39 오른쪽 작은따옴표
1-76 프라임
2/13 1-2-17 1-61[C] - 하이픈 마이너스 1-30 하이픈
1-61 마이너스 기호
7/14 1-2-18 1-33[D] ~ 칠다 (대응 문자 없음)
(대응 문자 없음) 1-33 웨이브[D] 대시
  1. ^ a b "NEC의 IBM 확장 선택"에서.JIS X 0208에서 할당되지 않은 코드 포인트를 점유합니다.
  2. ^ a b "IBM 확장"에서.JIS X 0208의 범위를 벗어났지만 Shift_J로 인코딩 가능IS.
  3. ^ Microsoft 에서는, JIS 마이너스 부호를 하이픈 마이너스 전폭 형식으로 취급하고 있습니다.
  4. ^ a b Wave Dash는 Microsoft에 의해 칠드의 전체 폭 형식으로 취급되는 경우가 있습니다(Wave Dash의 Tilde unicode UnicodeShift JIS 인코딩 참조).ASCII/IRV 칠데는 칠데 액센트 마크()) 또는 동일한 곡률의 대시(~)로 표시되는 애매한 코드 포인트입니다.단, Windows-1252에서는 스페이스 액센트가 다른 코드 포인트를 가지고 있기 때문에 대시가 일반적입니다.칠데 액센트에 JIS X 0208 문자는 없습니다.JIS X 0213의 문자 1-2-18은 코드 [6]차트에 칠데 액센트로 표시됩니다.

즉, 세계에서 가장 널리 보급되어 있는 상향 대응 문자 집합이며, 이 규격의 약점 중 하나로 간주되고 있습니다.

한자 세트와 IRV 세트는 90개의 특수 문자, 숫자 및 라틴 문자를 공통으로 가지고 있지만, 이 표준은 ISO/IEC 646의 배치를 따르지 않습니다.이 90문자는 1행(문자와 숫자)과 3행(문자와 숫자)으로 나뉘지만 3행은 62개의 문자와 숫자만 ISO 646 배열을 따릅니다(예:4/1ISO 646의 ('A')는2/3 4/1(즉, JIS X 0208의 경우 3-33)을 참조하십시오.

한자의 숫자나 라틴 문자 등이 「전각 영숫자」(전각 영숫자)로 되어 있는 원인에 대해서는, IRV와 다른 해석을 실시하게 된 것은, 이러한 호환성에 의한 것이라고 생각된다.

제1차 표준 이후, 동그라미 숫자, 측정 단위명, 로마 [10]숫자 등의 합성물(成成, gosei)을 나타낼 수 있게 되어 독자적인 쿠텐 코드 포인트가 부여되지 않았다.정보 시스템을 제조하는 개별 기업은, 고객이 요구하는 대로, 그 문자를 나타내려고 할 수 있지만, 어느 기업도, 독자적으로 가이지로 제공하는 것을 택해 표준에 추가하도록 요구하지는 않았다.

제4차 표준(1997년)에서는 이들 문자는 모두 현재 위치의 진보를 수반하는 문자, 즉 공백 문자로 명시적으로 정의되었다.또한, 캐릭터 구성에 의해 만들어지지 않아야 한다는 판결이 내려졌다.이 때문에 2행 셀82의 öngström 기호(α)를 제외하고 라틴 문자를 분음 부호로 표시하는 것은 전혀 허용되지 않게 되었습니다.

히라가나와 가타카나

JIS X 0208의 히라가나가타카나JIS X 0201과 달리 다쿠텐과 한다쿠텐 마크를 한 글자의 일부로 포함하고 있다.JIS X 0201이 아닌 가타카나 wa( () wa(),)도 포함되어 있습니다.

JIS X 0208의 가나 배열은 JIS X 0201의 가타카나 배열과 다릅니다.In JIS X 0201, the syllabary starts with wo (), followed by the small kana sorted by gojūon order, followed by the full-size kana, also in gojūon order (ヲァィゥェォャュョッーアイウエオ......ラリルレロワン).한편, JIS X 0208에서는, 우선 「고주온순」에 따라서, 「작은 가나」, 「풀사이즈 가나」, 「다쿠텐 가나」, 「한다쿠텐 가나」의 순서로 분류해, 같은 기본 가나를 그 파생어(ぁあうana)와 그룹화한다(utenuten with with with with with with with with with on on on on on on on on on on on on on on on on on on on on on on on on on on on on on on with with with on on on on on on on on on on with with with with with with with with with with with with with with with with with on on on with with on on with★★★★★★★★★★★★★★★★......★★★★★★★★★★★★★★★★」이 순서는, 가나 베이스의 사전 검색의 정렬을 용이하게 하기 위해서 선택되었다(Yasuoka, 2006).[k]

위와 같이 본 표준에서는 JIS X 0201에서 정의된 가타카나 순서를 JIS X 0208에서 따르지 않았다.JIS X 0201 가타카나는 이 규격의 가타카나와 호환되지 않기 때문에 생긴 것으로 생각된다.이 점도 이 표준의 약점 중 하나입니다.

한자

이 기준의 한자가 어떤 출처에서 어떻게 선택되었는지, 왜 레벨 1과 레벨 2로 나뉘는지, 그리고 어떻게 배열되었는지에 대해서는 제4차 기준(1997년)에 자세히 설명되어 있다.그 설명에 따르면, 제1차 표준(1978년)의 6349자에 다음 4개의 한자에 포함되는 한자가 반영되었다.

  • 표준 코드 한자 표시(잠정)(시안 효준 고도요 간지효)
1971년 일본 정보처리학회가 이 목록을 작성했다.아래의 "통신 분석 결과"에서 이는 6086자로 나타납니다.
  • 관리 데이터 처리용 기본 한자(교세이 조호 요리요 기혼 한자)
1975년 일본 행정관리청이 선정한 2817자로 구성되어 있다.이 선정의 목적으로, 동청은 「표준 코드의 한자 리스트(잠정)」를 시작으로, 복수의 한자 리스트의 「행정 데이터 처리의 한자 사용의 통신 분석 결과 및 사용 빈도」를 대조한 보고서를 작성했습니다.Shoriyō Kihon Kanji Sentei no Tame no Kanji no Shiyō Hindo Oyobi Taiō Bunseki Kekka), or "Correspondence Analysis Results" (対応分析結果, Taiō Bunseki Kekka) for short.
  • 일본인 개인등록명 한자(일본정명주요진메이한자)
3044자로 구성된 '통신 분석 결과'를 구성하는 한자 목록 중 하나.그것은 더 이상 존재하지 않는다.당초의 작성 위원회에는 존재하지 않았던 것이, 「통신 분석 결과」에 따른 규격에 반영되어 있던 한자 리스트입니다.
  • 국가 행정 구역 목록용 한자(国土行政区画総覧使用漢字, Kokudo Gyōsei Kukaku Sōran Shiyō Kanji)
3251자로 구성된 '통신 분석 결과'를 구성하는 한자 목록 중 하나.일본지리데이터센터가 정리한 모든 행정지명 일람표인 '국가행정구역명부'(國國政國閣 s国)에 사용된 한자입니다.당초의 기안 위원회에서는, 「통신 분석 결과」에 따라, 이 리스트의 한자를 조사하지 않았다.

두 번째와 세 번째 기준에서는 레벨 2에 각각 4자와 2자를 추가하여 총 한자가 6355가 되었습니다.또한, 두 번째 표준에서는 문자 형태와 레벨 간 전이가 변경되었고, 세 번째 표준에서도 문자 형태가 변경되었다.이것들은, 이하에 자세하게 설명하겠습니다.

레벨 파티셔닝

레벨 1의 2965의 한자는 16~47행이다.레벨 2의 3390의 한자는 4884행이다.

레벨 1에서는, 복수의 한자 표기에 공통의 문자가 선택되고, 토요 한자, 토요 한자 정정 초안, 진메이요 한자가 기본으로 사용되었습니다.JIS C6260 (도도후현)「식별 코드」(현재의 JIS X 0401)와 JIS C6261(현재의 JIS X 0402)을 참조해, 일본의 거의 모든 도도부현, 시구, 구, 정, 촌등의 한자를 의도적으로 레벨 [l]1로 했다.또한 전문가에 의한 개정도 추가되었다.

레벨 2는, 상기의 4대 리스트에 등장했지만, 레벨 1에 선정되지 않은 한자 전용입니다.이하와 같이, 레벨 1의 한자는 발음에 의해서 순서가 매겨져 있기 때문에, 발음을 판단하기 어려운 한자 중에는, 레벨 1에서 레벨 2로 이행한 것이 있다(니시무라, 1978).

이러한 결정으로 레벨 1은 한자를, 레벨 2는 한자를, 레벨 2는 한자를 사용하는 빈도가 높은 것이 대부분이지만, 물론 그 당시의 기준으로 판단되어, 시간이 지남에 따라 레벨 2의 한자는 「높다」(높다), 「반짝반짝 빛나다」(높다)라는 의미도 많아지고 있다.d 반대로, 「센티」(센티)나 「밀리」(센티)를 의미하는 「센티」(센티) 등, 레벨 1의 몇개의 한자가 거의 없어지고 있다.현재의 조요한자 중 30개는 레벨 [m]2에 해당하고, 3개는 모두 누락되어 있다.[n]현재의 진명성 한자 중 192자는 레벨 [o]2이며,[p] 105자는 규격에 포함되지 않는다.

배치.

레벨 1의 한자는 각각의 「대표 읽기」(즉, 본 기준의 목적만을 위해 선택된 정독)의 순서로 정렬되어 있습니다.한자를 읽는 것은 또는 으로 할 수 있으며, 읽는 것은 고주온 [q]순서로 정렬되어 있습니다.일반적으로 온(중국어) 읽기가 대표 읽기로 간주되며, 한자에 복수의 온(On) 읽기가 있는 경우에는 사용 빈도가 우세하다고 판단된 읽기가 대표 읽기에 사용된다(JIS C 6226-1978 표준, 섹션 3.4).읽기가 없거나 잘 알려지지 않은 읽기가 적은 한자에 대해서는 대표적인 읽기로 군 읽기를 채택했다.대표 독서로 동사 쿤을 사용할 필요가 있는 경우에는 슈시케이가 아닌 렌요케이사용한다.

예를 들어 16행의 셀 1~41은 a의 판독으로 시작하는 41자로 정렬되어 있습니다.을 기준으로 16~10자, 아오이 군, 16~32자 등 22자가 있다.16-09(''를 읽을 때 쿤을 읽을 때 reading을 읽을 때 :을 읽을ū읽을reading을 읽을 때 su을 읽을 때 the을 읽을 때 reading을 읽을 때 reading을 때 reading를 읽을 때 reading을 때 reading을 때 '을 때 reading을 때 '을 때 '을 때 '을 '을 때 -을 '을 16을 때 16을 16을 16을 16-을 16을 16을 16을 16을 16 used로 used

서로 다른 한자 간에 대표 독서가 같을 경우, 군독보온독서를 사용하는 한자가 앞에 배치됩니다. 이상의 한자 간에 on 또는 kun 판독값이 동일한 경우 기본 소수점 및 스트로크 수로 정렬됩니다.

레벨 1이든 레벨 2이든, 이타이지가 그 예시형태를 그대로 따르도록 배치되어 있다.예를 들어 레벨 2에서는 행 49 셀 88(') 직후에 이어지는 다음 문자는 일반 규칙(이 경우 스트로크 수)에서 벗어나 49-88(', ', ')[r]의 3가지 배리언트를 포함합니다.

레벨 2의 한자는 1차 부수, 스트로크 수 순으로 배열되어 있습니다.이 두 특성이 다른 한자에 대해 동일한 경우 읽기로 정렬됩니다.

출처를 알 수 없는 한자

JIS X 0208:1997 부록 7에서 출처가 불분명하거나 불분명한 한자
쿠텐 기호. 클래스 기능 주의사항
52-55 알 수 없는
52-63 알 수 없는
54-12 출처가 불명
55-27 식별 불가
57-43 출처가 불명
58-83 출처가 불명
59-91 출처가 불명
60-57 출처가 불명
74-12 출처가 불명
74-57 출처가 불명
79-64 출처가 불명
81-50 출처가 불명

한자의 집합에는 포괄적인 요약되지 않은 사전에는 없는 한자가 있어 출처를 알 수 없다는 지적이 있다.예를 들어 타지마(1979)는 제1차 표준이 제정된 지 1년 만에 신지겐(神地院)이나 다이칸와지텐(大-和地,)에는 없는 63개의 한자를 확인했다고 보고하고, 랴쿠지로서도 의미가 없다고 지적하고 있다.한자의 사전에는 특정 출처에서 선택할 수 있습니다.이 한자는 '유령 한자' 또는 '유령 한자' 으로 불리게 되었다.

제4판 규격의 기초 위원회도 출처를 알 수 없는 한자의 존재를 문제로 보고 제1판 규격의 기초 위원회가 어떤 출처를 언급했는지를 조사했다.그 결과, 당초의 기초 위원회는 한자를 수집하기 위해서 「통신 분석 결과」에 크게 의존해 온 것을 알 수 있었다.「통신 분석 결과」의 기초 조사 결과, 한자 세트에는 포함되어 있지만, 완전한 한자 사전에는 없는 한자의 상당수는 「코르」에 기재된 「일본인 인격 등록명 한자」나 「국가 행정 구역 등록용 한자」목록으로부터 온 것이 판명되었다.espondence Analysis Results"를 참조하십시오.

「통신 분석 결과」에 기재되어 있는 「일본인 개인 등록명 한자」의 원문은 존재하지 않는 것이 확인되었습니다.「국가 행정 구역 리스트」에서는, 제4판의 기초 위원회의 사사하라 히로유키씨가, 개발중의 페이지에 게재되고 있는 한자를 제1표준으로 검토했다.위원회는 또 NTT 전화번호부 데이터베이스(DB)의 개인명칭 사례뿐만 아니라 고서적도 많이 참조했다.

이러한 철저한 조사 덕분에, 위원회는 출처를 자신 있게 설명할 수 없는 한자의 수를 옆 표에 나와 있는 12자로 줄일 수 있었다.이 중 복사 오류로 인해 여러 개의 문자가 생성되었을 것으로 추측된다.특히 ▲는 프린터가 ▲과 ▲를 오려 붙여서 ▲을 작성하려고 했을 때 작성되었을 가능성이 있습니다.그 과정에서 그림자가 선으로 잘못 해석되어 ((그 그림은 조요 한자 지텐에 기재되어 있습니다).

한자 변형 통일

제4차 규격(1997년)의 사양에 따르면, 통일(包摂, 호세츠, 유니코드의 「통일」은 거의 동일하지만 동일하지 않음)은 문자 형태에 관계없이 동일한 코드 포인트를 부여하는 행위이다.제4의 표준에서는 허용되는 문자는 한정되어 있어 특정 동종문자문자 코드 포인트로 통일되는 정도를 명확하게 정의한다.

또, 표준의 사양에 따라, 글리프(字体, jitai, 점등. "문자 본문"은 그래픽 문자, 문자 형태(글자, 지케이, 점등)의 그래픽 표현에 대한 추상 개념입니다. "문자 모양"은 어떤 의미에서는 "문자 모양"이지만 표준화 목적을 위해 다른 수준에서 구별된 형태로서, 글리프가 실제로 사용되는 그래픽 모양(예: 화면에 손으로 쓰고, 인쇄하고, 표시하는 등)단일 문자에 대해서는 구체적이고/또는 눈에 띄게 다른 문자 형태가 무한히 존재한다.하나의 문자의 형태 사이의 변화를 「디자인 차이」( diffe diffe diffe, dezain no sa)라고 한다.

하나의 코드 포인트로 통일하는 정도는, 그 코드 포인트의 「예제 글리프」(예제 글리프, 레이지 지타이)와 그 샘플 글리프에 적용할 수 있는 「통일 기준」(예제 글리프, 호세츠키준)에 근거해 결정된다.즉, 어떤 코드 포인트와 글리프에 적용되는 코드 포인트의 예제 글리프.예제 문자는 통일 기준에 따라 해당 코드 포인트에도 적용된다.

예를 들어 33~46( 33)의 예문자는 부수 9())와 최종적으로 소 가나()를 낳은 한자로 구성되어 있다.또, 통일 기준 101에는, 제1자가 일본어(:)에서 가장 많이 볼 수 있는 형태()), 제2자가 제1의 2획이 부수 12(:)를 이루는 보다 전통적인 형태())를 포함하고, 제3자가 부수 12가 반전된 것을 제외하고, 제2자와 같다().이것에 의해, 라인 33 셀 46의 부호점에, 3개의 순열(θ, θ, θ)이 모두 적용된다.

제4표준에는 초판 에러타 중 하나를 포함해 186개의 통일기준이 있다.

코드 포인트의 예제 글리프가 둘 이상의 부품 글리프로 구성되어 있는 경우 각 부품에 통일 기준을 적용할 수 있습니다.단일화 기준을 한 부품에 적용한 후 해당 부품은 더 이상 단일화 기준을 적용할 수 없습니다.또한, 결과 글리프가 다른 코드 포인트의 글리프와 완전히 일치하는 경우에는 통일 기준을 적용할 수 없다.

예시 문자는 그 코드 포인트의 예에 지나지 않으며, 표준에 의해 "내부"된 문자는 아니다.또, 통일의 기준은, 일반적으로 사용되는 한자에 한정해, 본규격의 코드 포인트에 할당하기 위해서만 사용할 필요가 있다.일반적으로 사용되지 않는 한자는 예시문자와 통일기준에 따라 작성하지 말 것을 요구하는 기준이다.

한자 집합의 한자는 통일 기준에 따라 완전히 일관되게 선택되지 않는다.예를 들어 통일기준 72에 따라 제3 및 제4의 획이 교차하는 형태())와 교차하지 않는 형태())에 대응하지만 20~73은 교차하지 않는 형태(),)에만 대응하고 80~90은 교차하는 형태()에만 대응한다.

"통일", "통일 기준" 및 "예시 문자"라는 용어는 네 번째 표준에서 채택되었다.제1판부터 제3판까지는 한자와 한자의 관계를 「독립」, 호환」,동등의 3종류로 분류해, 「한 점만 통합」이라고 인식했다.모양이 완전히 같은 한자, 문체에 따라 다른 한자, 글자꼴의 차이가 작은 한자 이외에는 '동등성'이 포함되어 있다.

제1의 기준에서는 「이 기준에서는, 문자 형식의 상세를 확립하지 않는다」(3.1절)라고 규정되어 있다.또, 「문자와 그 코드의 일반적인 개념, 문자 형식의 설계 등, 문자의 범위외에 있는 것을 확립하는 것을 목적으로 하고 있다.제2 및 제3의 기준에서도 특정 문자 형태의 디자인이 그 범위 밖에 있다는 취지의 주석(항목 1의 주석)을 기재한다.또, 제4 규격은, 「이 규격은, 그래픽 문자와 그 비트 패턴을 규정해, 개개의 문자의 용도, 특정의 디자인 등은, 이 규격의 범위에 포함되지 않는다」(JIS X 0208:1997, 항목 1)라고 규정하고 있다.

호환성 통일 기준

In the fourth standard, "unification criteria for maintaining compatibility with previous standards" (過去の規格との互換性を維持するための包摂規準, kako no kikaku to no gokansei wo iji suru tame no hōsetsu kijun) is defined.적용범위는 JIS C 6226-1983과 JIS C 6226-1978 사이에서 글리프가 크게 다른 29개의 코드 포인트로 제한됩니다.이 29개의 코드 포인트에 대해서는, JIS C6226-1983 이후의 글리프는 「A」, JIS C6226-1978로부터의 글리프는 「B」로 표시된다.이들 각각에는 'A' 및 'B' 문양을 모두 적용해도 된다.단, 표준과의 호환성을 주장하기 위해서는 각 코드 포인트에 대해 "A" 또는 "B" 양식이 사용되었는지 여부를 명시적으로 명시해야 한다.

문자 부호화

JIS X 0208에 규정된 부호화 방식

JIS X 0208:1997에서는 부록 1과 부록 2를 조합한 제7조에 의해 총 8개의 부호화 방식이 정의되어 있다.

아래 설명에서 "CL"(제어 왼쪽), "GL"(그래픽 왼쪽), "CR"(제어 오른쪽) 및 "GR"(그래픽 오른쪽) 영역은 각각 0/0 ~ 1/15, 2/1 ~ 7/14 및 10/1 ~ 15/14입니다.각 코드에 대해 2/0 그래픽 문자 "SPACE"와 7/15 컨트롤 문자 "DELETE"가 할당됩니다.C0 제어 문자(JIS X 0211에 정의되어 있고 ISO/IEC 6429에 일치하는 문자)는 CL 영역에 할당됩니다.

한자의 7비트 부호화
표준 자체에 규정되어 있다.JIS X 0208 더블바이트 세트가 GL 영역에 할당됩니다.
8비트 부호화(한자
표준 자체에 규정되어 있다.7비트 인코딩과 동일하지만 8비트 바이트로 정의됩니다.CR 영역은 사용되지 않거나 JIS X 0211에서 C1 제어 문자를 인코딩할 수 있습니다.GR 영역은 사용되지 않습니다.
International Reference Version + 한자용 7비트 부호화
표준 자체에 규정되어 있다.제어 문자의 이동은 ISO/IEC 646:1991 IRV(국제 참조 버전, US-ASCII에 상당)를 GL 영역으로 지정합니다.Shift out은 동일한 영역으로 설정된 JIS X 0208 더블바이트를 나타냅니다.
라틴 문자 + 한자의 7비트 부호화
표준 자체에 규정되어 있다.IRV+7비트와 동일하지만 ISO/IEC 646:IRV는 ISO/IEC 646으로 대체되었습니다.JP(JIS X 0201의 로마어 세트).
International Reference Version + 한자용 8비트 부호화
표준 자체에 규정되어 있다.ISO/IEC 646:GL 영역에는 IRV, GR 영역에는 JIS X 0208이 할당된다.JIS X 0201의 반각 가타카나와 JIS X 0212의 보조 한자를 제외한 EUC-JP의 서브셋입니다.
라틴 문자 + 한자의 8비트 부호화
표준 자체에 규정되어 있다.IRV+8비트와 동일하지만 ISO/IEC 646:IRV는 ISO/IEC 646으로 대체되었습니다.JP.
시프트 코드화된 문자 집합
부록 1: 「시프트 코드 표현규정되어 있다.Shift JIS의 권위 있는 정의.
RFC 1468 코드 문자 세트
부록 2: 「RFC 1468-Coded Representation」(RFC 1468, RFC 1468 후고카 효겐)에 규정되어 있다.ISO-2022-JP와 비슷하지만(RFC 1468에 정의되어 있습니다), ISO-2022-JP는 7비트바이트로 정의되어 있습니다.

제4 [11]규격에 규정된 부호화 중 IANA에 등록된 것은 "Shift" 부호화 문자 세트뿐입니다.다만, 그 외의 것은, 다른 곳에서 정의되고 있는 IANA 등록 부호화(EUC-JP 및 ISO-2022-JP)와 밀접하게 관련하는 것도 있습니다.

JIS X 0202 / ISO 2022의 이스케이프 시퀀스

ISO 2022/J에서는 JIS X 0208을 사용할 수 있다.IS X 0202(ISO-2022-JP는 서브셋).4개의 ISO 2022 코드 세트 각각에 JIS X 0208을 지정하는 이스케이프 시퀀스를 다음에 나타냅니다.여기서 "ESC"는 제어 문자 "Escape"(0x1B, 또는 1/11)를 나타냅니다.

JIS C 6226 및 JIS X 0208을 선택하기 위한 ISO 2022 이스케이프 시퀀스
표준. G0 G1 G2 G3
78 ESC 2/4 4/0 ESC 2/4 2/9 0 4/0 ESC 2/4 2/10 4/0 ESC 2/4 2/11 4/0
83 ESC 2/4 4/2 ESC 2/4 2/9 4/2 ESC 2/4 2/10 4/2 ESC 2/4 2/11 4/2
90 이상 ESC 2/6 4/0 ESC 2/4 4/2 ESC 2/6 4/0 ESC 2/4 2/9 4/2 ESC 2/6 4/0 ESC 2/4 2/10 4/2 ESC 2/6 4/0 ESC 2/4 2/11 4/2

ESC 2/4을 시작하는 이스케이프 시퀀스는 멀티바이트 문자 세트를 선택합니다.ESC 2/6을 시작하는 이스케이프 시퀀스는 다음 문자 집합 선택 항목의 리비전을 지정합니다.JIS C6226:1978은 멀티바이트94 세트 식별자 바이트 4/0(ASCII에 대응)에 의해 식별된다.@JIS C6226:1983 / JIS X 0208:1983은 멀티바이트-94 세트 식별자 바이트 4/2에 의해 식별됩니다.BJIS X 0208:1990 은 94 세트 식별자 바이트 4/2 로도 식별되지만 리비전 식별자 4/0 으로 구별할 수 있습니다.@).

ASCII와 JIS X 0201의 중복 부호화

ISO/IEC 646:1991 IRV 그래픽 문자 세트(ASCII) 또는 JIS X 0201의 그래픽 문자 세트(JIS-Roman) 중 하나로 이 표준의 한자를 사용할 경우, 양쪽 세트에 공통되는 문자의 처리에 문제가 생깁니다.특별한 대책을 강구하지 않는 한, 양쪽 세트에 포함되는 문자는 모두 1 대 1로 매핑 되지 않고, 1 문자에 복수의 코드 포인트가 할당되는 경우가 있습니다.즉, 부호화가 중복되는 경우가 있습니다.

JIS X 0208:1997은, 어느 한 세트에 공통의 문자가 있는 경우에 대해서, 기본적으로 한자 세트(두 개의 코드 포인트 중 하나)에서의 코드 포인트 사용을 금지하고 있기 때문에, 중복되는 인코딩을 배제하고 있다.이름이 같은 캐릭터는 같은 캐릭터로 판단됩니다.

예를 들어 ASCII의 비트 패턴 4/1에 대응하는 문자의 이름과 한자 집합의 3행 셀 33에 대응하는 문자의 이름은 모두 「LATIN CATE LETTER A」이다.한자의 International Reference Version + 8비트 코드에서는 비트 패턴 4/1 또는 한자 집합의 3행 셀 33(10/3 12/1)에 대응하는 비트 패턴에 의해 문자 A(즉, "LATIN 대문자 A")가 표시된다.이 표준에서는 중복 부호화를 배제하기 위해 10/3 12/1 비트 패턴의 사용을 금지하고 있습니다.

한자 집합의 부호점 문자를 「전폭 문자」와 ASCII 또는 JIS-Roman의 부호점 문자를 다른 문자로 취급하는 실장에 대해서는, 역호환성을 위해서만 한자 집합 부호점 사용을 허가한다.예를 들어 하위 호환성을 위해 International Reference Version + 8비트 코드에서 10/3 12/1을 전폭 "A"에 대응하는 한자로 간주하는 것이 허용된다.

ASCII 또는 JIS-Roman과 함께 한자를 사용하는 경우에는 규격을 엄격히 준수해도 문자의 고유 부호화가 보증되지 않는다.예를 들어, 한자의 International Reference Version + 8비트 코드에서는, 문자 「HYPHEN-MINUS」의 비트 패턴 2/13과 문자 「HYPHEN」의 행 1 셀 30(비트 패턴 10/1 11/14)을 가지는 하이픈을 나타내는 것이 유효하다.또한 표준에서는 2가지 중 어떤 것을 무엇에 사용할지 정의하지 않기 때문에 하이픈에는 하나의 고유한 인코딩이 부여되지 않습니다.같은 문제가 마이너스 기호나 따옴표 등에 영향을 줍니다.

또, 한자 세트를 다른 코드로 사용한다고 해도, 문자의 고유 부호화가 행해진다는 보장은 없다.단, 대부분의 경우 1행 셀1의 전폭 "IDEOGRAPHIC SPACE"와 반폭 공간(2/0)이 공존합니다.이 두 가지가 어떻게 달라야 하는지는 스스로 설명되지 않으며 표준에도 명시되어 있지 않다.

실제로 사용되는 인코딩 방식 비교

부호화 대행명 7비트?[A] ISO 2022? 스테이트리스?[B] ASCII를 사용할 수 있습니까? 0x00~7F는 항상 ASCII입니까? 8비트 JIS X 0201의 슈퍼셋? JIS X 0212 지원? 바이트 단위 자기 동기화(점멸? 비트 자동 동기화(점멸?
ISO-2022-JP 'JIS'(JIS X 0202) 네. 네. 아니요[C]. 네. 시퀀스는 비ASC일 수 있습니다.II[C] 아니요(인코딩 가능)[D] 가능[E] 아니요. 아니요.
Shift_JIS "슈지스" 아니요. 아니요. 네. 거의[F]. 격리된 바이트는 ASC 이외의 바이트일 수 있습니다.II[G] 네. 아니요. 아니요. 아니요.
EUC-JP 'UJIS' (유닉스화 JIS) 아니요. 네, 그렇습니다[H]. 네, 그렇습니다[H]. 보통[I] 네. 아니요(인코딩 완료)[J] 통상[K] 이용 가능 아니요. 아니요.
비교[L] Unicode 형식
UTF-8 아니요. 아니요. 네. 네. 네. 아니요(인코딩 완료) 이용할 수 있는 네. 보통[M]
UTF-16 "[N]유니코드 아니요. 아니요. 네. 아니요. 아니요. 아니요(인코딩 완료) 이용할 수 있는 16비트 이상의 단어만 사용할 수 있습니다. 아니요.
GB 18030 아니요. 아니요[O]. 네. 네. 격리된 바이트는 ASC 이외의 바이트일 수 있습니다.II 아니요(인코딩 완료) 이용할 수 있는 아니요. 아니요.
UTF-32 아니요. 아니요. 네. 아니요. 아니요. 아니요(인코딩 완료) 이용할 수 있는 통상[P], 실제로는 아니요.
  1. ^ 즉, 8비트 클린 전송이 필요하지 않습니다.
  2. ^ 즉, 주어진 문자를 인코딩하는 데 사용된 시퀀스는 이전 문자가 무엇이었든 항상 동일하다.상태(컴퓨터 과학) 참조.
  3. ^ a b ISO-2022-JP는 스테이트풀 부호화입니다.모든 문자 집합은 0x21~7E로 부호화되어 ANSI 이스케이프를 사용하여 전환됩니다.따라서 초기 상태에서는 ASCII이지만 비ASC 시퀀스 전체가II 문자는 ASCII 바이트로 부호화할 수 있습니다.
  4. ^ JIS X 0201 가타카나는 JIS X 0202 및 ISO 2022에서 사용할 수 있지만 기본 ISO-2022-JP 프로파일에는 포함되지 않지만 공통 확장입니다.
  5. ^ JIS X 0212는 JIS X 0202 및 ISO 2022에서 사용할 수 있으며 ISO-2022-JP-1 및 ISO-2022-JP-2 프로파일에는 포함되어 있지만 기본 ISO-2022-JP 프로파일에는 포함되어 있지 않습니다.
  6. ^ Shift_J의 단일 바이트 문자 0x21~7EIS는 8비트 JIS X 0201의 슈퍼셋이 되기 위해 ISO-646-JP로 올바르게 설정되어 있습니다만, ASCII로서 디코딩 되는(반드시 표시되는 것은 아닙니다) 것은, 2개소 뿐입니다.
  7. ^ 일부(전부는 아님) ASCII 바이트는 Shift_J의 더블 바이트 문자의 첫 번째 바이트가 아닌 두 번째 바이트로 표시될 수 있습니다.IS. 따라서 2개 이상의 ASCII 바이트 시퀀스에서 두 번째 바이트는 반드시 ASCII(또는 ISO-646-JP) 문자여야 합니다.
  8. ^ a b 패킹 형식의 EUC는 ISO 2022 메커니즘을 기반으로 하며 문자 집합 지정이 미리 예약되어 있습니다.문자 집합 지정은 회피되고 잠금 시프트는 회피되지만 단일 시프트의 사용은 스테이트풀하지 않은 방법으로 구현될 수 있습니다.그럼에도 불구하고 ISO 2022의 제약을 따른다.
  9. ^ EUC-JP의 싱글바이트 문자 0x21~7E는 일반적으로 ASCII로 간주되지만 ISO-646-JP로 취급될 수 있습니다.
  10. ^ Shift_J와 달리IS, EUC-JP는 JIS X 0201 가타카나의 표현이 다르기 때문에 사전 변환 없이 플레인8 비트 JIS X 0201 입력을 처리하지 않습니다.
  11. ^ EUC-JP의 JIS X 0212가 항상 실장되어 있는 것은 아닙니다.
  12. ^ 부호화 자체의 속성 이외에도 Unicode 형식은 기본 문자 집합에서 비롯되는 추가적인 이점이 있습니다. 즉, 이들은 JIS 부호화 문자에 한정되지 않고 UCS 전체(JIS 부호화 문자의 전체 레퍼토리를 포함)를 나타낼 수 있기 때문에 국제적인 사용에 적합합니다.또한 더 큰 기본 레퍼토리와 지정된 개인 사용 영역 때문에 소유권 확장에 대한 충돌의 영향을 덜 받습니다.
  13. ^ UTF-8 인코딩텍스트의 대부분의 비트 단위 프레임쉐이프트에서는 무효 UTF-8이 생성되지만 1비트 또는 여러 비트가 프레임쉐이프트 되어도 유효한 UTF-8을 유지하는 문자의 시퀀스를 작성할 수 있습니다.
  14. ^ Microsoft만.
  15. ^ GB 18030 및 GBK는 GB/T 2312의 EUC-CN 형식의 확장이지만 EUC-JP(또는 원래의 EUC-CN)와는 달리 EUC 또는 ISO 2022의 제약을 따르지 않습니다.
  16. ^ 이론적으로 UTF-32는 32비트 드워드에 대해서만 자기동기화되지만, UTF-32가 21비트 값을 나타내기 위해 32비트 값을 사용하는 것은 실제로는 각 문자의 하이엔드에 적어도 11개의 제로비트의 연속적인 실행을 포함한다는 것을 의미하며, 이는 일반적으로 관련된 코드에 따라 문자의 경계를 정렬하는 데 사용될 수 있다.

역사

일본공업표준의 제정, 재확인, 개정 후 5년이 경과할 때까지 종전의 규격은 재확인, 개정 또는 철회 절차를 거친다.제정 이후 세 차례에 걸쳐 표준개정이 이뤄졌으며 현재 제4의 표준이 유효하다.

제1표준

JIS C 6226-1978은 1978년 1월 1일 일본 국제통상산업대신이 제정한 「정보교환용 일본어 그래픽 문자 집합 코드」(Joho Kokan'yo Kanji Fugokei)이다.78J라고도 불린다.줄여서 IS.JIPDEC의 한자 표준화 연구 연구 연구 위원회가, 산업 과학 기술청의 위탁을 받아 초안을 작성했다.위원장은 모리구치 시게이치였다.

암호는 비한자 453자(히라가나, 가타카나, 로마자, 그리스어, 키릴 문자 및 구두점 포함)와 6349자(2965레벨 1자, 3384레벨 2자)[12]로 총 6802자를 포함했다.상자 그리기 문자는 아직 포함되지 않았다.표준 자체는 주식회사 셰이크사의 이시이 민초 서체로 설정되었다.

제2표준

JIS C6226-1983의 제2표준 「정보교환을 위한 일본어 그래픽 문자 집합의 코드」(Joho Kokan'yo Kanji Fugokei)는 1983년 9월 1일에 제1표준을 개정했다.그것은 83JIS라고도 불린다.AIST의 위탁을 받아 JIPDEC 한자 코드 관련 JIS 위원회가 초안을 작성했다.위원회의 의장은 모토오카 토루였다.

제2차 규격의 초안은 우정성조요한자 공포, 진메이요한자 실시, 일본어 텔레텍스 표준화 등의 요소를 고려하여 JIS C6234-1983(24픽셀)에 발맞춰 다음 수정을 실시했다.ix 프린터 문자 형식(현재는 JIS X 9052)

특수 문자 추가
39자가 추가되었다.이들 39개 중 JIS Z 8201-1981(수학 기호), JIS Z 8202-1982(수량, 단위, 화학 기호) 등의 규격에서 구성으로는 나타낼 수 없는 것을 선택했다.
새로 추가된 상자 그리기 문자
32개의 상자 모양 문자가 추가되었습니다.
이타이지 코드 포인트 교환
22쌍의 한자에 대한 코드 포인트가 교환되어 레벨 2의 바리안트가 레벨 1로, [12][13]그 반대의 바리안트가 레벨 1로 이동했습니다.예를 들어, 첫 번째 표준(θ)의 (레벨 1의) 행 36 셀 59를 (레벨 2의) 행 52 셀 68로 이동시키고, 원래 52 셀 68(θ)의 점을 차례로 36 셀 59로 이동시켰다.
레벨 2의 한자에 추가
레벨 1에서 3자, 레벨 2에서 1자씩 84행의 미할당 코드 포인트에 레벨 2의 한자로 새로운 코드 포인트를 부여했다.각각의 코드 포인트의 이타이지가 새롭게 원래의 [14]장소에 할당되었다.예를 들어 제2표준(θ)의 84셀 1열을 이동시켜 제1표준에 포함되지 않은 다른 형태를 레벨 1 한자(θ)로 한다.
문자 형태 수정
약 300자의 한자가 [15]수정되었다.

이 300여 개의 한자 형태의 변화 중 강희사전 형식의 1급 문자는 변형, 특히 료쿠지, 신장 신지타이 등의 간체 형태로 바뀌었다.예를 들어, 크게 변경되어 종종 비판의 대상이 되는 코드 포인트 몇 개는 18행 셀 10(78J)입니다.,, 83JIS: )) 및 열 38 셀 34(78J),, 83JIS: 。

예를 들어 25행 셀 84())가 뇌졸중의 일부를 잃는 등 Kangxi 스타일의 변형과는 다른 많은 작은 변화가 있었다.또한 레벨 1의 한자에 대한 일부 문양이 강시형 형태가 아닌 경우, 예를 들어 80행 셀 49(θ)가 뇌졸중의 일부(즉, 25-84가 잃어버린 뇌졸중의 일부)를 획득하는 등 강시형 형태로 변경된 것도 있었다.

1차 기준의 본래 취지를 밝히기 위해 4차 기준의 통일 기준에 대한 매개변수에 들어갔다.상기 사례의 형식차이('"'와 '"')는 통일기준 42(성분 '"'[s]에 관한)에 해당한다.

문자 형태 변경의 대부분은 레벨 1과 레벨 2의 한자의 차이입니다.구체적으로는 레벨 2의 한자보다 레벨 1의 한자(를 들어 「 kan」에서 「"」, 「"」에서 「"」)의 간략화는 일반적으로 레벨 2의 한자(「 as」에서 「"」)에는 적용되지 않았다.앞서 말한 25-84())와 80-49())도 마찬가지로 전자가 레벨 1이고 후자가 레벨 2이기 때문에 다르게 처리되었다.다만, 레벨 1과 레벨 2의 한자 처리 없이, 「」과「겨울」을 포함한 문자를 변경하는 등 레벨에 관계없이 약간의 변화가 있었다.

단, 29개의 코드 포인트(상기 18-10 및 38-34)의 경우, 제4의 표준이 계승한 양식은 제1의 의도와 모순된다.이러한 코드 포인트에서 이전 표준과의 호환성을 유지하기 위한 특별한 통일 기준이 있습니다.

일본 산업 규격(정보 관련 분야)의 새로운 「X」카테고리가 도입되었을 때, 1987년 3월 1일에 제2의 규격이 JIS[12] X 0208-1983으로 개정되었다.

제3의 기준

제3차 표준 JIS X 0208-1990 "정보 교환을 위한 일본어 그래픽 문자 집합 코드"는 1990년 9월 1일 제2차 표준을 개정하였다.90J라고도 불린다.줄여서 IS.일본표준협회 JIS X 0208 개정위원회는 AIST의 위탁을 받아 초안을 작성했다.위원장은 타지마 카즈오였다.

225개의 한자가 변경되어 레벨 2에 2글자가 추가되었다(84-05 「1」, 84-06 「1」).이것은 이미 포함된 두 글자(49-59 '"'과 63-70 '"')에 대한 이타이지의 통일이었다.1990년 [12]3월에 추가된 118진메이요(金明 kan) 한자에 대응하는 변경과 2개의 추가.기준 자체는 헤이세이 민초에서 정해졌다.

제4표준

제4차 표준 JIS X 0208:1997 "정보교환용 7비트 및 8비트 더블바이트 코드 한자 집합" (7비트, 8비트 코드화 2비트, Nana-Bitto Oyobi Hachi-Bitto, Ni-Baito Fughojokan')97이라고도 불린다.줄여서 JIS.코드화된 문자 집합의 연구 및 연구를 위한 JSA 위원회가 AIST의 위탁을 받아 초안을 작성했다.위원장은 시바노 코지였다.

이 개정의 기본방침은 문자 집합을 변경하지 않고, 애매한 조항을 명확히 하고, 표준을 비교적 사용하기 쉽게 하는 것이었다.추가, 제거 및 코드 포인트 재배열은 이루어지지 않았으며, 예외 없이 예제 글리프도 변경되지 않았습니다.그러나 표준의 규정은 완전히 다시 작성 및/또는 보완되었다.세 번째 기준은 설명이 없는 65페이지인 반면, 네 번째 기준은 설명이 없는 374페이지였다.

개정의 요점은 다음과 같습니다.

인코딩 방식의 정의
세 번째 표준까지는 JIS X 0202 코드 확장을 기반으로 한 부호화 방식만 정의되어 있었습니다.코드화된 문자 집합의 경우 이는 이례적인 것입니다.네 번째 표준에서는 코드 확장을 목적으로 이스케이프 시퀀스를 사용하지 않는 부호화 방식을 정의했다.
할당되지 않은 코드 포인트의 일반적인 사용 금지 및 할당되지 않은 코드 포인트의 사용 방법에 대한 정의
세 번째 규격은 규격에 포함되지 않은 설명으로 미지정 코드 포인트에 대해 가이지를 할당할 수 있는 장소가 있는 것처럼 기술하고 있다.네 번째 기준에서는 할당되지 않은 코드 포인트의 사용이 일반적으로 금지되어 있음을 명확히 했다.또한 할당되지 않은 코드 포인트의 사용 조건도 지정되었습니다.
중복 부호화의 일반적인 배제
각 문자에는 다른 표준의 문자 이름과 매핑되는 "문자 이름"이 지정되었습니다.또한 ISO/IEC 646의 International Reference Version 또는 JIS X 0201과 함께 사용하는 부호화 방법도 규정되어 있다.JIS X 0208을 같은 이름의 문자에 할당된2개의 코드 포인트 중 하나와 병용하면 1개만 허용되므로 일반적으로 중복 부호화가 배제됩니다.
한자의 출처에 관한 조사
지금까지 강희사전이나 대간와지전에는 없는 표준문자는 식별되었다.따라서 제1차 표준편찬에서 이들 한자가 정확히 어떤 목적으로 어떤 출처에서 나왔는지 조사했다.
한자 통일 기준의 정의
제1 규격의 기초 자료 등을 바탕으로 각 코드 포인트가 나타내는 문자의 범위에 대한 제1 규격의 취지를 복원하려고 했다.또, 한자 문자의 통일 기준도 명확하게 정의되어 있다.
사실상의 표준 포함
제4 규격에 이르러서는, 각각 Shift JIS와 ISO-2022-JP의 부호화 방법이, 퍼스널 컴퓨팅과 E-메일의 사실상의 표준이 되었다.이러한 부호화 방식에는, 「Shift-Coded Representation(시프트 부호화 표현)」및 「RFC 1468-Coded Representation(RFC 1468 부호화 표현)」(상기 설명)이 포함되어 있습니다.

후계자

JIS X 0213(확장 한자)은 JIS X 0208이 처음부터 [16]의도한 근대 일본어의 부호화에 충분한 문자 집합을 제공하는 것을 목적으로 설계되었으며, JIS X 0208의 한자 집합을 확대하는 문자 집합을 정의하였다.JIS X 0213의 제도자는 JIS X 0208에서 JIS X 0213으로의 이행을 권장하고 있으며, JIS X 0213은 효가이 한자 목록 및 새로운 진메이요 한자와 호환성이 있다는 장점이 있다.

제도자의 예상과는 달리, JIS X 0213의 도입은 2000년에 제정된 이래 결코 빠르지 않다.JIS X 0213:2004의 기초위원회는 (2004년) 「정보 시스템의 대부분이 공통으로 이용할 수 있는 것은 JIS X 02208 뿐」이라고 기술하고 있다(JIS X 0213:2000, 부록 1:2004, 섹션 2.9.7).

퍼스널 컴퓨팅 부문의 주요 운영체제(및 데스크톱 환경 제공)인 Microsoft Windows의 경우 JIS X 0213 레퍼토리는 2006년 11월에 출시된 Windows Vista 이후 포함되어 있습니다.Mac OS X는 버전 10.1(2001년 출시)부터 JIS X 0213과 호환성이 있습니다.Linux 의 많은 Unix-like는 필요에 따라 JIS X 0213을 (옵션으로) 지원할 수 있습니다.따라서, JIS X 0213의 PC 서포트는, 장래의 도입에 있어서 장해가 되지 않는다고 생각된다.

JIS X 0213의 제도자 중에는 JIS X 0213의 도입 전에 JIS X 0208과 JIS X 0213의 혼재를 기대하는 사람도 있다(Sato, 2004).다만, JIS X 0208은 현재도 계속 사용되고 있어, 표준으로서 계속 사용할 수 있을 것이라는 전망이 많다.JIS X 0213이 JIS X 0208을 대체하려면 다음과 같은 장벽을 극복해야 합니다.

  • 현재[when?] 일본 휴대폰에서 사용되고 있는 캐릭터 레퍼토리는 JIS X 0208에 근거하고 있다.JIS X 0213과의 호환성에 대한 공식적인 이행 계획은 없습니다.현재 휴대전화는 일본어 텍스트 통신의 보급 양상(일본의 휴대전화 문화 참조)이며, 전자 메일의 송신이나 월드 와이드 웹에의 액세스에 널리 이용되고 있는 미디어이기 때문에, 휴대 전화의 채택의 부족은 다른 장소에서의 사용을 억제하고 있습니다.
  • JIS X 0213은 통일기준에 관해서는 JIS X 0208과 엄밀하게 상위 호환성이 없습니다(아래 참조).JIS X 0208을 사용하여 통일 기준을 엄격히 준수하는 대규모 아카이브(예: 서지 데이터베이스아오조라 분코)에서는 모든 데이터를 JIS X 0213으로 변환하여 동일한 텍스트 무결성 기준을 유지하는 것은 매우 어렵다고 생각된다.
  • 실제로 많은 시스템이 JIS X 0208에서 할당되지 않은 코드 포인트를 정의하고 사용합니다.예를 들어, Windows 는 IBM 및 NEC 확장 문자와 사용자 정의 문자 영역을 할당하고(Windows-932 참조), 휴대 전화는 이러한 장소에 이모티콘을 할당합니다.이러한 Gaiji의 코드 포인트는 JIS X 0213의 코드 포인트와 모순되기 때문에 JIS X 0208에서 JIS X 0213으로 이행하는 데 어려움이 있습니다.또한 UCS/Unicode로 이행하여 JIS X 0213 레퍼토리를 사용할 계획도 있지만 시스템 관리자가 UCS/Unicode의 대리 쌍과 문자 구성이 충분히 안정적이라고 판단할 때까지는 이러한 구현을 필요로 하는 JIS X 0213 레퍼토리의 사용을 주저할 가능성이 있습니다.천장
  • JIS X 0213의 개량점은 JIS X 0208에 있는 문자만큼 자주 사용되지 않는 문자의 영역입니다.이러한 추가 문자의 사용을 줄이기 위해 구현해야 하는 문자의 수가 거의 두 배이기 때문에, 많은 경우, 특히 자원이 제한된 경우에는 낮은 투자 수익률이 될 수 있습니다.

실장

JIS X 0208/JIS C 6226은 주로 문자 집합이며 엄밀하게 정의된 문자 인코딩이 아니기 때문에 여러 회사가 문자 집합의 자체 인코딩을 구현하고 있습니다.

이들 중 일부는 표준의 할당되지 않은 영역 대신 벤더 고유의 특성 할당을 포함합니다.여기에는 Windows-932 및 MacJapanese NEC의 PC98 문자 인코딩이 포함됩니다.IBM-932 및 IBM-942에는 벤더 할당도 포함되어 있지만 JIS X 0208에 사용되는 지역 이외의 할당도 포함되어 있습니다.

기타 표준과의 관계

ISO/IEC 646 IRV 및 ASCII

전술한 바와 같이 한자 세트는 ISO/IEC 646:1991 IRV(ASCII) 그래픽 문자 세트와 상위 호환성이 없습니다.한자 세트와 IRV 그래픽 문자 세트는 JIS X 0208(한자는 IRV + 7비트 코드, 한자는 IRV + 8비트 코드)에 따라 함께 사용할 수 있습니다.EUC-JP에서도 함께 사용할 수 있습니다.

JIS X 0201

JIS X 0201의 라틴어 그래픽 문자 세트에 포함된 한자 세트에는 2/2(quotation MARK), 2/7(APOSTROPHE), 2/13(HYPHEN-MINUS)의 3자가 포함되어 있지 않습니다.한자 세트에는 JIS X 0201의 가타카나 그래픽 문자 세트에 포함된 모든 문자가 포함되어 있습니다.

JIS X 0208(한자는 7비트 코드, 한자는 8비트 코드)에서 규정하는 대로, 라틴 문자 세트와 라틴 문자 세트를 병용할 수 있습니다.한자 세트, 라틴 문자용 그래픽 문자 세트, 가타카나용 JIS X 0201의 그래픽 문자 세트를 함께 사용할 수 있습니다.시프트 JIS).EUC-JP에서는, 가타카나의 한자 세트와 그래픽 문자 세트를 병용할 수 있습니다.

JIS X 0212

JIS X 0212(보조한자)는 JIS X 0208에 없는 문자를 필요로 하는 정보처리를 위해 코드 포인트로 추가 문자를 정의한다.주 JIS X 0208 한자 집합 내에서 문자를 할당하는 것이 아니라 보조 문자를 포함하는 두 번째 94x94 한자 집합을 정의합니다.

JIS X 0212는 EUC-JP의 JIS X 0208과 함께 사용할 수 있습니다.또한 JIS X 0208 및 JIS X 0212는 모두 UCS/Unicode의 한 통합 소스 표준입니다.즉, 두 세트의 한자를 하나의 Unicode 형식의 문서에 포함할 수 있습니다.

JIS X 0208의 제2버전이 변경된 코드 포인트 중 JIS X 0212의 코드 포인트 28개는 변경 [17]전의 문자 형태를 반영하고 있다.또, JIS X 0212는, JIS X 0208이 비한자(,, 1행 셀 26)로서 할당한 「닫힘 마크」를 한자(,, 16행 셀 17)로서 재할당한다.JIS X 0212는 이것들 외에 JIS X 0208과 공통되는 문자가 없습니다.따라서 그 자체로는 일반적인 용도로는 적합하지 않습니다.

다만, JIS X 0208의 제4 버전에서는, JIS X 0212 에의 접속은 전혀 정의되어 있지 않습니다.이는 JIS X 0212의 [18]선정 및 식별방법에 대해 제4차 JIS X 0208 규격의 기초위원회가 비판적 의견을 가지고 있었기 때문으로 생각된다.글자의 의미와 선택 이유가 제대로 기록되지 않아 원하는 한자가 [19]레퍼토리에 해당하는지 확인하기 어려웠다.JIS X 0212의 문자선택에 관한 문제점과 함께 JIS X 0212의 문자선택에 관한 문제점을 지적하고 있다(3.3.1절). "문자선택이 불가능할 뿐만 아니라 동시에 사용하는 것도 불가능하다고 생각되며, JIS X 0212와의 접속은 전혀 정의되어 있지 않다."

JIS X 0213

JIS X 0208, JIS X 0212, JIS X 0213, Windows-31J, 마이크로소프트 표준 레퍼토리 및 유니코드 레퍼토리를 비교하는 오일러 다이어그램.

JIS X 0213(확장한자)은 JIS X 0208의 한자를 확대하는 한자를 정의한다.이 규격에 의하면,[16] 「JIS X 0208이 처음부터 의도한 근대 일본어의 부호화를 위해서 충분한 문자 세트를 제공하는 것을 목적으로 하고 있다」라고 되어 있다.

JIS X 0213의 한자 집합에는 JIS X 0208의 한자 집합으로 표현 가능한 모든 문자가 추가되어 있습니다.JIS X 0213은, 합계 1183자의 비한자와 10,050자의 한자(합계 11,233자)를 94×94의 2개의 평면(,, men)에 정의하고 있다.첫 번째 평면(비한자 및 레벨 1~3 한자)은 JIS X 0208을 기반으로 하며 두 번째 평면(레벨 4 한자)은 JIS X 0212의 할당되지 않은 행에 들어가도록 설계되어 EUC-JP에서 [20]사용할 수 있습니다.JIS X 0213도 Shift_J를 정의합니다.ISX0213, Shift_J의 변형JIS X 0213 전체를 부호화할 수 있습니다.

대부분의 경우 JIS X 0213 평면 1은 JIS X 0208의 슈퍼셋입니다.단, JIS X 0213의 일부 코드 포인트에는 JIS X 0208과 비교하여 다른 통일 기준이 적용됩니다.이것에 의해, JIS X 0213에서는, 1개의 JIS X 0208 코드 포인트로 표현된 일부의 한자 문자는, 통일되어 별도 코드 포인트를 부여된다.예를 들어 JIS X 0208의 33행 셀 46의 글리프우측 성분으로 인해 몇 가지 변종을 통합한다.JIS X 0213은 평면 1열 33셀 46에 2종류(성분 'θ'를 포함한 것)를 일체화하고 평면 1열 14셀 41에 다른 형태(성분 'θ'를 포함한 것)를 배치한다.따라서 JIS X 0208열 33셀 46을 JIS X 0213면 1열 33셀 46에 매핑해야 하는지, 아니면 평면 1열 14셀 41에 매핑해야 하는지를 자동으로 [t]판단할 수 없다.이는 JIS X 0213이 JIS X 0213 기초위원회에서 인정한 바와 [21]같이 JIS X 0208과 상위 호환성이 있다고 간주할 수 있는 범위를 제한한다.

그러나 JIS X 0208의 행m셀 n은 대부분 JIS X 0213의 평면 1행m셀 n에 대응하므로 실제로는 큰 혼동이 발생하지 않는다.JIS X 0208에 예시된 글자를 사용하게 된 서체가 대부분이며, 대부분의 사용자들은 통일 기준을 의식하지 못하고 있기 때문이다.

ISO/IEC 10646 및 Unicode

JIS X 0208의 한자 세트는 ISO/IEC 10646(UCS) Unicode의 한 통일 원본 표준 중 하나입니다.JIS X 0208의 각 한자는 UCS/Unicode의 Basic Multilinguage Plane(BMP; 기본 다국어 플레인)의 자체 코드 포인트에 대응합니다.

JIS X 0208의 비한자는 BMP의 자체 코드 포인트에도 대응하고 있습니다만, 일부의 특수 문자의 경우, UCS/Unicode(JIS X 0208:1997)의 코드 포인트와는 다른 대응이 실장되어 있습니다.

각주

설명

  1. ^ a b c d (그림 포함)
  2. ^ JIS 및 Apple:U+2014.
    Unicode,[a] Microsoft 및 WHATWG: U+2015.
  3. ^ Microsoft 및 WHATWG: U+FF5E
    Unicode,[a] JIS 및 Apple:U+301C
  4. ^ Microsoft 및 WHATWG: U+2225.
    Unicode,[a] JIS 및 Apple:U+2016.
  5. ^ Microsoft:U+FF0D
    Unicode,[a] JIS 및 Apple:U+2212.
    WHATWG: 디코딩 시 U+FF0D(양쪽 모두 예외)
  6. ^ a b c d JIS X 0213에 추가
  7. ^ 헤이세이 시대 이전의 연장의 원판에는 없습니다.NEC 또는 Microsoft가 [5]선택한 코드 위치입니다.Macintosh PostScript에는 없습니다.
  8. ^ a b c d e f g h i 1983년 2행 추가에 의해 중복되었다.JIS X 0213에서는 [5]여기서 부호화되지 않고 (할당되지 않은 채로) Microsoft 및 WHATWG에 의해 여기서 중복 부호화됩니다.Macintosh PostScript 인코딩에 대해서는, 프라이빗 유스 U+F87F 가 MacOS 라이브러리 함수로 디코딩된 폼에 부가되어 라운드 트립이 가능하게 됩니다.
  9. ^ 이스케이프 시퀀스와 함께 사용되는 코드 문자 집합의 국제 등록부에 등록된 코드 표에 나타나 있듯이, 제4차 표준(1997년) 이전에는 ku())와 10())을 영어로 각각 "섹션"과 "위치"라고 불렀다.영어의 변화 배경에 대해서는 ISO/IEC 10646-1:1993을 번역한 JIS X 0221-1995(UCS) 규격에서는 gun(),), men(),), ku(),), ten( ()으로 번역할 수 있다.단, JIS X 0208의 행과 셀과 UCS의 행과 셀은 다른 생각입니다.
  10. ^ 문자명은 로마자로 표기되어 있고 국제적으로 사용되고 있기 때문에, 어느 정도 생물체의 학명처럼 국제 협약으로 간주할 수 있다.이 비유에 있어서, 일본인의 통칭은 유기체의 통칭과 같습니다.
  11. ^ 완전한 기능의 가나 오더 검색 또는 정렬의 경우 단어 읽기, 반복 마크 등을 고려해야 합니다.일본어 문자열의 정렬은 JIS X 4061에 규정되어 있다.
  12. ^ 야스오카(2001a)에 의하면, 몇개의 실수가 있었던 것 같다.예를 들면, 인바( (, 58-57)구마모토 시수( 61, 61-89)는 레벨 1에 속하지 않는다고 한다.
  13. ^ List: 丼󠄀傲󠄀刹󠄀哺󠄀喩󠄀嗅󠄀嘲󠄁毀󠄀彙󠄀恣󠄀惧󠄀慄󠄀憬󠄀拉󠄀摯󠄁曖󠄀楷󠄀鬱󠄀璧󠄀瘍󠄀箋󠄀籠󠄀緻󠄀羞󠄀訃󠄀諧󠄀貪󠄀踪󠄀辣󠄀錮
  14. ^ 조요 한자는 공식 변형 형식인 叱에만 포함되어 있습니다.
  15. ^ 목록:乘󠄀亞󠄀佛󠄀侑󠄀來󠄀俐󠄀傳󠄀僞󠄀價󠄀儉󠄀兒󠄀凉󠄀凛󠄀凰󠄀剩󠄀劍󠄀勁󠄀勳󠄀卷󠄀單󠄀嚴󠄀圈󠄀國󠄀圓󠄀團󠄀壞󠄀壘󠄀壯󠄀壽󠄀奎󠄀奧󠄀奬󠄀孃󠄀實󠄀寢󠄀將󠄀專󠄀峽󠄀崚󠄀巖󠄀巫󠄀已󠄀帶󠄀廣󠄀廳󠄀彈󠄀彌󠄀彗󠄀從󠄀徠󠄀恆󠄀惡󠄀惠󠄀惺󠄀愼󠄀應󠄀懷󠄀戰󠄀戲󠄀拔󠄁拜󠄀拂󠄀搜󠄀搖󠄀攝󠄀收󠄀敍󠄀昊󠄀昴󠄀晏󠄀晄󠄀晝󠄀晨󠄀晟󠄀暉󠄀曉󠄀檜󠄀栞󠄀條󠄀梛󠄀椰󠄀榮󠄀樂󠄀樣󠄀橙󠄀檢󠄀櫂󠄀櫻󠄀盜󠄀毬󠄀氣󠄀洸󠄀洵󠄀淨󠄀渾󠄀滉󠄀漱󠄀滯󠄀澁󠄀澪󠄀濕󠄀煌󠄀燒󠄀燎󠄀燿󠄀爭󠄀爲󠄀狹󠄀默󠄀獸󠄀珈󠄀珀󠄀琥󠄀瑶󠄀疊󠄀皓󠄀盡󠄀眞󠄁眸󠄀碎󠄀祕󠄀祿󠄀禪󠄀禮󠄀稟󠄀稻󠄀穗󠄀穰󠄀穹󠄀笙󠄀粹󠄀絆󠄀綺󠄀綸󠄀縣󠄀縱󠄀纖󠄀羚󠄀翔󠄀飜󠄀聽󠄀脩󠄀臟󠄀與󠄀苺󠄀茉󠄀莊󠄀莉󠄀菫󠄀萠󠄀萬󠄀蕾󠄀藏󠄀藝󠄀藥󠄀衞󠄀裝󠄀覽󠄀詢󠄀諄󠄀謠󠄀讓󠄀賣󠄀赳󠄀轉󠄀迪󠄀逞󠄀醉󠄀釀󠄀釉󠄀鎭󠄀鑄󠄀陷󠄀險󠄀雜󠄀靜󠄀頌󠄀顯󠄀颯󠄀騷󠄀驍󠄀驗󠄀髮󠄀鷄󠄀麒󠄀黎󠄀齊󠄀堯󠄀槇󠄀遙󠄀凜󠄀熙
  16. ^ List: 焰󠄀鷗󠄀俠󠄀繫󠄀繡󠄀渚󠄀蔣󠄀醬󠄀蟬󠄀琢󠄀簞󠄀摑󠄀顚󠄀禱󠄀萊󠄀蠟󠄀增󠄀德󠄀橫󠄀瀨󠄀猪󠄀神󠄀祥󠄀福󠄁綠󠄀緖󠄀薰󠄀諸󠄀賴󠄀郞󠄀都󠄀黑󠄀逸󠄁謁󠄀緣󠄀黃󠄀溫󠄀禍󠄀悔󠄀海󠄀渴󠄀漢󠄁器󠄁祈󠄀虛󠄀響󠄁勤󠄁謹󠄀揭󠄀擊󠄀穀󠄀祉󠄁視󠄁煮󠄀社󠄁者󠄁臭󠄁祝󠄀暑󠄁署󠄀涉󠄀狀󠄀節󠄁祖󠄁僧󠄁層󠄁巢󠄀憎󠄀贈󠄁卽󠄀嘆󠄀著󠄁徵󠄀禎󠄁突󠄁難󠄀梅󠄀繁󠄁晚󠄀卑󠄀碑󠄀賓󠄀敏󠄀侮󠄁勉󠄀步󠄀墨󠄀每󠄀祐󠄀欄󠄀虜󠄀淚󠄀類󠄀曆󠄀歷󠄀練󠄀鍊󠄀錄󠄀俱󠄀瘦󠄀吞󠄀寬󠄀廊󠄁朗󠄀懲
  17. ^ 19행 셀 30, 31의 경우 대표 판독치에 대해 순서가 뒤섞여 있다.따라서 올바른 순서는 가오루(,,)이어 가오루(oma,)가 될 경우 가오리가오루보다 우선하도록 위치가 바뀐다.
  18. ^ 또한 주로 사용되는 변종(θ)은 레벨 1의 23셀 85열에 있으며, 다른 변종(θ)은 레벨 2의 78셀 63열에 "골드" 래디칼을 가진 것으로 그룹화되어 있다.
  19. ^ 통일 기준 내에서 어떤 문양을 사용할지는 활자 설계자에게 맡겨야 한다.이러한 상황(및 최종 사용자의 상황)에 따라서는 둘 다, 둘 다, 둘 다 Kangxi 스타일의 형식을 따르지 않을 수 있습니다.
  20. ^ 이는 ISO/IEC 646의 "HYPHEN-MINUS"를 JIS X 0208의 "HYPHEN" 또는 "MINUS SIGN"에 매핑해야 하는 것과 같은 불확실성이다.

참조각주

  1. ^ "Why Japan didn't create the iPod". Gatunka. 5 May 2008.
  2. ^ JIS X 0208은 2007년 1월 17일 경제산업성이 발표한 새로운 JIS 마크 표시 대상 시스템 목록에 포함되지 않은 규격 중 하나이다.
  3. ^ a b c Steele, Shawn (15 April 1998). "CP932.TXT: cp932 to Unicode table". Microsoft. (Shift_J의 코드)IS 형식; SJIS 0x815C = 1-29 = JIS 0x213D, SJIS 0x817C = 1-61 = JIS 0x215D)
  4. ^ a b "Map (external version) from Mac OS Japanese encoding to Unicode 2.1 and later". Apple. (Shift_J의 코드)IS 형식; SJIS 0x815C = 1-29 = JIS 0x213D, SJIS 0x817C = 1-61 = JIS 0x215D)
  5. ^ a b c d Lunde, Ken (21 March 2019). "A Brief History of Japan's Era Name Ligatures". CJK Type Blog. Adobe Inc.
  6. ^ a b c Japanese Industrial Standard Committee. ISO-IR-233: Japanese Graphic Character Set for Information Interchange, Plane 1 (Update of ISO-IR 228) (PDF). ITSCJ/IPSJ.
  7. ^ Unicode, Inc. (14 October 2011). "JIS X 0208 (1990) to Unicode".
  8. ^ van Kesteren, Anne, "Index jis0208", Encoding Standard, WHATWG
  9. ^ a b Jungshik Shin (14 October 2011). "KSX1001.TXT: KS X 1001 to Unicode table". Unicode, Inc.
  10. ^ JIS C6225-1979(정보교환용 일본어 도형 문자 집합을 위한 제어 문자 코드)는 구성의 시작과 끝을 위한 제어 문자를 제공한다.JIS C 6225는 1987년에 JIS X 0207로 재분류되어 1997년에 철수되었다.
  11. ^ IANA 문자 집합에서 Shift JIS는 JIS X 0208:1997 부록 1을 참조하여 정의됩니다.
  12. ^ a b c d "15. History of JIS X 0208" (PDF), IBM Japanese Graphic Character Set for Extended UNIX Code (EUC), IBM, p. 371, archived (PDF) from the original on 8 December 2017, retrieved 8 December 2017
  13. ^ Lunde, Ken. "Appendix Q § 78-vs-83-3". CJKV Information Processing (supplementary material). O'Reilly. 하이픈이 생략된 kuten 코드 포함에 주의합니다.
  14. ^ Lunde, Ken. "Appendix Q § 78-vs-83-2". CJKV Information Processing (supplementary material). O'Reilly. 하이픈이 생략된 kuten 코드 포함에 주의합니다.
  15. ^ 노무라(1984년)에 의하면, 코드 포인트간의 이동을 포함한 문자 형식의 변경수는 294개이다.시바노(1997a)와 제4규격 본문에 따르면 변경된 글자 수는 300개이다.
  16. ^ a b 오리지널 일본어 : 'JIS X 0208'
  17. ^ Lunde, Ken. "Appendix Q § TJ2". CJKV Information Processing (supplementary material). O'Reilly. 하이픈이 생략된 kuten 코드 포함에 주의합니다.
  18. ^ 예를 들면, 제4 규격의 기초 위원회 의장을 맡은 시바노 코지(1997a)는 선정 방법에 대해, 「JIS X 0208의 문자 집합 선정에 대한 피상적인 이해에 근거하고 있습니다.오해입니다」(원래 일본어: 「JIS X 0208」).a big problem in investigating all of a character set that exceeds 10000 characters." (original Japanese: 「1万字を越える水準の文字集合の検討としては、大きな問題がある」)
  19. ^ Marukawa, Kazushi. "JIS Character Sets – JIS X 0212:1990". Archived from the original on 22 May 2005.
  20. ^ Chang, Hyeshik (31 October 2021). "Readme for CJKCodecs". cPython. Python Software Foundation.
  21. ^ JIS X 0213:2000 섹션 5.3.2, JIS X 0213:2000 부록 1:2004 섹션 3.2.2

「 」를 참조해 주세요.

  • JIS 부호화 문자 집합
    • JIS X 0201 "정보 교환을 위한 7비트 및 8비트 코드 문자 집합"
    • JIS X 0202 "정보 기술 – 문자 코드 구조와 확장 기술" (ISO/IEC 2022)
    • JIS X 0208 "정보교환용 7비트 및 8비트 더블바이트 코드 한자 세트"
    • JIS X 0211 "코드화된 문자 집합에 대한 제어 기능"(ISO/IEC 6429)
    • JIS X 0212 "정보교환용 일본어 그래픽 추가 세트 코드"
    • JIS X 0213 "정보교환용 7비트 및 8비트 더블바이트 코드 확장 한자 세트"
    • JIS X 0221 "UCS(Universal Multiple-Octet Coded Character Set)" (ISO/IEC 10646)
  • 연장 신지타이
  • 도움말: 일본어

레퍼런스

인용의 목적으로 로마자 표기에서는 서양의 순서로 표기되어 있고, 로마자 표기에서는 동양의 질서를 유지하고 있는 것처럼 표기되지 않은 경우에는 동양의 질서를 유지하고 있다.

  • 니시무라 히로히코 1978년한자 JIS표준화 저널, 171: 3~8.
  • 노무라 마사아키, 1984.Revision of JIS C 6226: Kanji codes for information interchange [JIS C 6226 情報交換用漢字符号系の改正].표준화 저널, 14(3): 4~9.
  • 오가타, 가쓰히로, 2006a.permanent dead link][97년 통일되지 않은 것JIS C6226-1983(83J)에서 변경된 문자 중 JISIS) [JIS C6226-1983 (83J)IS) 97년JIS (2007년 1월 29일 액세스)[permanent dead link]
  • 오가타, 카츠히로, 2006b.[영구적인 데드링크] JIS C6226-1983에서 변경된 문자 중 통일 범위에 해당하는 [(83J)IS) [JIS C6226-1983 (83J)IS) (2007년 1월 29일 액세스)[permanent dead link]
  • 사토, 타카유키, 2004.JIS X 0213(정보교환용 7비트 및 8비트 더블바이트 부호화 확장한자 세트)의 개정에 대해 [JIS X 0213 (7비트 8비트 확장한자 세트)]표준화 저널 [標準ジャー,,,], 34(4): 8~12.
  • 시바노, 코지, 1997a.JIS X 0208(정보교환용 7비트 및 8비트 더블바이트 부호화 한자 세트)의 개정에 대해 [JIS X0208 (7비트, 8비트 부호화 한자 세트)]표준화 저널 [標準ジャー,,], 27(3): 8~12.
  • 시바노, 코지, 1997b.JIS 한자 확장 계획 [J]IS★★★★★★★★★★★★★★★★★★★」표준화 저널 [標準ジャー,,], 27 (7) : 5 ~ 11 。
  • 시바노, 코지, 2000년.JIS X 0213(정보교환용 7비트 및 8비트 더블바이트 부호화 확장 한자 세트)의 확립 [JIS X 0213 (7비트 8비트 확장 한자 세트)]표준화 저널 [標準ャャー,,], 30 (3) : 3 ~7 。
  • 시바노, 코지, 2001.JIS 한자에 대해서표준화 품질관리 [標準と品 standard ], 54 (8) : 44 ~50 。
  • 시바노, 코지 [芝野司](편집자), 2002.JIS 한자 사전 증보 개정판도쿄:일본표준협회(ISBN 4-542-20129-5)
  • 시바노, 코지, 2002.한자·일본어 처리 기술의 발전:한자 코드의 표준화.IPSJ 매거진 [ [情報], 43(12) : 1362 ~1367
  • 1979년 카즈오 다지마JIS 한자 표기의 사용에 관한 문제: 한자 처리 시스템의 한자 설계 및 취급 [J]IS ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★」일본정보처리학회지[日本ationing,,], 21(10): 753~761.
  • 우치다, 토미오, 1990년.JIS X 0212(정보교환용 한자코드 - 보충한자)의 확립 [JIS X 0212 (JIS X 0212 (JIS X 0212)]표준화 저널 [標準ジャー,,,], 20 (11): 6 ~11.
  • 야스오카, 코이치, 2001a.일본의 최신 문자 코드 상황(이전 부분)시스템, 제어정보 [ ], 45 (9) : 528 ~535
  • 야스오카, 코이치, 2001b.일본의 최신 문자 코드 상황(라터 부분)시스템, 제어정보 [ ], 45(12) : 687 ~694
  • 야스오카 코이치, 2006년,JIS 한자 플랜(1976년)과 JIS C6226-1978년의 차이점」제17회JIS C6226-1978년에서.3–51.
  • 야스오카, 코이치, 야스오카 모토코, 2006.문자 코드의 역사: 유럽, 미국, 일본.도쿄: 교리쓰슈판(ISBN 4-32012102-3).

외부 링크