JIS X 0201

JIS X 0201
JIS X 0201
JIS-C-6220.svg
JIS X 0201 8비트코드 페이지
MIME / IANA8비트:JIS_X0201
7비트 로마자:JIS_C6220-1969-ro
7비트 가나:JIS_C6220-1969-jp
에일리어스JIS C 6220
8비트: csHalfWidthKatakana
로마자: ISO646-JP, iso-ir-14
가나: iso-ir-13, x0201-7
언어일본어(기본 지원), 영어
표준.JIS X 0201:1969
분류ISO 646, 확장 ISO 646
선행와분 코드, JIS C 0803
에 의해 성공자시프트 JIS
기타 관련 부호화N바이트 한글 코드

1969년에 개발된 일본 공업 규격 JIS X 0201(당시 JIS 카테고리 개혁까지 JIS C 6220)은 일본 최초의 전자 문자 세트이다.이것은 7비트 부호화 또는 8비트 부호화 중 하나이지만, 8비트 형식이 현대에서는 우세합니다(또는 Unicode(UTF-8 등)까지).이 표준의 풀네임은 정보교환용7비트 8비트 코드 문자 세트입니다(7비트 코드 8비트).

첫 번째 96개의 코드는 ISO 646의 변종으로 구성되어 있으며, 대부분 ASCII에 따라 약간의 차이가 있으며, 두 번째 96개의 문자 코드는 일본어 가타카나 표기를 나타낸다.부호화는 히라가나 한자를 표현할 수 없기 때문에 간결한 일본어만을 표현할 수 있습니다.그럼에도 불구하고, 적어도 음성학적으로 언어의 모든 범위의 소리를 표현할 수 있다.1970년대에는 텍스트 모드 컴퓨터 단말기, 전보, 영수증 또는 기타 전자적으로 취급되는 데이터와 같은 매체에 대해 허용되었다.

JIS X 0201은 Shift JIS(이 표준과 JIS X 0208) 및 이후 Unicode와 같은 후속 인코딩으로 대체되었습니다.

역사

Comite Consultatif International Telephonique et Telegraphique(CCITT)는 국제 표준으로서 국제 전신 알파벳 번호 2(ITA2) 코드를 도입했습니다.이것은 5비트 라틴 부호화입니다.대부분의 국가는 이를 기반으로 한 자체 국가 표준을 가지고 있다.일본 산업과학기술원(AIST)은 가타카나 문자와 결합된 JIS C 0803-1961의 6비트 문자 코드(텔레프린터용 키보드 레이아웃코드)로 표준화했다.그러나 문자표가 작고 코드 레이아웃이 실용적이지 않았기 때문에 업계의 요구 사항을 충족하지 못했습니다.AIST는 일본에서 [1]사용되는 다양한 코드를 대체할 실용적인 문자 인코딩을 검토했다.

1963년 ISO는 ISO R 646(정보처리 교환을 위한 6비트7비트 부호화 문자 세트)의 초안을 도입했습니다.AIST는 일본 정보처리학회(IPSJ)에 ISO R646과 가타카나 매핑의 결합을 약속했다.IPSJ는 코드 표준화 위원회를 구성했다.위원회는 6비트 형식의 ISO 초안을 채택하지 않았다. 왜냐하면 가타카나 세트가 문자표에 들어가지 않았기 때문이다.JIS의 초기 초안에서는 각각의 일반 가타카나 문자 옆에 작은 가타카나를 매핑했습니다.고주온 순서로 정렬하는 것이 편리하다고 생각되었습니다.일부 위원들은 이것이 정상적인 가타카나 문자만을 다루는 키보드 기술자를 복잡하게 만든다고 비판했다.이후 초안에서는 작은 가타카나 문자를 0xA7-0xAF 위치에 매핑했습니다.1966년 ISO 제4차 초안에서는 국가 통화 기호를 0x24로 명시하고, JIS 위원회는 엔화를 지도화할 계획이었다.ISO 646의 초판은 1967년에 출판되었다.ASCII의 달러 기호 0x24를 불변 문자로 명시했기 때문에 JIS 위원회는 ASCII의 백슬래시 0x5c(변형 문자 중 하나)를 엔 기호로 대체하기로 결정했다.

JIS C6220(정보교환용 코드, for報用号))))은 1969년에 발행되었다.1987년 JIS 카테고리 개편에 의해 JIS X 0201로 변경되었으며, 1990년 7월 8일 정보교환용 코드 문자 세트(7비트 코드 문자 세트)로 명칭이 변경되었다.

JIS X 0201의 문자 세트는 일본에서 널리 사용되고 있습니다.1973년 일본 최대의 자금이동시스템인 전국은행데이터통신시스템(전국은행데이터통신시스템)이 구축됐다.은행 간 트랜잭션메시지에서는 JIS X 0201의 서브셋이 사용되었습니다.이 시스템은 2018년까지 사용되었으며, 히라가나와 한자를 [2]처리할 수 있는 ZEDI(Nationalwide Banking Electronic Data Interchange System, EDI)로 대체되었다.1978년에 JIS C6226(JIS X 0208) 2바이트 문자 세트가 히라가나와 한자를 표현하기 위해 개발되었습니다.가타카나 문자가 포함되어 있습니다만, 코드나 레이아웃이 JIS X 0201과는 다릅니다.컴퓨터 제조업체는 JIS X 0201과의 호환성을 유지하기 위해 JIS X 0208의 확장을 자체 개발했습니다.1982년에 마이크로소프트 한자 부호화 방식(MS-DOS코드 932)과 디지털 리서치의 SJC26(일본 CP/M-86의 코드)이 개발되어 JIS X 0201 싱글 바이트 부호화와 JIS X 0208 더블 바이트 부호화가 문자 [3]이동 없이 결합되었다.그것들은 Shift JIS라고 불렸고 이것은 개인용 컴퓨터의 산업 표준이 되었다.

구현 상세

7비트 로마어(시프트인) 세트
7비트 가나(시프트 아웃) 세트

JIS X 0201의 전반(로마어 집합)은 ISO 646의 일본어 변종으로 백슬래시(\)와 칠데(~)가 ( ()과 오버라인(),)[4]으로 대체되고 후반(가나 집합)은 주로 가타카나로 구성되어 있다.제어문자JIS X 0211에 지정되어 있습니다.

7비트 형식에서는 시프트 아웃 제어 문자(0x0E)가 가나 세트로 전환되고 시프트 인(0x0F)이 로마 [5][6]세트로 전환됩니다.8비트 형식에서는 다음 표에 나타나 있듯이 최상위 비트 집합의 바이트 수(0x80-0x 등)FF)는 가나 세트에 사용되며 설정되지 않은 바이트(0x00~0x7F)가 사용됩니다.

7비트판 로마자 세트에는 'JISCII', 'JIS [8]Roman', 'ISO646-JP',[9][10] 'JIS C6220-1969-ro',[10][9] '일본어판 로마자',[11][12] '일본어판 7비트판 라틴어', 'ISO-IR-14'[9][10][6]가 사용됩니다.[7]

백슬래시를 엔 기호로 대체하면 DOS 및 일본어를 지원하는 Windows 기반 컴퓨터에서 "C: "Program Files"와 같이 경로가 이상하게 표시될 수 있습니다.[13]또 다른 유사한 문제는 문자열 리터럴의 C 프로그래밍 언어의 제어 문자입니다.printf("Hello, world.¥n");.

코드 페이지 레이아웃

다음 표는 JIS X 0201의 원래 8비트 부호화 문자 세트입니다(고비트 [14][15]세트로 바이트 단위로 표시됨).

JIS X 0201-1997의 8비트 형식
0 1 2 3 4 5 6 7 8 9 A B C D E F
0x C0 코드[a]
1배
2배 SP ! " # $ % & ' ( ) * + , - . /
3배 0 1 2 3 4 5 6 7 8 9 : ; < > = > ?
4배 @ A B C D E F G H I J K L M N O
5배 P Q R S T U V W X Y Z [ ¥ ] ^ _
6배 ` a b c d e f g h i j k l m n o
7배 p q r s t u v w x y z { }
8배 C1 코드 또는 빈 블록[a]
9배
도끼
Bx ソ
Cx
Dx
Fx
ASC와의 차이점II

Shift JIS의 일부로서

다음은 Shift [16][17]JIS의 일부로 JIS X 0201에 사용된 매핑입니다. 즉, JIS X 0201의 8비트 형식을 보여주고 가타카나 문자를 HalfwidthFullwidth Forms 블록에 매핑합니다(이것이 JIS X 0201에서 반폭 가나 레이아웃을 도출합니다).

Shift JIS의 단일 바이트 문자 집합
0 1 2 3 4 5 6 7 8 9 A B C D E F
0x
1배
2배 SP ! " # $ % & ' ( ) * + , - . /
3배 0 1 2 3 4 5 6 7 8 9 : ; < > = > ?
4배 @ A B C D E F G H I J K L M N O
5배 P Q R S T U V W X Y Z [ ¥ ] ^ _
6배 ` a b c d e f g h i j k l m n o
7배 p q r s t u v w x y z { }
8배
9배
도끼
Bx ソ
Cx
Dx
Fx
더블바이트 Shift JIS [3]문자의 첫 번째 바이트.

가타카나의 대체 매핑

기본적인 ISO-2022-JP 프로파일에서는 JIS X 0201의 가나 세트는 사용할 수 없습니다.단, ISO 2022/JIS X 0202 자체는 사용할 수 있습니다.따라서 JIS X 0201 가타카나(또는 같은 레이아웃을 사용하는 유니코드 반폭 가나)를 ISO-2022-JP로 변환할 때는 다음과 같은 매핑 또는 변환을 [19]사용하는 경우가 많다.이를 통해 가나를 JIS X 0208로 변환할 수 있습니다.

이론적으로는 JIS X 0201 자체는 표시폭을 규정하지 않기 때문에 이 매핑도 마찬가지로 정확하지만 실제로는 JIS X 0201이 반폭 가타카나에 사용된다.

위의 표와 쉽게 비교할 수 있도록 JIS X 0201 가타카나 인코딩과 하이비트 설정을 사용한 매핑을 다음에 나타냅니다.

JIS X 0201 가타카나의[20] JIS X 0208 대응 맵핑
0 1 2 3 4 5 6 7 8 9 A B C D E F
도끼
Bx
Cx
Dx [b] [c]

변종 및 확장 기능

시프트 JIS

IBM의 구현

코드 페이지 897은 IBM이 JIS X 0201의 8비트 형식을 구현한 입니다.C0 제어 문자 영역에는 여러 개의 추가 그래픽 문자가 포함되어 있습니다.문제의 코드 포인트는, OEM-US 와 같은 개념이지만, 다른 그래픽 문자와 함께,[22] 콘텍스트에 따라서 제어 문자 또는 그래픽 문자로 사용할 수 있습니다.C0 행을 다음에 나타냅니다.IBM은 또한 이러한 제어 코드 대체가 없는 순수 8비트 JIS X 0201을 코드 페이지 1139로 [23]지정합니다.C0 대체 그래픽의 작은 서브셋(0x01~06, 0x11, 0x15~17, 0x19의 상자 그리기 문자 및 0x1B~1F의 선/화살표 문자만 포함)을 포함하지만, 10x1C에서 다른 스타일의 위쪽 화살표(U+21E7 †)를 사용하는 것도 있습니다.지정된 페이지 코드입니다.

코드 페이지 897, 행 0x00 및 0x10만[29]
0 1 2 3 4 5 6 7 8 9 A B C D E F
0x 없음 BS LF FF CR
1배 DC1 DC3 할 수 있다

IBM은 또한 ISO 2022 또는 EUC-JP 코드 세트로 사용하기 위해 JIS X 0201의 7비트 로마 세트를 코드 페이지[30] 895로, 7비트 가나 세트를 코드 페이지 896으로 구현합니다.코드 페이지 896은 표준 JIS X 0201 할당 외에 [31]다음과 같이 5개의 추가 할당이 정의되어 있습니다.이러한 확장문자의 사용은 관련지어져 있는 CCSID 896에서는 [32]허가되지 않지만 대체 CCSID 4992에서는 허가됩니다.[33]

코드 페이지 896, 행 0x60만[31]
0 1 2 3 4 5 6 7 8 9 A B C D E F
6배 ¢ £ ¬ \ ~

IBM의 코드 페이지 1041Shift JIS와 호환되는 대체 위치에서 IBM[34] 확장 문자 5개를 인코딩하는 코드 페이지 897의 확장 버전입니다(각각 0x80, 0xA0, 0xFD, 0xFE 및 0xFF).[35]코드 페이지 911, 또 다른 확장 8비트 JIS X 0201 실장(코드 페이지 1086과 같은 C0 치환 그래픽을 사용)은 8비트가 설정된 코드 페이지896과 마찬가지로 0xE1에서 파운드(스털링) 기호())를 부호화하지만, 0xE2에서 cent 기호())와 not-sign()[36]3xE)를 부호화함으로써 다릅니다.

IBM의 코드 페이지 903은 중국어 번체 [38][39]인코딩에 사용되는 ASCII 기반 코드 페이지 904와 함께 일부 간체 중국어 [37]인코딩의 단일 바이트 구성요소로 사용하도록 인코딩되어 있습니다.그러나 코드 페이지 903은 (GB 1988/ISO 646-CN과 같은 ASCII 달러 기호 0x24가 아닌) ASCII 백슬래시 0x5C를 엔/위안 기호로 대체한다는 점에서 ISO 646-JP/Roman half of JIS X 0201을 따르고 있습니다.또한 코드 페이지 897과 [40]동일한 C0 대체 그래픽을 사용합니다.코드 페이지 1042는 코드 페이지 903에 파운드(스털링) 기호가 0x80이고 코드 페이지 1041 위치에 [41]not-sign, backslash 및 tilde가 있습니다.

다른이들

각주

  1. ^ a b 제어문자는 JIS X 0211에 지정되어 있습니다.
  2. ^ 호환성 정규화([21]U+3099)가 아닌 JIS X 0208 문자(U+309B에 매핑)에 대응하도록 매핑됩니다.
  3. ^ 호환성 정규화(U+309A, 결합 버전)[21]가 아닌 JIS X 0208 문자(U+309C에 매핑됨)에 대응하도록 매핑됩니다.

레퍼런스

  1. ^ 行政管理庁 (The Agency of Administrative Management) (1968). 行政における電子計算機の共同利用に関する調査研究報告書 (in Japanese). 行政事務機械化研究協会. pp. 108–113. OCLC 703804474.
  2. ^ "経理部門の人材不足で悩む会社に朗報、金融EDI「ZEDI」が2018年稼働へ". Nikkei X-TECH. 2017-11-30. Retrieved 2019-07-24.
  3. ^ a b 西田, 憲正 (1983-12-19). "Unix風の機能を持ち込んだ日本語MS-DOS 2.0の機能と内部構造". 日経エレクトロニクス (in Japanese). Nikkei McGraw-Hill: 165–190. ISSN 0385-1680.
  4. ^ "3.1.1 Details of Problems". Problems and Solutions for Unicode and User/Vendor Defined Characters. The Open Group Japan. Archived from the original on 1999-02-03. Retrieved 2019-04-15.
  5. ^ a b Japanese Industrial Standards Committee. ISO-IR-13: The Japanese KATAKANA graphic set of characters (PDF). ITSCJ/IPSJ.
  6. ^ a b Japanese Industrial Standards Committee. ISO-IR-14: The Japanese Roman graphic set of characters (PDF). ITSCJ/IPSJ.
  7. ^ "IBM-943 and IBM-932", IBM Knowledge Center, IBM
  8. ^ "kUnicodeForceASCIIRangeMask", Apple Developer Documentation, Apple Inc
  9. ^ a b c d e f RFC 1345
  10. ^ a b c d e f "Character Sets". IANA.
  11. ^ da Cruz, Frank (2010-04-02), "Kermit and MIME Character-Set Names", Kermit Project, Columbia University
  12. ^ "CP 00895", IBM Globalization — Code page identifiers, IBM, 9 November 2020
  13. ^ Kaplan, Michael S. (2005-09-17). "When is a backslash not a backslash?".
  14. ^ JIS X 0201-1997 (in Japanese). Japanese Standards Association. 1997-02-28. p. 17.
  15. ^ Unicode Consortium (2015-12-02). "JIS X 0201 (1976) to Unicode 1.1 Table". unicode.org. Retrieved 2021-10-01.
  16. ^ "ibm-943_P130-1999". ICU Demonstration - Converter Explorer. International Components for Unicode.
  17. ^ Apple, Inc (2005-04-05) [1995-04-15]. "JAPANESE.TXT: Map (external version) from Mac OS Japanese encoding to Unicode 2.1 and later". Unicode Consortium.
  18. ^ van Kesteren, Anne (2019-02-11). "12.2.2. ISO-2022-JP encoder". Encoding Standard. WHATWG.
  19. ^ 예를 들어 WHATWG Encoding Standard에서는 Unicode 반폭 가나 데이터를 ISO-2022-JP로 [18]인코딩할 때 변환으로 사용합니다.
  20. ^ van Kesteren, Anne (2018-01-06). "Index ISO-2022-JP Katakana". Encoding Standard. WHATWG.
  21. ^ a b van Kesteren, Anne (2019-02-11). "5. Indexes". Encoding Standard. WHATWG.
  22. ^ "Code page identifiers - CP 00897". IBM Globalization. IBM. Archived from the original on 2016-03-17.
  23. ^ "Code Page 01139" (PDF). IBM. Archived from the original (PDF) on 2015-07-08. Retrieved 2021-10-22.
  24. ^ "Code Page 01086" (PDF). IBM. Archived from the original (PDF) on 2015-07-08. Retrieved 2021-10-22.
  25. ^ "CP00897.pdf" (PDF). IBM. Archived (PDF) from the original on 2019-01-12. Retrieved 2017-12-05.
  26. ^ "CP00897.txt". IBM. Archived from the original on 2019-01-12. Retrieved 2017-12-05.
  27. ^ "Converter Explorer - ibm-943_P130-1999". ICU Demonstration. International Components for Unicode.
  28. ^ "Coded character set identifiers - CCSID 943". IBM Globalization. IBM. Archived from the original on 2016-03-15.
  29. ^ 그래픽스는 CP00897.pdf 및 CP00897에 따라 나열됩니다.txt는 [25][26]IBM에서 제공합니다.컨트롤은 그래픽 기능이 없거나 ASCII와 다른 경우 IBM에서 제공하는 IBM-943_P130-1999 코덱에 따라 유니코드용 International[27] Components for Unicode(IBM-943은 코드 페이지 897 슈퍼셋)[28]에 나열됩니다.SUB는 0x7F에 할당됩니다.
  30. ^ "CP00895.pdf" (PDF). IBM. Archived (PDF) from the original on 2017-12-08. Retrieved 2017-12-06.
  31. ^ a b "CP00896.pdf" (PDF). IBM. Archived (PDF) from the original on 2019-01-12. Retrieved 2017-12-05.
  32. ^ "Coded character set identifiers - CCSID 896". IBM Globalization. IBM. Archived from the original on 2016-03-26.
  33. ^ "Coded character set identifiers - CCSID 4992". IBM Globalization. IBM. Archived from the original on 2016-03-27.
  34. ^ "11.2 - IBM Extended SBCS Set" (PDF). IBM Japanese Graphic Character Set for Extended UNIX Code (EUC). IBM. p. 315. Archived (PDF) from the original on 2019-01-12. Retrieved 2017-12-07.
  35. ^ "CP01041.pdf" (PDF). IBM. Archived (PDF) from the original on 2019-01-12. Retrieved 2017-12-05.
  36. ^ "Code Page 00911" (PDF). IBM. Archived from the original (PDF) on 2015-07-08. Retrieved 2021-10-22.
  37. ^ "Code page identifiers - CP 903". IBM Globalization. IBM. Archived from the original on 2016-03-17.
  38. ^ "Coded character set identifiers - CCSID 904". IBM Globalization. IBM. Archived from the original on 2016-03-27.
  39. ^ "CP00904.pdf" (PDF). IBM. Archived (PDF) from the original on 2019-01-12. Retrieved 2018-05-11.
  40. ^ "CP00903.pdf" (PDF). IBM. Archived (PDF) from the original on 2019-01-12. Retrieved 2018-02-17.
  41. ^ "Code Page 01042" (PDF). IBM. Archived from the original (PDF) on 2015-07-08.

외부 링크