확장 UNIX 코드

EUC-JIS-2004
에일리어스	EUC-JISX0213
언어	일본어, 아이누어, 영어, 러시아어
표준.	JIS X 0213
분류	확장 ASCII, 가변 폭 인코딩, CJK 인코딩, EUC
확장	US-ASCII
변환/인코딩	JIS X 0213, JIS X 0201 (가나다)
선행	EUC-JP
	v; t;

EUC-JP
MIME / IANA	EUC-JP
에일리어스	Unixized JIS(UJIS), csEUCPkdFmt 일본어
언어	일본어, 영어, 러시아어
분류	확장 ISO 646, 가변 폭 인코딩, CJK 인코딩, EUC
확장	US-ASCII 또는 ISO 646:JP
변환/인코딩	JIS X 0208, JIS X 0212, JIS X 0201
에 의해 성공자	EUC-JISX0213
	v; t;

EUC-CN
MIME / IANA	GB2312
에일리어스	CSGB2312
언어	중국어, 영어, 러시아어 간체
표준.	GB 2312 (1980)
분류	확장 ASCII, 가변 폭 인코딩, CJK 인코딩, EUC
확장	US-ASCII
내선번호	748, GBK, GB 18030, x-mac-chinesimp
변환/인코딩	GB 2312
에 의해 성공자	GBK, GB 18030
	v; t;

확장 UNIX 코드(EUC)는 주로 일본어, 한국어 및 중국어 간체용으로 사용되는 멀티바이트 문자 인코딩 시스템입니다.

가장 일반적으로 사용되는 EUC 코드는 가변폭 부호화이며, ISO/IEC 646 준거 부호화 문자 세트(ASCII 등)에 속하는 문자는 1바이트, 94x94 부호화 문자 세트(GB 2312 등)에 속하는 문자는 2바이트입니다.이러한 2바이트 EUC 코드의 예는 GB 2312 및 EUC-KR의 EUC-CN 형식입니다.EUC-JP에는 최대 3바이트로 표시되는 문자가 포함되어 있습니다(첫 번째 바이트 포함).EUC-TW 의 1 문자는 최대 4 바이트를 차지할 수 있습니다.

최신 어플리케이션에서는 EUC 코드의 모든 글리프 등을 지원하는 UTF-8을 사용할 가능성이 높으며 일반적으로 벤더의 편차와 오류를 줄이고 휴대성이 향상됩니다.그러나 EUC는 여전히 매우 인기가 있으며, 특히 한국에서는 EUC-KR이 인기가 있다.

부호화 구조

패킹된 EUC와 다른 8비트 ISO 2022 프로파일과의 관계

EUC의 구조는 ISO/IEC 2022 표준에 기초하고 있으며, ISO/IEC 2022 표준에서는 94개의 7비트 바이트 0x21–7E 또는 대체적으로 0xA1–로 나타낼 수 있는 그래픽 문자 집합의 시스템을 지정합니다.8비트를 사용할 수 있는 경우 FE.이를 통해 94개의 그래픽 문자, 8836(94²) 문자 또는 830584(94³) 문자를 사용할 수 있습니다.초기 0x20 및 0x7F는 항상 공백 및 삭제 문자였고 0xA0 및 0xFF는 사용되지 않았지만 ISO/IEC 2022의 이후 버전에서는 특정 상황에서 세트 내에서 0xA0 및 0xFF(또는 0x20 및 0x7F)를 사용할 수 있게 되어 96자 세트를 포함할 수 있게 되었습니다.C0 및 C1 제어 코드에는 0x00 ~1F 및 0x80 ~9F 의 범위가 사용됩니다.

EUC는 ISO-2022-JP 등의 7비트 프로파일이 아닌 ISO/IEC 2022의 8비트 프로파일 패밀리입니다.따라서 ISO 2022 준수 문자 집합만 EUC 형식을 가질 수 있습니다.EUC 방식에서는 최대 4개의 코드화된 문자 세트(G0, G1, G2, G3 또는 코드 세트0, 1, 2, 및 3)를 나타낼 수 있습니다.G0 세트는 US-ASCII, ISO 646:KR(KS X 1003) 또는 ISO 646과 같은 ISO/IEC 646 준거 코드화된 문자 세트로 설정됩니다.JP(JIS X 0201의 하반부) 및 GL을 통해 호출됩니다(즉, 0x21~0x7E, 최상위 비트가 ^[1]클리어됨).US-ASCII 를 사용하는 경우, 이 코드는 확장 ASCII 인코딩이 됩니다.US-ASCII 에서의 가장 일반적인 차이는, EUC-JP 에서는 0x5C(US-ASCII 에서는 백슬래시)가, EUC-KR 에서는 원화 부호를 나타내기 위해서 사용되는 것입니다.

다른 코드 세트는 GR을 통해 호출됩니다(즉, 최상위 비트 세트).따라서 문자의 EUC 형식을 얻기 위해 각 부호화 바이트의 최상위 비트(각 7비트 부호화 바이트에 128을 더하는 것과 같음, 또는 쿠텐 코드 내의 각 번호에 160을 더하는 것과 같음)를 설정함으로써 소프트웨어는 문자열 내의 특정 바이트가 ISO646 코드에 속하는지 확장 코드에 속하는지 쉽게 판별할 수 있다.코드 세트 2, 3 의 문자는, 각각 제어 코드 SS2(0x8E) 및 SS3(0x8F)를 프리픽스 해, GR 를 개입시켜 호출된다.초기 시프트 코드 외에 0xA0~0x 범위를 벗어난 바이트코드 세트 1 ~3의 문자에 표시되는 FF는 유효한 EUC ^[1]코드가 아닙니다.

EUC 코드 자체는 ISO ^[1]2022의 발표 및 지정 순서를 사용하지 않는다.그러나 코드 사양은 다음과 같이 세분화된 의미를 갖는 4개의 ISO 2022 발표 시퀀스의 다음 시퀀스에 해당합니다.^[1]

개별 시퀀스	16진수	EUC의 특징
`ESC SP C`	`1B 20 43`	ISO-8(8비트, GL의 G0, GR의 G1)
`ESC SP Z`	`1B 20 5A`	SS2를 사용하여 G2에 액세스
`ESC SP [`	`1B 20 5B`	SS3를 사용하여 G3에 액세스
`ESC SP \`	`1B 20 5C`	GR을 통한 단일 교대 호출

고정 폭 형식

일본어 고정 폭 형식 레이아웃

상기의 ISO-2022 베이스의 가변폭 부호화는, EUC 패킹 형식이라고 불리기도 합니다.이것은 통상, EUC라고 하는 부호화 형식입니다.다만, EUC 데이터의 내부 처리에서는, EUC 컴플리트 2 바이트 형식이라고 불리는 고정폭 변환 형식을 사용하는 경우가 있습니다.이것은 다음을 나타냅니다.^[2]

코드 세트 0은 0x21 ~0x7E 범위의 2바이트로 설정됩니다(첫 번째 바이트는 0x00일 수 있습니다).
코드 세트 1은 0xA0 ~0xFF 범위의 2바이트입니다(첫 번째 바이트는 0x80일 수 있습니다).
0x21~0x7E(또는 0x00) 범위의 바이트로서 코드 세트2 뒤에 0xA0~0xFF 범위의 바이트가 계속됩니다.
0xA0~0xFF(또는 0x80) 범위의 바이트로서 코드 세트3 뒤에 0x21~0x7E 범위의 바이트가 계속됩니다.

코드 집합이 1바이트만 사용하는 경우 0x00 및 0x80의 초기 바이트가 사용됩니다.4바이트 고정 길이 ^[2]형식도 있습니다.이러한 고정 길이의 부호화 형식은 내부 처리에 적합하며 일반적으로 교환에서는 발생하지 않습니다.

EUC-JP는 IANA에 "EUC-JP" 또는 "csEUCPkdFmtJapanese" 형식으로 등록되며 고정 폭 형식은 "csEUCFixWidJapanese"^[3] 형식으로 등록됩니다.HTML5에서 ^[4]사용되는 WHATWG Encoding Standard에는 패키지 형식만 포함되어 있습니다.

EUC-CN

EUC-CN은^[5] GB 2312 규격의 일반적인 중국어 간체 부호화 형식입니다.일본의 JIS X 0208 및 ISO-2022-JP의 경우와 달리 GB 2312는 보통 7비트 ISO 2022 코드버전에서는 ^[a]사용되지 않습니다만, USENET 에서는 HZ라고 불리는 바리안트 형식(GB 2312 텍스트를 ASCII 시퀀스로 구분)이 사용되기도 했습니다.

ASCII 문자는 통상적인 인코딩으로 표시됩니다.GB 2312로부터의 문자는, 2 바이트(모두 0xA1 ~0xFE)로 표시됩니다.

EUC-JP

EUC-JP는 JIS X 0208, JIS X 0212 및 JIS X 0201의 3가지 일본어 문자 집합 표준 요소를 나타내기 위해 사용되는 가변 폭 부호화입니다.이 인코딩의 다른 이름으로는 Unixized JIS(UJIS)와 AT&T ^[2]JIS가 있습니다.^[15]2018년 8월 이후 전체 웹 페이지의 0.1%가 EUC-JP를 사용하고 있으며, 일본어 웹사이트의 2.6%가 이 인코딩을^[16] 사용하고 있습니다(Shift JIS 또는 UTF-8보다 적게 사용).이것은 ^[17]^[18]IBM에 의해 코드 페이지 954라고 불립니다.Microsoft 에는, 이 부호화에 관한 2 개의 코드 페이지 번호(51932 및 20932)가 있습니다.

이 인코딩 방식을 사용하면 동일한 문자 세트 표준에 기초한 ISO-2022-JP에서 사용되는 이스케이프 문자와 (Shift JIS와 달리) ASCII 바이트가 트레일 바이트로 표시되지 않고 7비트 ASCII와 8비트 일본어를 쉽게 혼재시킬 수 있습니다.

EUC-JIS0213 또는 EUC-JIS-2004라고 불리는 관련 부분 호환 인코딩은 JIS X 0201 및 JIS X 0213을^[19] 인코딩합니다(Shift_J와 동일).ISX0213, 그 Shift_JIS 기반의 대응책).

EUC-CN 또는 EUC-KR에 비해 EUC-JP는 일본의 PC 및 Macintosh 시스템에서 널리 채택되지 않았습니다.이 시스템에서는 Shift JIS 또는 그 확장 기능(Microsoft Windows의 경우 Windows 코드 페이지 932, 클래식 Mac OS의 경우 Mac Japanese)을 사용했지만 Unix 또는 Unix 유사 운영 체제(HPU 제외)에서는 많이 사용되었습니다.따라서 일본 웹사이트가 EUC-JP 또는 Shift_J 중 어느 쪽을 사용하는지IS는 작성자가 사용하는 OS에 따라 달라집니다.

문자는 다음과 같이 부호화됩니다.

EUC/ISO 2022 준거 부호화로서 C0 제어 문자, 스페이스, DEL을 ASCII와 같이 나타낸다.
ASCII로부터의 그래픽 문자(코드 세트 0)는, 통상의 1 바이트 표현으로서 0x21 ~ 0x7E 의 범위에서 표시됩니다.여기에서는, JIS X 0201 의 하부를 인코딩 하는 바리안트도 있습니다만, HTML5 ^[21]로 사용되는 W3C/WHATWG 부호화 표준을 포함한 ^[20]ASCII 와 EUC-JIS-2004 ^[19]의 인코딩도 마찬가지입니다.이는 0x5C가 보통 U+005C REVERSE SOLIDUS(ASCII 백슬래시)로 Unicode에 매핑되는 것을 의미하지만, Microsoft Windows에서는 JIS ^[22]^[23]X 0201의 하위 절반과의 호환성을 위해 특정 일본어 로케일 글꼴에 의해 U+005C가 Yen 기호로 표시될 수 있습니다.
JIS X 0208(코드 세트 1)로부터의 문자는, 2 바이트(모두 0xA1 ~0xFE)로 표시됩니다.이것은, 하이 비트가 설정되어 있는 것에 의해서, ISO-2022-JP 의 표현과는 다릅니다.이 코드 세트에는, 일부의 EUC-JP 베리에이션의 벤더 확장 기능도 포함되어 있습니다.EUC-JIS-2004 에서는, JIS X 0213 의 제1 평면을 부호화해, 사실상 표준 JIS X 0208 ^[19]의 슈퍼 세트이다.
JIS X 0201(반각 가나, 코드 세트 2)의 상반부로부터의 문자는 2바이트로 표현되며, 첫 번째 문자는 0x8E이고, 두 번째 문자는 0xA1~0xDF 범위의 통상적인 JIS X 0201 표현이다.이 집합에는 일부 변형에서 IBM 공급업체 확장이 포함될 수 있습니다.
JIS X 0212(코드 세트 3)로부터의 문자는, EUC-JP 로 3 바이트(첫 번째는 0x8F, 다음 2개는 0xA1~0xFE 의 범위, 즉 하이 비트 세트)로 표현된다.표준 JIS X 0212 외에 일부 EUC-JP 변형 코드 세트 3은 표준 JIS X 0212 매핑이 없는 IBM의 Shift JIS 확장의 문자를 나타내기 위해 행 83 및 84에 확장자를 포함할 수 있습니다.이 확장자는 IBM 자체 및 OSF에 ^[24]^[25]의해 정의된 두 가지 레이아웃 중 하나로 코딩될 수 있습니다.EUC-JIS-2004 에서는, JIS X 0213 의 제2 플레인이 여기에 ^[19]부호화되어 표준 JIS X ^[26]0212 의 할당 행과 충돌하지 않는다.Python에서 사용되는 것과 같은 EUC-JIS-2004의 일부 구현에서는 ^[26]이 세트에 JIS X 0212 및 JIS X 0213 플레인2 문자를 모두 사용할 수 있습니다.

EUC-KR

EUC-KR
EUC-KR 코드 구조
MIME / IANA	EUC-KR
에일리어스	완성, IBM-970
언어	한국어, 영어, 러시아어
표준.	KS X 2901(KS C 5861)
분류	확장 ISO 646, 가변 폭 인코딩, CJK 인코딩, EUC
확장	US-ASCII 또는 ISO 646:KR
내선번호	Mac OS 한국어, IBM-949, 통합 한글 코드(Windows-949)
변환/인코딩	KS X 1001
에 의해 성공자	통합 한글 코드(Web 표준)
v t

EUC-KR은 KS X 1001(구 KS C 5601)^[30]^[31]과 ISO 646:KR(구 KS C 5636) 또는 US-ASCII의 2개의 코드화된 문자 세트를 사용하여 한국어 텍스트를 나타내는 가변 너비 인코딩입니다.KS X 2901(구 KS C 5861)은 부호화와 RFC1557에서는 EUC-KR로 불리고 있습니다.

KS X 1001(G1, 코드 세트 1)에서 추출된 문자는 GR(0xA1~0xFE)에서 2바이트로 부호화되며, KS X 1003 또는 US-ASCII(G0, 코드 세트 0)에서 추출된 문자는 GL(0x21~0x7E)에서 1바이트가 된다.

그것은 보통 완성(한국어: 성城, 로마자: 완성, 조명. 대한민국에서는 '사전^[32] 작곡'입니다.IBM은 더블바이트 구성요소를 코드 페이지 971로,^[33] ASCII를 코드 페이지 970으로 ^[34]^[35]^[36]나타냅니다.Microsoft에 ^[37]의해 코드 페이지 20949(한국어)^[37]^[38] 및 코드 페이지 51949(EUC 한국어)로 구현되어 있습니다.

2022년 6월^[update] 현재 전 세계 웹페이지 ^[15]중 EUC-KR을 사용하는 비율은 0.1%에 불과하지만 국내 웹페이지 중 EUC-KR을 사용하는^[39] 비율은 5.9%로 언어/^[40]웹 도메인에서 가장 인기 있는 비 UTF-8/Unicode 인코딩이다.확장자를 포함하면 한국에서 3대 플랫폼(macOS, 기타 유닉스 계열 OS, Windows)에서 가장 널리 사용되는 레거시 문자 인코딩이지만 리눅스 및 MacOS에서 인기를 끌면서 UTF-8로 매우 서서히 전환되고 있다.

다른 대부분의 인코딩과 마찬가지로 UTF-8은 새로운 용도로 선호되고 있으며 플랫폼과 벤더 간의 일관성 문제를 해결합니다.

EUC-KP

KS X 1001과 마찬가지로 북한의 KPS 9566 규격은 일반적으로 EUC 형식으로 사용됩니다.이러한 상황에서는 ^[47]EUC-KP라고 불리기도 합니다.이 표준의 최신 버전은 EUC 표현을 통합 한글 ^[48]코드와 유사한 방식으로 EUC 이외의 2바이트 코드를 사용하는 문자로 확장합니다.

EUC-TW

EUC-TW는 US-ASCII 및 CNS 11643의 16플레인(각각 94x94)을 지원하는 가변폭 부호화입니다.대만에서 사용되는 번체 한자 인코딩은 거의 사용되지 않습니다.Big5의 바리안트는 EUC-TW보다 훨씬 일반적이지만 Big5는 CNS 11643 한지의 첫 번째 2개의 플레인만 인코딩하고 UTF-8은 점점 일반화되고 있습니다.

EUC/ISO 2022 부호화로서 C0 제어 문자, ASCII 스페이스, DEL을 ASCII 와 같이 부호화한다.
US-ASCII로부터의 그래픽 문자(G0, 코드 세트 0)는, 통상의 싱글 바이트 표현(0x21~0x7E)로서 GL 로 부호화됩니다.
CNS 11643 플레인1(코드 세트 1)로부터의 문자는, GR(0xA1~0xFE)로 2 바이트로서 부호화됩니다.
CNS 11643(코드 세트 2)의 플레인1 ~ 16 의 문자는, 4 바이트로 부호화됩니다.
- 첫 번째 바이트는 항상 0x8E(Single Shift 2)입니다.
- 두 번째 바이트(0xA1–0xB0)는 평면을 나타냅니다.평면의 수는 해당 바이트에서 0xA0을 뺀 값입니다.
- 세 번째와 네 번째 바이트는 GR(0xA1~0xFE)입니다.

CNS 11643의 플레인1은 코드 세트1과 코드 세트2의 일부로서 2회 부호화되어 있는 것에 주의해 주세요.

「」를 참조해 주세요.

메모들

^ GB 2312를 지원하는7비트 ISO 2022 코드버전에는 ISO-2022-CN(시프트 코드 포함)과 ISO-2022-JP-2(시프트 코드 없음)가 있으며, 둘 다 ASCII 이외의 세트도 지원합니다.
^ 이러한 시퀀스는 DEC 및 10진수 형식과^[29] 일치합니다(10 65그리고.10 66룬드에 의해 리스트 됩니다.^[27]Lunde는 양쪽의 16진수 형식을 다음과 같이 나열합니다.0xA0 0x42오류가 있는 것 같습니다.

레퍼런스

^ ^a ^b ^c ^d IBM. "Character Data Representation Architecture (CDRA)". IBM. pp. 157–162.
^ ^a ^b ^c Lunde, Ken (2008). CJKV Information Processing: Chinese, Japanese, Korean, and Vietnamese Computing. O'Reilly. pp. 242–244. ISBN 9780596800925.
^ "Character Sets". IANA.
^ "4.2. Names and labels". Encoding Standard. WHATWG.
^ ^a ^b ^c ^d "Map (external version) from Mac OS Chinese Simplified encoding to Unicode 3.0 and later". Apple, Inc.
^ "S-Ch PC Data mixed (IBM GB) including 1880 UDC, 31 IBM selected characters and 5 SAA SB characters". IBM Globalization: Coded character set identifiers. IBM. Archived from the original on 2016-03-26.
^ "IBM Simplified Chinese Graphic Character Set" (PDF). IBM. 1993. C-H 3-3220-130 1993-11.
^ "CCSID 1383: S-Ch EUC G0 set, ASCII G1 set, GB 2312-80 set (1382)". IBM Globalization: Coded character set identifiers. IBM. Archived from the original on 2016-03-28.
^ "IBM Simplified Chinese Graphic Character Set for Extended UNIX Code (EUC)" (PDF). IBM. 1994. C-H 3-3220-132 1994-06.
^ "CCSID 5479: S-Ch EUC G0 set, ASCII G1 set, GB 2312-80 set (5478)". IBM Globalization: Coded character set identifiers. IBM. Archived from the original on 2016-03-27.
^ "CCSID 9574: S-Ch DBCS PC GB 2312-80 set, excluding 31 IBM selected and 1360 UDC. Also used in T-Ch 2022-CN TCP". IBM Globalization: Coded character set identifiers. IBM. Archived from the original on 2016-03-27.
^ ^a ^b "Encoding.WindowsCodePage Property - .NET Framework (current version)". MSDN. Microsoft.
^ Lunde, Ken (1998). Appendix F: GB/T 12345 (PDF). CJKV Information Processing. O'Reilly Media. ISBN 9781565922242.
^ Standardization Administration of China (SAC) (2005-11-18). GB 18030-2005: Information Technology—Chinese coded character set.
^ ^a ^b "Historical trends in the usage of character encodings for websites". W3Techs.
^ "Distribution of Character Encodings among websites that use Japanese". w3techs.com. Retrieved 2022-08-01.
^ "CCSID 954 information document". Archived from the original on 2016-03-27.
^ International Components for Unicode (ICU), ibm-954_P101-2007.ucm, 2002-12-03
^ ^a ^b ^c ^d "JIS X 0213 Code Mapping Tables". x0213.org.
^ "Ambiguities in conversion from Japanese EUC to Unicode (Non-Normative)". XML Japanese Profile. W3C.
^ "EUC-JP decoder". Encoding Standard. WHATWG. "바이트가 ASCII 바이트인 경우 값이 바이트인 코드 포인트를 반환합니다."
^ "3.1.1 Details of Problems". Problems and Solutions for Unicode and User/Vendor Defined Characters. The Open Group Japan. Archived from the original on 1999-02-03. Retrieved 2019-08-14.
^ Kaplan, Michael S. (2005-09-17). "When is a backslash not a backslash?".
^ ^a ^b "4.2 Review Process of Rules for Code Set Conversion Between eucJP-open and UCS". Problems and Solutions for Unicode and User/Vendor Defined Characters. The Open Group Japan. Archived from the original on 1999-02-03. Retrieved 2019-08-14.
^ ^a ^b Lunde, Ken (13 January 2009). "Appendix J: Japanese Character Sets" (PDF). CJKV Information Processing (2nd ed.). ISBN 978-0-596-51447-1.
^ ^a ^b Chang, Hyeshik (8 December 2021). "Readme for CJKCodecs". cPython. Python Software Foundation.
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ Lunde, Ken (13 January 2009). "Appendix F: Vendor Encoding Methods" (PDF). CJKV Information Processing (2nd ed.). ISBN 978-0-596-51447-1.
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j Lunde, Ken (2009). "Appendix E: Vendor Character Set Standards" (PDF). CJKV Information Processing: Chinese, Japanese, Korean & Vietnamese Computing (2nd ed.). Sebastopol, CA: O'Reilly. ISBN 978-0-596-51447-1.
^ ^a ^b "2: Codesets and Codeset Conversion". DIGITAL UNIX Technical Reference for Using Japanese Features. Digital Equipment Corporation, Compaq.
^ "KS X 1001:1992" (PDF).
^ "KS C 5601:1987" (PDF). 1988-10-01.
^ Lunde, Ken (2009). "Chapter 3: Character Set Standards". CJKV Information Processing. p. 146. ISBN 978-0596514471.
^ "IBM Globalization - Coded character set identifiers - CCSID 971". Archived from the original on 2014-11-30. Retrieved 2021-09-03.
^ "CCSID 970". IBM Globalization. IBM. Archived from the original on 2014-12-01.
^ "ibm-970_P110_P110-2006_U2 (alias euc-kr)". Converter Explorer - ICU Demonstration. International Components for Unicode.
^ International Components for Unicode (ICU), ibm-970_P110_P110-2006_U2.ucm, 2002-12-03
^ ^a ^b "Code Page Identifiers". Windows Dev Center. Microsoft.
^ Julliard, Alexandre. "dump_krwansung_codepage: build Korean Wansung table from the KSX1001 file". make_unicode: Generate code page .c files from ftp.unicode.org descriptions. Wine Project.
^ "Distribution of Character Encodings among websites that use .kr". w3techs.com. Retrieved 2022-06-18.
^ "Distribution of Character Encodings among websites that use Korean". w3techs.com. Retrieved 2022-06-18.
^ "한글 코드에 대하여" (in Korean). W3C. Archived from the original on 2013-05-24. Retrieved 2019-01-07.
^ IBM에서 발신되어 Unicode의 International Components for Unicode 소스 트리에 포함된 파일인 ucnv_lmb.cpp에서 리드 바이트 0x11은 다음 정의 뒤에 "Korean: ibm-1261"을 참조하는 것으로 코멘트됩니다.ULMBCS_GRP_KO및 에 매핑됩니다."windows-949"의 ICU 코덱OptGroupByteToCPName파일 뒷부분에서 배열합니다.
^ "Coded character set identifiers - CCSID 1363", IBM Globalization, IBM, archived from the original on 2014-11-29
^ "5. Indexes (§ index EUC-KR)", Encoding Standard, WHATWG
^ Gil, Hojin. "HangulTalk: De facto standard Hangul environment for Mac". Guide to using Hangul on Macintosh.
^ ^a ^b Apple (2005-04-05). "Map (external version) from Mac OS Korean encoding to Unicode 3.2 and later". Unicode Consortium.
^ Kim, Kyongsok (2002-11-30). "3-way cross-reference tables - KS X 1001, KPS 9566, and UCS" (PDF). ISO/IEC JTC 1/SC 2/WG 2 N2564. [주의: 문서 첨부 표 링크 갱신 : [1 ] [2]]
^ Chung, Jaemin (2018-01-05). "Information on the most recent version of KPS 9566 (KPS 9566-2011?)" (PDF). UTC L2/18-011.

외부 링크

EUC-JP 코드 세트테이블(ASCII 부분과 반폭 부분 제외)
코드 페이지 식별자
GB18030-2000 – 새로운 중국 국가 표준
중국의 신세대 프레스 소프트웨어 – 748 코드 언급
EUC-TW 코드 설명(중국어)
Perl Encode 모듈의 EUC-JISX0213 매뉴얼페이지
이스케이프 시퀀스와 함께 사용되는 부호화 문자 집합의 국제 등록부 – 섹션 2.4 (p.14f) (중국, 일본, 한국, 북한 및 대만 부호화 문자 집합 포함) (ISO/IEC)
중국어, 일본어, 한국어 문자 집합 표준 및 인코딩 시스템

[6] GB 2312를 지원하는7비트 ISO 2022 코드버전에는 ISO-2022-CN(시프트 코드 포함)과 ISO-2022-JP-2(시프트 코드 없음)가 있으며, 둘 다 ASCII 이외의 세트도 지원합니다.

[31] 이러한 시퀀스는 DEC 및 10진수 형식과^[29] 일치합니다(10 65그리고.10 66룬드에 의해 리스트 됩니다.^[27]Lunde는 양쪽의 16진수 형식을 다음과 같이 나열합니다.0xA0 0x42오류가 있는 것 같습니다.

[cdra-1] IBM. "Character Data Representation Architecture (CDRA)". IBM. pp. 157–162.

[lunde-2] Lunde, Ken (2008). CJKV Information Processing: Chinese, Japanese, Korean, and Vietnamese Computing. O'Reilly. pp. 242–244. ISBN 9780596800925.

[ianaeuc-3] "Character Sets". IANA.

[4] "4.2. Names and labels". Encoding Standard. WHATWG.

[macsimchinese-5] "Map (external version) from Mac OS Chinese Simplified encoding to Unicode 3.0 and later". Apple, Inc.

[7] "S-Ch PC Data mixed (IBM GB) including 1880 UDC, 31 IBM selected characters and 5 SAA SB characters". IBM Globalization: Coded character set identifiers. IBM. Archived from the original on 2016-03-26.

[8] "IBM Simplified Chinese Graphic Character Set" (PDF). IBM. 1993. C-H 3-3220-130 1993-11.

[9] "CCSID 1383: S-Ch EUC G0 set, ASCII G1 set, GB 2312-80 set (1382)". IBM Globalization: Coded character set identifiers. IBM. Archived from the original on 2016-03-28.

[10] "IBM Simplified Chinese Graphic Character Set for Extended UNIX Code (EUC)" (PDF). IBM. 1994. C-H 3-3220-132 1994-06.

[11] "CCSID 5479: S-Ch EUC G0 set, ASCII G1 set, GB 2312-80 set (5478)". IBM Globalization: Coded character set identifiers. IBM. Archived from the original on 2016-03-27.

[12] "CCSID 9574: S-Ch DBCS PC GB 2312-80 set, excluding 31 IBM selected and 1360 UDC. Also used in T-Ch 2022-CN TCP". IBM Globalization: Coded character set identifiers. IBM. Archived from the original on 2016-03-27.

[msdnlabels-13] "Encoding.WindowsCodePage Property - .NET Framework (current version)". MSDN. Microsoft.

[cjkv-12345-14] Lunde, Ken (1998). Appendix F: GB/T 12345 (PDF). CJKV Information Processing. O'Reilly Media. ISBN 9781565922242.

[gb18030-15] Standardization Administration of China (SAC) (2005-11-18). GB 18030-2005: Information Technology—Chinese coded character set.

[w3techs-16] "Historical trends in the usage of character encodings for websites". W3Techs.

[17] "Distribution of Character Encodings among websites that use Japanese". w3techs.com. Retrieved 2022-08-01.

[18] "CCSID 954 information document". Archived from the original on 2016-03-27.

[19] International Components for Unicode (ICU), ibm-954_P101-2007.ucm, 2002-12-03

[x0213org-20] "JIS X 0213 Code Mapping Tables". x0213.org.

[w3cxmleuc-21] "Ambiguities in conversion from Japanese EUC to Unicode (Non-Normative)". XML Japanese Profile. W3C.

[22] "EUC-JP decoder". Encoding Standard. WHATWG. "바이트가 ASCII 바이트인 경우 값이 바이트인 코드 포인트를 반환합니다."

[23] "3.1.1 Details of Problems". Problems and Solutions for Unicode and User/Vendor Defined Characters. The Open Group Japan. Archived from the original on 1999-02-03. Retrieved 2019-08-14.

[24] Kaplan, Michael S. (2005-09-17). "When is a backslash not a backslash?".

[osfibmextensions-25] "4.2 Review Process of Rules for Code Set Conversion Between eucJP-open and UCS". Problems and Solutions for Unicode and User/Vendor Defined Characters. The Open Group Japan. Archived from the original on 1999-02-03. Retrieved 2019-08-14.

[lundeJ-26] Lunde, Ken (13 January 2009). "Appendix J: Japanese Character Sets" (PDF). CJKV Information Processing (2nd ed.). ISBN 978-0-596-51447-1.

[hyeshik-27] Chang, Hyeshik (8 December 2021). "Readme for CJKCodecs". cPython. Python Software Foundation.

[lundeF-28] ^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ Lunde, Ken (13 January 2009). "Appendix F: Vendor Encoding Methods" (PDF). CJKV Information Processing (2nd ed.). ISBN 978-0-596-51447-1.

[lunde2009appE-29] ^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j Lunde, Ken (2009). "Appendix E: Vendor Character Set Standards" (PDF). CJKV Information Processing: Chinese, Japanese, Korean & Vietnamese Computing (2nd ed.). Sebastopol, CA: O'Reilly. ISBN 978-0-596-51447-1.

[decunix-30] "2: Codesets and Codeset Conversion". DIGITAL UNIX Technical Reference for Using Japanese Features. Digital Equipment Corporation, Compaq.

[ksx-32] "KS X 1001:1992" (PDF).

[ksc-33] "KS C 5601:1987" (PDF). 1988-10-01.

[34] Lunde, Ken (2009). "Chapter 3: Character Set Standards". CJKV Information Processing. p. 146. ISBN 978-0596514471.

[35] "IBM Globalization - Coded character set identifiers - CCSID 971". Archived from the original on 2014-11-30. Retrieved 2021-09-03.

[36] "CCSID 970". IBM Globalization. IBM. Archived from the original on 2014-12-01.

[37] "ibm-970_P110_P110-2006_U2 (alias euc-kr)". Converter Explorer - ICU Demonstration. International Components for Unicode.

[38] International Components for Unicode (ICU), ibm-970_P110_P110-2006_U2.ucm, 2002-12-03

[winids-39] "Code Page Identifiers". Windows Dev Center. Microsoft.

[40] Julliard, Alexandre. "dump_krwansung_codepage: build Korean Wansung table from the KSX1001 file". make_unicode: Generate code page .c files from ftp.unicode.org descriptions. Wine Project.

[41] "Distribution of Character Encodings among websites that use .kr". w3techs.com. Retrieved 2022-06-18.

[42] "Distribution of Character Encodings among websites that use Korean". w3techs.com. Retrieved 2022-06-18.

[43] "한글 코드에 대하여" (in Korean). W3C. Archived from the original on 2013-05-24. Retrieved 2019-01-07.

[44] IBM에서 발신되어 Unicode의 International Components for Unicode 소스 트리에 포함된 파일인 ucnv_lmb.cpp에서 리드 바이트 0x11은 다음 정의 뒤에 "Korean: ibm-1261"을 참조하는 것으로 코멘트됩니다.ULMBCS_GRP_KO및 에 매핑됩니다."windows-949"의 ICU 코덱OptGroupByteToCPName파일 뒷부분에서 배열합니다.

[45] "Coded character set identifiers - CCSID 1363", IBM Globalization, IBM, archived from the original on 2014-11-29

[whatwgext-46] "5. Indexes (§ index EUC-KR)", Encoding Standard, WHATWG

[47] Gil, Hojin. "HangulTalk: De facto standard Hangul environment for Mac". Guide to using Hangul on Macintosh.

[mackoreantxt-48] Apple (2005-04-05). "Map (external version) from Mac OS Korean encoding to Unicode 3.2 and later". Unicode Consortium.

[49] Kim, Kyongsok (2002-11-30). "3-way cross-reference tables - KS X 1001, KPS 9566, and UCS" (PDF). ISO/IEC JTC 1/SC 2/WG 2 N2564. [주의: 문서 첨부 표 링크 갱신 : [1 ] [2]]

[50] Chung, Jaemin (2018-01-05). "Information on the most recent version of KPS 9566 (KPS 9566-2011?)" (PDF). UTC L2/18-011.

[1]

[2]

[3]

[4]

[5]

[a]

[7]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[21]

[20]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[b]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

v t 문자 부호화
초기 통신	전신코드 바늘 모스 라틴어 이외의 와분/가나 중국인 키릴 문자 한국인입니다 보도와 머레이 Fieldata ASCII ISO/IEC 646 BCDIC 텔레텍스 및 비디오텍스/텔레텍스트 T.51/ISO/IEC 6937 ITU T.61 ITU T.101 월드 시스템 텔레텍스트 배경 놓다 트랜스코드
ISO/IEC 8859	승인된 부품 - 1 (서유럽) - 2 (중앙유럽) - 3 (말티즈/에스페란토) - 4 (북유럽) -5(키릴 문자) -6 (아랍어) -7(그리스어) -8 (헤브루) -9(터키어) -10 (노르딕) -11(태국) - 13 (발트어) -14 (셀틱) - 15 (신서유럽) -16(로마) 폐기 부품 - 12 (데바나가리) 제안되었지만 승인되지 않음 KOI-8 키릴 문자 사미 적응 웨일스어 바렌츠 키릴 문자 에스토니아어 우크라이나어 키릴 문자
서지학적 용도	MARC-8 앤젤 CCCI/EACC ISO 5426 5426-2 5427 5428 6438 6862
국가 표준	암SCII 브라스키 CNS 11643 DIN 66003 ELOT 927 GOST 10859 GB 2312 GB 12345 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KOI-7 KPS 9566 KS X 1001 KS X 1002 LST 1564 LST 1590-4 패스 시프트 JIS SI 960 TIS-620 TSCII 가시 SCSII YUSCII
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367 확장 UNIX 코드 / EUC
Mac OS 코드 페이지 ("구체")	아르메니아어 아랍어 바렌츠 키릴 문자 켈트족 중앙유럽어 크로아티아어 키릴 문자 데바나가리 Farsi(페르시아어) 글꼴 X(커밋) 게일어 그루지야어 그리스어 구자라티 구르무키 히브리어 아이슬란드 이누이트 키보드 라틴어(Kermit) 몰타/에스페란토 오감 로마인 루마니아어 사미 터키어 투르크어 키릴 문자 우크라이나어 VT100
DOS 코드 페이지	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1040 1042 1043 1046 1098 1115 1116 1117 1118 1127 3846 아비콤프 CS 인디케이터 CSX 표시기 CSX+ 표시기 CWI-2 이란 시스템 카메니쿠 마조비아 마이크
IBM AIX 코드 페이지	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1124 1133
Windows 코드 페이지	CER-GS 932 936 (GBK) 950 1169 확장 Latin-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 키릴어 + 핀란드어 키릴어 + 프랑스어 키릴어 + 독일어 폴리톤 그리스어
EBCDIC 코드 페이지	37 EBCD의 일본어IC DKOI
DEC 단자(VTX)	다국어(MCS) National Replacement(NRCS) 프랑스계 캐나다인 스위스인 스페인어 영국 네덜란드어 핀란드어 프랑스어 노르웨이어 및 덴마크어 스웨덴어 노르웨이어 및 덴마크어(대체) 8비트 그리스어 8 비트 터키어 SI 960 히브리어 특수 그래픽스 테크니컬(TCS)
플랫폼 고유의	1057 도토리 Adobe Standard(Adobe Standard) 어도비 라틴어 1 암스트라드 CPC 애플 II ATASCII 아타리 ST BIOS Casio 계산기 CDC 콤푸콜라 II CP/M+ DEC 기수 50 DEC MCS/NRCS DG 인터내셔널 Fieldata 보석. GSM 03.38 HP 로마자 HP 포커셜 HP RPL 스퀴즈 LICS LMBCS MSX NEC APC 다음 분. 펫스키 세가 SC-3000 날카로운 계산기 샤프 MZ 싱클레어 QL 기호. 텔레텍스트 TI 계산기 TRS-80 Ventura International WISCII XCCS ZX80 ZX81 ZX 스펙트럼
Unicode/ISO/IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC GB 18030 BOCU-1 CESU-8 SCSU TACE16 Unicode 인코딩 비교
TeX 조판 시스템	코르크 마개 LY1 OML OMS OT1
기타 코드 페이지	아비콤프 ASMO 449 빅5 APL 기호의 디지털 부호화 ISO-IR-68 ARIB STD-B24 HZ IEC-P27-1 INIS 7비트 8비트 ISO-IR-169 ISO 2033 KOI KOI8-R KOI8-RU KOI8-U 모지쿄 바다 스탠포드/그것의. 트론 통일 한글 코드
제어 문자	모스 프로시그 C0 및 C1 제어 코드 ISO/IEC 6429 JIS X 0211 유니코드 제어, 형식 및 구분 문자 공백 문자
관련 토픽	CCSID HTML 문자 인코딩 Charset 검출 한통일 하드웨어 코드 페이지 MICR 코드 모지바케 가변 폭 부호화
문자 집합

Search

확장 UNIX 코드

네임스페이스

더

목차

부호화 구조

고정 폭 형식

EUC-CN

관련 중국 본토 부호화 시스템

748 코드

IBM 코드 페이지 1380, 1381, 1382 및 1383

GBK 및 GB 18030

Mac OS 중국어 간체

EUC-JP

관련 일본어 부호화 방식

DEC 한자

HP-16

IKIS

EBCD용 EUC-JP 적응IC

EUC-KR

관련 한글 부호화 시스템

통일 한글 코드

Mac OS 한국어(한글톡)

EUC-KP

EUC-TW

「」를 참조해 주세요.

메모들

레퍼런스

외부 링크

Search

확장 UNIX 코드

부호화 구조

고정 폭 형식

EUC-CN

관련 중국 본토 부호화 시스템

748 코드

IBM 코드 페이지 1380, 1381, 1382 및 1383

GBK 및 GB 18030

Mac OS 중국어 간체

EUC-JP

관련 일본어 부호화 방식

DEC 한자

HP-16

IKIS

EBCD용 EUC-JP 적응IC

EUC-KR

관련 한글 부호화 시스템

통일 한글 코드

Mac OS 한국어(한글톡)

EUC-KP

EUC-TW

「 」를 참조해 주세요.

메모들

레퍼런스

외부 링크

「」를 참조해 주세요.