통일 한글 코드
Unified Hangul Code![]() 통일 한글 코드 레이아웃 | |
에일리어스 | Windows 코드 페이지 949, IBM 코드 페이지 1363 |
---|---|
언어 | 한국인입니다 |
표준. | WHATWG 부호화 표준 ('EUC-KR')[1] |
분류 | 확장 ISO 646,[a] 가변 폭 부호화, CJK 부호화 |
확장 | EUC-KR |
기타 관련 부호화 | KPS 9566-2003, KPS 9566-2011 |
| |
통합 한글 코드(UHC)[2][a] 또는 확장 [4][b]완성은 Microsoft Windows에서 코드 페이지 949(Windows-949, MS949 또는 모호하게 CP949)로 알려진 한국어용 Microsoft Windows 코드 페이지입니다.완성코드(KS C 5601:1987, EUC-KR로 인코딩)를 확장한 것으로 조합(KS C 5601:1992 부속서 [4][2]3)에 존재하는 11172개의 비분할 한글 음절을 모두 포함하고 있다.이는 Unicode 2.0 이후에 사용 가능한 사전 구성 음절에 해당합니다.
완성코드는 자체 KS X 1001(KS C 5601) 코드포인트(전체 11172개 중 구식 자모를 사용하지 않음)를 가진 2350개의 사전작성 한글 음절에만 코드를 할당하고 일부 표준 구현에서는 지원하지 않는 8바이트 구성 시퀀스를 사용하도록 하는 단점이 있다.UHC는 KS X 1001에 사용되는 부호화 공간 외부에 할당함으로써 현대 자모를 사용하여 구성 가능한 모든 음절에 단일 코드를 할당함으로써 이 문제를 해결합니다.[5]
리드 바이트 범위가 0x81로 확장됩니다.FE 및 트레일 바이트 범위는 0x41-5A, 0x61-7A 및 0x81-로 확장됩니다.FE(EUC-KR에서는 양쪽 범위가 0xA1 ~)FE) 추가 [6]한글에는 EUC-KR 범위 밖의 코드가 사용됩니다.별도로 보면 EUC-KR 한글 블록과 UHC 확장 한글 섹션은 모두 유니코드 순서로 [1]되어 있습니다.
용어.
통합 한글 코드는 인터넷을 통한 정보 전달의 [7]표준으로 IANA에 등록되지 않았습니다.다른 방법으로는 UTF-8이 있습니다. 단, HTML5에서 사용되는 W3C/WHATWG 인코딩 규격은 통합 한글 코드 확장자를 "EUC-KR"[1]의 정의에 포함합니다.
Microsoft는 Windows-949에 "ks_c_5601-1987"[8][9]이라는 레이블을 할당하며, 이는 KS X 1001 자체에 적용됩니다(KS C 5601은 KS X 1001의 [10]원래 이름입니다).WHATWG는 라벨 "ks_c_5601-1987"을 "전개된 콘텐츠"[11]와 호환되도록 "EUC-KR"과 교환하여 취급합니다.Unicode Consortium의 "OBSOLETE/EASTAIA" 지도 모음에는 "KSC5601"로 통일 한글 코드 지도가 포함되어 있습니다.7비트 KS X 1001에 대해 자동으로 파생된 매핑이 포함된 TXT"를 "KSX1001"로 포함합니다.TXT"[12]를 클릭합니다.
IBM의 코드 페이지 949는 EUC-KR의 또 다른 관련 없는 확장입니다.ICU(International Components for Unicode)는 "cp949", "949" 또는 "ibm-949"를 사용하여 IBM 코드 [13]페이지를 나타내고 "ms949" 또는 "Windows-949"("ks_c_5601-1987"의 여러 변형"은 [14]UHC의 Windows 매핑을 나타냅니다.반면 Python은 "cp949", "949", "ms949" 및 "uhc"를 UHC의 레이블로 인식하며 IBM-949 [15]코덱을 포함하지 않습니다.코드 페이지 번호가 포함된 라벨 중 WHATWG는 "Windows-949"[11]만 인식합니다.
IBM의 통합 한글 코드 페이지는 코드 페이지 1363(IBM-1363) 또는 "Korean MS-Win"이라고 불립니다.SBCS 코드 페이지 1126과 DBCS 코드 페이지 1362의 [16][17][18][19][20]조합입니다.Windows는 ASCII와 같이 0x5C에서 U+005C([21][22][23]백슬래시의 유니코드 코드 포인트)에 0x5C의 단일 바이트 매핑을 사용하는 것과 다릅니다.단,[14] 글꼴은 여전히 Won [24]기호로 표시합니다.웨이브 대시의 유니코드 매핑(0xA1)AD) 또한 IBM 매핑이 U+301C를 선호하는 반면 Microsoft 매핑은 U+223C([25]Tilde Operator)[26]를 선호하는 것과 다릅니다.ICU에서는 IBM의 [27]UHC [21]매핑을 "ibm-1363"으로 사용할 수 있지만 ICU의 "windows-949" 코덱은 일부 ICU 소스 코드 주석에서는 IBM-1261로 지칭됩니다.
싱글 바이트 코드
다음은 IBM에서 정의한 코드 페이지의 단일 바이트 부분입니다.코드 페이지 437과 마찬가지로 제어 코드 바이트는 컨텍스트에 따라 제어 코드 또는 그래픽 코드로 사용될 수 있습니다. 그래픽 코드는 다음과 같습니다.Microsoft는 모든 ASCII 바이트에 대해 ASCII 매핑을 사용합니다.단, 백슬래시는 여전히 원 기호로 렌더링될 수 있습니다.
코드 페이지 1126[28][29][30][31] | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
0x | 없음 | ┌ | ┐ | └ | ┘ | │ | ─ | • | ◘ | ○ | ◙ | ♂ | ♀ | ♪ | ♫ | ☼ |
1배 | ┼ | ◄ | ↕ | ‼ | ┴ | ┬ | ┤ | ↑ | ├ | → | ← | ∟ | ↔ | ▲ | ▼ | |
2배 | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3배 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < > | = | > | ? |
4배 | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5배 | P | Q | R | S | T | U | V | W | X | Y | Z | [ | ₩ | ] | ^ | _ |
6배 | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7배 | p | q | r | s | t | u | v | w | x | y | z | { | } | ~ | ⌂ |
각주
레퍼런스
- ^ a b c van Kesteren, Anne, "5. Indexes (§ index EUC-KR)", Encoding Standard, WHATWG
- ^ a b "INFO: Hangul (Korean) Character Sets", Microsoft Support, Microsoft
- ^ "한글 코드에 대하여" (in Korean). W3C.
- ^ a b Zsigri, Gyula (2002-06-18). "KSC and UHC".
- ^ Shin, Jungshik. "What are KS X 1001(KS C 5601) and other Hangul codes?". Hangul & Internet in Korea FAQ.
- ^ Lunde, Ken (13 January 2009). "Appendix F: Vendor encoding Methods" (PDF). CJKV Information Processing (2nd ed.). O'Reilly Media. ISBN 978-0-596-51447-1.
- ^ "Character Sets". Iana.org. Retrieved 2017-01-11.
- ^ "Encoding.WindowsCodePage Property - .NET Framework (current version)". MSDN. Microsoft.
- ^ "Code Page Identifiers", Windows Dev Center, Microsoft
- ^ IBM; Unicode Consortium. "convrtrs.txt". International Components for Unicode. v. 59180.0.1.
<quote from="Jungshik Shin"> [...] using KS C 5601 or related names to denote EUC-KR or windows-949 is very much misleading [...] It's just the name of a 94 x 94 Korean coded character set standard which can be invoked on either GL (with MSB reset) or GR (with MSB set).
- ^ a b van Kesteren, Anne. "4.2. Names and labels". Encoding Standard. WHATWG.
- ^ Jungshik Shin. "KSX1001.TXT: KS X 1001 to Unicode table". Unicode, Inc.
- ^ "ibm-949_P110-1999 (alias cp949)", Converter Explorer, International Components for Unicode
- ^ a b "windows-949-2000", Converter Explorer, International Components for Unicode
- ^ "codecs — Codec registry and base classes § Standard Encodings". Python 3.7.2 documentation. Python Software Foundation.
- ^ "Coded character set identifiers - CCSID 1363", IBM Globalization, IBM, archived from the original on 2014-11-29
- ^ "Code page 1126 information document". Archived from the original on 2017-01-16.
- ^ "CCSID 1126 information document". Archived from the original on 2016-03-27.
- ^ "Code page 1362 information document". Archived from the original on 2016-03-17.
- ^ "CCSID 1362 information document". Archived from the original on 2016-03-27.
- ^ a b "ibm-1363", Converter Explorer, International Components for Unicode
- ^ Code Page CPGID 01126 (pdf) (PDF), IBM
- ^ Code Page CPGID 01126 (txt), IBM
- ^ Kaplan, Michael S. (2005-09-17), "When is a backslash not a backslash?", Sorting it all out
- ^ "ibm-1363_P110-1997 (lead byte A1)". ICU Demonstration - Converter Explorer. International Components for Unicode.
- ^ "windows-949-2000 (lead byte A1)". ICU Demonstration - Converter Explorer. International Components for Unicode.
- ^ 참조에 대해서는 ucnv_lmb.cpp(Brendan Murray, Jim Snyder-Grant)를 참조해 주십시오.여기서 리드 바이트 0x11은 다음 정의 후에 "한국어: ibm-1261"을 참조합니다.
ULMBCS_GRP_KO
에 매핑되어 있습니다."windows-949"
의 ICU 코덱OptGroupByteToCPName
파일 뒷부분에서 배열합니다. - ^ Code Page CPGID 01126 (pdf) (PDF), IBM
- ^ Code Page CPGID 01126 (txt), IBM
- ^ IBM-1363을 Unicode에 매핑하는 ICU 데모
- ^ IBM-1363C(ASCII 기반 바리안트)를 Unicode에 매핑하는 ICU 데모
외부 링크
- Microsoft Windows-949 레퍼런스
- IBM-1363에 대한 IBM 문서
- Windows-949에서 Unicode로의 매핑
- International Components for Unicode(ICU) 매핑파일: ibm-1363_P110-197.ucm, ibm-1363_P11B-1998.ucm 및 windows-949-2000.ucm
- Windows-949의 ICU 데모(ASCII 매핑 사용)
- IBM-1363용 ICU 데모(0x5C를 Won 기호로 표시)