범용 부호화 문자 집합

범용 부호화 문자 집합
에일리어스	UCS, Unicode
언어	국제
표준.	ISO/IEC 10646
인코딩 형식	UTF-8, UTF-16, GB 18030; 일반적이지 않음: UTF-32, BOCU, SCSU, UTF-7
선행	ISO/IEC 8859, ISO/IEC 2022, 기타 다양한 기능.
	v; t;

Universal Coded Character Set(UCS, Unicode)는 국제 표준 ISO/IEC 10646, 정보 기술 - Universal Coded Character Set(UCS; 유니버설 부호화 문자 세트)에 의해 정의되는 표준 문자 세트이며, 이는 많은 문자 인코딩의 기초가 되어 이전에 표현되지 않은 문자 수를 개선합니다.e가 추가되었습니다.

UCS에서는 110만 개 이상의 코드포인트를 사용할 수 있지만 2000년 이전에는 Basic Multilinguage Plane(BMP; 기본 다국어 플레인)이 공통으로 사용되고 있었습니다.이 상황은 2006년 중화인민공화국(PRC)이 관할구역에서 판매되는 모든 소프트웨어를 GB 18030을 지원해야 한다고 판결하면서 바뀌기 시작했습니다.이를 위해서는 BMP를 넘어서는 PRC에서의 판매를 목적으로 한 소프트웨어가 필요했습니다.

이 시스템은 의도적으로 많은 코드 포인트를 문자에 할당하지 않습니다.이것은, 장래의 확장을 가능하게 하거나 다른 부호화 형식과의 경합을 최소한으로 억제하기 위해서입니다.

UCS 정의 UTF-16의 원래 에디션(UCS-2의 확장판)은 BMP 외부의 코드 포인트를 나타냅니다.BMP의 S(Special) 존 내의 코드 포인트 범위는 문자에 할당되지 않은 상태로 유지됩니다.UCS-2에서는 이들 코드포인트에 대한 코드값 사용은 금지되지만 UTF-16에서는 쌍으로 사용할 수 있습니다.유니코드도 UTF-16을 채용하고 있습니다만, 유니코드 용어에서는 하이 하프 존 요소는 "high replaces"가 되고 로우 하프 존 요소는 "low replaces"^{[clarification needed]}가 됩니다.

또 다른 부호화 UTF-32(이전의 명칭 UCS-4)에서는, 코드 스페이스의 1 문자의 부호화에 4 바이트(합계 32 비트)를 사용합니다.따라서 UTF-32는 API 및 소프트웨어 어플리케이션 내의 모든 코드 포인트를 바이너리 형식으로 표현할 수 있습니다.

역사

국제표준화기구(ISO)는 1989년에 범용 문자 집합을 구성하기 시작했고 1990년에 ISO 10646의 초안을 발표했다.Hugh McGregor Ross는 그것의 주요 건축가 중 한 명이었다.그 기준은 현행 기준과 확연히 달랐다.정의:

128 그룹
256면
256행
256 셀,

총 2,147,483,648 문자의 경우 C0 및 C1 제어 코드(0x00 ~0x1F 및 0x80 ~0x9F, 16진수 표기)의 바이트 값이 셀, 플레인 행을 지정하는 4바이트 중 하나에 금지되어 있기 때문에 실제로는 표준에서는 679,477,248 문자만 코드화할 수 있습니다.예를 들어, 라틴 대문자 A는 그룹 0x20, 평면 0x20, 행 0x20, 셀 0x41에 위치합니다.

이 원시 ISO/IEC 10646 표준의 문자를 세 가지 방법 중 하나로 코드화할 수 있습니다.

UCS-4, 각 문자에 대해 4바이트, 모든 문자의 심플한 인코딩을 가능하게 합니다.
UCS-2(문자마다 2바이트).첫 번째 플레인 0x20(기본 다국어 플레인)의 인코딩을 유효하게 합니다.이 플레인에는 최초의 36,864개의 코데포인트가 포함되어 있습니다.또, ISO/IEC 2022 이스케이프 시퀀스를 사용해 다른 플레인 및 그룹이 스위칭 됩니다.
UTF-1. 길이가 다른 바이트의 시퀀스(1~5바이트, 각각 제어 코드 없음) 내의 모든 문자를 부호화합니다.

따라서 1990년에는 범용 문자 집합을 위한 두 가지 이니셔티브가 존재했다.각 문자(65,536 문자)에 대해 16비트를 사용하는 Unicode 및 ISO/IEC 10646.소프트웨어 회사들은 ISO 표준의 복잡성과 크기 요구사항을 수용하기를 거부했고,^{[citation needed]} 많은 ISO 국가 기구가 ISO 표준에 반대하도록 설득할 수 있었습니다.ISO 관계자들은 현재 상태로는 표준을 계속 지원할 수 없다는 것을 깨닫고 유니코드와의 표준 통합을 협상했다.두 가지 변화가 일어났다: 문자에 대한 제한 해제(제어 코드 값 금지), 할당을 위한 코드 포인트를 개방하고, 기본 다국어 플레인의 레퍼토리와 유니코드 레퍼토리의 동기화.

한편, 시간이 지남에 따라 Unicode 표준 자체에서 상황이 변화하여 65,536자가 불충분하게 표시되었으며 버전 2.0 이후부터는 UTF-16 대리 메커니즘을 통해 17개의 플레인에서 1,112,064개의 코드 포인트를 인코딩할 수 있게 되었습니다.따라서 ISO/IEC 10646은 UTF-16으로 인코딩할 수 있는 글자 수만큼만 제한되었으며, 6억7천900만자가 아닌 100만자를 조금 초과해서는 안 됩니다.ISO/IEC 10646의 UCS-4 인코딩은 UTF-16 범위로 제한되고 UTF-32라는 이름으로 Unicode 표준에 통합되었습니다.단, 프로그램의 내부 데이터 이외에서는 거의 사용되지 않습니다.

Plan 9 운영체제 설계자인 Rob Pike와 Ken Thompson은 UCS 부호화에서 가장 널리 사용되는 UTF-8이라고 불리는 ^[1]새로운 고속 혼합 폭 부호화를 고안했습니다.

유니코드와의 차이점

ISO/IEC 10646과 Unicode는 동일한 레퍼토리와 번호를 가지고 있습니다.Unicode는 새로운 버전을 출시하고 새로운 문자를 추가하는 빈도가 높지만, 두 표준 모두 동일한 번호를 가진 동일한 문자가 존재합니다.Unicode에는 ISO/IEC 10646의 적용범위를 벗어나는 규칙 및 사양이 있습니다.ISO/IEC 10646은 ISO/IEC 8859와 같은 이전 표준의 확장인 단순한 문자표입니다.이와는 대조적으로 Unicode는 아랍어나 히브리어와 같은 오른쪽에서 왼쪽으로의 스크립트에 대한 대조, 폼의 정규화 및 양방향 알고리즘을 추가합니다.플랫폼 간의 상호 운용성을 위해 특히 양방향 스크립트를 사용하는 경우 ISO/IEC 10646을 지원하는 것만으로는 부족합니다.Unicode를 실장해야 합니다.

이러한 규칙 및 알고리즘을 지원하기 위해 Unicode는 한 문자의 기본 양방향 클래스를 결정하는 속성 및 문자가 다른 문자와 결합하는 방법을 결정하는 속성 등 많은 속성을 집합의 각 문자에 추가합니다.문자가 유럽의 숫자 '8'이나 저속분수 'θ' 등의 숫자 값을 나타내는 경우에는 그 숫자 값도 문자의 속성으로 가산된다.Unicode는 이러한 속성을 여러 언어를 혼합하여 상호 운용 가능한 텍스트 처리를 지원합니다.

일부 응용 프로그램은 ISO/IEC 10646 문자를 지원하지만 Unicode를 완전히 지원하지 않습니다.이러한 애플리케이션 중 하나인 Xterm은 문자 대 문자 대 글리프^{[clarification needed]} 매핑과 단일 방향성을 가진 모든 ISO/IEC 10646 문자를 올바르게 표시할 수 있습니다.단순한 오버스트라이핑 방법으로 일부 결합 표시를 처리할 수 있지만 히브리어(양방향), 데바나가리(다수의 글리프에 한 문자) 또는 아랍어(둘 다 특징)를 표시할 수는 없습니다.대부분의 GUI 어플리케이션에서는 이러한 스크립트를 처리하는 표준 OS 텍스트 그리기 루틴을 사용합니다.단, 어플리케이션 자체가 항상 올바르게 처리되는 것은 아닙니다.

유니버설 코드 문자 집합 인용

ISO/IEC 10646 표준 패밀리에 대한 일반적인 비공식 인용문인 ISO/IEC 10646은 대부분의 산문에서 허용된다.또한 Unicode라는 용어는 별도의 표준이지만 UCS에 대해 논의할 때 비공식적으로 자주 사용됩니다.단, UCS에 대한 표준 참조는 ISO/IEC 10646:{year} 형식으로 발행 연도를 인용해야 합니다(예: ISO/IEC 10646:2014).

유니코드와의 관계

1991년 이후 유니코드 컨소시엄과 ISO/IEC는 유니코드 표준("유니코드")과 ISO/IEC 10646을 함께 개발했습니다.유니코드 버전 2.0의 레퍼토리, 문자 이름 및 코드 포인트는 ISO/IEC 10646-1:1993의 레퍼토리와 정확히 일치합니다.2000년 2월에 Unicode 3.0이 발행된 후 대응하는 새로운 문자 및 갱신된 문자가 ISO/IEC 10646-1:2000을 통해 UCS에 입력되었습니다.2003년에 ISO/IEC 10646의 파트 1과 파트 2가 단일 부품으로 통합되었으며, 이후 유니코드 표준과 거의 동기화하여 표준에 문자를 추가하는 많은 수정이 이루어졌습니다.

ISO/IEC 10646-1:1993 = 유니코드 1.1
ISO/IEC 10646-1:1993 + 수정 5 ~7 = 유니코드 2.0
ISO/IEC 10646-1:1993 + 수정판 5~7 = 수정판 18에 포함된 유로 기호 및 객체 대체 문자를 제외한 유니코드 2.1
ISO/IEC 10646-1:2000 = Unicode 3.0
ISO/IEC 10646-1:2000 및 ISO/IEC 10646-2:2001 = 유니코드 3.1
ISO/IEC 10646-1:2000 + 개정판 1 및 ISO/IEC 10646-2:2001 = 유니코드 3.2
ISO/IEC 10646:2003 = 유니코드 4.0
ISO/IEC 10646:2003 + 개정 1 = Unicode 4.1
ISO/IEC 10646:2003 및 수정안 1 ~2 = 수정안 3에 포함된 Devanagari 문자 GGA, JJA, DDDA 및 BBA를 제외한 유니코드 5.0
ISO/IEC 10646:2003 및 개정판 1~4 = 유니코드 5.1
ISO/IEC 10646:2003 및 개정판 1~6 = 유니코드 5.2
ISO/IEC 10646:2003 + 개정판 1~8 = ISO/IEC 10646:2011 = Unicode 6.0 (인도 루피 기호 제외)
ISO/IEC 10646:2012 = 유니코드 6.1
ISO/IEC 10646:2012 = 수정안 1에 포함된 터키 리라 부호를 제외한 유니코드 6.2
ISO/IEC 10646:2012 = 수정안 1에 포함된 터키 리라 부호를 제외한 유니코드 6.3과 수정안 2에 포함된 5개의 양방향 제어 문자(아랍 문자 표시, 왼쪽에서 오른쪽으로 분리, 오른쪽에서 왼쪽으로 분리, 첫 번째 강력한 분리, 팝 방향 분리)
ISO/IEC 10646:2012 + 수정안 1 및 2 = 루블 기호를 제외한 유니코드 7.0
ISO/IEC 10646:2014 + 개정판 1 = Unicode 8.0(Lari 기호 제외), CJK 통합 한자 9개, 이모티콘 문자 41개
ISO/IEC 10646:2014 + 수정안 1 및 2 = Unicode 9.0(Adlam, Newa, 일본어 TV 기호 및 74개의 이모티콘 및 기호 제외)
ISO/IEC 10646:2017 = Unicode 10.0 (285 Hentaigana 문자, 3 Zanabazar Square 문자, 56개의 이모티콘 기호 제외)
ISO/IEC 10646:2017 + 수정안 1 = Unicode 11.0 (46 Mtavruli 그루지야 대문자, 5개의 CJK 통합 한자 및 66개의 이모티콘 문자 제외)
ISO/IEC 10646:2017 + 수정안 1 및 2 = 유니코드 12.0 (62자 추가 제외)
ISO/IEC 10646: 명령어 = 유니코드 13.0
ISO/IEC 10646: 명령어 = Unicode 14.0

「」를 참조해 주세요.

메모들

레퍼런스

^ Pike, Rob (2003-04-03). "UTF-8 history". Archived from the original on 2016-05-23.

외부 링크

공개 표준(ISO) – ISO 10646:2014(129MB ZIP 파일, 2014-09-01 출시) 및 전자 인서트(1.7MB ZIP 파일) 사본 포함
ISO/IEC JTC1/SC2/WG2, ISO 10646 담당 작업 그룹
UTF-8 및 Unicode FAQ
SIL의 프리웨어 글꼴, 에디터 및 문서
웹 브라우저와 글꼴 기능을 테스트하는 단순하지만 쾌적한 UTF-8 예시.
1989년 10월부터 ADA 9x의 문자 집합이 발행되었습니다.원래의 합병전의 DIS ISO-10646에 대해 자세하게 설명합니다.

[Pike_2003-1] Pike, Rob (2003-04-03). "UTF-8 history". Archived from the original on 2016-05-23.

[1]

v t 문자 부호화
초기 통신	전신코드 바늘 모스 라틴어 이외의 와분/가나 중국인 키릴 문자 한국인입니다 보도와 머레이 Fieldata ASCII ISO/IEC 646 BCDIC 텔레텍스 및 비디오텍스/텔레텍스트 T.51/ISO/IEC 6937 ITU T.61 ITU T.101 월드 시스템 텔레텍스트 배경 놓다 트랜스코드
ISO/IEC 8859	승인된 부품 - 1 (서유럽) - 2 (중앙유럽) - 3 (말티즈/에스페란토) - 4 (북유럽) -5(키릴 문자) -6 (아랍어) -7(그리스어) -8 (헤브루) -9(터키어) -10 (노르딕) -11(태국) - 13 (발트어) -14 (셀틱) - 15 (신서유럽) -16(로마) 폐기 부품 - 12 (데바나가리) 제안되었지만 승인되지 않음 KOI-8 키릴 문자 사미 적응 웨일스어 바렌츠 키릴 문자 에스토니아어 우크라이나어 키릴 문자
서지학적 용도	MARC-8 앤젤 CCCI/EACC ISO 5426 5426-2 5427 5428 6438 6862
국가 표준	암SCII 브라스키 CNS 11643 DIN 66003 ELOT 927 GOST 10859 GB 2312 GB 12345 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KOI-7 KPS 9566 KS X 1001 KS X 1002 LST 1564 LST 1590-4 패스 시프트 JIS SI 960 TIS-620 TSCII 가시 SCSII YUSCII
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367 확장 UNIX 코드 / EUC
Mac OS 코드 페이지 ("구체")	아르메니아어 아랍어 바렌츠 키릴 문자 켈트족 중앙유럽어 크로아티아어 키릴 문자 데바나가리 Farsi(페르시아어) 글꼴 X(커밋) 게일어 그루지야어 그리스어 구자라티 구르무키 히브리어 아이슬란드 이누이트 키보드 라틴어(Kermit) 몰타/에스페란토 오감 로마인 루마니아어 사미 터키어 투르크어 키릴 문자 우크라이나어 VT100
DOS 코드 페이지	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1040 1042 1043 1046 1098 1115 1116 1117 1118 1127 3846 아비콤프 CS 인디케이터 CSX 표시기 CSX+ 표시기 CWI-2 이란 시스템 카메니쿠 마조비아 마이크
IBM AIX 코드 페이지	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1124 1133
Windows 코드 페이지	CER-GS 932 936 (GBK) 950 1169 확장 Latin-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 키릴어 + 핀란드어 키릴어 + 프랑스어 키릴어 + 독일어 폴리톤 그리스어
EBCDIC 코드 페이지	37 EBCD의 일본어IC DKOI
DEC 단자(VTX)	다국어(MCS) National Replacement(NRCS) 프랑스계 캐나다인 스위스인 스페인어 영국 네덜란드어 핀란드어 프랑스어 노르웨이어 및 덴마크어 스웨덴어 노르웨이어 및 덴마크어(대체) 8비트 그리스어 8 비트 터키어 SI 960 히브리어 특수 그래픽스 테크니컬(TCS)
플랫폼 고유의	1057 도토리 Adobe Standard(Adobe Standard) 어도비 라틴어 1 암스트라드 CPC 애플 II ATASCII 아타리 ST BIOS Casio 계산기 CDC 콤푸콜라 II CP/M+ DEC 기수 50 DEC MCS/NRCS DG 인터내셔널 Fieldata 보석. GSM 03.38 HP 로마자 HP 포커셜 HP RPL 스퀴즈 LICS LMBCS MSX NEC APC 다음 분. 펫스키 세가 SC-3000 날카로운 계산기 샤프 MZ 싱클레어 죽음이다 기호. 문자 다중 방송 TI 계산기 라디오 벤투라 국제 WISCII XCCS ZX80 ZX81 ZX스펙트럼
Unicode/ISO/IEC 10646	UTF-1 UTF-7 UTF-8 16 UTF-32 UTF-EBCDIC GB 18030 BOCU-1 CESU-8 SCSU TACE16 Unicode 인코딩 비교
TeX 조판 시스템	코르크 마개 LY1 OML OMS OT1
기타 코드 페이지	아비콤프 ASMO 449 빅5 APL 기호의 디지털 부호화 ISO-IR-68 ARIB STD-B24 HZ IEC-P27-1 INIS 7비트 8비트 ISO-IR-169 ISO 2033 KOI KOI8-R KOI8-RU KOI8-U 모지쿄 바다 스탠포드/그것의. 트론 통일 한글 코드
제어 문자	모스 프로시그 C0 및 C1 제어 코드 ISO/IEC 6429 JIS X 0211 유니코드 제어, 형식 및 구분 문자 공백 문자
관련 토픽	CCSID HTML 문자 인코딩 Charset 검출 한통일 하드웨어 코드 페이지 MICR 코드 모지바케 가변 폭 부호화
문자 집합

v t ISO 표준표준번호로
ISO 표준 / ISO 로마자 / IEC 표준 목록
1–9999	1 2 3 4 5 6 7 9 16 17 31 -0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -12 -13 68-1 128 216 217 226 228 233 259 261 262 269 302 306 361 428 500 518 519 639 -1 -2 -3 -5 -6 646 657 668 690 704 732 764 838 843 860 898 965 999 1000 1004 1007 1073-1 1073-2 1155 1413 1538 1629 1745 1989 2014 2015 2022 2033 2047 2108 2145 2146 2240 2281 2533 2709 2711 2720 2788 2848 2852 3029 3103 3166 -1 -2 -3 3297 3307 3601 3602 3864 3901 3950 3977 4031 4157 4165 4217 4909 5218 5426 5427 5428 5725 5775 5776 5800 5807 5964 6166 6344 6346 6385 6425 6429 6438 6523 6709 6943 7001 7002 7010 7027 7064 7098 7185 7200 7498 -1 7637 7736 7810 7811 7812 7813 7816 7942 8000 8093 8178 8217 8373 8501-1 8571 8583 8601 8613 8632 8651 8652 8691 8805/8806 8807 8820-5 8859 -1 -2 -3 -4 -5 -6 -7 -8 -8-I -9 -10 -11 -12 -13 -14 -15 -16 8879 9000/9001 9036 9075 9126 9141 9227 9241 9293 9314 9362 9407 9496 9506 9529 9564 9592/9593 9594 9660 9797-1 9897 9899 9945 9984 9985 9995
10000–19999	10005 10006 10007 10116 10118-3 10160 10161 10165 10179 10206 10218 10303 -11 -21 -22 -28 -238 10383 10487 10585 10589 10628 10646 10664 10746 10861 10957 10962 10967 11073 11170 11179 11404 11544 11783 11784 11785 11801 11889 11898 11940(-2) 11941 11941 (TR) 11992 12006 12182 12207 12234-2 12620 13211 -1 -2 13216 13250 13399 13406-2 13450 13485 13490 13567 13568 13584 13616 13816 14000 14031 14224 14289 14396 14443 14496 -2 -3 -6 -10 -11 -12 -14 -17 -20 14617 14644 14649 14651 14698 14764 14882 14971 15022 15189 15288 15291 15292 15398 15408 15444 -3 15445 15438 15504 15511 15686 15693 15706 -2 15707 15897 15919 15924 15926 15926 WIP 15930 16023 16262 16355-1 16485 16612-2 16750 16949 (TS) 17024 17025 17100 17203 17369 17442 17506 17799 18000 18004 18014 18245 18629 18916 19005 19011 19092 -1 -2 19114 19115 19125 19136 19407 19439 19500 19501 19502 19503 19505 19506 19507 19508 19509 19510 19600 19752 19757 19770 19775-1 19794-5 19831
20000–29999	20000 20022 20121 20400 20802 21000 21047 21500 21827 22000 22300 22395 23090-3 23270 23271 23360 24517 24613 24617 24707 25178 25964 26000 26262 26300 26324 27000 시리즈 27000 27001 27002 27005 27006 27729 28000 29110 29148 29199-2 29500
30000+	30170 31000 32000 37001 38500 40500 42010 45001 50001 55000 56000 80000
카테고리

v t IEC표준
IEC표준	60027 60034 60038 60062 60063 60068 60112 60228 60269 60297 60309 60320 60364 60446 60559 60601 60870 60870-5 60870-6 60906-1 60908 60929 60958 61030 61131 61131-3 61131-9 61158 61162 61334 61355 61360 61400 61499 61508 61511 61784 61850 61851 61883 61960 61968 61970 62014-4 62026 62056 62061 62196 62262 62264 62304 62325 62351 62365 62366 62379 62386 62455 62680 62682 62700 63110 63119 63382
/IEC표준	646 2022 4909 5218 6429 6523 7810 7811 7812 7813 7816 7942 8613 8632 8652 8859 9126 9293 9496 9529 9592 9593 9899 9945 9995 10021 10116 10165 10179 10646 10967 11172 11179 11404 11544 11801 12207 13250 13346 13522-5 13568 13816 13818 14443 14496 14651 14882 15288 15291 15408 15444 15445 15504 15511 15693 15897 15938 16262 16485 17024 17025 18000 18004 18014 19752 19757 19770 19788 20000 20802 21000 21827 23000 23003 23008 23270 23360 24707 24727 24744 24752 26300 27000 27000-series 27002 27040 29110 29119 33001 38500 42010 80000 81346
관련된	국제 전자 기술 위원회

Search

범용 부호화 문자 집합

네임스페이스

더

목차

역사

유니코드와의 차이점

유니버설 코드 문자 집합 인용

유니코드와의 관계

「」를 참조해 주세요.

메모들

레퍼런스

외부 링크

Search

범용 부호화 문자 집합

역사

유니코드와의 차이점

유니버설 코드 문자 집합 인용

유니코드와의 관계

「 」를 참조해 주세요.

메모들

레퍼런스

외부 링크

「」를 참조해 주세요.