CESU-8

UTF-16: 8비트(CESU-8)의 호환성 부호화 방식은 Unicode Technical Report #^[1]26에서 설명되고 있는 UTF-8의 변형입니다.기본 다국어 플레인(BMP)으로부터의 유니코드 코드 포인트, 즉 U+0000~U+FFF 범위의 코드 포인트는 UTF-8과 같은 방법으로 부호화된다.유니코드 보충 문자, 즉 U+10000~U+FF, First의 코드 포인트.F-8. 따라서 CESU-8은 Unicode 보조문자별로 6바이트(대리점당 3바이트)가 필요한데 UTF-8은 4바이트만 필요합니다.기술 보고서에는 명시되어 있지 않지만 페어링되지 않은 대용품은 각각3 바이트로 부호화되어 있습니다.CESU-8은 오래된 UCS-2 to UTF-8 컨버터를 UTF-16 데이터에 적용하는 것과 동일합니다.

Unicode 비BMP 문자의 부호화는 다음과 같이 동작합니다.11101101 1010yyyy 10xxxxxx 11101101 1011xxxx 10xxxxxx(yyyy는 문자에서 1을 뺀 상위5비트를 나타냅니다).바이트 값 0xF0~0xF4는 UTF-8에서 사용되는4 바이트 인코딩을 시작하기 때문에 CESU-8에는 표시되지 않습니다.

Unicode Technical Reports는 참고 자료일 ^[2]뿐이므로 CESU-8은 Unicode Standard의 공식 부분이 아닙니다.내부 처리에만 사용해야 하며 외부 데이터 교환에는 사용하지 않아야 합니다.

HTML 문서에서 CESU-8을 지원하는 것은 사이트 간 스크립팅 취약성이 ^[6]있기 때문에 W3C^[3]^[4] 및 WHATWG^[5] HTML 표준에서는 금지되어 있습니다.

Java의 Modified UTF-8은 CESU-8로, NUL 문자(U+0000)를 2바이트 시퀀스로서 특수한 오버롱 부호화 합니다.C0 80를 클릭합니다.^[7]

Oracle 데이터베이스는 "UTF8" 문자 집합에 CESU-8을 사용합니다.표준 UTF-8은 Oracle 버전 9.0 이후 문자 집합 "AL32UTF8"을 사용하여 얻을 수 있습니다.

예

코드 포인트	U+0045	U+0205		U+10400
성격	E	ȅ		𐐀
UTF-8	45	C8	85	F0		90		90		80
UTF-16	0045	0205		D801				DC00
CESU-8	45	C8	85	ED	A0		81	ED	B0		80

레퍼런스

^ McGowan, Rick. "Unicode Technical Report #26 - Compatibility Encoding Scheme for UTF-16: 8-Bit (CESU-8)". Unicode Consortium.
^ "About Unicode Technical Reports - Types of Unicode Technical Reports: UAX, UTS, UTR". Unicode Consortium.
^ "8.2.2.3. Character encodings". HTML 5.1 Standard. W3C.
^ "8.2.2.3. Character encodings". HTML 5 Standard. W3C.
^ "12.2.3.3 Character encodings". HTML Living Standard. WHATWG.
^ "<meta> - HTML". MDN Web Docs. Mozilla.
^ "Java SE documentation for Interface java.io.DataInput, subsection on Modified UTF-8". Oracle Corporation. 2015. Retrieved 2021-04-30.

외부 링크

유니코드

코드 포인트

성격.

특수 목적	BOM 조합 그래핀 접합자 왼쪽에서 오른쪽으로 표시/오른쪽에서 왼쪽으로 표시 소프트 하이픈 변종형 워드조이너 제로폭 조이너 제로 폭 비조이너 제로 폭 공간
리스트	성격. CJK 통합 한자 문자 결합 중복 문자 숫자 스크립트 스페이스 기호 반폭 및 전폭 에일리어스 이름 및 약어 공백 문자

처리.

알고리즘	양방향 텍스트 대조 ISO/IEC 14651 등가 변동 시퀀스 국제 한자 코어
비교	BOCU-1 CESU-8 푸니코드 SCSU UTF-1 UTF-7 UTF-8 UTF-16/UCS-2 UTF-32/UCS-4 UTF-EBCDIC

쌍으로
코드 포인트

사용.

관련 토픽

Unicode 스크립트 및 기호
공통 및 상속된 스크립트	조합 마크 분음 부호 구두점 공간 숫자
최신 스크립트	아드람 아랍어 아르메니아어 발리어 밤 바탁 벵골어 보포모포 점자 부히드 버마어 캐나다 원주민 차크마 참 체로키 CJK 통합 한자(한) 키릴 문자 디스렛 데바나가리 ge4ez 그루지야어 그리스어 구자라티 군잘라 곤디 구르무키 한글 하니피 로힝야 한자 하누누우 히브리어 히라가나 자바어 한자 칸나다 가타카나 리카야 크메르어 라오스 라틴어 렙차 림부 리수(프레이저) 론타라 말레이람 마사람 곤디 멘데 키카쿠이 메데파이드린 먀오(폴라드) 몽골어 무루 은코 신타이루 누슈 니아켄푸아추 흐몽 오디아 올치키 오스지 오스마냐 파후 흐몽 파우신하우 프라칼릿(뉴아) 란자나 리장 사마리아인 사우라슈트라 샤비안 신할라 소랑솜펑 순다어 시리아어 타반와 타이러 타이탐 타이베트 타밀어 탕사 텔루구 타나 태국어 티베트어 티피나 디르후타 토토 바이 완초 와랑시티 이
고대 및 역사 대본	옴 아나톨리아 상형 문자 고대 북아랍어 아베스탄 바사바 박수기 브라흐무 카리안 코카서스 알바니아어 콥트어 쐐기꼴 키프로스인 시프로미노아 다이브 아쿠루 도그라 이집트 상형 문자 엘바산 엘리메이크 글래골틱 고딕 양식 그란타 핫란 아람어 비문 팔라비 비문 파르티아어 카이티 카로스티 키탄 소문자 코지키 쿠다와디 흐와레즈미안 (코라스미안) 선형 A 선형 B 리시안 리디아어 마하자니 마카사르 만다어의 마니교 마르첸 미테이 마예크 메로이트 모디 멀티타니 나바테아어 난디나가리 오감 옛 헝가리어 구이탤릭체 구 Permic 고대 페르시아 쐐기형 올드 소그드어 올드 투르크어 위구르족 팔미렌 ② Pags-pa 페니키아인 팔라비 루닉 샤라다 시드햄 소그드어 남아랍어 소옴보 실헤티 나그리 타갈로그(바이바인) 탁리 탕구트 우가리트어 비츠쿠치 예지디 자나바자르 광장
알림 스크립트	듀페인 사인 쓰기
기호, 이모티콘	문화적, 정치적, 종교적 상징 통화 컨트롤 픽처스 수학적 연산자 및 기호 주제별 목록 음성 기호(IPA 포함) 이모티콘
카테고리:유니코드 카테고리:유니코드 블록

v t 문자 부호화
초기 통신	전신코드 바늘 모스 라틴어 이외의 와분/가나 중국인 키릴 문자 한국인입니다 보도와 머레이 Fieldata ASCII ISO/IEC 646 BCDIC 텔레텍스 및 비디오텍스/텔레텍스트 T.51/ISO/IEC 6937 ITU T.61 ITU T.101 월드 시스템 텔레텍스트 배경 놓다 트랜스코드
ISO/IEC 8859	승인된 부품 - 1 (서유럽) - 2 (중앙유럽) - 3 (말티즈/에스페란토) - 4 (북유럽) -5(키릴 문자) -6 (아랍어) -7(그리스어) -8 (헤브루) -9(터키어) -10 (노르딕) -11(태국) - 13 (발트어) -14 (셀틱) - 15 (신서유럽) -16(로마) 폐기 부품 - 12 (데바나가리) 제안되었지만 승인되지 않음 KOI-8 키릴 문자 사미 적응 웨일스어 바렌츠 키릴 문자 에스토니아어 우크라이나어 키릴 문자
서지학적 용도	MARC-8 앤젤 CCCI/EACC ISO 5426 5426-2 5427 5428 6438 6862
국가 표준	암SCII 브라스키 CNS 11643 DIN 66003 ELOT 927 GOST 10859 GB 2312 GB 12345 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KOI-7 KPS 9566 KS X 1001 KS X 1002 LST 1564 LST 1590-4 패스 시프트 JIS SI 960 TIS-620 TSCII 가시 SCSII YUSCII
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367 확장 UNIX 코드 / EUC
Mac OS 코드 페이지 ("구체")	아르메니아어 아랍어 바렌츠 키릴 문자 켈트족 중앙유럽어 크로아티아어 키릴 문자 데바나가리 Farsi(페르시아어) 글꼴 X(커밋) 게일어 그루지야어 그리스어 구자라티 구르무키 히브리어 아이슬란드 이누이트 키보드 라틴어(Kermit) 몰타/에스페란토 오감 로마인 루마니아어 사미 터키어 투르크어 키릴 문자 우크라이나어 VT100
DOS 코드 페이지	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1040 1042 1043 1046 1098 1115 1116 1117 1118 1127 3846 아비콤프 CS 인디케이터 CSX 표시기 CSX+ 표시기 CWI-2 이란 시스템 카메니쿠 마조비아 마이크
IBM AIX 코드 페이지	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1124 1133
Windows 코드 페이지	CER-GS 932 936 (GBK) 950 1169 확장 Latin-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 키릴어 + 핀란드어 키릴어 + 프랑스어 키릴어 + 독일어 폴리톤 그리스어
EBCDIC 코드 페이지	37 EBCD의 일본어IC DKOI
DEC 단자(VTX)	다국어(MCS) National Replacement(NRCS) 프랑스계 캐나다인 스위스인 스페인어 영국 네덜란드어 핀란드어 프랑스어 노르웨이어 및 덴마크어 스웨덴어 노르웨이어 및 덴마크어(대체) 8비트 그리스어 8 비트 터키어 SI 960 히브리어 특수 그래픽스 테크니컬(TCS)
플랫폼 고유의	1057 도토리 Adobe Standard(Adobe Standard) 어도비 라틴어 1 암스트라드 CPC 애플 II ATASCII 아타리 ST BIOS Casio 계산기 CDC 콤푸콜라 II CP/M+ DEC 기수 50 DEC MCS/NRCS DG 인터내셔널 Fieldata 보석. GSM 03.38 HP 로마자 HP 포커셜 HP RPL 스퀴즈 LICS LMBCS MSX NEC APC 다음 분. 펫스키 세가 SC-3000 날카로운 계산기 샤프 MZ 싱클레어 QL 기호. 텔레텍스트 TI 계산기 TRS-80 Ventura International WISCII XCCS ZX80 ZX81 ZX 스펙트럼
Unicode/ISO/IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC GB 18030 BOCU-1 CESU-8 SCSU TACE16 Unicode 인코딩 비교
TeX 조판 시스템	코르크 마개 LY1 OML OMS OT1
기타 코드 페이지	아비콤프 ASMO 449 빅5 APL 기호의 디지털 부호화 ISO-IR-68 ARIB STD-B24 HZ IEC-P27-1 INIS 7비트 8비트 ISO-IR-169 ISO 2033 KOI KOI8-R KOI8-RU KOI8-U 모지쿄 바다 스탠포드/그것의. 트론 통일 한글 코드
제어 문자	모스 프로시그 C0 및 C1 제어 코드 ISO/IEC 6429 JIS X 0211 유니코드 제어, 형식 및 구분 문자 공백 문자
관련 토픽	CCSID HTML 문자 인코딩 Charset 검출 한통일 하드웨어 코드 페이지 MICR 코드 모지바케 가변 폭 부호화
문자 집합

Search

네임스페이스

더

예

레퍼런스

외부 링크