UTF-7

UTF-7
언어	국제
표준.	RFC 2152
분류	Unicode Transformation Format, ASCII Armor, 가변폭 부호화, 스테이트풀 부호화
변환/인코딩	ISO/IEC 10646(유니코드)
선행	HZ-GB-2312
에 의해 성공자	UTF-8 over 8BITIME
	v; t;

UTF-7(7-bit Unicode Transformation Format)은 ASCII 문자 스트림을 사용하여 Unicode 텍스트를 나타내기 위한 오래된 가변 길이 문자 인코딩입니다.원래는 UTF-8과 따옴표 인쇄 가능을 조합하는 것보다 효율적인 인터넷 전자 메일메시지로 사용하기 위한 Unicode 텍스트 인코딩 수단을 제공하기 위한 것입니다.

UTF-7(RFC에 따르면)은 BMP(이모지와 많은 다른 문자를 포함하지 않는 최초의 65536 유니코드 코드 포인트)의 코드 포인트만 인코딩할 수 있기 때문에 "유니코드 변환 포맷"이 아닙니다.단, UTF-7 트랜슬레이터가 UTF-16으로 송수신하는 경우, 각 대행의 절반을 16비트코드 포인트인 것처럼 부호화할 수 있기 때문에, 모든 코드 포인트를 부호화할 수 있습니다.다른 UTF-7 소프트웨어(UTF-32 또는 UTF-8로의 변환기 등)가 이것을 서포트하고 있는지는 불명확합니다.

UTF-7은 유니코드 컨소시엄의 공식 표준이 된 적이 없습니다.보안 문제가 있는 것으로 알려져 ^[1]있기 때문에 소프트웨어를 사용하지 않도록 변경했습니다.HTML ^[2]^[3]5에서는 금지되어 있습니다.

동기

MIME은 E-메일 포맷의 최신 표준으로 ASCII 범위보다 큰 바이트 값을 사용하여 헤더를 인코딩하는 것을 금지하고 있습니다.MIME 에서는, 다양한 문자 세트(ASCII 보다 넓은 범위)로 메시지 본문을 부호화할 수 있습니다만, 기반이 되는 전송 인프라스트럭처(SMTP, 메인 전자 메일 전송 규격)는, 8 비트의 클린은 보증되지 않습니다.따라서 의심스러운 경우 중요하지 않은 콘텐츠 전송 인코딩을 적용해야 합니다.유감스럽게도 base64에는 MIME 이외의 클라이언트에서는 US-ASCII 문자조차 읽을 수 없게 되는 단점이 있습니다.한편, UTF-8과 따옴표 인쇄 가능을 조합하면, 비ASC에서는 6 ~9 바이트의 사이즈가 매우 비효율적인 포맷이 됩니다.BMP로부터의 II 문자, BMP 이외의 문자의 12 바이트.

부호화 중에 특정 규칙을 따르는 경우 기본 MIME 전송 부호화를 사용하지 않고 UTF-7을 이메일로 전송할 수 있지만 텍스트 문자 세트로 명시적으로 식별해야 합니다.또, 「Subject:」등의 전자 메일 헤더내에서 사용하는 경우는, 문자 세트를 식별하는 MIME 부호화 워드에 UTF-7 를 포함할 필요가 있습니다.인코딩된 단어는 따옴표 인쇄 가능 또는 base64를 사용하도록 강제하기 때문에 UTF-7은 따옴표 인쇄 가능(또는 헤더의 변형인 RFC 2047/1522 ?Q?-encoding)과 결합될 때 = 기호를 이스케이프 문자로 사용하지 않도록 설계되었습니다.

UTF-7은 처리하기가 매우 어렵기 때문에 일반적으로 응용 프로그램 내에서 네이티브 표현으로 사용되지 않습니다.UTF-8을 인용 인쇄 가능 또는 base64와 조합하는 것보다 크기 면에서 유리하지만 현재는 폐지된 Internet Mail Consortium은 사용을 ^[4]권장하지 않습니다.

8BITMIME도 도입되어 메시지 본문을 7비트 형식으로 인코딩할 필요가 없어졌습니다.

UTF-7('^[5]mUTF-7'^{[citation needed]}이라고도 함)의 수정된 형식이 현재 IMAP 전자 메일 검색 프로토콜에서 우편함 이름에 사용됩니다.

묘사

UTF-7은 RFC 1642 "A Mail-Safe Transformation Format of Unicode"에서 실험 프로토콜로 처음 제안되었습니다.이 RFC는 표준이 된 적이 없는 정보 RFC인 RFC 2152에 의해 폐지되었습니다.RFC 2152가 명확하게 기술하고 있듯이 RFC는 "어떤 종류의 인터넷 표준도 규정하지 않는다"고 되어 있습니다.그럼에도 불구하고 RFC 2152는 IANA의 문자 목록에서 UTF-7의 정의로 인용되고 있습니다.UTF-7도 Unicode 표준이 아닙니다.Unicode Standard 5.0에는 UTF-8, UTF-16 및 UTF-32만 기재되어 있습니다.또, RFC 2060에 규정되어 있는 수정판도 있습니다.이 버전은 UTF-7로 식별되는 경우가 있습니다.

일부 문자는 단일 ASCII 바이트로 직접 표시할 수 있습니다.첫 번째 그룹은 "다이렉트 문자"로 알려져 있으며 62개의 영숫자와 9개의 기호를 포함합니다.' ( ) , - . / : ?. 직접 문자는 문자 그대로 포함해도 안전합니다."옵션 직접 문자"로 알려진 다른 주 그룹에는 U+0020 범위의 다른 모든 인쇄 가능한 문자가 포함됩니다.U+007E 제외~ \ +및 공백(문자)\그리고.~JIS-Roman과 같은 "ASCII 변수"에서 재정의되어 제외됩니다.옵션인 직접 문자를 사용하면 크기가 작아지고 사람의 가독성이 향상되지만 잘못 설계된 메일 게이트웨이와 같은 것으로 인해 파손될 가능성이 높아지며 헤더 필드에 인코딩된 단어로 사용할 경우 추가적인 이스케이프가 필요할 수 있습니다.

공간, 탭, 캐리지 리턴 및 라인 피드는 단일 ASCII 바이트로 직접 표시할 수도 있습니다.단, 인코딩된 텍스트를 전자 메일에서 사용하는 경우 이러한 문자가 전자 메일에 적합하도록 더 이상의 콘텐츠 전송 인코딩을 필요로 하지 않는 방식으로 사용되도록 주의해야 합니다.플러스 기호(+)는 다음과 같이 부호화할 수 있습니다.+-.

그 외의 문자는 UTF-16으로 부호화(따라서 U+10000 이후는 2개의 대용 문자로 부호화), 그 후 변경된 Base64로 부호화해야 합니다.변경된 Base64 부호화 UTF-16 블록의 시작은+부호. 끝은 수정된 Base64 세트에 포함되지 않은 문자로 표시됩니다.변경된 Base64 뒤의 문자가-(ASCII 하이픈 마이너스) 디코더에 의해 소비되어 다음 문자부터 디코딩이 재개됩니다.그렇지 않으면 디코딩은 base64 뒤에 나오는 문자와 함께 재개됩니다.

예

"Hello, World!"는 " 로 인코딩됩니다.Hello, World+ACE-"
"1 + 1 = 2"는 " 로 인코딩됩니다.1 +- 1 +AD0- 2"
"£1"는 " 로 인코딩됩니다.+AKM-1". 파운드 기호의 Unicode 코드 포인트는 U+00A3로, 아래 표와 같이 Base64로 변환됩니다.0으로 패딩된 두 개의 비트가 남아 있습니다.

16진수	0				0				A				3
비트 패턴	0	0	0	0	0	0	0	0	1	0	1	0	0	0	1	1	0	0
색인	0						10						12
Base64-인코딩	A						K						M

부호화 및 복호화 알고리즘

부호화

먼저 인코더는 ASCII 형식으로 직접 표시할 문자를 결정해야 합니다.+로서 벗어나야 한다.+-및 Unicode 문자 블록에 배치해야 합니다.UTF-7의 확장 비용은 높을 수 있습니다.예를 들어 UTF-8에서는 U+10FFF U+0077 U+10FFF의 문자 시퀀스는 9바이트이지만 UTF-7에서는 17바이트입니다(최악의 경우 각 코데포인트를 자신의 오른쪽 시퀀스로 취급하면 최대 5g의 부호화가 발생합니다).@@~하듯이+AEA-+AEA-각 Unicode 시퀀스는 다음 절차에 따라 인코딩한 후 적절한 구분 기호로 둘러싸야 합니다.

£ （ U + 00A3 U + 2020 ）문자 시퀀스를 예로 사용합니다.

캐릭터의 유니코드 번호(UTF-16)를 바이너리로 나타냅니다.
- 0x00A3 → 0000 0000 1010 0011
- 0x2020 → 0010 0000 0010 0000
이진 시퀀스를 연결합니다.
0000 0000 1010 0011 and 0010 0000 0010 0000 → 0000 0000 1010 0011 0010 0000 0010 0000
왼쪽부터 시작하여 바이너리를 6비트 그룹으로 다시 묶습니다.
0000 0000 1010 0011 0010 0000 0010 0000 → 000000 001010 001100 100000 001000 00
마지막 그룹의 비트 수가 6비트 미만일 경우 후행 0을 추가합니다.
000000 001010 001100 100000 001000 00 → 000000 001010 001100 100000 001000 000000
6비트의 각 그룹을 각각의 Base64 코드로 바꿉니다.
000000 001010 001100 100000 001000 000000 → AKMgIA

디코딩

먼저 부호화된 데이터는 설명 섹션에서 설명한 대로 플레인 ASCII 텍스트 청크(+e 뒤에 대시 포함)와 비어 있지 않은 Unicode 블록으로 구분해야 합니다.이 처리가 완료되면 다음 절차에 따라 각 Unicode 블록을 디코딩해야 합니다(위의 인코딩 예시를 사용).

각 Base64 코드를 나타내는 비트시퀀스로 나타냅니다.
AKMgIA → 000000 001010 001100 100000 001000 000000
왼쪽부터 시작하여 바이너리를 16비트 그룹으로 다시 묶습니다.
000000 001010 001100 100000 001000 000000 → 0000000010100011 0010000000100000 0000
끝에 0만을 포함하는 불완전한 그룹이 있는 경우 해당 그룹을 폐기합니다(완전한 그룹에 1이 포함되어 있는 경우 코드는 유효하지 않습니다).
0000000010100011 0010000000100000
16비트의 각 그룹은 문자의 Unicode(UTF-16) 번호이며, 다른 형식으로 나타낼 수 있습니다.
0000 0000 1010 0011 ≡ 0x00A3 ≡ 163₁₀

바이트 순서 표시

바이트 순서 마크(BOM)는 스트림 또는 파일의 맨 앞에 있는 옵션의 특수 바이트 시퀀스이며, 데이터 자체가 아니라 후속 데이터에 사용되는 인코딩을 나타냅니다. 인코딩을 나타내는 메타데이터가 없는 경우에도 사용할 수 있습니다.특정 인코딩 스킴에 대해 유니코드 코드 포인트의 스킴의 표현입니다.U+FEFF를 클릭합니다.^[6]

UTF-7에서는 일반적으로 1개의 고정 바이트시퀀스이지만 UTF-7 인코딩의 4번째 바이트의 마지막 2비트가 나타나기 때문에 4가지 변형이 나타날 수 있습니다.U+FEFF는 다음 문자에 속하므로 4개의 비트패턴이 발생하며, 따라서 4번째 위치에 4개의 다른 바이트가 발생하게 됩니다.Unicode 바이트 순서 ^[7]마크의 표의 UTF-7 엔트리를 참조해 주세요.

보안.

UTF-7 에서는, 같은 송신원스트링을 복수 표현할 수 있습니다.특히 ASCII 문자는 Unicode 블록의 일부로 나타낼 수 있습니다.따라서 표준 ASCII 기반 이스케이프 또는 검증 프로세스를 나중에 UTF-7로 해석할 수 있는 문자열로 사용할 경우 Unicode 블록을 사용하여 악의적인 문자열을 슬립할 수 있습니다.이 문제를 완화하려면 검증 전에 디코딩을 실행하여 UTF-7 자동검출을 피해야 합니다.

이전 버전의 Internet Explorer는 UTF-7로 페이지를 해석하도록 속일 수 있습니다.이는 사이트 간 스크립팅 공격에 사용할 수 있습니다.<그리고.>마크는 로 부호화할 수 있습니다.+ADw-그리고.+AD4-UTF-7에서는 대부분의 검증자가 단순한 ^[8]텍스트로 통과시킵니다.

UTF-7은 적어도 Microsoft 소프트웨어(.)에서는 사용되지 않는 것으로 간주됩니다.(보안 문제를 방지하기 위해) 이전에 코드 경로를 지원했던 NET)을 참조해당 코드 패스는 보안 문제를 방지하기 위해 의도적으로 파손되었습니다.NET 5, ^[1]2020년

레퍼런스

^ ^a ^b "Breaking change: UTF-7 code paths are obsolete". docs.microsoft.com. Retrieved 8 January 2021.
^ "8.2.2.3. Character encodings". HTML 5.1 Standard. W3C.
^ "12.2.3.3 Character encodings". HTML Living Standard. WHATWG.
^ "Using International Characters in Internet Mail". Internet Mail Consortium. 1 August 1998. Archived from the original on 7 September 2015.
^ RFC 3501 섹션 5.1.3
^ "FAQ – UTF-8, UTF-16, UTF-32 & BOM".
^ https://unicode.org/L2/L2021/21038-bom-guidance.pdf^{[베어 URL PDF]}
^ "ArticleUtf7 - doctype-mirror - UTF-7: the case of the missing charset - Mirror of Google Doctype - Google Project Hosting". 14 October 2011. Retrieved 29 June 2012.

「」를 참조해 주세요.

Unicode 인코딩 비교

[dotnet5-1] "Breaking change: UTF-7 code paths are obsolete". docs.microsoft.com. Retrieved 8 January 2021.

[html51-2] "8.2.2.3. Character encodings". HTML 5.1 Standard. W3C.

[html5living-3] "12.2.3.3 Character encodings". HTML Living Standard. WHATWG.

[4] "Using International Characters in Internet Mail". Internet Mail Consortium. 1 August 1998. Archived from the original on 7 September 2015.

[5] RFC 3501 섹션 5.1.3

[6] "FAQ – UTF-8, UTF-16, UTF-32 & BOM".

[7] ttps://unicode.org/L2/L2021/21038-bom-guidance.pdf^{[베어 URL PDF]}

[8] "ArticleUtf7 - doctype-mirror - UTF-7: the case of the missing charset - Mirror of Google Doctype - Google Project Hosting". 14 October 2011. Retrieved 29 June 2012.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

v t 문자 부호화
초기 통신	전신코드 바늘 모스 라틴어 이외의 와분/가나 중국인 키릴 문자 한국인입니다 보도와 머레이 Fieldata ASCII ISO/IEC 646 BCDIC 텔레텍스 및 비디오텍스/텔레텍스트 T.51/ISO/IEC 6937 ITU T.61 ITU T.101 월드 시스템 텔레텍스트 배경 놓다 트랜스코드
ISO/IEC 8859	승인된 부품 - 1 (서유럽) - 2 (중앙유럽) - 3 (말티즈/에스페란토) - 4 (북유럽) -5(키릴 문자) -6 (아랍어) -7(그리스어) -8 (헤브루) -9(터키어) -10 (노르딕) -11(태국) - 13 (발트어) -14 (셀틱) - 15 (신서유럽) -16(로마) 폐기 부품 - 12 (데바나가리) 제안되었지만 승인되지 않음 KOI-8 키릴 문자 사미 적응 웨일스어 바렌츠 키릴 문자 에스토니아어 우크라이나어 키릴 문자
서지학적 용도	MARC-8 앤젤 CCCI/EACC ISO 5426 5426-2 5427 5428 6438 6862
국가 표준	암SCII 브라스키 CNS 11643 DIN 66003 ELOT 927 GOST 10859 GB 2312 GB 12345 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KOI-7 KPS 9566 KS X 1001 KS X 1002 LST 1564 LST 1590-4 패스 시프트 JIS SI 960 TIS-620 TSCII 가시 SCSII YUSCII
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367 확장 UNIX 코드 / EUC
Mac OS 코드 페이지 ("구체")	아르메니아어 아랍어 바렌츠 키릴 문자 켈트족 중앙유럽어 크로아티아 키릴 문자 데바나가리 Farsi(페르시아어) 글꼴 X(커밋) 게일어 그루지야어 그리스어 구자라티 구르무키 히브리어 아이슬란드 이누이트 키보드 라틴어(Kermit) 몰타/에스페란토 오감 로마인 루마니아 사미 터키어 투르크어 키릴 문자 우크라이나어 VT100
DOS 코드 페이지	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1040 1042 1043 1046 1098 1115 1116 1117 1118 1127 3846 아비콤프 CS 인디케이터 CSX 표시기 CSX+ 표시기 CWI-2 이란 시스템 카메니쿠 마조비아 마이크
IBM AIX 코드 페이지	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1124 1133
Windows 코드 페이지	CER-GS 932 936 (GBK) 950 1169 확장 Latin-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 키릴어 + 핀란드어 키릴어 + 프랑스어 키릴어 + 독일어 폴리톤 그리스어
EBCDIC 코드 페이지	37 EBCD의 일본어IC DKOI
DEC 단자(VTX)	다국어(MCS) National Replacement(NRCS) 프랑스계 캐나다인 스위스인 스페인어 영국 네덜란드어 핀란드 프랑스어 노르웨이어 및 덴마크어 스웨덴 노르웨이어 및 덴마크어(대체) 8비트 그리스어 8 비트 터키어 SI 960 히브리어 특수 그래픽스 테크니컬(TCS)
플랫폼 고유의	1057 도토리 Adobe Standard(Adobe Standard) 어도비 라틴어 1 암스트라드 CPC 애플 II ATASCII 아타리 ST BIOS Casio 계산기 CDC 콤푸콜라 II CP/M+ DEC 기수 50 DEC MCS/NRCS DG 인터내셔널 Fieldata 보석. GSM 03.38 HP 로마자 HP 포커셜 HP RPL 스퀴즈 LICS LMBCS MSX NEC APC 다음 분. 펫스키 세가 SC-3000 날카로운 계산기 샤프 MZ 싱클레어 QL 기호. 텔레텍스트 TI 계산기 TRS-80 Ventura International WISCII XCCS ZX80 ZX81 ZX 스펙트럼
Unicode/ISO/IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC GB 18030 BOCU-1 CESU-8 SCSU TACE16 Unicode 인코딩 비교
TeX 조판 시스템	코르크 마개 LY1 OML OMS OT1
기타 코드 페이지	아비콤프 ASMO 449 빅5 APL 기호의 디지털 부호화 ISO-IR-68 ARIB STD-B24 HZ IEC-P27-1 INIS 7비트 8비트 ISO-IR-169 ISO 2033 KOI KOI8-R KOI8-RU KOI8-U 모지쿄 바다 스탠포드/그것의. 트론 통일 한글 코드
제어 문자	모스 프로시그 C0 및 C1 제어 코드 ISO/IEC 6429 JIS X 0211 유니코드 제어, 형식 및 구분 문자 공백 문자
관련 토픽	CCSID HTML 문자 인코딩 Charset 검출 한통일 하드웨어 코드 페이지 MICR 코드 모지바케 가변 폭 부호화
문자 집합

Search

UTF-7

네임스페이스

더

목차

동기

묘사

예

부호화 및 복호화 알고리즘

부호화

디코딩

바이트 순서 표시

보안.

레퍼런스

「」를 참조해 주세요.

Search

UTF-7

동기

묘사

예

부호화 및 복호화 알고리즘

부호화

디코딩

바이트 순서 표시

보안.

레퍼런스

「 」를 참조해 주세요.

「」를 참조해 주세요.