특수(유니코드 블록)

Specials (Unicode block)
스페셜
범위U+FFFF0..U+FFFF
(16개 코드 포인트)
비행기BMP
스크립트흔한
맡겨진코드 포인트 5개
미사용9개의 예약 코드 포인트
비문자 2개
유니코드 버전 기록
1.0.0(1991)1 (+1)
2.1 (1998)2 (+1)
3.0 (1999)5 (+3)
유니코드 설명서
코드 차트 페이지
참고:

특수는 기본 다국어 평면의 맨 끝에 할당된 U+FFFF0–FFFF에 있는 짧은 유니코드 블록입니다. 이 16개의 코드 포인트 중 5개는 유니코드 3.0 이후로 할당되었습니다.

  • U+FF9 선형간 주석 앵커, 주석이 달린 텍스트의 시작 표시
  • U+FFFA 선형주석 분리기, 주석 문자의 시작 표시
  • U+FFB 선형간 주석 종단기, 주석 블록의 끝을 표시합니다.
  • U+FFFC OBject Replacement Character, 지정되지 않은 다른 개체에 대한 텍스트의 자리 표시자(예: 복합 문서).
  • U+FFFD 알 수 없거나 인식되지 않거나 표현할 수 없는 문자를 대체하는 데 사용되는 대체 문자
  • U+FFE <non-character-FFE>
  • U+FFFF <non-character-FFFF> 문자가 아닙니다.

U+FFE <non character-FFE> 및 U+FFF <non character-FFF>비문자로, 예약되어 있지만 잘못된 형식의 유니코드 텍스트를 발생시키지 않습니다.유니코드 표준 3.1.0에서 6.3.0 버전은 이러한 문자를 절대 교환해서는 안 된다고 주장했고, 일부 응용 프로그램은 문자가 유니코드가 아님을 나타내는 기호로 해석함으로써 문자 인코딩을 추측하기 위해 문자를 사용하게 만들었습니다.그러나 코리젠덤 #9는 나중에 비문자는 불법이 아니므로 텍스트 인코딩을 확인하는 이 방법은 올바르지 [3]않다고 명시했습니다.

유니코드의 U+FEFF BYTE ORDER MARK 문자는 유니코드 텍스트의 맨 앞에 삽입되어 해당 텍스트를 읽고 0xFFFE를 만나면 다음 문자의 바이트 순서를 전환해야 한다는 것을 알 수 있습니다.

유니코드 1.0의 블록 이름은 스페셜([4]Special)이었습니다.

교체문자

교체문자

대체 문자 �(흔히 흰색 물음표가 있는 검은색 마름모로 표시됨)는 특수 의 코드 포인트 U+FFFD에서 유니코드 표준에 있는 기호입니다.시스템에서 데이터 스트림을 올바른 [5]기호로 렌더링할 수 없을 때 문제를 나타내는 데 사용됩니다.

예를 들어, 독일어 단어 für를 포함하는 ISO 8859-1에서 인코딩된 텍스트 파일은 바이트를 포함합니다.0x66 0xFC 0x72. 입력을 UTF-8로 가정한 텍스트 편집기로 파일을 열면 첫 번째 바이트와 세 번째 바이트는 유효한 ASCII의 UTF-8 인코딩이지만 두 번째 바이트(0xFC)는 UTF-8에서는 유효하지 않습니다.텍스트 편집기는 이 바이트를 대체 문자로 대체하여 표시할 유효한 유니코드 코드 포인트 문자열을 생성할 수 있으므로 사용자는 "f�r"을 볼 수 있습니다.

제대로 구현되지 않은 텍스트 편집기는 사용자가 파일을 저장할 때 대체 문자를 쓸 수 있습니다. 그러면 파일의 데이터는 다음과 같습니다.0x66 0xEF 0xBF 0xBD 0x72. ISO 8859-1을 사용하여 파일을 다시 열면 "f�r"이 표시됩니다(이를 mojibake라고 합니다.교체는 모든 오류에 대해 동일하기 때문에 원래 캐릭터를 복구하는 것은 불가능합니다.더 나은 설계이지만 구현하기는 더 어려운 설계는 오류를 포함하여 원래 바이트를 보존하고 텍스트를 표시할 때만 대체 바이트로 변환하는 것입니다.이렇게 하면 텍스트 편집기가 원래 바이트 시퀀스를 저장하면서도 오류 표시를 사용자에게 표시할 수 있습니다.

한 때 대체 문자는 글꼴 대체와 같이 해당 문자에 사용할 수 있는 글리프가 없을 때 자주 사용되었습니다.그러나 대부분의 현대 텍스트 렌더링 시스템은 글꼴의 .notdef 문자를 대신 사용합니다. 이 문자는 대부분의 경우 빈 상자 또는 상자의 "?" 또는 "X"(이 브라우저는 􏿾를 표시하며, 때때로 'tofu'라고도 함)입니다.이 기호에 대한 유니코드 코드 포인트가 없습니다.

따라서 대체 문자는 이제 인코딩 오류에 대해서만 표시됩니다.일부 소프트웨어 프로그램은 Windows-1252에서 잘못된 UTF-8 바이트를 일치하는 문자로 변환하여(이 오류의 가장 일반적인 원인이므로) 대체 문자가 표시되지 않습니다.

유니코드 차트

스페셜[1][2][3]
유니코드 컨소시엄 공식 코드 차트(PDF)
0 1 2 3 4 5 6 7 8 9 A B C D E F
U+FFFx IAA IAS IAT
메모들
1.^유니코드 버전 15.1 기준
2.^ 회색 영역은 할당되지 않은 코드 포인트를 나타냅니다.
3.^ 검은색 영역은 비문자(유니코드 표준에서 인코딩된 문자로 할당되지 않음이 보장된 코드 포인트)를 나타냅니다.

역사

다음 유니코드 관련 문서는 특수 블록에 특정 문자를 정의하는 목적과 과정을 기록합니다.

버전 최종코드포인트[a] 세어보세요 UTC ID L2 ID WG2 ID 문서
1.0.0 U+FFFD 1 (결심할)
U+FFFE..FFFF 2 (결심할)
L2/01-295R Moore, Lisa (2001-11-06), "Motion 88-M2", Minutes from the UTC/L2 meeting #88
L2/01-355 N2369 (html, 문서) Davis, Mark (2001-09-26), Request to allow FFFF, FFFE in UTF-8 in the text of ISO/IEC 10646
L2/02-154 N2403 Umamaheswaran, V. S. (2002-04-22), "9.3 Allowing FFFF and FFFE in UTF-8", Draft minutes of WG 2 meeting 41, Hotel Phoenix, Singapore, 2001-10-15/19
2.1 U+FFFC 1 UTC/1995-056 Sargent, Murray (1995-12-06), Recommendation to encode a WCH_EMBEDDING character
UTC/1996-002 Aliprand, Joan; Hart, Edwin; Greenfield, Steve (1996-03-05), "Embedded Objects", UTC #67 Minutes
N1365 Sargent, Murray (1996-03-18), Proposal Summary – Object Replacement Character
N1353 Umamaheswaran, V. S.; Ksar, Mike (1996-06-25), "8.14", Draft minutes of WG2 Copenhagen Meeting # 30
L2/97-288 N1603 Umamaheswaran, V. S. (1997-10-24), "7.3", Unconfirmed Meeting Minutes, WG 2 Meeting # 33, Heraklion, Crete, Greece, 20 June – 4 July 1997
L2/98-004R N1681 Text of ISO 10646 – AMD 18 for PDAM registration and FPDAM ballot, 1997-12-22
L2/98-070 Aliprand, Joan; Winkler, Arnold, "Additional comments regarding 2.1", Minutes of the joint UTC and L2 meeting from the meeting in Cupertino, February 25-27, 1998
L2/98-318 N1894 Revised text of 10646-1/FPDAM 18, AMENDMENT 18: Symbols and Others, 1998-10-22
3.0 U+FFFF9..FFFFB 3 L2/97-255R Aliprand, Joan (1997-12-03), "3.D Proposal for In-Line Notation (ruby)", Approved Minutes – UTC #73 & L2 #170 joint meeting, Palo Alto, CA – August 4-5, 1997
L2/98-055 Freytag, Asmus (1998-02-22), Support for Implementing Inline and Interlinear Annotations
L2/98-070 Aliprand, Joan; Winkler, Arnold, "3.C.5. Support for implementing inline and interlinear annotations", Minutes of the joint UTC and L2 meeting from the meeting in Cupertino, February 25-27, 1998
L2/98-099 N1727 Freytag, Asmus (1998-03-18), Support for Implementing Interlinear Annotations as used in East Asian Typography
L2/98-158 Aliprand, Joan; Winkler, Arnold (1998-05-26), "Inline and Interlinear Annotations", Draft Minutes – UTC #76 & NCITS Subgroup L2 #173 joint meeting, Tredyffrin, Pennsylvania, April 20-22, 1998
L2/98-286 N1703 Umamaheswaran, V. S.; Ksar, Mike (1998-07-02), "8.14", Unconfirmed Meeting Minutes, WG 2 Meeting #34, Redmond, WA, USA; 1998-03-16--20
L2/98-270 Hiura, Hideki; Kobayashi, Tatsuo (1998-07-29), Suggestion to the inline and interlinear annotation proposal
L2/98-281R (pdf, html) Aliprand, Joan (1998-07-31), "In-Line and Interlinear Annotation (III.C.1.c)", Unconfirmed Minutes – UTC #77 & NCITS Subgroup L2 # 174 JOINT MEETING, Redmond, WA -- July 29-31, 1998
L2/98-363 N1861 Sato, T. K. (1998-09-01), Ruby markers
L2/98-372 N1884R2 (pdf, 문서) Whistler, Ken; et al. (1998-09-22), Additional Characters for the UCS
L2/98-416 N1882.zip Support for Implementing Interlinear Annotations, 1998-09-23
L2/98-329 N1920년 Combined PDAM registration and consideration ballot on WD for ISO/IEC 10646-1/Amd. 30, AMENDMENT 30: Additional Latin and other characters, 1998-10-28
L2/98-421R Suignard, Michel; Hiura, Hideki (1998-12-04), Notes concerning the PDAM 30 interlinear annotation characters
L2/99-010 N1903 (pdf, html, doc) Umamaheswaran, V. S. (1998-12-30), "8.2.15", Minutes of WG 2 meeting 35, London, U.K.; 1998-09-21--25
L2/98-419 (pdf, doc) Aliprand, Joan (1999-02-05), "Interlinear Annotation Characters", Approved Minutes -- UTC #78 & NCITS Subgroup L2 # 175 Joint Meeting, San Jose, CA -- December 1-4, 1998
UTC/1999-021 Duerst, Martin; Bosak, Jon (1999-06-08), W3C XML CG statement on annotation characters
L2/99-176R Moore, Lisa (1999-11-04), "W3C Liaison Statement on Annotation Characters", Minutes from the joint UTC/L2 meeting in Seattle, June 8-10, 1999
L2/01-301 Whistler, Ken (2001-08-01), "E. Indicated as "strongly discouraged" for plain text interchange", Analysis of Character Deprecation in the Unicode Standard
  1. ^ 제안된 코드 포인트 및 문자 이름이 최종 코드 포인트 및 이름과 다를 수 있습니다.

참고 항목

참고문헌

  1. ^ "Unicode character database". The Unicode Standard. Retrieved 2023-07-26.
  2. ^ "Enumerated Versions of The Unicode Standard". The Unicode Standard. Retrieved 2023-07-26.
  3. ^ "Corrigendum #9: Clarification About Noncharacters". The Unicode Standard. Archived from the original on Jun 10, 2023. Retrieved 2023-06-07.
  4. ^ "3.8: Block-by-Block Charts" (PDF). The Unicode Standard. version 1.0. Unicode Consortium. Archived (PDF) from the original on 2021-02-11. Retrieved 2020-09-30.
  5. ^ Wichary, Marcin. "When Fonts Fall". Figma. Archived from the original on 13 June 2021. Retrieved 6 June 2021.
  6. ^ "Recommendations for OpenType Fonts (OpenType 1.7) - Typography". docs.microsoft.com. Archived from the original on 19 October 2020. Retrieved 18 October 2020.