유니코드 제어 문자

Unicode control characters

텍스트의 해석이나 표시를 제어하기 위해 많은 유니코드 문자가 사용되지만, 이러한 문자 자체는 시각적인 또는 공간적인 표현을 하지 않습니다.를 들어 늘 문자( U+0000NULL)은 C 프로그래밍 애플리케이션 환경에서 문자열의 끝을 나타내기 위해 사용됩니다.이와 같이 프로그램이 늘 문자를 읽으면 문자열이 종료되므로 이러한 프로그램에서는 문자열에 대해 하나의 시작 메모리 주소(시작 주소 및 길이와 반대)만 필요합니다.

가장 좁은 의미에서 제어 코드일반적인 카테고리를 가진 문자입니다. CcISO/IEC 2022에서 정의되고 유니코드에 의해 계승되는 개념인 C0 및 C1 제어 코드로 구성되며 가장 일반적인 세트는 ISO/IEC 6429에서 정의됩니다.제어 코드는, 예를 들면 문자명이 할당되지 않는 등, 통상의 Unicode 문자와는 구별되어 처리됩니다(규범적인 형식 [1]에일리어스가 할당됩니다).넓은 의미에서, 양방향 텍스트에 사용되는 것과 같은 다른 비인쇄 형식 문자도 소프트웨어에 [2]의해 제어 문자라고 불립니다.이러한 문자는 대부분 일반적인 카테고리에 할당됩니다.Cf(형식), Unicode 자체에서 도입 및 정의된 형식 이펙터에 사용됩니다.

카테고리 "Cc" 제어 코드(C0 및 C1)

제어 코드 범위는 0x00 ~0x1F("C0") 및 0x7F 입니다.이거는 1967년판 US-ASCII에서 유래합니다.표준 ISO/IEC 2022(ECMA-35)는 ASCII의 확장 방식을 정의하며, 여기에는 0x80 ~ 0x9F의 8비트 제어 코드의 세컨더리 "C1" 범위가 포함되어 있습니다.이는 7비트 시퀀스에 해당합니다.ESC(바이트 수 0x40 ~0x5F)이들 범위의 코드를 통칭하여 C0C1 제어 코드라고 합니다.ISO/IEC 2022는 이러한 제어 코드의 다른 해석을 지정하는 복수의 제어 코드 세트의 존재를 허용하지만, 가장 일반적인 해석은 ISO/IEC 6429(ECMA-48)에 명시되어 있다.

ISO/IEC 8859 시리즈의 인코딩은 8비트 문자 인코딩용으로 설계된 ISO/IEC 2022의 서브셋인 ISO/IEC 4873(ECMA-43) 레벨 1에 준거하고 있기 때문에, ISO/IEC [3]6429 등의 C1 제어 코드 세트에 의한 비인쇄 코드로 사용하기 위해서, 0x80~0x9F 의 범위가 확보되어 있습니다.Unicode는 ASCII 및 ISO/IEC 8859-1에서 번째 블록과 두 번째 블록(U+0000~U+00FF로 구성)을 상속하므로 C0 및 C1 제어 코드 범위(U+0000–)가 통합됩니다.U+001F, U+007F-U+009F)를 일반 카테고리 "Cc"로 지정합니다.이러한 제어 코드에 규범적인 이름을 할당하지는 않지만 규범적인 [1]별칭을 할당합니다.

카테고리 "Cc" 컨트롤 코드는 포맷 이펙터에 한정되지 않고 다양한 용도로 사용할 수 있습니다.예를 들어 기본 ASCII C0 세트에는 6개의 포맷 이펙터(BS, HT, LF, VT, FFCR), 10개의 전송 컨트롤, 4개의 디바이스 컨트롤, 4개의 정보 구분자 및 8개의 기타 컨트롤 [4]코드가 포함됩니다.이러한 문자의 대부분은 유니코드 텍스트 처리에서 명시적인 역할을 하지 않으며 터미널 에뮬레이터에 의해 사용되는 것과 같은 상위 수준의 프로토콜에서만 사용됩니다.특정 문자는 일반적으로 포맷 또는 센티넬 목적으로 사용됩니다.

  • U+0000 NULL(늘 종단 문자열에서 사용)
  • U+0009 수평표(HT) ( 키로 삽입)
  • U+000A 라인 피드(LF)(라인 브레이크로 사용)
  • U+000C FORM FEED (FF) (플레인 텍스트 파일의 페이지 나누기를 나타냅니다)
  • U+000D 캐리지 리턴(CR)(일부 줄 바꿈 규칙에 사용)
  • U+0085 NEXT LINE(NEL) (EBCD에서 트랜스코드된 텍스트의 줄 바꿈으로 사용되기도 함)IC)

Unicode 는 U+0009 의미만을 지정합니다.U+000D, U+001C-U+001FU+0085(BS를 제외한 ASCII 형식 이펙터 및 ASCII 정보 구분자 및 C1 NEL).나머지 "Cc" 제어 코드는 유니코드에 대해 투명하며 그 의미는 ISO/IEC 6429에 정의된 대로 해석하는 것이 기본적으로 [5]제안되지만 상위 프로토콜에 맡겨집니다.더욱이, 트랜스코드된 문자 메시지와 같은 특정 전문화된 상위 수준의 프로토콜은 전체 C0 제어 코드 범위에 [6]대한 다른 해석을 포함할 수 있다.

유니코드 도입 구분자

레거시[citation needed] 텍스트에서 사용되는 여러 줄 바꿈 문자를 단순화하기 위해 Unicode는 줄 바꿈 문자를 도입하여 줄 바꿈 또는 단락을 구분합니다.U+2028 라인 세퍼레이터(LSEP 또는 LSEP) 및 U+2029 패러그래프 세퍼레이터(PSEP 또는 PSEP)

CR 및 LF와 마찬가지로 LS 및 PS는 텍스트 형식의 이펙터입니다.CR 및 LF와는 달리 ECMA-35/ECA-48(카테고리)의 목적으로는 「컨트롤 코드」로서 취급되지 않습니다.Cc 오히려 Unicode 자체에 의해 완전히 정의된 시멘틱스를 참조해 주세요.sui generis Unicode 카테고리에 할당됩니다. Zl그리고.Zp각각 큰 카테고리로Z특정 공백 문자를 위해 사용됩니다.

언어 태그

Unicode는 언어 태그에 128자를 포함했지만 현재는 사용되지 않습니다.이들 문자는 기본적으로 128자의 ASCII 문자를 반영하고 있지만 BCP 47에 따라 후속 텍스트가 특정 언어에 속하는 것을 식별하기 위해 사용되었습니다.예를 들어, 후속 텍스트를 미국에서 쓰여진 영어의 변종으로 나타내려면 시퀀스 U+E0001 Language TAG, U+E0065 TAG 작은 문자 E00, E00E, E00E, E00E, E00E를 사용합니다.LL 문자 N, U+E002D 태그 하이픈-마이너스, U+E0075 태그 작은 문자 U 및 U+E0073 태그 작은 문자 S가 사용되었습니다.

이러한 언어 태그 문자는 그 자체로 표시되지 않습니다.그러나 텍스트 처리 또는 다른 문자 표시에 대한 정보를 제공합니다.예를 들어, Unihan 한문 표시는 언어 태그가 한국어를 나타내는 경우, 태그가 일본어를 나타내는 경우와는 다른 문자를 대체했을 수 있습니다.또 다른 예에서는 10 진수0 ~ 9 의 표시에 영향을 주는 것은, 그 언어에 의해서 다릅니다.

태그 문자 U+E0001 LANGUage TAG 및 U+E007F CANCEL TAG는 Unicode 5.1(2008)에서 폐지되었으며 언어 [7]정보에는 사용하지 마십시오.문자 U+E0020:U+E0073도 폐지되었지만 Unicode 8.0 (2015) 출시와 함께 복원되었습니다.이 변경은 "언어 [8]태그를 나타내는 것이 아닌 다른 목적으로 태그 문자를 사용할 수 있는 가능성을 명확히 하기 위해" 이루어졌다.유니코드는 "일반 텍스트 스트림에서 언어 태그를 나타내기 위해 태그 문자를 사용하는 것은 여전히 [8]텍스트에 대한 언어 정보를 전달하는 데 사용되지 않는 메커니즘입니다.

선간 주석

세 가지 형식 문자는 선형 간 주석을 지원합니다(U+FF9 ANCHOR, U+FFA SEPARATOR, U+FFB TERMINATER).일반적으로 다른 텍스트 행 사이에 표시되는 메모를 제공하기 위해 사용할 수 있습니다.유니코드에서는 이러한 주석을 리치 텍스트로 간주하고 이러한 주석을 위해 다른 프로토콜을 사용할 것을 권장합니다.W3C Ruby 마크업 권장 사항은 보다 고급 선형 간 주석을 지원하는 대체 프로토콜의 예입니다.

양방향 텍스트 제어

Unicode는 특수 문자 없이 표준 양방향 텍스트를 지원합니다.즉, Unicode 준거 소프트웨어는 단순히 해당 문자의 속성에서 히브리 문자 등의 오른쪽에서 왼쪽으로 문자를 표시해야 합니다.마찬가지로 Unicode는 특수 문자 없이 오른쪽에서 왼쪽으로 텍스트와 함께 왼쪽에서 오른쪽으로 텍스트의 혼합을 처리합니다.For example, one can quote Arabic (“بسم الله”) (translated into English as "Bismillah") right alongside English and the Arabic letters will flow from right-to-left and the Latin letters left-to-right.

하지만, 방향성 정확할 때 텍스트 서로 반대 방향으로 흐르는 만약 왼쪽에서 오른쪽으로 향하는 텍스트를 오른쪽에서 왼쪽으로 단락(또는 그 반대로)[2]의 시작 부분과 양방향 텍스트에 대한 지원에서 링컨 대통령은 보다 더 영어 텍스트 아랍어 구절은 인용한 위계적으로, 예를 들어 내포되어 있다는 것 복잡해지고 탐지하지 못할 수 있다. 에서turn은 영어 구절을 인용한다.작성자가 오른쪽에서 왼쪽으로 흐르도록 왼쪽에서 오른쪽으로 문자를 덮어쓰기를 원하는 경우 등 다른 상황도 이 문제를 복잡하게 만들 수 있습니다.이러한 상황은 매우 드물지만 Unicode는 12개의 문자를 제공하여 이러한 내장 양방향 텍스트레벨을 [9]125레벨까지 제어할 수 있도록 지원합니다.

  • U+061C ؜ 아라비아 문자 마크
  • U+200E 왼쪽에서 오른쪽으로 마크
  • U+200F 오른쪽에서 왼쪽 마크
  • U+202A 왼쪽에서 오른쪽으로 삽입
  • U+202B 오른쪽에서 왼쪽으로 매설
  • U+202C POP 방향 포맷
  • U+202D 왼쪽에서 오른쪽으로 오버라이드
  • U+202E 오른쪽에서 왼쪽으로 오버라이드
  • U+2066 왼쪽에서 오른쪽으로 격리 장치
  • U+2067 오른쪽에서 왼쪽으로 분리 장치
  • U+2068 최초의 강력한 절연체
  • U+2069 팝 방향 절연체

변동 선택기

문맥에 따라 많은 문자가 대체 글리프에 매핑됩니다.예를 들어 아랍어와 라틴어의 필기체는 글자가 단어의 첫 글자인지, 마지막 문자인지, 중간 문자인지 또는 고립된 문자인지에 따라 서로 다른 글자를 대체하여 글자를 연결한다.이러한 유형의 글리프 대체는 다른 저작 입력 없이 문자의 컨텍스트에 의해 쉽게 처리됩니다.또한 필자는 결합자 및 비결합자와 같은 특수 목적 문자를 사용하여 다른 형태의 글리프를 강제로 사용할 수 있습니다.결합은 리치 텍스트 속성으로 결합을 설정하거나 해제하는 것만으로 글리프를 대체할 수 있는 유사한 예입니다.

그러나 다른 문자 치환의 경우, 저자의 의도를 텍스트로 인코딩해야 할 수 있으며 문맥적으로 결정할 수 없습니다.이것은 가이지로 불리는 문자/글리프가 역사적으로나 성씨용 한자에 다른 글자를 사용하는 경우이다.이것은 문자와 글자를 구별하는 회색 영역 중 하나입니다.성씨가 그 유래의 한문자와 약간 다른 경우, 그것은 단순한 문자 변형 또는 문자 변형입니다.Unicode 3.2 및 4.0에서 문자 세트에는 256개의 바리에이션 실렉터가 포함되어 있기 때문에 이들 조합 마크 문자는 앞의 문자에 대해 256개의 가능한 문자/글리프 바리에이션을 선택할 수 있습니다.

제어 사진

Unicode는 Control Pictures 블록에서 C0 제어 코드( 공백 및 일반 줄바꿈)를 나타내는 그래픽 문자를 제공합니다.실제 제어 코드 자체가 아니라 시각적인 표현입니다.C1 제어 코드에 대응하는 문자는 없습니다.

컨트롤 픽처스[1][2]
Unicode Consortium 공식 코드 차트(PDF)
0 1 2 3 4 5 6 7 8 9 A B C D E F
U+240배
U+241x
U+242x
U+243x
1.^ Unicode 버전14.0 현재
2.^ 회색 영역은 할당되지 않은 코드 포인트를 나타냅니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b "Name Aliases". Unicode Character Database. Unicode Consortium.
  2. ^ a b Segan, Danilo. "Towards a localised desktop". For some cases where automatic decision making doesn't work, you can manually add specific direction markers by right-clicking the text field, choosing "Insert Unicode control character" from the menu, and selecting appropriate direction mark. This would allow you, for instance, to start your RTL text with an otherwise LTR word (such as "GNOME").
  3. ^ ISO/IEC JTC 1/SC 2/WG 3 (1998-02-12). Final Text of DIS 8859-1, 8-bit single-byte coded graphic character sets—Part 1: Latin alphabet No.1 (PDF). ISO/IEC FDIS 8859-1:1998; JTC1/SC2/N2988; WG3/N411. This set of coded graphic characters may be regarded as a version of an 8-bit code according to ISO/IEC 2022 or ISO/IEC 4873 at level 1. […] The shaded positions in the code table correspond to bit combinations that do not represent graphic characters. Their use is outside the scope of ISO/IEC 8859; it is specified in other International Standards, for example ISO/IEC 6429.
  4. ^ ISO/TC 97/SC 2 (1975). The set of control characters of the ISO 646 (PDF). ITSCJ/IPSJ. ISO-IR-1.
  5. ^ Unicode Consortium (2019). 23.1: Control Codes (PDF). The Unicode Standard (12.0.0 ed.). pp. 868–870. ISBN 978-1-936213-22-1.
  6. ^ Ewell, Doug (2020-10-16). "Teletext separated mosaic graphics". Unicode Mailing List Archive. Unicode Consortium. I reiterate that it was UTC [Unicode Technical Committee] and Script Ad Hoc who provided the guidance to the group writing the Symbols for Legacy Computing proposal (and there is a second on the way) that 0x00 through 0x1F in the original teletext set should map to U+0000 through U+001F when converting to Unicode.
  7. ^ Klensin, John C.; Presuhn, Randy; Whistler, Ken; Dürst, Martin J.; Adams, Glenn (November 2010). "RFC6082: Deprecating Unicode Language Tag Characters: RFC 2482 is Historic". Internet Engineering Task Force (IETF). {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  8. ^ a b "Unicode 8.0.0, Implications for Migration". Unicode Consortium.
  9. ^ "UAX #9: Unicode Bidirectional Algorithm". Unicode Consortium. 2018-05-09.