T.51/ISO/IEC 6937
T.51/ISO/IEC 6937텔레매틱스 서비스용 라틴어 기반 코드 문자 집합 | |
상황 | 실시중 |
---|---|
시작한 해 | 1984 |
최신 버전 | (09/92) 1992년 9월 |
조직 | ITU-T |
위원회. | 연구 그룹 VII |
관련 기준 | T.61, ETS 300 706, ISO/IEC 10367, ISO/IEC 2022, ISO 5426 |
도메인 | 부호화 |
면허증. | 무료로 이용 가능 |
웹 사이트 | https://www.itu.int/rec/T-REC-T.51 |
T.51/ISO/IEC 6937:2001, 정보 테크놀로지 - 텍스트 통신용으로 코드화된 그래픽 문자 세트 - 라틴 알파벳은 ASCII 또는 ISO/IEC 646-IRV의 [1]멀티바이트 확장입니다.T.51이라는 이름으로 텔레매틱스 서비스용으로 ITU-T(당시 CCITT)와 공통으로 개발되어 1983년에 ISO 표준이 되었습니다.특정 바이트 코드는 분음 부호(액센트)가 있는 문자의 리드 바이트로 사용됩니다.리드 바이트 값은 종종 문자의 분음 부호를 나타내며, 후속 바이트는 분음 부호가 있는 문자의 ASCII 값을 가집니다.
ISO/IEC 6937의 설계자는 Hugh McGregor Ross, Peter Fenwick, Bernard Marti 및 Loek Zeckendorf였습니다.
ISO6937/2는 라틴 알파벳을 사용하여 현대 유럽 언어에서 발견된 327개의 문자를 정의합니다.키릴 문자나 그리스어와 같은 라틴어 이외의 유럽 문자는 표준에 포함되지 않습니다.또한 루마니아 콤마와 같이 라틴 알파벳과 함께 사용되는 일부 분음 부호는 포함되어 있지 않으며, 그 대신 세딜라와 아래의 콤마를 구분하지 않았기 때문에 세딜라를 사용한다.
IANA는 이 표준의 2개(및 제어 코드) 버전에 대해 ISO_6937-2-25 및 ISO_6937-2-add라는 문자 집합 이름을 등록했습니다.그러나 실제로는 이 문자 인코딩은 인터넷에서 사용되지 않습니다.
1바이트 문자
1차 집합(전반)은 ISO/IEC 646:1991 개정 이전에 ISO 646-IRV를 따랐다. 즉, 대부분 ASCII를 따랐지만 문자 0x24는 여전히 달러 기호($) 대신 "국제 통화 기호"(¤)로 표시된다.1992년판 ITU T.51에서는 기존 CCITT 서비스가 0x24를 계속 국제 통화 기호로 해석할 수 있도록 허용하고 있지만, 새로운 통신 애플리케이션은 이를 달러 기호(즉, 현재의 ISO 646-IRV에 따름)에 사용해야 하며, 대신 보충 [2]세트를 사용하여 국제 통화 기호를 나타내도록 규정하고 있다.
보조 세트(후반)에는 공백이 없는 그래픽 문자, 추가 기호 및 향후 표준화를 위해 예약된 일부 위치가 포함되어 있습니다.
둘 다 ISO/IEC 2022 그래픽 문자 세트이며, 프라이머리 세트는 94 코드 세트, 세컨더리 세트는 96 코드 집합입니다.ISO 2022 코드 확장 기술이 사용되지 않는 상황에서 프라이머리 세트는 GL(0x20..0x7F)을 통해 G0 세트로 지정되며, 보충 세트는 G2 세트로 지정되며, 8비트 환경에서는 GR(0xA0..0xFF)을 통해 호출되거나 단일 시프트에서 제어 코드 7x19를 사용하여 GR을 통해 호출된다.Single Shift Two 코드의 이 부호화는 ISO-IR-106 [4]내의 위치와 일치합니다.
ISO/IEC 6937의 보충 세트를 G2 세트로 지정하는 ISO/IEC 2022 이스케이프 시퀀스는 다음과 같습니다.ESC . R
(비활성화)1B 2E 52
) 오래된 ISO 6937/2:1983 보충 세트는 94 코드세트로 등록되고 G2에 지정되어 있습니다.[2][5][6]ESC * l
(비활성화)1B 2A 6C
를 참조해 주세요.[5][7]
2바이트 문자
프라이머리 세트 또는 보충 세트에 단일 코드가 할당되지 않은 악센트 문자는 2바이트를 사용하여 부호화됩니다.첫 번째 바이트인 "non spacing discrencial mark" 뒤에 기본 집합의 문자가 나옵니다. 예:
날카로운 악센트를 가진 작은 e(e) = [Acute]+e
ITU T.51 표준은 보충 세트의 4열을 할당합니다(즉, 0xC0–).8비트 형식에서 사용되는 경우)에서 공백이 없는 분음 기호로 [2]변환됩니다.그러나 ISO/IEC 6937은 완전히 지정된 문자 레퍼토리를 정의하여 구성 시퀀스 목록을 ISO/IEC 10646 문자 이름에 매핑합니다.분리된 비페이싱 바이트는 이 레퍼토리에 포함되지 않지만 ASCII 공간이 트레일 [5][8]바이트이고 ASCII에는 없는 분음 부호 공백이 포함됩니다.따라서 리드 바이트와 추종 바이트의 특정 조합만이 ISO/IEC 표준을 준수합니다.
이 레퍼토리는 ITU 버전의 사양에도 부속서 A로 첨부되어 있지만 ITU 버전은 본문에서 참조하고 있지 않습니다.그것은 라틴 스크립트 문자 [2]레퍼토리의 "통합된 슈퍼셋"으로 묘사된다.ASCII, Latin-1(또는 Latin-5), Latin-2 및 보충 Latin-2 세트를 [5]사용하는 경우 ISO/IEC 10367의 레퍼토리에 대응합니다.
이 시스템은 또한 문자 앞에 분음 부호 코드가 있다는 점에서 유니코드를 조합하는 문자 체계와 다릅니다. 따라서 ANSEL과 더 유사합니다.
조금 이상한 점은 Cedilla를 사용한 라틴어 스몰 문자 G는 급성 악센트로 부호화되어 있다는 것입니다.즉, 0xC2 리드 바이트로 부호화되어 있습니다.이것은, 그 내림차원이 Cedilla와 간섭하고 있기 때문에, 통상, 소문자는 콤마 위에 「」가 붙어 있기 때문입니다.
총 13개의 분음 기호 뒤에 기본 집합에서 선택한 문자를 사용할 수 있습니다.
악센트 | 코드 | 두 번째 문자 | 결과 |
---|---|---|---|
무덤 | 0xC1 | AEIOUaeiou | ★★★★★★★★★★★★★★★★★★★★▼ |
급성 | 0xC2 | ACEILNORSUYZACEGILNORSUYZ | 아카치 |
곡절 | 0xC3 | ACEGHIJOSUWYYACEGHIJOSUY | ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★▼ |
칠데 | 0xC4 | 아이누아이노 | ★★★★★★★★★★★★★★★★★★★▼ |
마크롱 | 0xC5 | AEIOUaeiou | āēūēūū |
브레브 | 0xC6 | 아구구구 | ★★★★★★★★★★★★★★★★★★★★★▼ |
점 | 0xC7 | CEGIZcegz | ċġ̇̇̇ġġ |
울라우트 또는 디아레시스 | 0xC8 | 동작 | ★★★★★★★★★★★★★★★★★★★▼ |
울리다 | 0xCA | AUU | å å |
세딜라 | 0xCB | CGKLNRSTclnrst | ģţţţ |
이중 급성 | 0xCD | OUU | ŐŰőű |
오곤크 | 0xCE | AEIUaeiu | ĄĘĮŲąęįų |
카론 | 0xCF | CDELNRSTZCDelnRSTz | 첸시치 |
코드 페이지 레이아웃
U+0300 문자 조합에 대한 참조: 0xC1~0xCF 범위의 코드에 대한 U+036F 범위는 상기의 경고를 따릅니다.이러한 코드에 단순히 매핑할 수는 없습니다.또한 Unicode는 0xE2를 스트로크와 Eth 대문자로 구분합니다.이들은 보통 소문자(0xF2와 0xF3)에 따라 다르게 보입니다.
1988년 이전 버전의 ITU T.51에서는 2가지 버전의 보충 세트가 정의되어 있었습니다.첫 번째 버전에는 공백이 없는 소프트하이픈, 부호())가 없고, 두 번째 버전에는 끊어진 바())가 있습니다.첫 번째 버전은 T.61 보충 세트의 확장으로 정의되었으며 두 번째 버전은 첫 번째 [9]버전의 확장으로 정의되었습니다.현재(1992) 에디션에는 두 번째 버전만 포함되어 있으며 특정 문자를 사용하지 않으며 프라이머리 세트를 현재 ISO-646-IRV(ASCII)로 업데이트하지만 기존 텔레매틱서비스는 오래된 동작을 [2]유지할 수 있습니다.
ISO/IEC 6937 또는 ITU T.51 (라틴어) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
0x | ||||||||||||||||
1배 | ||||||||||||||||
2배 | SP | ! | " | # | 1달러 / 1달러[a] | % | & | ' | ( | ) | * | + | , | - | . | / |
3배 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < > | = | > | ? |
4배 | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5배 | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6배 | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7배 | p | q | r | s | t | u | v | w | x | y | z | { | } | ~ | ||
8배 | ||||||||||||||||
9배 | ||||||||||||||||
도끼 | NBSP | ¡ | ¢ | £ | $[b] | ¥ | #[b] | § | ¤ | ‘ | “ | « | ← | ↑ | → | ↓ |
Bx | ° | ± | ² | ³ | × | µ | · | ÷ | ’ | ” | » | ¼ | ½ | ¾ | ¿ | |
Cx | ◌̀ | ◌́ | ◌̂ | ◌̃ | ◌̄ | ◌̆ | ◌̇ | ◌̈ | ◌̊ | ◌̧ | ◌̲[c] | ◌̋ | ◌̨ | ◌̌ | ||
Dx | ― | ¹ | ® | © | ™ | ♪ | ¬ | ¦ | ⅛ | ⅜ | ⅝ | ⅞ | ||||
예 | Ω | ᄋ | D/DD | ª | Ħ | IJ | Ŀ | ł | ø | Œ | º | Þ | Ŧ | Ŋ | ʼn | |
Fx | ĸ | æ | ᄃ | ð | ħ | ı | ij | ŀ | ł | ø | œ | ß | þ | ŧ | ŋ | 부끄럽다 |
비디오텍스 버전
ITU T.101 표준이 비디오텍스를 위해 사용하는 보조 세트의 버전은 1988년판 T.51의 첫 번째 보조 세트에 기초한다.
Data Syntax 2의 디폴트 G2 세트는 그리스 프라이머리 세트의 [10]코드와 조합하기 위해 0xC0에서 "을 추가합니다.
Data Syntax 3의 보충 세트는 "벡터 오버바"와 솔리더스 [11]및 여러 반문자에 공백이 없는 마크를 추가합니다.
ETS 300 706 버전
ETS 300 706 World System Teletext [12]표준은 ISO 6937에 기반한 G2 세트입니다.이것은 T.61의 보충 집합의 슈퍼셋과 1988년판 T.51의 첫 번째 보충 집합의 슈퍼셋이지만, 특정 위치에서 T.51의 현재 판과 충돌한다.ETS 버전의 분음 부호(US-ASCII 나 BS_viewdata 등)는,[12] 사용중의 G0 의 문자로부터 「어소시에이션용」으로 지정됩니다.이 버전은 다음 표에 나와 있습니다.
월드 시스템 텔레텍스트, 라틴어 G2 세트(ETS 300 706:1997)[12] | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
도끼 | SP | ¡ | ¢ | £ | $ | ¥ | # | § | ¤ | ‘ | “ | « | ← | ↑ | → | ↓ |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Bx | ° | ± | ² | ³ | × | µ | · | ÷ | ’ | ” | » | ¼ | ½ | ¾ | ¿ | |
Cx | ◌̀ | ◌́ | ◌̂ | ◌̃ | ◌̄ | ◌̆ | ◌̇ | ◌̈ | ̣◌̣ | ◌̊ | ◌̧ | ◌̲ | ◌̋ | ◌̨ | ◌̌ | |
Dx | ― | ¹ | ® | © | ™ | ♪ | ₠ | ‰ | α | ⅛ | ⅜ | ⅝ | ⅞ | |||
예 | Ω | ᄋ | D/DD | ª | Ħ | IJ | Ŀ | ł | ø | Œ | º | Þ | Ŧ | Ŋ | ʼn | |
Fx | ĸ | æ | ᄃ | ð | ħ | ı | ij | ŀ | ł | ø | œ | ß | þ | ŧ | ŋ | ■ |
「 」를 참조해 주세요.
각주
- ^ 기존 CCITT 서비스에 [2]한해 허용되는 permitted의 계속 사용.
- ^ a b 기존 CCITT 서비스에 대해서만 허용됩니다.그렇지 않으면 [2]ASCII 표현을 사용해야 합니다.
- ^ 이 표준의 ITU 버전에서는, 악센트 문자를 포함한 다른 문자와 함께, 밑줄 친 텍스트에 기존의 용도를 사용하고 있는 것으로 기재되어 있습니다.1988년의 ITU 에디션에는 [9]이 코드가 포함되어 있습니다만, 1992년의 ITU 에디션에서는, ANSI 이스케이프 시퀀스를 위해서 이 코드를 송신하는 것을 권장하고 있지 않습니다.다만,[2] ANSI 이스케이프 시퀀스를 수신했을 때에 올바르게 해석할 필요가 있는 것은 사실입니다.ISO/IEC 표준의 이전 버전에서도 이 코드를 정의된 [7]레퍼토리의 모든 문자와 결합할 수 있었지만, 최근 개정판에서는 이 [5]코드가 포함되지 않았다.
레퍼런스
- ^ "T.51 : Latin based coded character sets for telematic services". www.itu.int. Archived from the original on 2019-10-08. Retrieved 2019-11-14.
- ^ a b c d e f g h CCITT (1992-09-18). Latin based coded character sets for telematic services (1992 ed.). Recommendation T.51.
- ^ ITU-T (1995-08-11). Recommendation T.51 (1992) Amendment 1.
- ^ ITU (1985-08-01). Teletex Primary Set of Control Functions (PDF). ITSCJ/IPSJ. ISO-IR-106.
- ^ a b c d e ISO/IEC JTC 1/SC 2/WG 3 (1998-04-15). WD 6937, Coded graphic character set for text communication - Latin alphabet (PDF). JTC1/SC2/N454.
- ^ ISO/IEC JTC 1/SC 2/WG 3 (1991-12-15). Supplementary Set of ISO/IEC 6937:1992 (PDF). ITSCJ/IPSJ. ISO-IR-156. (왼쪽은 US-ASCII입니다).
- ^ a b ISO/TC97/SC2/WG4 (1985-01-10). Supplementary Set of Latin Alphabetic and non-Alphabetic Graphic Characters (PDF). ITSCJ/IPSJ. ISO-IR-90.
- ^ Petersen, J. K. (2002-05-29). The Telecommunications Illustrated Dictionary. CRC Press. p. 888. ISBN 978-1-4200-4067-8.
- ^ a b CCITT (1988). Coded character sets for telematic services (1988 ed.). Recommendation T.51.
- ^ CCITT (1988-11-01). Supplementary Set of Graphic Characters for Videotex (PDF). ITSCJ/IPSJ. ISO-IR-70.
- ^ CCITT (1986-11-30). Supplementary Set of Graphic Characters for CCITT Recommendation T.101, Data Syntax III (PDF). ITSCJ/IPSJ. ISO-IR-128.
- ^ a b c ETSI (1997). "15.6.3 Latin G2 Set". Enhanced Teletext specification (PDF) (PDF). p. 116. ETS 300 706.
외부 링크
- ITU 권장사항 T.51
- ISO 페이지:ISO 6937-1:1983, ISO 6937-2:1983, ISO 6937-2:1983/추가 1:1989, ISO/IEC 6937:1994, ISO/IEC 6937:2001
- WD6937, 텍스트 통신용 코드화된 그래픽 문자 세트 - 라틴 문자 (ISO/IEC 6937:1994 개정판) (ISO/IEC 6937:1994 초안)
- ISO-IR-156(오른쪽 부품의 ISO-IR 등록)