ISO/IEC 8859-1

ISO/IEC 8859-1
ISO/IEC 8859-1:1998
Latin-1-infobox.svg
ISO/IEC 8859-1 코드 페이지 레이아웃
MIME / IANAISO-8859-1
에일리어스iso-ir-100, csISOLatin1, latin1, l1, IBM819, CP819
언어영어, 기타 여러 가지
표준.ISO/IEC 8859
분류확장 ASCII, ISO/IEC 8859
확장US-ASCII
에 기반을 둔DEC MCS
에 의해 성공자
기타 관련 부호화브라스키

ISO/IEC 8859-1:1998, 정보기술 - 8비트 싱글 바이트 코드 그래픽 문자 세트 - Part 1: 라틴 문자 No.1은 ASCII 기반의 표준 문자 인코딩 ISO/IEC 8859 시리즈의 일부로 1987년에 초판되었습니다.ISO/IEC 8859-1은, 「라틴 문자 번호 1」이라고 불리는 것을 부호화합니다.이것들은, 라틴 문자로부터의 191 문자로 구성되어 있습니다. 문자 부호화 방식은 미국, 서유럽, 오세아니아 및 아프리카의 대부분에서 사용됩니다.이는 일부 일반적인 8비트 문자 집합과 유니코드 첫 번째 두 개의 문자 블록의 기초가 됩니다.

ISO-8859-1은 (적어도 표준에 따르면) "text/"로 시작하는 MIME 유형의 HTTP를 통해 전달된 문서의 기본 인코딩입니다(HTML5는 이를 Windows-1252[1][2]변경).2022년 7월 현재 상위 1000개 웹사이트 중 1.2%만이[3] ISO/IEC 8859-1[4][5]사용하고 있습니다.이것은 웹에서 세계에서 가장 많이 선언된 단일 바이트 문자 인코딩이지만 웹 브라우저가 이를 슈퍼셋 Windows-1252로 해석하기 때문에 문서에 해당 세트의 문자가 포함될 수 있습니다.

국가에 따라 사용률이 세계 평균보다 훨씬 높을 수 있습니다. 예를 들어 독일은 4.3%(Windows-1252 포함 4.6%)[6][7]입니다.

ISO-8859-1은 특정 기술HTTP 헤더 값의 디폴트 부호화이며 HTML 3.2 문서에서 허용되는 문자의 레퍼토리를 정의하며 다른 많은 표준으로 지정되어 있습니다.Byte Order Mark(BOM; 바이트 순서 마크)가 없는 경우, 이것은 Microsoft Windows( Unix)에서의 텍스트 부호화로 간주되는 경우가 있습니다.이것은 UTF-8로 서서히 변경되고 있을 뿐입니다.

ISO-8859-1은 ISO/IEC 6429C0C1 제어 코드로 보완되는 경우 이 표준의 IANA 우선 명칭입니다.다른 에일리어스 iso-ir-100, csISOLatin1, latin1, l1, IBM819 가 등록되어 있습니다.코드 페이지 28591 a.k.a.Windows-28591 이 사용됩니다.[8]IBM은 코드 페이지 819 또는 CP819(CCSID 819)[9][10][11][12]라고 부릅니다.Oracle그것을 WE8이라고 부릅니다.ISO8859P1[13]

범위

각 문자는 단일 8비트 코드 값으로 인코딩됩니다.이러한 코드 값은 다음과 같은 언어로 통신하기 위해 거의 모든 데이터 교환 시스템에서 사용할 수 있습니다(단, 독일어 및 아이슬란드어를 포함한 많은 언어의 경우 등 올바른 따옴표는 제외될 수 있습니다).

포괄적인 서비스를 제공하는 최신 언어

메모들
  1. ^ 기본 고전 철자법
  2. ^ 루미 문자
  3. ^ 보크몰과 니노르스크
  4. ^ 유럽 및 브라질

커버리지가 불완전한 언어

ISO-8859-1은 일반적으로 특정 언어에서 사용되는 문자가 없음에도 불구하고 사용됩니다[citation needed].대부분의 경우 일부 문자만 누락되거나 거의 사용되지 않으며 ISO-8859-1에 있는 문자로 대체할 수 있습니다.다음 표에 이러한 언어를 나타냅니다.

언어 누락된 문자 일반적인 회피책 지원 대상
카탈로니아어 ŀ, ((추천) L·, L·
덴마크어 ǿ, ( (악센트는 옵션이고 is는 매우 드물다) ø, or 또는 ee
네덜란드어 ij, ((단, 논란의 여지가 있는 상태), "blijff"와 같이 강조된 단어로 j́ 디그래프 IJ, ij; blijf
에스토니아어 ,, ,, ž, ž(차용어에만 표시) Sh, sh, zh, zh ISO-8859-15, Windows-1252
핀란드어 ,, ,, ž, ž(차용어에만 표시) Sh, sh, zh, zh ISO-8859-15, Windows-1252
프랑스 œ, , 및 매우 드문 ÿ Digraphs OE, oe; Y 또는 δ ISO-8859-15, Windows-1252
독일의 ß(대문자 ,, 모든 대문자에서만 사용, 2017년 공식 맞춤법에 포함, 여전히 선택 사항) 디그래프 SS
헝가리어 ő, ,, ű, ű ,, ,, ü, ü
õ, ,, û, ( (ISO/IEC 8859-2로 치환된 문자 코드 포인트)
ISO/IEC 8859-2, Windows-1250
아일랜드어(전통 맞춤법) ḃ, ċ, ċ, ,, ḋ, ḟ, ,, ġ, ṗ, ṗ, ṗ, ṗ, ṗ, ṗ, 、 Bh, bh, Ch, ch, Dh, dh, Fh, Gh, gh, Mh, mh, Ph, Ph, Sh, Sh, Th, th ISO-8859-14
웨일스어 , ẃ, , ,, ŵ, , ,, , , ŷ, ŷ, ÿ W, w, Y, y, ,, ý ISO-8859-14

프랑스어로 표기되는 문자 ,는 매우 드물며 주로 L'Ha--le-Roses와 같은 도시 이름에만 사용되며 단어의 시작에는 전혀 사용되지 않는다.대문자 형식을 지원하는 슬롯은 표준 작성 당시 대문자 형식이 없었던 독일어 소문자 "로 구성되어 있습니다.

따옴표

위에 나열된 일부 언어에서는 올바른 따옴표가 누락되어 있습니다.« »," ",그리고.' '포함되어 있습니다.또, 이 스킴에서는, 방향(6자 또는 9자형)의 단일 또는 이중 따옴표는 제공하지 않습니다.일부 글꼴은 공백의 중대 액센트(0x60)와 아포스트로피(0x27)를 방향의 작은 따옴표 쌍으로 표시하지만 이는 현대 표준의 일부로 간주되지 않습니다.

역사

ISO 8859-1은 1983년 Digital Equipment Corporation(DEC)이 인기 있는 VT220 단말기에서 사용한 MCS(Multinational Character Set)에 기초하고 있습니다.ECMA(European Computer Manufacturers Association)에서 개발되어 1985년 3월에 ECMA-94로 [14]발행되었습니다.이 이름은 지금도 가끔 알려져 있습니다.ECMA-94의 제2판(1986년 [15]6월)에는 ISO 8859-2, ISO 8859-3ISO 8859-4도 사양의 일부로 포함되어 있습니다.

ISO 8859-1의 원본 초안에서는 MCS와 마찬가지로 코드 포인트 215(0xD7)와 247(0xF7)에 프랑스어 œat가 배치되어 있습니다.However, the delegate from France, being neither a linguist nor a typographer, falsely stated that these are not independent French letters on their own, but mere ligatures (like or ), supported by the delegate team from Bull Publishing Company, who regularly did not print French with Œ/œ in their house style at the time.캐나다의 한 영어권 대표는 from/ but를 유지하자고 주장했지만 프랑스 대표단과 Bull의 팀에 의해 거절당했다.이 코드 포인트들은 독일 대표단의 제안으로 곧 ×와 under로 채워졌다.프랑스어에 대한 지원은 is자가 "프랑스어가 아니다"라고 다시 잘못 기재되어 대문자 ÿ가 없어졌을 때 더욱 축소되었다.실제로 names는 프랑스 고유명사전에 많이 쓰이고 있고, 대문자는 사전이나 백과사전에 많이 [16]쓰이고 있습니다.이러한 문자는 ISO/IEC 8859-15:1999에 추가되었습니다.BraSCII는 원본 초안과 일치합니다.

1985년 코모도어는 새로운 아미가에 ECMA-94를 도입했다.OS 운영 [17]체제세이코샤 MP-1300Amiga 1000과 함께 사용되는 AI 임팩트 도트 매트릭스 프린터에는 이 [citation needed]인코딩이 포함되어 있습니다.

1990년 유니코드 첫 번째 버전은 ISO-8859-1의 코드 포인트를 첫 256 유니코드 코드 포인트로 사용했습니다.

1992년 IANAISO 8859-1의 슈퍼셋인 ISO-8859-1의 MIME 이름으로 더 일반적으로 알려진 문자맵 ISO_8859-1:1987을 인터넷에서 사용하기 위해 등록했습니다.이 맵에서는 C0C1 제어 코드를 할당되지 않은 코드 값에 할당하므로 가능한 모든 8비트 값을 통해 256자를 사용할 수 있습니다.

코드 페이지 레이아웃

ISO/IEC 8859-1
0 1 2 3 4 5 6 7 8 9 A B C D E F
0x
1배
2배 SP ! " # $ % & ' ( ) * + , - . /
3배 0 1 2 3 4 5 6 7 8 9 : ; < > = > ?
4배 @ A B C D E F G H I J K L M N O
5배 P Q R S T U V W X Y Z [ \ ] ^ _
6배 ` a b c d e f g h i j k l m n o
7배 p q r s t u v w x y z { } ~
8배
9배
도끼를 NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ 부끄럽다 ® ¯
Bx ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
철형 à 아아 ã ä å è ê ë ì Î Ï
Dx ð ñ Ò ó o Õ × ø Ù u Û ü Ý Þ ß
ã ä å æ è ê ë ì ii î ï
Fx ð ñ ò o o õ ö ÷ ø ù u û ü ý þ ÿ
정의되어 있지 않다
기호 및 구두점
ECMA-94의 첫 번째 릴리스(1985)[14]에서는 정의되어 있지 않습니다.원래 초안에서는 δ는 0xD7이었고 δ는 0xF7이었다.

유사한 문자 집합

ISO/IEC 8859-15

ISO/IEC 8859-15는 ISO/IEC 8859-1의 업데이트로 1999년에 개발되었습니다.ISO/IEC 8859-1에 없는 프랑스어 및 핀란드어 텍스트와 유로 기호용 문자를 제공합니다.이를 위해서는 ISO/IEC 8859-1에서 분율 기호 및 문자가 없는 분음 기호를 포함하여 자주 사용되지 않는 일부 문자를 삭제해야 했습니다.¤,¦,¨,´,¸,¼,½,그리고.¾아이러니하게도 새로 추가된 캐릭터 중 3개(Œ,œ,그리고.Ÿ)는 ISO/IEC 8859-1(1987)의 전신인 DEC의 1983년 다국적 문자 집합(MCS)에 이미 존재했다.원래 코드 포인트는 이제 다른 용도로 재사용되었기 때문에 문자는 서로 다른 논리적인 코드 포인트로 재도입해야 했습니다.

ISO-IR-204는 1998년에 등록되었으며, 범용 통화 기호(1)를 유로 기호[18](ISO-8859-15로 대체)로 대체하여 ISO-8859-1을 변경하였다.

윈도-1252

널리 사용되는 Windows-1252 문자 세트에는 128~159(16진수 80~9F) 범위에서 거의 사용되지 않는 C1 컨트롤을 대체함으로써 ISO/IEC 8859-15에서 제공되는 모든 누락 문자와 다수의 타이포그래피 기호가 추가됩니다.Windows-1252 텍스트가 ISO-8859-1에 있는 것으로 잘못 라벨링되는 것은 매우 흔한 일입니다.그 결과, Windows 이외의 operating system에서는, 모든 따옴표와 아포스트로피(워드 프로세싱 소프트웨어의 「스마트 따옴표」에 의해서 작성)가 물음표나 박스로 대체되어 텍스트의 판독이 어려워졌습니다.많은 웹 브라우저와 전자 메일클라이언트는 ISO-8859-1 제어 코드를 Windows-1252 문자로 해석합니다.이 동작은 나중에 HTML5에서 [19]표준화되었습니다.

맥 로만

애플 매킨토시 컴퓨터는 1984년에 로만이라고 불리는 문자 인코딩을 도입했다.서유럽 데스크톱 퍼블리싱에 적합하도록 설계되어 있습니다.ASCII의 슈퍼셋으로 ISO-8859-1의 대부분의 문자와 Windows-1252의 모든 추가 문자를 포함하지만 배열은 전혀 다릅니다.ISO/IEC 8859-1에는 있지만 이 세트에는 없는 인쇄 가능한 몇 개의 문자가 Mac용 Internet Explorer의 마지막 버전을 포함하여 이전 Macintosh 브라우저를 사용하여 웹 사이트에서 텍스트를 편집할 때 종종 문제가 발생합니다.

다른.

DOS는 ISO-8859-1의 모든 인쇄 가능 문자(전혀 다른 배열이지만)와 코드 페이지 437에서 가장 널리 사용되는 그래픽 문자를 가진 코드 페이지 850을 가지고 있었다.

1989년부터[20] 2015년까지 Hewlett-Packard는 많은 계산기에 ISO-8859-1의 또 다른 슈퍼셋을 사용했습니다.이 독자적인 문자 집합은,[20] 「EMA-94」라고 불리는 경우도 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ "Encoding Standard". encoding.spec.whatwg.org.
  2. ^ "HTML Standard". html.spec.whatwg.org.
  3. ^ "Usage Survey of Character Encodings broken down by Ranking". w3techs.com. Retrieved 2022-07-01.
  4. ^ "Historical trends in the usage statistics of character encodings for websites, March 2022". w3techs.com. Retrieved 2022-03-30.
  5. ^ "Source of character encoding statistics?". w3techs.com.
  6. ^ "Distribution of Character Encodings among websites that use .de". w3techs.com. Retrieved 2022-07-01.
  7. ^ "Distribution of Character Encodings among websites that use German". w3techs.com. Retrieved 2022-01-24.
  8. ^ "Code Page Identifiers". Microsoft Corporation. Retrieved 2010-12-19.
  9. ^ "Code page 819 information document". Archived from the original on 2017-01-16.
  10. ^ "CCSID 819 information document". Archived from the original on 2016-03-27.
  11. ^ Code Page CPGID 00819 (pdf) (PDF), IBM
  12. ^ Code Page CPGID 00819 (txt), IBM
  13. ^ Baird, Cathy; Chiba, Dan; Chu, Winson; Fan, Jessica; Ho, Claire; Law, Simon; Lee, Geoff; Linsley, Peter; Matsuda, Keni; Oscroft, Tamzin; Takeda, Shige; Tanaka, Linus; Tozawa, Makoto; Trute, Barry; Tsujimoto, Mayumi; Wu, Ying; Yau, Michael; Yu, Tim; Wang, Chao; Wong, Simon; Zhang, Weiran; Zheng, Lei; Zhu, Yan; Moore, Valarie (2002) [1996]. "Appendix A: Locale Data". Oracle9i Database Globalization Support Guide (PDF) (Release 2 (9.2) ed.). Oracle Corporation. Oracle A96529-01. Archived (PDF) from the original on 2017-02-14. Retrieved 2017-02-14.
  14. ^ a b Standard ECMA-94: 8-bit Single-Byte Coded Graphic Character Set (PDF) (1 ed.). European Computer Manufacturers Association (ECMA). March 1985 [1984-12-14]. Archived (PDF) from the original on 2016-12-02. Retrieved 2016-12-01. […] Since 1982 the urgency of the need for an 8-bit single-byte coded character set was recognized in ECMA as well as in ANSI/X3L2 and numerous working papers were exchanged between the two groups. In February 1984 ECMA TC1 submitted to ISO/TC97/SC2 a proposal for such a coded character set. At its meeting of April 1984 SC decided to submit to TC97 a proposal for a new item of work for this topic. Technical discussions during and after this meeting led TC1 to adopt the coding scheme proposed by X3L2. Part 1 of Draft International Standard DTS 8859 is based on this joint ANSI/ECMA proposal. […] Adopted as an ECMA Standard by the General Assembly of Dec. 13–14, 1984. […]
  15. ^ "Second edition of ECMA-94 (June 1986)" (PDF).
  16. ^ Jacques, André (1996). "ISO Latin-1, norme de codage des caractères européens? Trois caractères français en sont absents!" (PDF). Cahiers GUTenberg (25): 65–77.
  17. ^ Malyshev, Michael (2003-01-10). "Registration of new charset [Amiga-1251]". ATO-RU (Amiga Translation Organization - Russian Department). Archived from the original on 2016-12-05. Retrieved 2016-12-05.
  18. ^ ITS Information Technology Standardization (1998-09-16). ISO-IR 204: Supplementary set for Latin-1 alternative with EURO SIGN (PDF). ITSCJ/IPSJ.
  19. ^ van Kesteren, Anne (27 January 2015). "5.2 Names and labels". Encoding Standard. WHATWG. Archived from the original on 4 February 2015. Retrieved 4 February 2015.
  20. ^ a b HP 82240B Infrared Printer (1 ed.). Corvallis, OR, USA: Hewlett-Packard. August 1989. HP reorder number 82240-90014. Retrieved 2016-08-01.

외부 링크