윈도-1252

Windows-1252
윈도-1252
Windows-1252-infobox.svg
MIME / IANA창문으로1252번길[1]
별칭cp1252(코드 페이지 1252)
언어기본적으로 모두 ISO/IEC 8859-1에 의해 지원됨(예:영어, 아일랜드어, 이탈리아어, 노르웨이어, 포르투갈어, 스페인어, 스웨덴어.게다가 독일어, 핀란드어, 아이슬란드어, 프랑스어, 네덜란드어(Ⅱ 캐릭터 제외), 슬로베니아어(ch 캐릭터 제외)도 있다.
작성자마이크로소프트
표준WHTWG 인코딩 표준
분류확장 ASCII, Windows-125x
확장하다ISO 8859-1(C1 제어 장치 제외)
변환/인코딩ISO 8859-15

Windows-1252 또는 CP-1252(코드 페이지 1252)는 영어용 Microsoft Windows레거시 구성 요소와 스페인어, 프랑스어 및 독일어를 포함한 많은 유럽 언어에서 기본적으로 사용되는 라틴 알파벳의 단일 바이트 문자 인코딩이다.

세계에서 (적어도 웹사이트에서) 가장 많이 사용되는 단일바이트 문자 인코딩이다.2022년 1월 현재 전체 웹사이트의 0.3%가 윈도-1252 사용을 선언했지만,[2][3] 동시에 1.[2]1%가 HTML5 표준으로 동일한 인코딩으로 간주해야 하는 ISO 8859-1(반면 상위[4] 1000개 웹사이트 중 5개 사이트만 사용)을 사용해 1.4%의 웹사이트가 윈도-1252를 효과적으로 사용하고 있다.[5]미국-ASCII로 선언된 페이지도 이 문자 집합으로 간주된다.다른 페이지의 알려지지 않은 부분집합은 UTF-8의 ASCII 부분만 사용하거나, 선언된 문자 집합에서 Windows-1252와 일치하는 코드만 사용하며, 계산될 수도 있다.

웹사이트 이용률(ISO-8859-1 포함)에 따르면 국가에 따라 이용률이 세계 평균(예: 독일의 경우)보다 훨씬 [6][7]높을 수 있다.

세부 사항

이 문자 인코딩은 인쇄 가능한 문자로 볼 때 ISO 8859-1상위 집합이지만, 80~9F(헥스) 범위의 제어 문자보다는 표시 가능한 문자를 사용하여 IANA의 ISO-8859-1과 다르다.주목할 만한 추가 문자에는 곱슬곱슬한 따옴표ISO 8859-15(ISO 8859-15와 다른 위치)에 있는 인쇄 가능한 모든 문자가 포함된다.코드 페이지 번호 1252 및 IANA 승인 이름 "Windows-1252"로 Windows에 알려져 있다.

Windows-1252 텍스트에 ISO-8859-1이라는 문자 집합 레이블을 잘못 지정하는 것은 매우 일반적이다.일반적인 결과는 모든 인용문 및 아포스트로피(워드 프로세싱 소프트웨어에서 "스마트 인용문"으로 제작)가 비 Windows 운영 체제에서 물음표나 상자로 대체되어 텍스트를 읽기 어렵게 만들었다.대부분의 현대적인 웹 브라우저와 이메일 클라이언트는 이러한 잘못된 라벨을 수용하기 위해 미디어 타입의 charset ISO-8859-1을 Windows-1252로 취급한다.이것은 이제 HTML5 규격의 표준 동작으로, ISO-8859-1로 광고된 문서를 실제로 윈도우즈-1252 인코딩으로 구문 분석할 것을 요구한다.[5]

역사적으로, "ANSI 코드 페이지"라는 문구는 비DOS 인코딩을 지칭하기 위해 Windows에서 사용되었다. 그 의도는 이 대부분이 ISO-8859-1과 같은 ANSI 표준이 될 것이라는 것이었다.비록 윈도우-1252가 마이크로소프트 윈도우에서 그렇게 이름 붙여진 최초의 가장 인기 있는 코드 페이지였지만, 코드 페이지는 결코 ANSI 표준이 아니었다.마이크로소프트는 "Windows 코드 페이지를 나타내는 ANSI라는 용어는 역사적 참고문헌이지만, 요즘은 Windows 커뮤니티에서 계속 유지되는 잘못된 용어"라고 설명한다.[8]

LaTeX 패키지에서는 CP-1252를 "ansinew"라고 부른다.

IBM은 Windows-1252에 코드 페이지 1252(CCSID 1252 및 유로 기호 확장 CCSID 5348)를 사용한다.[9][10][11]

오라클에서 "WE8MSWIN1252"라고 부른다.[12]

코드 페이지 레이아웃

다음 표는 윈도-1252를 보여준다.ISO-8859-1과의 차이는 "최적 적합성"이 있는 윈도우즈-1252의 Unicode.org 매핑에 기초하여 문자 아래의 유니코드 코드 번호를 가진다.일반적으로 문자의 바로 왼쪽을 가리킬 때만 사용할 수 있는 도구 설명에는 유니코드 코드 포인트 이름과 소수점 Alt 코드가 표시된다.

Windows-1252([13][14][15][16][17]CP1252)
0 1 2 3 4 5 6 7 8 9 A B C D E F
0_ NUL SOH STX ETX EOT ENQ ACK BS HT LF VT FF CR 그렇게 SI
1_ DLE DC1 DC2 DC3 DC4 NAK SYN ETB EM 후보선수 ESC FS GS RS 미국
2_ SP ! " # $ % & ' ( ) * + , - . /
3_ 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4_ @ A B C D E F G H I J K L M N O
5_ P Q R S T U V W X Y Z [ \ ] ^ _
6_ ` a b c d e f g h i j k l m n o
7_ p q r s t u v w x y z { } ~ DEL
8_
20AC

201A
ƒ
0192

201E

2026

2020

2021
ˆ
02C6

2030
Š
0160

2039
Œ
0152
Ž
017D
9_
2018

2019

201C

201D

2022

2013

2014
˜
02DC

2122
š
0161

203A
œ
0153
ž
017E
Ÿ
0178
A_ NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ 샤이 ® ¯
B_ ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
C_ À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
D_ Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
E_ à á â ã ä å æ ç è é ê ë ì í î ï
F_ ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

마이크로소프트와 유니코드 컨소시엄의 웹사이트에 있는 정보에 따르면 위치 81, 8D, 8F, 90, 9D는 사용되지 않지만 윈도우 API는 사용하지 않는다.MultiByteToWideChar이들을 해당 C1 제어 코드에 매핑한다."최상의 적합성" 매핑도 이러한 동작을 문서화한다.[13]

역사

  • Microsoft Windows 1.0에서 사용된 코드 페이지 1252의 첫 번째 버전은 D7 및 F7 위치가 정의되지 않았다.80~9F 범위의 모든 문자도 정의되지 않았다.
  • 마이크로소프트 윈도 2.0에서 사용된 두 번째 버전은 위치 D7, F7, 91 및 92가 정의되었다.
  • 마이크로소프트 윈도 3.1 이후 사용된 세 번째 버전은 유로 부호카론 문자 쌍이 있는 Z를 제외한 현재의 모든 위치를 정의했다.
  • 위에 나열된 최종 버전은 Microsoft Windows 98에서 첫 선을 보였으며 유로 기호 업데이트로 이전 버전의 Windows에 포팅되었다.

OS/2 확장

OS/2 운영 체제는 코드 페이지 1004(CCSID 1004) 또는 "Windows Extended"[18][19]라는 이름으로 인코딩을 지원한다.이것은 대부분 코드 페이지 1252와 일치하며, 특정 C0 제어 문자분음 부호 문자로 대체되는 것을 제외한다.

코드 페이지 1004(행만 분할)[20][21][22][23]
0 1 2 3 4 5 6 7 8 9 A B C D E F
0_ NUL SOH STX ETX ˉ
02C9
˘
02D8
˙
02D9
˚
02DA
HT ˝
02DD
˛
02DB
ˇ
02C7
CR 그렇게 SI

MSDOS 확장 [reare]

거의 사용되지 않지만 유용한 그래픽 확장 코드 페이지 1252가 있으며, 여기서 코드 0x00 ~ 0x1f는 MSDOS Edit 및 Codeview와 같은 응용프로그램에서 사용되는 박스 도면을 허용한다.이 코드 페이지를 사용하는 애플리케이션 중 하나는 1995년 중반/ 후반의 Intel Corporation 설치/복구 디스크 이미지 유틸리티였습니다.이 프로그램들은 P6 사용자 테스트 프로그램 기계(미국[24] 사례)를 위해 작성되었다.당시 EMEA 지역(유럽, 중동, 아프리카)에서만 사용되었다.제 때에 프로그램이 코드 페이지 850을 사용하도록 변경되었다.

그래픽 확장 코드 페이지 1252[citation needed]
0 1 2 3 4 5 6 7 8 9 A B C D E F
0_
1_

팜 OS 변종

이 Windows-1252의 변종은 Palm OS 3.5에 의해 사용된다. Python은 그것에게palmosWindows-1252와의 차이점에는 유니코드 코드 포인트가 있다.[25]

팜 OS 코드 페이지[26]
0 1 2 3 4 5 6 7 8 9 A B C D E F
8_ ƒ ˆ Š Œ
2666

2663

2665
9_
2660
˜ š œ Ÿ

참고 항목

참조

  1. ^ Character Sets, Internet Assigned Numbers Authority (IANA), 2018-12-12
  2. ^ a b "Historical trends in the usage statistics of character encodings for websites, January 2022". w3techs.com. Retrieved 2022-01-24.
  3. ^ "Frequenty Asked Questions". w3techs.com.
  4. ^ "Usage Survey of Character Encodings broken down by Ranking". w3techs.com. Retrieved 2021-10-17.
  5. ^ a b "Encoding". WHATWG. 27 January 2015. sec. 5.2 Names and labels. Archived from the original on 4 February 2015. Retrieved 4 February 2015.
  6. ^ "Distribution of Character Encodings among websites that use .de". w3techs.com. Retrieved 2022-01-24.
  7. ^ "Distribution of Character Encodings among websites that use German". w3techs.com. Retrieved 2022-01-24.
  8. ^ Wissink, Cathy (5 April 2002). "Unicode and Windows XP" (PDF). Microsoft. p. 1. Archived (PDF) from the original on 4 February 2015. Retrieved 4 February 2015.
  9. ^ "Code page 1252 information document". Archived from the original on 2016-03-03.
  10. ^ "CCSID 1252 information document". Archived from the original on 2016-03-26.
  11. ^ "CCSID 5348 information document". Archived from the original on 2014-11-29.
  12. ^ "Database Client Installation Guide". Oracle. Retrieved 2021-02-14.
  13. ^ a b "Unicode mappings of Windows-1252 with 'Best Fit'". Unicode. Archived from the original on 4 February 2015. Retrieved 4 February 2015.
  14. ^ Code Page CPGID 01252 (pdf) (PDF), IBM
  15. ^ Code Page CPGID 01252 (txt), IBM
  16. ^ International Components for Unicode (ICU), ibm-1252_P100-2000.ucm, 2002-12-03
  17. ^ International Components for Unicode (ICU), ibm-5348_P100-1997.ucm, 2002-12-03
  18. ^ "Code page 1004 information document". Archived from the original on 2015-06-25.
  19. ^ "CCSID 1004 information document". Archived from the original on 2016-03-26.
  20. ^ "Code Page 01004" (PDF). IBM. Archived from the original (PDF) on 2015-07-08. (Windows 3.1 버전-1252에 기반한 버전)
  21. ^ Code Page CPGID 01004 (pdf) (PDF), IBM
  22. ^ Code Page CPGID 01004 (txt), IBM
  23. ^ Borgendale, Ken (2001). "Codepage 1004 - Windows Extended". OS/2 codepages by number. Archived from the original on 2018-05-13. Retrieved 2018-05-13. (현재 버전의 Windows-1252에 기반한 버전)
  24. ^ Storaasli, Olaf (1996). "Performance of the NASA equation solvers on computational mechanics applications" (PDF). Performance of NASA Equation Solvers on Computational Mechanics Applications. NASA. doi:10.2514/6.1996-1505. S2CID 15711051. Archived from the original (PDF) on 2019-05-03.
  25. ^ "codecs — Codec registry and base classes (§ Text Encodings)". The Python Standard Library—Python 3.9.4 Documentation. Python Software Foundation.
  26. ^ Mullender, Sjoerd (9 December 2021). "Python Character Mapping Codec for Palm OS 3.5". CPython source tree. Python Software Foundation.

외부 링크