Lotus 멀티바이트 문자 집합
Lotus Multi-Byte Character SetLMBCS(Lotus Multi-Byte Character Set)는 1988년 Lotus Development Corporation에서 Bob Balaban 등의 [1]입력을 사용하여 구상된 자체 멀티바이트 문자 인코딩입니다.비슷한 시기에 작성되어 같은 문제에 대처하는 LMBCS는 [1]Unicode를 대체하는 병행 개발로 간주될 수 있습니다.호환성을 최대한 높이기 위해 LMBCS의 후속호에서는 UTF-16이 [2][3]서브셋으로 포함되어 있습니다.
상업적으로 LMBCS는 1989년 3월[1][4] DOS용 Lotus 1-2-3 Release 3 및 1990년 OS/2용[1] Lotus 1-2-3/G Release 1의 기본 문자 집합으로 처음 소개되었으며, 이전 버전의 Lotus-16에서 사용된 8비트 LICS(Lotus International Character Set) 및 ASCII를 대체했습니다.LMBCS는 IBM/Lotus SmartSuite, Notes 및 Domino [1]및 여러 타사 제품에서도 사용됩니다.
LMBCS는 라틴어,[6] 아랍어, 히브리어, 그리스어 및 키릴[6] 문자, 태국어, 중국어, 일본어[6] 및 한국어 문자 시스템 및 기술 기호를 사용하여 언어에 필요한 문자를 인코딩합니다.
인코딩
기술적으로 LMBCS는 코드 포인트 00 및hex 코드 포인트hex 20(32)~7Fhex(127)가 ASCII(LICS)[5]와[1] 동일한 리드 바이트 부호화입니다.
코드 포인트hex 00은 항상 NUL 문자로 취급되어 [a]C와 같은 많은 프로그래밍 언어의 null 종단 문자열을 처리하는[1] 기존 소프트웨어 라이브러리와 최대한의 코드 호환성을 보장합니다.이는 UTF-16be 코드에도 해당됩니다.UTF-16be 코드에서는 NUL [7]바이트 사용을 피하기 위해 인코딩 중에 xx00hex 형식의 코드 워드가 F6xxhex 형식의 개인 사용 코드에 매핑되며, 0Fhexhex 리드 [7]바이트 뒤에 C0(C1이 아닌) 제어 문자에 20이 추가됩니다.
ASCII에서 제어코드로 기능하는 코드포인트hex 01~1F는hex 리드바이트로 사용되며, 7Fhex 이상의 코드포인트 정의를 여러 코드그룹([1]코드페이지와 유사) 간에 전환함과 동시에 대응하는 코드그룹의 싱글바이트 또는 멀티바이트 특성을 결정한다.
예를 들어 코드 그룹 1(그룹 바이트hex 01)[1]은 SBCS 코드 페이지 850과 거의 동일하지만 코드 그룹 16(그룹 바이트hex 10)[1]은 일본어 MBCS 코드 페이지 932와 유사합니다.따라서 멀티바이트 문자는 2바이트 또는 [7][6]3바이트를 차지할 수 있습니다.
표준 LMBCS에서는 각 문자는 그룹 [1]바이트로 시작합니다.길이를 줄이려면 최적화 또는 압축된 LMBCS에서 애플리케이션 또는 프로세스별로 기본 코드 그룹 또는 최적화 그룹 코드를 정의할 수 있으며(최고 [1]발생 가능성에 따라 이상적으로 선택됨) 어떤 방식으로든(예를 들어 "LMBCS-n"[8] 이름을 지정하여) 해석 코드에 전달해야 합니다.따라서 이들 [1]문자에 대해 그룹 바이트를 생략할 수 있습니다.Lotus 1-2-3은 해당 소스 [7]파일의 파일 헤더에서 최적화 그룹 코드를 검색하지만, Lotus Notes의 경우 최적화 그룹 코드는 항상hex [2][7]01로 고정됩니다.
체납 | 그룹. | 바이트 수 | 묘사 |
---|---|---|---|
없음 | 00hex. | 1개[7] | 없음 |
LMBCS-1 | 01hex | 2개[7] | 코드 페이지 850 (DOS Latin-1)[2][7] |
LMBCS-2 | 02hex | 2개[7] | 코드 페이지 851 (DOS 그리스어)[2][7] |
LMBCS-3 | 03hex | 2개[7] | 코드 페이지 1255(Windows 히브리어)[2][7] |
LMBCS-4 | 04hex | 2개[7] | 코드 페이지 1256 (Windows 아랍어)[2][7] |
LMBCS-5 | 05hex | 2개[7] | 코드 페이지 1251(Windows 키릴 문자)[2][7] |
LMBCS-6 | 06hex | 2개[7] | 코드 페이지 852 (DOS Latin-2)[2][7] |
없음 | 07hex | 1개[7] | 벨[2] |
LMBCS-8 | 08hex | 2개[7] | 코드 페이지 1254(Windows 터키어)[2][9][7] |
없음 | 09hex | 1개[7] | 탭[2][9][7] |
없음 | 0Ahex | 1개[7] | LF[2][9][7] |
LMBCS-11 | 0Bhex | 2개[7] | 코드 페이지 874(태국)[9][7] |
(LMBCS-12) | 0Chex | 2개[7] | 예약필[2] |
없음 | 0Dhex | 1개[7] | CR[2][9][7] |
(LMBCS-14) | 0Ehex | 2개[7] | 예약필[2] |
(LMBCS-15) | 0Fhex | 2개[7] | C0/C1 컨트롤[7] 코드를 재매핑. |
LMBCS-16 | 10개hex | 3개[7] | 코드 페이지 932/[2]943[7](일본어/Shift-J)IS)[2][9] |
LMBCS-17 | 11개hex | 3개[7] | 코드 페이지 949/[2]1261[7] (한국어)[2][9] |
LMBCS-18 | 12개hex | 3개[7] | 코드 페이지[2][7] 950 (번체 중국어/대만어/Big5)[2][9] |
LMBCS-19 | 13개hex | 3개[7] | 코드 페이지 936/[2]1386[7] (간체자 중국어)[2][9] |
(LMBCS-20) | 열네hex 개 | 3개[7] | UTF-16(유니코드)[2][3][7] |
없음 | 15개hex | 3 | 예약필[2] |
없음 | 열여섯hex 살 | 3 | 예약필[2] |
없음 | 열일곱hex 살 | 3 | 예약필[2] |
없음 | 열여덟hex 살 | 3 | 예약필[2] |
없음 | 열아홉hex | 1개[7] | Lotus 1-2-3 시스템[9][7] 범위 |
없음 | 1Ahex | 3 | 예약필[2] |
없음 | 1Bhex | 3 | 예약필[2] |
없음 | 1Chex | 3 | 예약필[2] |
없음 | 1차원hex | 3 | 예약필[2] |
없음 | 1Ehex | 3 | 예약필[2] |
없음 | 1층hex | 3 | 예약필[2] |
문자 집합
프리픽스 바이트가 없는 경우 코드 포인트 32(20hex)~127(7Fhex)는 다음과 같이 해석됩니다(LMBCS 코드 32~127에 대응).
싱글 바이트 코드(ASCII/ISO-646-US[10]) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
2배 | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3배 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < > | = | > | ? |
4배 | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5배 | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6배 | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7배 | p | q | r | s | t | u | v | w | x | y | z | { | } | ~ | 델/델 |
그룹 1
LMBCS 그룹1의 코드 포인트 128(80hex)~255(FFhex)는 코드 페이지 850(DOS Latin-1)의 대응하는 코드 포인트와 동일하며, 코드 포인트 1(01hex)~127(7Fhex)은 다음의 예외 리스트(LMBCS 코드 256~383)에 따라서 정의됩니다.
LMBCS 그룹 1, 하위[11][10] 절반 | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
0x | 없음 | ☺ | ☻ | ♥ | ♦ | ♣ | ♠ | • | ◘ | ○ | ◙ | ♂ | ♀ | ♪ | ♫ | ☼ |
1배 | ► | ◄ | ↕ | ‼ | § | ▬ | ↨ | ↑ | ↓ | → | ← | ∟ | ↔ | ▲ | ▼ | |
2배 | ¨ | ~ | ˚ | ^ | ` | ´ | “ | ' | … | -[b] | — | ‘[c] | ’[c] | ‹ | › | |
3배 | ¨[d] | ~[d] | ˚[d] | ^[d] | `[d] | ´[d] | „ | ‚ | ” | ‗ | nbsp[c] | �[c] | ||||
4배 | Œ | œ | Ÿ | ˙[c] | ˚[c][d] | ╞ | ╟ | ▌ | ▐ | ◊[c] | ⌘[c] | [c] | [c] | Ω[c] | ||
5배 | ╨ | ╤ | ╥ | ╙ | ╘ | ╒ | ╓ | ╫ | ╪ | ╡ | ╢ | ╖ | ╕ | ╜ | ╛ | ╧ |
6배 | ij | IJ | fi | fl | ʼn | ŀ | Ŀ | ¯[c] | ˘[c] | ˝[c] | ˛[c] | ˇ[c] | ~[c][d] | ^[c][d] | ||
7배 | † | ‡ | Ħ[c] | ħ[c] | Ŧ[c] | ŧ[c] | ™ | ℓ | Ŋ[c] | ŋ[c] | ĸ[c] | Kr[e] | ⌐ | ₤ | ₧ |
그룹 2
LMBCS 그룹2의 코드 포인트 128(80hex)~255(FFhex)는 코드 페이지 851(DOS 그리스어)의 대응하는 코드 포인트와 동일하지만, 코드 포인트 1 (01hex)~127(7Fhex)은 다음의 예외 [f]리스트에 따라서 정의됩니다.
LMBCS 그룹 2, 하위[11] 절반 | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
0x | 없음 | ͺ | ΅ | Ϊ | Ϋ | ― | ΄ | ʼ | ʽ | ‾ | | | ||||
1배 | | | ⇕ | ⅞ | ⅝ | ⅜ | ⅛ | | ⇑ | ⇓ | ⇒ | ⇐ | | ⇔ | | |
2배 | | | | | | | | | | | | | | | | |
3배 | | | | | | | | | | | | | | | | |
4배 | ∠ | ∇ | | | | | | | | | | | | | | |
5배 | ∂ | ℵ | ℑ | ℜ | | | | | | | | ∋ | ∈ | ∉ | ⊆ | ⊇ |
6배 | ⊗ | ⊕ | ✓ | ⋀ | ∁ | ∫ | ∀ | ∃ | | ′ | ″ | ∞ | ∝ | φ | ∪ | ∩ |
7배 | ≡ | ≅ | ≥ | ≤ | ⌠ | ⌡ | ≠ | ≈ | ⁄ | ∙ | ‰ | √ | ⁿ | ∅ | ⊂ | ⊃ |
그룹 6
LMBCS 그룹6의 코드 포인트 128(80hex)~255(FFhex)는 코드 페이지 852(DOS Latin-2)의 대응하는 코드 포인트와 동일하며, 코드 포인트1 (01hex)~127 (7Fhex)는 다음의 예외 [f]리스트에 따라서 정의됩니다.
LMBCS 그룹 6, 하위[11] 절반 | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
0x | 없음 | 아 | Ĉ | ĉ | Ċ | ċ | Ē | ē | Ė | ė | Ĝ | ĝ | Ġ | ġ | Ģ | ģ |
1배 | Ĥ | ĥ | Ĩ | ĩ | Ī | ī | Į | į | Ĵ | ĵ | Ķ | ķ | Ļ | ļ | Ņ | ņ |
2배 | O | o | Ŗ | ŗ | Ŝ | ŝ | Ũ | ũ | ū | u | Ŭ | ŭ | Ų | ų | ā | |
3배 | ||||||||||||||||
4배 | ||||||||||||||||
5배 | ||||||||||||||||
6배 | ||||||||||||||||
7배 |
「 」를 참조해 주세요.
- 키 시퀀스 작성
- GB 18030
- Unicode(SCSU)의 표준 압축 방식
- 기호(서체)
- Xerox 문자 코드 표준(XCCS)
메모들
- ^ DOS용 Lotus 1-2-3 Release 3.0 이후의 버전은 C로 기술되어 있습니다.
- ^ § (U+2010), - (U+2011), § (U+2012), – (U+2013)
- ^ a b c d e f g h i j k l m n o p q r s t u v w x y 설명서에 따르면 이 코드 포인트는 DOS 및 OS/2 이전 버전의 Lotus 1-2-3 릴리스 3.1+에서는 지원되지 않습니다.
- ^ a b c d e f g h i Lotus 1-2-3 Release 5.0과의 호환성.
- ^ 유니코드에서는 크라운 통화 기호(Krone "Kr")에 대한 글리프가 정의되지 않으므로 유니코드 개인 사용 영역(PUA)에서 F8FB를hex 가리킵니다.
- ^ a b 문서 코드 포인트1 ~ 127은 DOS 및 OS/2 이전 버전의 Lotus 1-2-3 Release 3.1+에서 지원되지 않습니다.이들 버전에서는 LMBCS 코드 포인트0 ~ 511만 지원되며 그룹0 및 1만 지원되고 있습니다.
레퍼런스
- ^ a b c d e f g h i j k l m Balaban, Bob (2001). "Multi-Language Character Sets – What They Are, How To Use Them" (PDF). Looseleaf Software, Inc. Archived (PDF) from the original on 2016-11-25. Retrieved 2016-11-25.
- ^ a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af ag ah "Appendix A. Encoding Schemes". IBM Character Data Representation Architecture. IBM (CDRA). Lotus Multi-byte Character Set (LMBCS). Archived from the original on 2016-11-26. Retrieved 2016-11-26.
For optimization purposes, the group byte is omitted in Notes for single-byte values between X'20' and X'FF'. For example, LMBCS is always optimized to group 0x01, which means that any character where the first byte is greater than 0x1F, has an implicit group byte of 0x01.
- ^ a b Scherer, Markus; Murray, Brendan (2000-06-02). "Re: MS Excel, Lotus 123 & Unicode". Archived from the original on 2016-12-06. Retrieved 2016-12-06.
- ^ "Kapitel 4. Kompatibilität mit anderen 1-2-3 Versionen – Zeichensätze" [Chapter 4. Compatibility with other 1-2-3 Versions – Character Sets]. Lotus 1-2-3 Version 3.1 Upgrader's Handbuch [Upgrader's handbook] (in German) (1 ed.). Cambridge, MA, USA: Lotus Development Corporation. 1989. pp. 4-10–4-11. 302173.
- ^ a b Kamenz, Alfred; Vonhoegen, Helmut (1992). Das große Buch zu Lotus 1-2-3 für DOS (in German) (1 ed.). Data Becker. pp. 131–132, 357–358. ISBN 3-89011-375-3.
- ^ a b c d Lotus – Inside Notes – The Architecture of Notes and the Domino Server (PDF). Lotus Development Corporation. 2000. Archived (PDF) from the original on 2016-12-12. Retrieved 2016-12-12.
[…] Notes uses a single character set, the Lotus Multibyte Character Set (LMBCS), to encode all text data used internally by its programs. Whenever Notes first inputs text encoded in a character set other than LMBCS, it translates the text into a LMBCS string, and whenever it must output text in a character set other than LMBCS, it translates the internal LMBCS string into the appropriate character set. Because all text is internally formatted by LMBCS, all text-processing operations […] are done in only one way. LMBCS uses up to three bytes in memory to represent a single text character […]
- ^ a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af ag ah ai aj ak al am an ao ap aq ar as Murray, Brendan; Snyder-Grant, Jim, eds. (2016) [2000-02-09]. "ucnv_lmb.c". International Components for Unicode. International Business Machines (IBM).
- ^ Batutis, Edward J. (2001-11-03). "Re: converter types". International Components for Unicode (ICU). Archived from the original on 2016-12-06. Retrieved 2016-12-06.
- ^ a b c d e f g h i j "LMBCS" (in Japanese). 2009-02-03. Archived from the original on 2016-11-26. Retrieved 2016-11-26.[1]
- ^ a b "Anhang 2. Der Lotus Multibyte Zeichensatz (LMBCS)" [Appendix 2. The Lotus Multibyte Character Set (LMBCS)]. Lotus 1-2-3 Version 3.1 Referenzhandbuch [Lotus 1-2-3 Version 3.1 Reference Manual] (in German) (1 ed.). Cambridge, MA, USA: Lotus Development Corporation. 1989. pp. A2-1–A2-13. 302168.
- ^ a b c "lmb-excp.ucm". GitHub. 2000-02-10.
추가 정보
- 출생, 귄터(2000년 12월)[1990년]."성당 참사회 2.LOTUS 1-2-3-Format(WK3)"는 경우 2장.로터스 1-2-3WK3 형식 뻗는다.Dateiformate – 아이네 클라이네 Referenz Tabellenkalkulation, 텍스트, Grafik, 멀티 미디어, 사운드und 인터넷[파일 형식 – 스프레드 시트, 텍스트, 그래픽, 멀티 미디어, 소리 그리고 인터넷 참조 –](PDF)(독일어로)–.독일 본:갈릴레오는 컴퓨팅.아이 에스비엔 3-934358-83-7.그 2016-11-29에 원래에서Archived(PDF)..(LMBCS과 로터스 시스템은에 대한 정보를 포함한다.)2016-11-28 Retrieved.
- "LMBCS tables". User's Guide – 123 Release 4 for Windows (Fax). Lotus Development. 1995 [1994-01-01]. CHAPTER: Appendix A Using the Lotus Multibyte Character Set. Fax 10955. Retrieved 2016-12-06.
- "Entering LMBCS characters". User's Guide – 123 Release 4 for Windows (Fax). Lotus Development. 1995 [1994-01-01]. CHAPTER: Appendix A Using the Lotus Multibyte Character Set. Fax 10954. Retrieved 2016-12-06.
- Lotus Support. "Notes from Support: SMTP MTA International Character Sets". IBM developerWorks. IBM. Archived from the original on 2016-12-08. Retrieved 2016-12-08.
- 문자 변환 파일(.CTF) (Notes 2.x 및 국가 언어 서비스(.Notes 3.0 이상의 CLS) 파일에는 다른 코드 페이지로의 LMBCS 변환에 대한 정보가 포함되어 있습니다.[ 2 ] [ 3 ]
외부 링크
- Berntrop-Bos, Lars (2014-07-10). "Blast from the past: LMBCS tables for Windows, OS/2, Unix and Macintosh". Archived from the original on 2016-11-26. Retrieved 2016-11-26.