일본어와 컴퓨터

Japanese language and computers
일본식 카나 키보드

일본어와 컴퓨터와 관련하여 많은 적응 문제가 발생하는데, 일본어 특유의 문제와 매우 많은 수의 문자를 가진 언어에 공통적인 문제가 있습니다.영어로 쓰기 위해 필요한 문자의 수가 매우 적기 때문에 각 영어 문자를 인코딩하기 위해 하나의 바이트(2=256개의 가능한 값)만 사용할 수 있습니다.그러나 일본어의 문자 수는 256자 이상이므로 단일 바이트를 사용하여 인코딩할 수 없습니다. 따라서 일본어는 두 개 이상의 바이트를 사용하여 소위 "더블 바이트" 또는 "멀티 바이트" 인코딩으로 인코딩됩니다.일본어 텍스트의 번역로마자 표기, 문자 부호화, 입력과 관련된 문제가 발생합니다.

문자 부호화

JIS, Shift-JIS, EUC Unicode 컴퓨터에서 사용할 수 있도록 일본어 문자를 인코딩하는 표준 방법이 있습니다.가나 세트를 매핑하는 것은 간단한 문제이지만, 한자는 더 어렵다는 것이 증명되었습니다.노력에도 불구하고, 어떤 인코딩 방식도 사실상의 표준이 되지 못했고, 2000년대에는 여러 인코딩 표준이 사용되었습니다.2017년 현재, 인터넷에서 UTF-8 트래픽이 차지하는 비중은 전 세계적으로 90% 이상으로 확대되었으며, Shift-JIS 및 EUC를 사용하는 경우는 1.2%에 불과했습니다.그러나 2channel kakaku.com 을 포함한 몇몇 인기 웹사이트들은 여전히 Shift-JIS를 사용하고 있습니다.

2000년대까지 대부분의 일본 이메일은 ISO-2022-JP("JIS 인코딩")에 있었으며 Shift-JIS의 웹 페이지와 일본의 휴대전화는 대개 일부 형태의 확장 유닉스 [2]코드를 사용했습니다.프로그램이 사용된 인코딩 방식을 결정하지 못할 경우, 모히베이크(, "잘못 변환된/가래지 문자", 문자 그대로 "변환된 문자")가 발생하여 컴퓨터에서 읽을 수 없는 텍스트가 될 수 있습니다.

3000개의 글리프를 저장하는 PC-98에 탑재된 간지 롬 카드로 빠른 디스플레이가 가능했습니다.또한 가이지를 저장하는 램을 가지고 있었습니다.
임베디드 장치는 여전히 반치폭 카나를 사용하고 있습니다.

최초로 널리 사용된 인코딩은 JIS X 0201로, 표준 7비트 ASCII 문자와 반치폭 카타카나 확장자만 포함하는 단일 바이트 인코딩입니다.가나-간지 변환은 복잡한 과정을 필요로 했고, 한자 출력은 많은 메모리와 고해상도를 필요로 했기 때문에 이것은 충분히 강력하지도 않고 한자를 다룰 수 있는 저장소(예: 금전 등록기)를 가지고 있지도 않은 시스템에서 널리 사용되었습니다.이것은 이 기술을 사용하여 한자가 아닌 가타카나만 지원했다는 것을 의미합니다.일부 내장형 디스플레이에는 여전히 이 제한이 있습니다.

분열의 시초는 한자 부호화의 발달이었습니다.Shift JIS는 한자를 지원하며 JIS X 0201과 완전히 역호환할 수 있도록 개발되었으므로 많은 내장 전자 장비에 있습니다.그러나 Shift JIS는 이를 처리할 수 있도록 특별히 설계되지 않은 파서(코드된 텍스트를 읽는 소프트웨어)를 자주 파손하는 안타까운 특성을 가지고 있습니다.

예를 들어, 일부 Shift-JIS 문자는 많은 프로그래밍 언어에서 이스케이프 문자로 사용되는 두 번째 바이트에 백슬래시(0x5C "\")를 포함합니다.

8d 5c 82 ed 82 c8 82 a2

Shift JIS를 지원하지 않는 파서는 0x5C 0x82를 잘못된 이스케이프 시퀀스로 인식하여 제거합니다.[3]따라서 이 문구는 모찌베이크의 원인이 됩니다.

8d 82 ed 82 c8 82 a2

이것은 예를 들어 텍스트 문자열에 Shift-JIS가 있을 C 프로그래밍 언어에서 발생할 수 있습니다.ASCII 0x00–0x3F(, % & 및 기타 사용된 이스케이프 문자 및 문자열 구분 포함)는 Shift-JIS에서 두 번째 바이트로 나타나지 않으며 백슬래시는 이스케이프 문자가 아니기 때문에 HTML에서는 발생하지 않습니다.그러나 HTML 페이지에 내장될 수 있는 자바스크립트의 경우에는 발생할 수 있습니다.

반면 EUC는 7비트 ASCII용으로 작성된 파서에 의해 훨씬 더 잘 처리됩니다(따라서 EUC 인코딩은 역사적으로 파일 처리 코드의 대부분이 영어 인코딩을 위해 작성된 UNIX에서 사용됩니다).그러나 EUC는 최초의 메인 일본어 인코딩인 JIS X 0201과 역호환되지 않습니다.원래 인터넷 전자 메일 표준은 7비트 전송 프로토콜만 지원하기 때문에 더 많은 문제가 발생합니다.따라서 RFC1468("ISO-2022-JP", 간단히 JIS 인코딩이라고도 함)은 이메일을 주고 받기 위해 개발되었습니다.

가이지는 일본 TV 방송의 폐쇄 자막에 사용됩니다.

In character set standards such as JIS, not all required characters are included, so gaiji (外字 "external characters") are sometimes used to supplement the character set.Gaiji는 일반 문자가 새 문자로 대체되거나 사용되지 않는 문자 위치에 새 문자가 추가된 외부 글꼴 팩 형태로 제공될 수 있습니다.그러나 가이지를 사용하려면 글꼴 세트를 텍스트와 함께 전송해야 하기 때문에 인터넷 환경에서 가이지는 실용적이지 않습니다.따라서 이러한 문자는 유사하거나 간단한 문자를 사용하여 작성되거나, 필요한 [4]문자를 지원하는 더 큰 문자 집합(예: 유니코드)을 사용하여 텍스트를 인코딩해야 할 수도 있습니다.

유니코드는 모든 언어에 걸친 모든 인코딩 문제를 해결하기 위한 것이었습니다.웹 페이지에서 유니코드를 인코딩하기 위해 사용되는 UTF-8 인코딩은 Shift-J라는 단점이 없습니다.IS가.유니코드는 국제적인 소프트웨어를 지원하며, 가이지가 필요 없습니다.하지만 여전히 논란이 있습니다.일본어의 경우 한자는 중국어로 통일되어 있는데, 일본어와 중국어 모두 동일한 것으로 간주되는 문자는 실제 모양이 다소 다르더라도 단일 번호가 부여되며, 정확한 모양은 지역에 적합한 글꼴을 사용하는 것에 맡깁니다.한 통일이라고 불리는 이 과정은 [citation needed]논란을 일으켰습니다.일본, 대만 지역, 중국 본토한국의 이전 인코딩은 하나의 언어만을 다루었고 유니코드는 모든 언어를 다루어야 했습니다.그러나 한자/중국어 처리는 4개국/[citation needed]지역의 대표자들로 구성된 위원회에 의해 설계되었습니다.

문자입력

일본어 표기는 한자, 가나 2세트, 로마자 등 다양한 문자를 사용합니다.가나와 로마자는 컴퓨터에 직접 입력할 수 있지만, 대부분의 키보드에 있는 키보다 훨씬 더 많은 한자가 있기 때문에 한자를 입력하는 것은 더 복잡한 과정입니다.현대의 컴퓨터에서 한자를 입력하기 위해서는 보통 한자의 읽기를 먼저 입력한 다음에 프론트엔드 프로세서라고도 하는 입력 방법 편집기(IME)가 음성 일치하는 후보 한자 목록을 보여주고 사용자가 올바른 한자를 선택할 수 있도록 합니다.고급 IME는 단어가 아닌 구문으로 작동하기 때문에 첫 번째 옵션으로 원하는 문자를 얻을 가능성이 높아집니다.한자 읽기 입력은 로마자 표기법(로마지 뉴료쿠, ローマ字入力) 또는 직접 가나 입력(카나 뉴료쿠, かな入力)을 통해 입력할 수 있습니다.로마지 입력은 PC 및 기타 일반 키보드에서 더 흔하지만(직접 입력도 광범위하게 지원됨), 직접 가나 입력은 일반적으로 휴대 전화 및 유사한 장치에서 사용됩니다. 10자리(1~9,0) 각각은 가나의 고쥬온 테이블에 있는 10개 열 중 하나에 해당하며 여러 번 누르면 행이 선택됩니다.

일본어의 로마자 표기법에는 크게 두 가지 체계가 있는데, 쿤레이시키햅번으로 알려져 있습니다; 실제로 "키보드 로마지"(wāpuro romaji 또는 "word processor romaji"라고도 알려짐)는 일반적으로 두 가지의 느슨한 조합을 허용합니다.IME 구현은 심지어 L과 같은 로마자 표기법에서 사용되지 않는 문자에 대한 키를 처리하여 가장 적합한 동등한 문자로 변환할 수도 있습니다.가나 입력을 사용하면 키보드의 각 키는 하나의 가나에 직접 대응됩니다.JIS 키보드 시스템은 국가 표준이지만 전문 타이피스트들 사이에서 일반적으로 사용되는 엄지-시프트 키보드와 같은 대안이 있습니다.

텍스트 방향

LibreOffice Writer는 하향 텍스트 옵션을 지원합니다.

일본어는 두 가지 방향으로 쓸 수 있습니다.요코가키 양식은 영어와 마찬가지로 왼쪽에서 오른쪽으로, 위에서 아래로 씁니다.타테가키 스타일은 처음에 위에서 아래로 쓴 다음 오른쪽에서 왼쪽으로 이동합니다.

이치타로와 경쟁하기 위해 마이크로소프트는 워드 5.0 파워 업 키트 및 워드 [5][6]98과 같은 하향 텍스트 지원을 포함한 초기 일본어 버전의 마이크로소프트 워드에 대한 몇 가지 업데이트를 제공했습니다.

Quark XPress는 개발 주기가 길었음에도 불구하고 1990년대 일본에서 가장 인기 있는 DTP 소프트웨어였습니다.그러나 하향 텍스트에 대한 지원이 부족하여 여러 번의 [7][8]업데이트를 통해 하향 텍스트에 대한 지원이 강력했던 Adobe InDesign에 추월당했습니다.

현재 [when?]하향 텍스트 처리가 완료되지 않은 상태입니다.예를 들어 HTML타테가키를 지원하지 않으며 일본 사용자는 이를 시뮬레이션하기 위해 HTML 테이블을 사용해야 합니다.그러나 CSS 레벨 3은 속성을 포함합니다."writing-mode" 값이 주어졌을 때 타테가키를 렌더링할 수 있는 "vertical-rl" (즉, 위에서 아래로, 오른쪽에서 왼쪽으로).워드 프로세서와 DTP 소프트웨어는 이를 보다 완벽하게 지원합니다.

참고 항목

참고문헌

  1. ^ "【やじうまWatch】 ウェブサイトにおける文字コードの割合、UTF-8が90%超え。Shift_JISやEUC-JPは? - INTERNET Watch". INTERNET Watch. 2017-10-17. Retrieved 2019-05-11.
  2. ^ "文字コードについて". ASH Corporation. 2002. Retrieved 2019-05-14.
  3. ^ "Shift_JIS文字を含むソースコードをgccでコンパイル後、警告メッセージが表示される". Novell. 2006-02-10. Retrieved 2019-05-14.
  4. ^ 兵ちゃん (2016-02-18). "住基ネット統一文字コードによる外字の統一について". Archived from the original on 2020-08-02. Retrieved 2019-05-14.
  5. ^ "ASCII EXPRESS : マイクロソフトが「Access」と「Word 5.0 Power Up Kit」を発売". ASCII. 18 (1). 1994.
  6. ^ "Microsoft Office 97 Powered by Word 98 製品情報". Microsoft. 2001-08-01. Archived from the original on 2001-08-01. Retrieved 2019-05-14.
  7. ^ エディット-U. "DTPって何よ(4) [編集って何よ]". Retrieved 2019-05-14.
  8. ^ "アンチQuarkユーザーが気になるQuarkXPress 8の機能トップ10(3) 縦書きの組版が面倒だったけどどうなのよ?". MyNavi News. 2008-07-04. Retrieved 2019-05-14.

외부 링크