한통일

Han unification
Source Han Sans 지역 버전에서의 동일한 Unicode 문자(U+8FD4)의 차이점

한 통일은 유니코드 및 유니버설 문자 집합의 저자들이 소위 CJK 언어의 한 문자 집합을 하나의 통합된 문자 집합으로 매핑하려는 노력이다.한자는 한자, 일본어, 한국어, 베트남어(ữ h)의 공통점이다.

현대 중국어, 일본어 및 한국어 서체는 일반적으로 특정 한자의 지역 또는 역사적 변형을 사용합니다.유니코드의 공식화에서, 이러한 변형들을 같은 "그래펨" 또는 철자 단위를 나타내는 다른 문자들로 간주함으로써 통일하려는 시도가 이루어졌고, 그 결과 만들어진 문자 레퍼토리는 때때로 [citation needed]유니한과 계약되었다.다만, 많은 문자는, 종래의 「」(U+500B)와 「간체」(U+4E2A)와 같이, 다른 코드 포인트에 할당된 지역별의 바리안트를 가지고 있습니다.

Unihan은 Unicode Consortium이 관리하는 Unihan Database를 참조할 수도 있습니다. Unicode Consortium은 Unicode 표준으로 인코딩된 모든 한자에 대한 정보를 제공합니다. 여기에는 다양한 국가 및 산업 표준, 표준 사전으로의 매핑, 인코딩된 변형, 다양한 언어의 발음 및 영어판이 포함됩니다.h의 정의데이터베이스는 텍스트 파일[1] 및 대화형 [2][3]웹 사이트를 통해 일반인에게 제공됩니다.후자는 또한 무료 일본어 CITHT와 중국어 CEDICT 사전 프로젝트(편의상 제공되며 유니코드 표준의 정식 부분이 아님)에서 도출된 합성어에 대한 대표 문자와 정의를 포함한다.

근거와 논란

유니코드 규격은 한통일의 [4][5]원칙을 상세히 기술하고 있다.중국어권 국가, 남북한, 일본, 베트남 등의 전문가들로 구성된 IRG(Ideographic Research Group)가 이 과정을 책임지고 있다.

하나의 근거는 완전한 유니코드 문자 집합의 크기를 제한하고 싶다는 것이었다. 여기서 이산 표의문자로 표현되는 CJK 문자는 100,000자에[a] 근접하거나 초과할 수 있다.유니코드 버전 1은 16비트에 맞게 설계되었으며 65,536자 중 20,940자(32%)만이 CJK 통합 한자용으로 예약되어 있습니다.Unicode는 나중에 더 많은 CJK 문자를 허용하는 21비트로 확장되었습니다(92,865자 할당, 추가 공간 있음).

IBM DeveloperWorks에 있는 Unicode의 비밀스러운 삶 기사는 한 통일을 향한 동기의 일부를 설명하려고 합니다.

문제는 유니코드가 글자의 시각적 표현인 "글리프"가 아닌 문자를 인코딩한다는 사실에서 비롯됩니다.동아시아 문자 모양에는 네 가지 기본적인 전통이 있다: 번체 중국어, 간체 중국어, 일본어, 그리고 한국어.한뿌리 문자는 CJK 언어의 경우 동일할 수 있지만, 동일한 문자에 일반적으로 사용되는 문자는 동일하지 않을 수 있습니다.예를 들어, "풀"을 뜻하는 전통적인 중국 문자는 "풀"의 부수인 [],]에 4획을 사용하는 반면, 중국, 일본, 한국의 간체 문자는 3획을 사용합니다.단, 글라스 문자(U+8349)는 문자 체계에 관계없이 유니코드 포인트가 하나밖에 없습니다.또 다른 예로 중국어, 일본어, 한국어로 다른 "하나"의 한자를 들 수 있다.많은 사람들은 이 세 가지 버전이 다르게 인코딩되어야 한다고 생각한다.

사실, "하나"의 세 글자(,, or, ))는 국가 변형으로 간주되지 않기 때문에 유니코드로 따로 인코딩되어 있다.첫 번째 형태는 세 나라 모두에서 공통적인 형태이며, 두 번째와 세 번째 형태는 변조 방지를 위해 금융상품에 사용된다(변종으로 간주될 수 있음).

그러나 한 통일은 특히 일본 문인들과 함께 역사적, 문화적으로 중요한 변종 도태에 항의해 [6][7]온 역사를 가진 일본 국민들 사이에서 상당한 논란을 불러일으켰다.(한자 ① 맞춤법 개혁한자 목록 참조).오늘날, 정식 명칭으로 인정된 문자의 리스트는, 완만한 페이스로 계속 확대되고 있다.

In 1993, the Japan Electronic Industries Development Association (JEIDA) published a pamphlet titled "未来の文字コード体系に私達は不安をもっています" (We are feeling anxious for the future character encoding system JPNO20985671)는 유니코드가 채택한 한민족통일 방식에 대한 주요 비판을 요약한 것이다.

문자 대 문자

라틴어 소문자 "a"는 모두 동일한 추상적 문자의 구체적인 예를 나타내는 매우 다른 문자를 가지고 있습니다.비록 라틴 문자를 사용하는 언어의 원어민 독자가 이 두 글자를 같은 글자로 인식하지만, 다른 사람들에게는 전혀 관련이 없는 것처럼 보일 수 있습니다.

글자는 문자 체계에서 가장 작은 추상적 의미의 단위이다.어떤 문자든 가능한 많은 문자의 표현이 있지만, 특정 문자 체계에 대한 읽고 쓰는 지식을 가진 사람들에 의해 모두 같은 문자로 인식된다.Unicode는 일반적으로 코드 포인트에 문자를 할당하여 쓰기 시스템 내의 문자를 표현하지만 Unicode Standard(섹션 3.4 D7)에서는 다음과 같이 주의합니다.

추상문자는 사용자가 생각하는 '문자'와 반드시 일치하는 것은 아니며, 그래피엠과 혼동해서는 안 됩니다.

그러나 이 인용문은 몇몇 글자가 여러 글자로 이루어져 있다는 것을 언급하고 있다.예를 들어, U+030A COMBING RING AVER ( 「 " 」 )와 조합한 문자 U+0061은, 복수의 Unicode 추상 문자로 구성되는 한편, 유저에 의해서 단일의 그래프로 인식될 가능성이 있습니다.또한 Unicode는 일부 코드 포인트를 (호환성을 위해가 아닌) 소수의 문자, 공백 문자 및 기타 추상 문자에 할당합니다. 이 문자는 그래프가 아니라 줄, 단어, 알파벳 및 알파벳 클러스터 간의 구분을 제어하는 데 사용됩니다.통일된 한문체에서는 유니코드 표준이 추상문자를 글자가 아니라 언어학자들이 정자라고 부르는 글자의 근본적 의미에 따라 할당하는 이전의 관행을 탈피하고 있습니다.따라서 이러한 이탈은 단순히 추상 문자와 문자의 자주 인용되는 구분에 의해 설명되는 것이 아니라, 문자로서 할당된 추상 문자와 기호로서 할당된 추상 문자의 차이에 더 뿌리를 두고 있다.이와는 대조적으로 ASCII의 구두점분음 부호 통합에 대해 생각해 보십시오. 여기서 문자는 동일하기 때문에 매우 다른 의미를 가진 문자(예: 아포스트로피와 단일 따옴표)가 통일됩니다.유니한의 경우 캐릭터는 외관이 아니라 정의나 의미에 의해 통일됩니다.

다양한 문자에 의해 나타나는 문자는 보통 하나의 글꼴을 선택하거나 하나의 글꼴에 여러 개의 문자가 포함되는 문자의 치환 특징을 사용하여 결정되는 문자의 변이를 갖는 것을 의미한다.이러한 문자 변형은 유니코드에 의해 풍부한 텍스트 프로토콜의 특징으로 간주되며 유니코드의 일반 텍스트 목표에 의해 적절하게 처리되지 않습니다.그러나 한 문자에서 다른 문자로의 변화가 한 문자에서 다른 문자로의 변화를 구성하는 경우(예를 들어, 문자 "a"로 이해되는 동일한 문자를 의미할 수 없는 경우), 유니코드는 이들을 별도의 코드 포인트로 구분합니다.유니한은 추상적인 의미가 바뀔 때마다 같은 일을 하지만, 한자의 추상적인 의미(문자 "a")를 말하는 것이 아니라, 그 의미가 다른 언어에서 구별된 자소로 표현되더라도, 한자의 통일은 각각의 다른 의미에 새로운 코드 포인트를 할당합니다."ö"와 같은 알파벳은 영어에서 독일어와는 다른 것을 의미할 수 있지만 ("coördated"라는 단어에서 사용되는 것과 같이) 여전히 같은 알파벳이고 영어와 독일어가 (라틴어와 함께) 공통의 추상적인 라틴 문자 체계를 공유할 수 있도록 쉽게 통일될 수 있습니다.이 예는 또한 문자 언어의 추상 단위인 "추상 문자"와 그래프가 반드시 일대일로 매핑되지 않는 또 다른 이유를 지적합니다.영어에서 diaeresis, ",와 그것이 수정하는 "o"는 두 개의 별개의 문자로 볼 수 있는 반면, 스웨덴어와 같은 언어에서는 문자 "ö"는 단일 문자로 볼 수 있다.마찬가지로 영어에서 "i"의 점은 "i" 문자의 일부로 이해되는 반면 터키어와 같은 다른 언어에서는 점이 점 없는 "i"에 추가된 별도의 문자로 볼 수 있다.

같은 유니한의 세미메에 다른 글자를 사용하는 것을 다루기 위해 유니코드는 여러 메커니즘에 의존해 왔습니다.특히 텍스트 렌더링과 관련된 메커니즘입니다.한 가지 방법은 단순히 글꼴 문제로 취급하여 중국어, 일본어 또는 한국어를 렌더링할 때 다른 글꼴을 사용할 수 있도록 하는 것입니다.또한 OpenType과 같은 글꼴 형식을 사용하면 언어에 따라 대체 글리프를 매핑할 수 있으므로 텍스트 렌더링 시스템이 사용자의 환경 설정을 보고 사용할 글리프를 결정할 수 있습니다.이러한 접근법의 문제는 다국어 [8]텍스트를 인코딩하는 일관된 방법을 정의하려는 Unicode의 목적을 충족하지 못한다는 것입니다.

따라서 이 문제를 글리프 대체의 풍부한 텍스트 문제로 취급하는 것이 아니라 Unicode는 버전 3.2에서 처음 도입되어 버전 [9]4.0에서 보완된 바리에이션 실렉터의 개념을 추가했습니다.바리에이션 실렉터는 문자를 조합한 것으로 취급되지만 연관된 분음 부호나 마크는 없습니다.대신 기본 문자와 결합함으로써 두 문자 시퀀스가 기본 문자의 변이(일반적으로 그래핀의 관점에서, 그러나 위치 이름이나 다른 고유 명사의 경우처럼 기본 의미 측면에서도)를 선택한다는 신호를 보냅니다.이것은 대체 문자의 선택이 아니라 기본 추상 문자의 변형 또는 글자의 선택입니다.그러나 이러한 두 문자 시퀀스는 현대 글꼴에서 별도의 단일 글리프에 쉽게 매핑할 수 있습니다.Unicode는 256개의 개별 변동 실렉터를 할당하고 있기 때문에 모든 한자 한자체에 256개의 변형을 할당할 수 있습니다.이러한 변화는 언어별로 고유할 수 있으며 이러한 그래피엠 변화를 포함하는 일반 텍스트를 인코딩할 수 있습니다.

유니한 "추상 문자"

유니한 표준이 "글리프"가 아닌 "추상 문자"를 인코딩하기 때문에 유니코드에 의해 생성된 그래픽 아티팩트는 일시적인 기술적 장애물로 여겨져 왔고, 기껏해야 외관적인 장애물로 여겨져 왔다.그러나, 특히 일본에서는, 역사적으로 한자가 일본어의 문자 체계에 짜넣어진 방식 때문에, 특정의 변형을 특정할 수 없는 것은, 학술적인 작업에 있어서의 유니코드 사용에 있어서 큰 장해로 여겨졌다.예를 들어, "풀"의 통일(위에서 설명됨)은 역사 텍스트가 고유한 철자를 보존하기 위해 인코딩될 수 없음을 의미합니다.대신, 예를 들어, 학자는 통일된 문자 집합의 목적을 무시하고 쓰여진 텍스트를 전달하기 위해 특정 서체에서 원하는 문자의 위치를 찾아야 한다.유니코드는 이러한 요구에 부응하기 위해 변형 선택기를 할당하여 작성자가 특정 한자(또는 다른 문자)[9]의 그래핀 변형을 선택할 수 있도록 했습니다.

그래픽 표현의 작은 차이는 가독성에 영향을 미치거나 잘못된 문화적 전통에 속할 때도 문제가 된다.Unihan 언어를 포함한 텍스트에 대해 일부 Unicode 글꼴을 사용할 수 없게 할 뿐만 아니라 이름 또는 기타 맞춤법에 민감한 용어가 잘못 표시될 수 있습니다(프로퍼티 이름은 특히 맞춤법적으로 보수적인 경향이 있습니다.이는 미국 또는 영국의 언어 개혁에 맞게 이름 철자를 변경하는 것과 비교됩니다).는 주로 그래픽 표현이나 렌더링 문제로 간주되어 보다 교묘한 글꼴에 의해 극복될 수 있습니다.유니코드의 광범위한 사용은 이러한 차이를 유지하는 것을 어렵게 만들 것입니다.하나의 문자가 의미론적으로 다른 개념을 나타내는 문제도 유니코드의 라틴어 부분에 존재한다.아포스트로피의 유니코드 문자는 오른쪽 작은따옴표(')의 문자와 동일합니다.한편, 대문자 라틴 문자 A는 그리스 문자 A 또는 키릴 문자 δ와 통일되어 있지 않다.이것은 호환성이 있기 때문에 물론 바람직하며, 훨씬 작은 알파벳 문자 집합을 다루고 있습니다.

유니코드의 통일 측면은 위에서 설명한 이유로 일부에서 논란이 되고 있지만, 유니코드 자체는 이제 거의 사용되지 않는 고서적 성격의 많은 문자들을 인코딩하고 있다.

한통일을 하기로 한 것은 당시 북미 기업 및 단체(대부분 [10]캘리포니아) 컨소시엄이었던 유니코드 컨소시엄이 결정했지만 동아시아 정부 대표자는 한 명도 없었다는 사실에서 비롯됐다.초기 설계 목표는 16비트 [11]표준을 만드는 것이었고, 따라서 한 통일은 수만 개의 문자 중복을 피하기 위한 중요한 단계였습니다.이 16비트 요건은 나중에 폐지되었기 때문에 현재 문자 집합의 크기는 문제가 되지 않습니다.

이 논란은 나중에 국제적으로 대표되는 ISO로 확대되었다: 초기 CJK-JRG(CJK-JRG)는 "미국과 유럽 ISO 회원들의 투표에 의해 설정된 유니코드 컨소시엄의 통일된 성격에 찬성하는 제안(DIS 10646)을 지지하였다.일본인의 입장은 [12]불명확했다).ISO 10646/유니코드 합병을 위해 유니코드 한 통일을 승인하는 것은 필요한 조치였다.

한 통일을 둘러싼 논쟁의 대부분은 유니코드에 정의된 문자의 차이와 관련성이 있지만 뚜렷한 문자의 개념에 바탕을 두고 있다.유니코드는 특정 서체의 문자를 시각적으로 표현한 글리프가 아닌 추상 문자(그래프)를 할당합니다.하나의 문자는 예를 들어 "g" 또는 "a"와 같이 여러 개의 구별되는 문자에 의해 표현될 수 있으며, 둘 다 하나의 루프(θ, θ) 또는 두 의 루프(a, g)를 가질 수 있다.그러나 라틴어 스크립트 기반의 언어 독자에게는 두 가지 변형된 "a" 문자가 모두 동일한 그래피엠으로 인식됩니다.이미 사용 가능한 문자로 구성될 수 있는 경우에도 유니코드의 소스 구분 규칙에 따라 국가 문자 코드 표준에 있는 그래프가 유니코드에 추가되었습니다.CJK 언어의 국가 문자 코드 표준은 그것이 진화한 기술적 한계를 고려할 때 훨씬 더 많이 관여하고 있기 때문에, 한 통일의 공식적인 CJK 참여자들은 개혁에 순응했을 것이다.

유럽판과는 달리 CJK 유니코드 글꼴은 한통일로 인해 겹치는 패턴이 크지만 불규칙하여 언어별 글꼴이 필요합니다.유감스럽게도 언어 고유의 글꼴은 다른 언어 스타일에서도 흔히 볼 수 있는 글라스(글라스)의 예와 같이 다른 언어 스타일에서 볼 수 있는 변종에도 접근하기 어렵습니다.(즉, 일본 환경에서는 글꼴이 인쇄되어 있는 중국어 번체보다 4 스트로크가 더 많은 글라스(grass)를 사용하는 것은 어렵습니다.caly는 3 스트로크 기수를 묘사한다.유니한 지지자들은 언어 문자열을 정의하기 위해 마크업 언어를 선호하는 경향이 있지만, 이것은 특정한 변형을 사용하는 것을 보장하지 않을 것이다. 주어진 경우, 언어 고유의 글꼴만이 그 변종으로 묘사될 가능성이 더 높다. (이 시점에서, 단지 일본어와 중국어 글꼴의 선택이 아닌 만큼, 문체적인 차이가 입력된다.)시각적으로 호환성이 있을 가능성이 있습니다.

중국 사용자들은 한통일에 대한 거부감이 적은데, 이는 유니코드가 간체자번체자통합하려 하지 않았기 때문이다.번체 한자는 홍콩과 대만(Big5)에서 사용되며, 몇 가지 차이는 있지만 한국과 일본 사용자에게 더 친숙합니다.)Unicode는 이 정치적인 문제에 대해 중립적인 것으로 간주되며 중국어 간체 문자와 번체 문자는 별도로 인코딩되어 있습니다(예를 들어 "discard"의 표기는 중국어 간체 Big5의 경우 e U+4E1F, 중국어 간체 Big5의 경우 u U+4E22).또한 기존 PRC 문자 집합에서 구분되므로 Unicode Han Unified 규칙에 따라 기존 문자와 간체 문자를 별도로 인코딩해야 합니다.또한 다른 변종과 마찬가지로 번체 문자에서 간체 문자는 일대일 관계가 아닙니다.

대체 수단

한통일의 원칙에 따라 부호화되지 않아 제한이 없는 대체 문자 집합이 몇 가지 있습니다.

이러한 지역 의존 문자 집합은 지역 고유의 특성 때문에 한 통일의 영향을 받지 않는 것으로도 간주됩니다.

그러나 Unicode만큼 널리 채택된 대체 표준은 없습니다. Unicode는 현재 많은 새로운 표준 및 프로토콜의 기본 문자 집합이며 국제적으로 채택되었으며 운영 체제(Microsoft Windows, Apple MacOS 및 많은 Unix 유사 시스템), 프로그래밍 언어(Perl, Python, C#, Java, Co.mmon Lisp, APL, C, C++ 및 라이브러리(IBM International Components for Unicode(ICU) 및 Pango, Graphite, Scribe, UniscribeATSUI 렌더링 엔진), 글꼴 형식(TrueTypeOpenType) 등입니다.

1989년 3월, 의무 [13]교육을 포함한 학교 교육의 선택 제도로서 일본의 정부 기관 「교육 컴퓨팅 센터」에 의해, (B)TRON 베이스의 제도가 도입되었습니다.그러나 4월에는 미국 무역대표부(USTR)의 '1989년 무역장벽에 관한 국가무역추계보고서'라는 보고서에서 이 제도를 일본의 무역장벽으로 구체적으로 기재하고 있다.보고서는 일본 정부가 TRON 기반의 시스템을 채택하는 것이 일본 제조사에 유리하며, 따라서 거대한 새로운 시장에서 미국의 운영체제를 배제하고 있다고 주장했으며, 특히 MS-DOS, OS/2 및 UNIX를 예로 들 수 있다.USTR 사무소는 마이크로소프트의 영향력 아래 있었다고 한다.[14] 톰 로버트슨 전 사무관이 마이크로소프트로부터 돈벌이가 되는 자리를 제안받았기 때문이다.이후 1989년 5월 이 단체의 항의로 1974년 무역법 301조의 제재 대상에서 제외되었으나, 무역분쟁으로 인해 무역산업성은 손정의 교육전산센터의 TRO 선정 취소 요청을 받아들였다.교육용 [15]컴퓨터 사용을 위한 N 기반 시스템.이 사건은 BTRON 시스템의 모멘텀 상실과 종말의 상징적 사건으로 여겨지며, 이는 일본에서 MS-DOS의 보급으로 이어졌고 후속 윈도에서 유니코드를 채택하게 되었다.

모든 동등한 문자의 병합

한국어, 중국어 간체자, 중국어 번체자, 규지타이 일본어, 신지타이 일본어, 베트남어 등 동아시아 언어의 각 사용자를 동일하게 취급할 수 있지만, 의미론적으로 연결된 모든 문자의 완전한 의미 통일은 추진되지 않고 있다.다른 변형 그룹이 단일 코드 포인트를 공유해야 하는 동안 일부 변형은 구별되는 코드 포인트를 얻는 대신, 모든 변형은 메타데이터 태그(예: 웹 페이지에서의 CSS 포맷)만으로 신뢰성 있게 표현될 수 있습니다.그 차이는 단순화, 국제 분산, 국내 분산에 의한 것이든, 다른 버전의 of, ,, ,를 사용하는 모든 사람에게 부담이 될 것이다.그러나 일부 플랫폼(예: 스마트폰)의 경우 단말기에는 하나의 글꼴만 미리 설치된 상태로 제공될 수 있습니다.시스템 글꼴은 각 코드 포인트의 기본 문자를 결정해야 하며, 이러한 문자는 서로 다른 기본 문자를 나타내며 크게 다를 수 있습니다.

그 결과, 언어 마크업에 대한 접근법으로서 전반적으로 의존하는 것은 두 가지 주요 문제에 직면하게 됩니다.첫째, 언어 마크업을 사용할 수 없는 컨텍스트(코드 커밋, 일반 텍스트)가 있습니다.둘째, 어떤 솔루션이든 모든 운영체제에 여러 가지 변형을 가진 의미상 동일한 문자에 대한 많은 글리프가 미리 설치되어 있어야 합니다.간체자, 번체자, 한국어, 베트남어, 규지타이 일본어, 신지타이 일본어 등의 표준 문자 집합 외에 역사학자, 언어학자, 언어학자가 관심을 갖는 고대 문자 집합도 존재한다.

유니코드의 Unihan 데이터베이스는 이미 많은 문자 사이에 연결을 그렸습니다.유니코드 데이터베이스는 이미 코드 포인트가 다른 변형 문자 간의 연결을 카탈로그로 만듭니다.그러나 공통 코드 포인트가 있는 문자의 경우 참조 문자는 보통 중국어 번체 버전에 치우칩니다.또한,[16] 쌍을 의미 변종 또는 z 변종으로 분류할지 여부에 대한 결정은 핸드북의 합리화에도 불구하고 항상 일관되거나 명확하지는 않다.

이른바 시맨틱 바리안트인 ((U+4E1F)와 ((U+4E22)는 유니코드가 추상적인 형태에서 큰 차이를 보이는 반면, 유니코드는 andas를 z-변수로 나열하여 폰트 스타일링에서만 차이를 보이는 예입니다.역설적으로 유니코드는 andto를 거의 동일한 z-변수로 간주하는 동시에 유의하게 다른 의미 변종으로 분류한다.또한 ((U+500B)와 ((U+4E2A)의 문자의 쌍이 동시에 의미 변형인 경우도 있다.서로 동등하지 않은 경우가 있다.예를 들어 ((U+4E80)의 Unihan 데이터베이스 엔트리는 ((U+9F9C)을 z변수로 간주하지만 does의 엔트리는 was의 엔트리가 기입되었을 때 이미 데이터베이스에 존재했더라도 as는 z변수로 표시되지 않습니다.

일부 문서 오류로 인해 ((U+FA23) 및 ((U+27EAF)와 같이 완전히 동일한 문자가 두 배로 증가했습니다.글꼴이 두 포인트에 모두 부호화되어 하나의 글꼴이 두 포인트에 모두 사용될 경우, 두 글꼴은 동일하게 표시되어야 합니다.이러한 경우 분산이 전혀 없음에도 불구하고 z-변수로 나열됩니다.비트간 라운드 트립 변환을 용이하게 하기 위해 의도적으로 복제된 문자가 추가되었습니다.라운드 트립 변환은 유니코드의 초기 판매 포인트였기 때문에, 이것은 사용 중인 국가 표준이 불필요하게 문자를 복제하는 경우 유니코드는 동일한 작업을 수행해야 한다는 것을 의미합니다.Unicode 에서는, 이러한 의도적인 복제를 「호환성 바리안트」라고 부릅니다.이것은, ((U+6F22)를 호환성의 바리안트라고 하는 ((U+FA9A)와 같습니다.어플리케이션이 양쪽에서 같은 글꼴을 사용하고 있는 한, 같은 글꼴로 표시됩니다.경우에 따라서는 U+8ECA 및 U+F902를 사용한 with의 경우와 같이 추가된 호환성 문자에 호환성 변형 및 z-variant 양쪽으로 이미 존재하는 as의 버전이 나열될 수 있습니다.호환성 변형 필드는 z-variant 필드를 재정의하여 표준 동등성을 포함한 모든 형식에서 정규화를 강제합니다.이름에도 불구하고 호환성 변형은 실제로 규범적으로 동등하며 호환성 정규화뿐만 아니라 모든 Unicode 정규화 스킴에서 통합됩니다.이는 U+212B angANGSTROM SIGN이 사전 구성된 U+00C5 latin 라틴 대문자 A에 링 위가 있는 과 규범적으로 동등한 과 유사합니다.많은 소프트웨어(Wikipedia를 호스트하는 MediaWiki 소프트웨어 등)는 권장되지 않는 모든 캐논상 동등한 문자(앙스트롬 기호 등)를 권장되는 동등한 문자로 대체합니다.이름에도 불구하고 CJK 호환성 변형은 원칙적으로 동등한 문자이며 호환성 문자가 아닙니다.

【(U+6F22)】보다 나중에 【(U+FA9A)】가 데이터베이스에 추가되어 그 엔트리가 사용자에게 호환성 정보를 통지한다.한편, 「」(U+6F22)는 이 엔트리에 기재되어 있지 않습니다.Unicode 에서는, 기존의 문자의 정규화 룰이 변경되지 않게, 일단 받아들여지면, 모든 엔트리가 호환성이나 동등성을 변경할 수 없게 되어 있습니다.

또한 일부 전통 및 간체 쌍은 의미 변종으로 간주됩니다.유니코드의 정의에 따르면, 모든 단순화(동음이의 경우 완전히 다른 문자가 병합되는 결과를 초래하지 않음)가 의미 변형의 한 형태가 될 것입니다.유니코드는 andas를 각각 전통적인 변종과 단순화된 변종으로 분류하고 서로 의미적인 변종으로 분류합니다.단, 유니코드에서는 ((U+5104)과 u(U+4EBF)를 각각 전통적인 변종과 단순화된 변종으로 분류하는 반면, 유니코드에서는 亿과 to를 서로의 의미 변종으로 간주하지 않습니다.

유니코드는 "유니코드 [16]표준에는 z 변수 쌍이 없는 것이 이상적"이라고 주장한다.이를 통해 최소한 모든 사소한 변형, 호환성 중복성 및 우발적인 중복성을 통합하고 글꼴과 언어 태그에 차이를 두는 것이 목표인 것처럼 보입니다.이는 Unicode의 목표와 상충됩니다.이러한 목표는 오버헤드를 없애고 단일 인코딩 시스템을 [improper synthesis?]사용하여 동일한 문서에 임의의 수의 세계 스크립트를 저장할 수 있도록 하는 것입니다.핸드북의 제1장에는 다음과 같이 기술되어 있습니다.「유니코드에서는, 급증하는 문자 집합을, 데이터의 안정성, 글로벌 상호 운용성, 데이터 교환, 소프트웨어의 심플화, 및 개발 코스트의 삭감으로 대체하고 있습니다.유니코드 표준은 ASCII 문자 집합을 시작점으로 삼으면서도 대문자 A와 소문자 Z만 인코딩하는 ASCII의 제한된 기능을 훨씬 능가합니다.세계 각국에서 사용되는 모든 문자를 인코딩할 수 있습니다.100만 문자 이상을 인코딩할 수 있습니다.모든 언어로 문자를 지정하기 위해 이스케이프 시퀀스 또는 제어 코드가 필요하지 않습니다.Unicode 문자 인코딩은 알파벳 문자, 표의 문자 및 기호를 동등하게 취급합니다.즉, 어떤 조합으로든 사용할 수 있으며 동일한 [8]기능을 갖추고 있습니다.

따라서 모든 z 변수에 대해 하나의 통일된 참조 그래프로 정해야 하는데, 이는 일본 이외에서는 andas가 동등하다고 인식하는 사람이 거의 없기 때문에 논란이 되고 있다.일본 국내에서도 신지타이라고 불리는 주요 단순화의 다른 측면에 있다.Unicode는 PRC의 ((U+4FA3)와 ((U+4FB6)의 단순화를 실질적으로 큰 차이로 만들 것입니다.이러한 계획은 또한 ((U+76F4) 및 ((U+96C7)와 같은 문자에 대해 시각적으로 매우 뚜렷한 변형을 제거한다.

모든 간체 문자는 동시에 전통적인 것과 함께 z 변수 또는 의미 변형이 될 것이라고 예상할 수 있지만, 많은 문자는 그렇지 않다.유니코드의 정의가 특수한 의미 변형이 특정 컨텍스트에서만 동일한 의미를 갖는다면 의미 변형이 동시에 의미 변종과 특수 변종일 수 있다는 이상한 경우를 설명하는 것이 더 쉽다.언어는 그것들을 다르게 사용한다.일본어로 문자가 100% 대체되는 쌍은 중국어로 그렇게 유연하지 않을 수 있습니다.따라서 권장 코드 포인트의 포괄적인 통합은 어떤 언어의 모든 컨텍스트에서 의미가 100% 동일하더라도 외관이 약간 다른 일부 변형을 유지해야 합니다.다른 언어에서는 두 문자가 100% 드롭인 대체가 되지 않을 수 있기 때문입니다.

언어 의존 문자의 예

다음 표의 각 행에서 6개 열 모두에 동일한 문자가 반복됩니다.단, 각 컬럼은 (에 의해) 마크됩니다.langattribute)가 다른 언어로 되어 있는 경우:중국어(간체2종류번체), 일본어, 한국어 또는 베트남어.브라우저는 각 문자에 대해 지정된 언어에 적합한 (글꼴에서) 문자를 선택해야 합니다.(실제 문자 바리에이션(스트로크 순서, 수, 방향의 차이) 외에, 서체는 세리프 알파벳과 세리프 알파벳 이외의 알파벳과 같이 다른 인쇄 스타일을 반영할 수도 있습니다).이 기능은 CJK 글꼴이 시스템에 설치되어 있고 이 문서를 표시하기 위해 선택한 글꼴에 이러한 문자에 대한 글리프가 포함되지 않은 경우에만 작동합니다.

코드 포인트 중국인
(검증 완료)
(zh-Hans)
중국인
(수직)
(zh-Hant)
중국인
(수직,
홍콩)
(zh-Hant-HK)
일본인입니다
(ja)
한국인입니다
(ko)
베트남의
(vi-Hani)
영어
U+4ECA 지금이다
U+4EE4 원인/명령
U+514D 면제/면제
U+5165 를 입력하십시오.
U+5168 전체/전체
U+5173 닫다(증명)/웃다(추상)
U+5177 도구.
U+5203 칼날
U+5316 변환/변경
U+5916 밖으로.
U+60C5 느낌
U+624D 재주
U+62B5 도착하다/저항하다
U+6B21 세컨더리/팔로우
U+6D77 바다
U+76F4 다이렉트/다이렉트
U+771F 진실의
U+793a 표시하다
U+795E 신이시여
U+7A7A 텅 빈/공기
U+8005 하는 사람
U+8349 잔디
U+8525 양파
U+89D2 가장자리/경적
U+9053 길/길/길
U+96C7 고용하다
U+9AA8 뼈.

한국어 또는 베트남어 전용 문자 변형은 자체 코드 포인트를 받지 못했지만, 거의 모든 신지타이 일본어 변형 또는 중국어 간체 변형은 유니코드 표준에서 각각 구별되는 코드 포인트와 명확한 참조 문자를 가지고 있다.

20세기에 동아시아 국가들은 각각의 부호화 표준을 만들었다.각 표준 내에는 서로 다른 코드 포인트를 가진 변종들이 공존했기 때문에 유니코드에서는 특정 변종 집합에 대해 서로 다른 코드 포인트가 존재했습니다.예를 들어 간체자 중국어 as(U+5167)과 ((U+5185)의 두 가지 문자 번체는 ((U+5168)의 한국어 번체 및 비한국어 번체(U+5168)와 완전히 같은 방식으로 다릅니다.제1문자의 각 변형은 θ(U+5165) 또는 θ(U+4EBA)를 가진다.두 번째 문자의 각 변형은 θ(U+5165) 또는 θ(U+4EBA)를 가진다.첫 번째 문자의 두 변형 모두 고유한 코드 포인트를 가지고 있습니다.그러나 두 번째 문자의 두 변형은 동일한 코드 포인트를 공유해야 했습니다.

유니코드의 정당성은 중국 국가표준기구가 앞글자 '/'의 두 변형에 대해 구별된 코드 포인트를 만든 반면, 한국은 다른 변형인 '/'에 대해 별도의 코드 포인트를 만든 적이 없다는 것이다.국내 기관들이 캐릭터를 바라보는 시각과는 무관한 이유가 있다.중국은 20세기에 여러 글자를 바꾸는 과정을 거쳤다.이 이행 중에는 동일한 문서 내에서 두 변형을 부호화할 수 있어야 했습니다.한국어는 항상 with(U+5165)의 기호가 위에 있는 변형 with을 사용해 왔다.따라서 두 변종을 모두 부호화할 이유가 없었습니다.20세기에 만들어진 한국어 문서는 두 버전을 같은 문서에 나타낼 이유가 거의 없었다.

PRC가 개발 또는 표준화한 거의 모든 변종들은 단순히 컴퓨터 시대로 이어지는 중국어 간체(간체)의 운명에 의해 구별되는 코드 포인트를 얻었습니다.그러나 이 특권은 일관성이 없는 것처럼 보이지만, 일본과 중국 본토에서 행해진 대부분의 단순화는 국가별로 다른 간체 문자를 포함한 국가 표준에서의 코드 포인트로 유니코드로 만들어졌다.

일본에서 코드 포인트가 뚜렷한 62개의 신지타이 "간체" 문자가 규지타이 전통 문자인 과 합쳐졌다.이로 인해 언어 태그 지정 전략에 문제가 발생할 수 있습니다.중국어처럼 번체 일본어, 간체 일본어에는 보편적인 태그가 없습니다.따라서 may의 규지타이 형식을 표시하려면 , 「중국어 번체」라고 하는 태그를 붙이거나, 수신자의 일본어 글꼴이 규지타이 문자만을 사용하고 있는 것을 신뢰할 필요가 있을 수 있지만, 일본어 교과서에서 두 가지 형식을 나란히 나타내려면 , 간체자 태그가 필요할지도 모른다.그러나 이렇게 하면 전체 문서에 대해 동일한 글꼴을 사용할 수 없습니다.Unicode in에는 2개의 코드 포인트가 있습니다만, 「호환성의 이유」를 위해서만 사용됩니다.모든 유니코드 대응 글꼴은 규지타이 및 신지타이 버전의 동등한 코드 포인트를 유니코드로 동일하게 표시해야 합니다.비공식적으로는 ((U+6D77)이 신지타이 버전, ((U+FA45)가 규지타이 버전(중국어 및 한국어 번체 버전과 동일)으로 다르게 표시될 수 있다.

부수 ((U+7CF8)는 //,와 같은 글자에 사용되며, 두 번째 형태는 단순히 필기체 형태이다.γ(U+7D05)와 γ(U+7EA2)의 라디칼 성분은 의미론적으로 동일하며 γ 성분의 필기체 버전을 사용하는 후자에서만 글리프가 다르다.그러나 중국 본토에서 표준 기구는 와 같은 글자에 사용될 때 필기체를 표준화하기를 원했다.이 변화는 비교적 최근에 일어났기 때문에 과도기가 있었다.(U+7D05)과 (U+7EA2) 모두 중국어의 문서에서는 두 가지 버전을 모두 사용할 수 있도록 PRC 텍스트 부호화 표준 본문에 별도의 코드 포인트가 있습니다.두 변형은 유니코드에서도 구별되는 코드 포인트를 받았습니다.

과격 ((U+8278)의 사례는 상황이 얼마나 자의적인지를 증명한다.((U+8349)와 같은 글자를 만들 때, 괄호는 맨 위에 놓였지만, 두 가지 다른 형태를 가지고 있었다.번체 중국어와 한국어는 4행정 버전을 사용한다.의 맨 위에는 플러스 기호(②)가 두 개 있어야 합니다.간체 중국어, 규지타이 일본어, 신지타이 일본어에서는 가로 획을 공유하는 두 개의 플러스 기호(⺾,)와 같은 세 획 버전을 사용합니다.PRC의 텍스트 부호화 본문에서는 이 두 변형을 다르게 부호화하지 않았습니다.PRC가 초래한 다른 거의 모든 변경은 아무리 사소한 것이라도 PRC 자체의 코드 포인트를 보증한다는 사실은 이 예외가 의도하지 않았을 수 있음을 시사합니다.유니코드는 기존의 표준을 그대로 모방하여 이러한 불규칙성을 보존하였다.

Unicode Consortium이 다른 인스턴스에서 오류를 인식했습니다.CJK한글자용 무수한 유니코드 블록은 원본 표준이 중복되고, 원본 표준의 수입 결함으로 인한 중복성, 그리고 나중에 수정되는 우발적인 합병을 가지고 있어 문자 통일의 선례를 제공한다.

원어민에게는, 교육받은 컨텍스트에서는, 변종이 이해하기 어렵거나 받아들여지지 않는 경우가 있습니다.영어 사용자들은 "4P5 kg"이라고 쓰여진 손으로 쓴 메모를 "495 kg"이라고 이해할 수 있지만, 9개를 거꾸로 쓰는 것은 불편할 수 있고, 어느 학교에서나 잘못된 것으로 여겨질 수 있습니다.마찬가지로, 「외국어」의 문자는 「외국어」의 유저에게 있어서, 의 변종이 거울 화상으로서 나타날 수 있고, 의 변종이 누락되어 있을 수 있으며, 의 변종이 외국인에게는 판독할 수 없는 경우가 있다(일본에서는, 양쪽 모두 인정된다).

일부 통일되지 않은 한자의 예

경우에 따라서는 변경이 가장 두드러지는 경우 유니코드에는 다양한 문자가 인코딩되어 있기 때문에 글꼴 또는 글꼴 간에 전환할 필요가 없습니다.lang특성.그러나 거의 차이가 없는 일부 변형은 뚜렷한 코드 포인트를 얻으며, 상당한 변화가 있는 모든 변형은 고유한 코드 포인트를 얻지는 않는다.예를 들어 " (U+5165)와 같은 문자를 사용합니다.이 문자를 표시하는 유일한 방법은 글꼴을 변경하는 것입니다(또는langattribute)를 참조해 주세요.한편, ((U+5167)의 경우, ((U+5185)의 배리언트는 일의의 코드 포인트를 취득합니다.【/】(U+514C/U+5151)와 같은 일부 문자의 경우, 어느 쪽의 방법을 사용해 다른 글리프를 표시할 수 있습니다.다음 표에서 각 행은 서로 다른 코드 포인트가 할당된 바리안트를 비교합니다.간결하게 하기 위해, 다른 성분을 가진 신지타이 변종들은 보통 (그리고 놀랄 것도 없이) 고유한 코드 포인트(예: 気/ unique)를 취한다.여기에는 표시되지 않으며, 일관되게 간체된 부수적 구성요소(예: 红/,, 语/[2]语)를 사용하는 간체자 또한 나타나지 않습니다.이 리스트는 완전하지 않다.

심플화 전통적인. 일본인입니다 기타 변종 영어
U+4E22
U+4E1F
잃다
U+4E24
U+5169
U+4E21
U+34B3
둘, 둘 다
U+4E58
U+4E58
U+4E57
U+6909
타다
U+4EA7
U+7522
U+7523
낳다
U+4FA3
U+4FB6
동반자
U+5151
U+514C
현금으로 바꾸다
U+5185
U+5167
안에서.
U+522B
U+5225
떠나다
U+7985
U+79AA
U+7985
명상(Zen)
U+7A0E
U+7A05
세금
U+997F
饿
U+9913
배고픈
U+9 AD8
U+9 AD8
U+9 AD9
높은
U+9F
U+9F9C
U+4E80
거북이
U+7814
U+7814
U+784F
조사하다
출처: MDBG 한영사전

IVD(Ideographic Variation Database)

한 통일에 의해 야기된 문제를 해결하기 위해, Unicode 기술 표준인 Unicode Ideographic Variation Database가 일반 텍스트 [17]환경에서 특정 문자를 지정하는 문제를 해결하기 위해 작성되었습니다.표식변동데이터베이스(IVD)에 표식변동실렉터를 등록함으로써 표식변동실렉터를 사용하여 표식변동시퀀스(IVS)를 형성하고 Unicode 환경에서 텍스트 처리에서 적절한 표식을 지정 또는 제한할 수 있다.

유니코드 범위

Unicode에 의해 할당된 표의문자는 다음 블록에 표시됩니다.

Unicode는 다음 블록에서 CJKV 라디칼, 스트로크, 구두점, 마크 및 기호를 지원합니다.

다음 블록에는 호환성(권장되지 않은 사용) 문자가 추가로 표시됩니다.

이러한 호환성 문자(CJK 호환성 한자 블록의 12개의 통합 한자 제외)는 레거시 텍스트 처리 시스템 및 기타 레거시 문자 집합과의 호환성을 위해 포함되어 있습니다.여기에는 수직 텍스트 레이아웃을 위한 문자 형식과 유니코드가 다른 방법으로 처리하는 것을 권장하는 리치 텍스트 문자가 포함됩니다.

국제 한자 코어

International Ideographics Core(IICore)는 CJK Unified Ideographics 테이블에서 파생된 9810개의 한문자의 서브셋으로 메모리, 입출력 기능 및/또는 ISO 10646 전체 한문 레퍼토리를 사용할 수 없는 응용 프로그램에서 구현되도록 설계되었습니다.현행 [19]표준에는 9810자가 있습니다.

Unihan 데이터베이스 파일

Unihan 프로젝트는 항상 [1]빌드 데이터베이스를 이용하기 위해 노력해 왔습니다.

libUnihan 프로젝트는 정규화된 SQLite Unihan 데이터베이스와 대응하는 C [20]라이브러리를 제공합니다.이 데이터베이스의 모든 테이블은 5번째 정규 형식입니다.libUnihan은 LGPL로 출시되며 데이터베이스 UnihanDb는 MIT 라이선스로 출시됩니다.

「 」를 참조해 주세요.

메모들

  1. ^ 그러나 유니코드의 목적에 따라 사용되거나 이전에 사용된 모든 문자 시스템을 인코딩하는 데 필요한 문자는 2000~3000자뿐입니다.

레퍼런스

  1. ^ a b "Unihan.zip". The Unicode Standard. Unicode Consortium.
  2. ^ a b "Unihan Database Lookup". The Unicode Standard. Unicode Consortium.
  3. ^ "Unihan Database Lookup: Sample lookup for 中". The Unicode Standard. Unicode Consortium.
  4. ^ "Chapter 18: East Asia, Principles of Han Unification" (PDF). The Unicode Standard. Unicode Consortium.
  5. ^ Whistler, Ken (2010-10-25). "Unicode Technical Note 26: On the Encoding of Latin, Greek, Cyrillic, and Han".
  6. ^ Unicode의 Steven J. Searle 재방문, Web Master, TRON Web
  7. ^ "IVD/IVSとは - 文字情報基盤整備事業". mojikiban.ipa.go.jp.
  8. ^ a b "Chapter 1: Introduction" (PDF). The Unicode Standard. Unicode Consortium.
  9. ^ a b "Ideographic Variation Database". Unicode Consortium.
  10. ^ "Early Years of Unicode". Unicode Consortium.
  11. ^ Becker, Joseph D. (1998-08-29). "Unicode 88" (PDF).
  12. ^ "Unicode in Japan: Guide to a technical and psychological struggle". Archived from the original on 2009-06-27.{{cite web}}: CS1 maint: bot: 원래 URL 상태를 알 수 없습니다(링크).
  13. ^ 小林紀興『松下電器の果し状』1章
  14. ^ Krikke, Jan (15 October 2003). "The Most Popular Operating System in the World". LinuxInsider.com.
  15. ^ 大下英治 『孫正義 起業の若き獅子』(ISBN 4-06-208718-9페이지 285-294
  16. ^ a b "UAX #38: Unicode Han Database (Unihan)". www.unicode.org.
  17. ^ "UTS #37: Unicode Ideographic Variation Database". www.unicode.org.
  18. ^ "URO". ccjktype.fonts.adobe.com.
  19. ^ "OGCIO : Download Area : International Ideographs Core (IICORE) Comparison Utility". www.ogcio.gov.hk.
  20. ^ (陳定彞), Ding-Yi Chen. "libUnihan - A library for Unihan character database in fifth normal form". libunihan.sourceforge.net.