중국어 낱말 분할 표기

Chinese word-segmented writing

중국어 문장은 단어 사이에 표시가 없는 문자열로 쓰여집니다.따라서 문맥에 따라(의식적으로 또는 무의식적으로) 단어를 분할하는 것은 독자에게 과제입니다.중국어 낱말 구분 쓰기, 또는 중국어 낱말 구분 쓰기는 [1]영어로 쓰여진 것과 같은 단어 사이에 공백을 두고 글을 쓰는 새로운 글쓰기 스타일입니다.

단어 분할 쓰기에는 많은 장점이나 이유가 있습니다.중요한 이유는 오직 저자만이 의도된 의미와 정확한 세분화를 아는 모호한 텍스트의 존재에 있습니다.예를 들어, "미국은 동의하지 않을 것이다." 또는 "미국 의회는 동의하지 않는다."를 의미할 수 있습니다.[2]

역사

고대 중국에서, 문장은 구두점 없이 쓰여졌고, 이것은 독자가 문장의 경계를 찾는 데 상당한 시간을 필요로 했습니다.1900년대 초가 되어서야 현재의 구두점이 채택되었습니다.[3]

1950년대에 중국어학자들 사이의 토론에서 단어 분할 표기를 사용하자는 제안이 있었지만 통과되지 않았습니다.[3]

1987년, 중국어 단어 분할 표기의 아이디어는 중국 정보 처리에 관한 국제 회의에서 Chen Liwei 교수에 의해 다시 제안되었습니다.[4]

중국어 단어 분할 쓰기가 1998년에 처음 적용된 것은 필기 중국어 단어 분할이라는 제목의 논문이 재검토되었을 때입니다. 단어 분할 글쓰기의 10가지 장점이 중국의 한 주요 학술지에 발표되었습니다.[5] 총 7페이지의 전체 논문은 다음과 같이 단어로 분할되어 작성되었습니다.

摘要: 单词 的 切分 对 现代 汉语 的 运用、研究 和 计算机 信息 处理 等 都 具有 相当 重要 的 意义。本文 阐述 书面 汉语 分词 连写 的 十 大 好处 , 并 讨论 一些 实施 方面 的 问题。文章 全文 分词 连写。

2018년,[6] 위키버시티에 한자의 단어 분할이라는 제목의 한 단락의 짧은 글이 게시되었으며, 중국어 텍스트는 다음과 같이 단어가 분할되었습니다.

历史上,中国古文 是 没有 标点符号的。读者 需要 付出 额外的 精力 专注于 断句,而且 稍有差池 便会 造成 误读。所谓 差之毫厘 失之千里。引入 标点符号 是 一次 重大的 文字改革,使得 汉字文本的 阅读效率 有了 很大的 提高。但 中文的 改革 才 刚刚 起步, 远未达到 尽善尽美的 程度。至少 在 阅读效率 方面 仍然 存在着 一个 显而易见的 障碍 - 断词 (汉字的 分词连写)。

단어 분할로 쓰여진 첫 번째 책은 [7]2000년에 출판된 言论理语language▁( (언어 이론)입니다.

방법들

다음은 단어 세그먼트 작성 방법 또는 기술입니다.

주요 목적의 안내

단어 분할 글쓰기의 가장 중요한 목적은 작가의 의도된 의미를 정확하고 명확하게 표현하는 것입니다.For example, the traditional non-word-segmented text "乒乓球拍卖完了。" has two possible meanings, which can be expressed in word-segmented writing as "乒乓 球拍 卖完了。" (Ping pong bats are sold out) and "乒乓球 拍卖 完了。" (the ping pong balls have been auctioned).저자는 의도된 의미를 모호함 없이 정확하게 표현할 수 있는 선택을 해야 합니다.[3]

단어 사전 및 언어 지식의 사용

만약 문자열이 합법적인 단어인지 확실하지 않다면, 필자는 Xiandai Hanyu Cidian, 궈유 사전(Guoyu Dictionary) 및 CEDICT와 같은 신뢰할 수 있는 단어 사전에서 문자열의 존재를 확인할 수 있습니다.또는 어휘적, 구문적 지식에 따라 언어적으로 검증된 단어인지 확인합니다.[9]

Pinyin 단어 분할에 대한 규칙

중국어 발음 알파벳 맞춤법의 기본 규칙은 중국어 핀인 표현과 단어 분할에 대한 중국 국가 표준입니다.

일반적인 규칙은

  1. 단어를 Pinyin 표현의 기본 쓰기 단위로 사용합니다.예를 들어, 렌 (人, 사람), 파오 (跑o, run), 마미 (妈ɑ, 어머니), 위에두 (读阅, 읽음), 투슈우언 (图ɡǎ馆, 도서관)이 있습니다.
  2. 개념의 2음절식과 3음절식은 공백 없이 연속적으로 작성됩니다.예를 들어, 환보 (环ǎ保, 환경 보호), ɡɡɡ公ɡ (对关ò常, 홍보), chanɡǐnìci (用词不, 일반적으로 사용되는 단어), du起buq▁( (对q▁sorry, sorry)가 있습니다.
  3. 개념을 나타내는 네 개 이상의 음절이 있는 이름은 단어 또는 음절에 따라 쓰기 세그먼트화됩니다(구 내에서 음성으로 구분된 세그먼트가 일시 중지됨).단어나 음절로 나눌 수 없는 것들은 연속적으로 씁니다.예를 들어, 우펜느 ɡɡǎ无ɡīùǎ, 이음매 없는 강관, 환잔느 ɡ环划中ē红ɡì境规保, 환경 보호 계획, ì研字十ɡɡ院ì会国社学科会ìē护, ɡ缝院生究钢ɡ管▁chinese, 中▁(n▁forūē),▁schoolà▁sciences▁academy, ▁hɡ▁graduate▁yà红▁red▁pipe),▁wèììzshhu研n, ),ón▁zhánāyu▁steel▁shmental▁protect▁hu▁crossíji▁society▁example)会字,十▁(ēf▁seamlessn:yuɡn缝shīú▁environ▁of无nɡō
  4. 단음절 반복 단어는 연속적으로 작성되어야 하며, 이중음절 반복 단어는 별도로 작성되어야 합니다.예를 들어, 렌렌 (人人看, allowever), 칸쿤 (看ɑɡ, look), 혼혼지 데 (红ɡ的红研, very red), 옌지우옌지우 (研究究ě雪, research), 쉬바이쉬바이 (ě白bai su白bai, snow white snow white) 등이 있습니다.AABB 구조의 반복 단어는 연속적으로 작성됩니다.예를 들어, láiláiwǎnɡwǎnɡnɡn来nǔnǔnɡn清nɡchī (清nɡqīn楚ch方, 크리스탈 클리어), Fann面fán面miann方n往n来n往n楚, 모든 측면)이 있습니다.
  5. 단음절 접두어(접두어, 总 일반/치프, 非 non, 反 anti, 老 super, old, 阿 A, 可able, 头 non, 性 semi 등) 또는 단음절 접두어(子zi, 儿 man, 者-itity, 员 person, 家 member, 手 specialist, 化 -ize, 们 복수 등)가 주어와 함께 연속적으로 작성됩니다.예를 들어, Fùbùzhǎnɡ (차관), Zǒnɡnɡchénīsh总 (기관장, 수석 엔지니어), Fǒzɡnɡchénīsh副 (부기관장, 부기관장), Fījɡnǔ非 (비금속, 비금속), Kēxuìnɡn科nɡn乘nɡ (과학, 과학), Chéwánùnɡn孩n现hi (어린이, 현대화), 비행 승무원, 현대화).
  6. 읽기와 이해의 편의를 위해 하이픈을 일부 병렬 단어나 형태소 사이에 사용하거나 일부 약어로 사용할 수 있습니다.예를 들어, 바-지-티베트 (八-ǔ天īì, 8일 또는 9일), 렌-지-두-화 (机-话九, 인간-컴퓨터 대화), 젠-잔-가오시-고넬리 (京藏-速ɡù路, 베이징-티베트 고속도로).

일반적인 규칙 외에도, 명사, 동사, 형용사, 대명사, 숫자, 정량자, 부사, 전치사, 접속사, 보조어, 삽입어, 의성어, 격언, 사람과 장소의 이름에 대한 구체적인 규칙이 있습니다.

예를 들어, 텍스트의 피니인 전사.

人人生而自由,在尊严和权利上一律平等。他们赋有理性和良心,并应以兄弟关系的精神相对待。

로 번역될 수 있습니다.

Rénrén shēng ér zìyóu, zài zūnyán hé quánlì shàng yīlǜ píngděng.Tāmen fùyǒu lǐxìng hé liángxīn, bìng yīng yǐ xiōngdì guānxì de jīngshén xiāng duìdài. 

따라서, 한자 텍스트는 다음과 같이 분할될 수 있습니다.

人人 生 而 自由,在 尊严 和 权利 上 一律 平等。 他们 赋有 理性 和 良心, 并 应 以 兄弟 关系 的 精神 相 对待。

구어의 참조

구어에서는 일반적으로 두 단어 사이에 일시 중지(그리고 한 단어 내에서는 일시 중지가 허용되지 않음)가 있으므로 문어의 단어 사이에 일시 중지(공백으로 표시됨)를 넣는 것이 자연스럽습니다.

단어 경계를 식별하는 방법은 Word#Word 경계에서도 찾을 수 있습니다.

공간의 너비

두 단어 사이의 간격은 두 줄 사이의 거리보다 짧은 한자 너비의 절반으로 설정해야 합니다.중국어 단어의 평균 길이가 약 2자이기 때문에 한자 너비의 공백이 행간 거리보다 길면 단어 줄이 압축되지 않고 흩어진 것으로 표시됩니다.[11]

고유명사의 표시

독자들을 더욱 돕기 위해, 고유 명사들도 밑줄로 표시되어야 합니다.[3] 사실 이것은 이미 성경(현대식 [12]구두점이 있는 유니언 버전)에서 행해지고 있습니다.

평.

단어 구분 쓰기에는 장점과 단점이 있습니다.

이점

중국어 단어 분할 쓰기의 장점은 다음과 같습니다.

  1. 단어 구분 쓰기는 언어 표현과 이해에 도움이 됩니다.
  2. 단어로 구분된 글은 중국어를 가르치고 배우는 데 도움이 됩니다.
  3. 단어 구분 쓰기는 언어 연구에 도움이 됩니다.
  4. 단어 분할 쓰기는 중국어 단어의 정의, 분할 및 적용에 도움이 됩니다.
  5. 단어 분할 쓰기는 컴퓨터 자연어 처리에 도움이 됩니다.
  6. 단어 세그먼트 쓰기는 핀인과 한자 사이의 자동 변환에 유용합니다.
  7. 단어 분할 쓰기는 간체한자 변환에 도움이 됩니다.
  8. 단어 구분 쓰기는 기사를 교정하고 오타를 예방하는 데 도움이 됩니다.
  9. 단어 세그먼트 쓰기는 문서 유형 설정에 유용합니다.
  10. 단어 세그먼트 작성은 소프트웨어 시닉화 또는 서구화에 유용합니다.

단점

중국어 단어 분할 쓰기의 장점은 다음과 같습니다.

  1. 단어 세그먼트 쓰기에는 공간(약 1/4)이 더 필요합니다.
  2. 사람들은 이런 식으로 글을 쓰는 것에 익숙하지 않습니다.
  3. 모든 단어를 식별해야 합니다.
  4. 문장은 공백이 없는 전통적인 형식만큼 깔끔하고 단정해 보이지 않습니다.
  5. 대부분의 중국어 단어는 1~2자로, 경계 표시를 사용하지 않아도 단어를 식별하는 것이 어렵지 않습니다.

컴퓨터 기반 단어 분할

단어 분할 쓰기가 대중화되기 전에 컴퓨터 기반 단어 분할은 종종 언어 정보 처리에 사용됩니다.품질이 점점 좋아지고 있습니다.하지만 여전히 인간의 사후 편집이 필요합니다.그리고 그것은 결코 [14]저자 개인에 의한 단어 분할만큼 신뢰할 수 없을 것입니다.[15]

참고 항목

레퍼런스

  1. ^ Chen, Liwei (陈力为) (1996). "汉语书面语的分词问题- - 一个有关全民的信息化问题 (Written Chinese Word Segmentation: An issue relevant to national information technology)". Journal of Chinese Information Processing (中文信息学报). 10 (1996) (1): 11–13.
  2. ^ Zhang, Xiaoheng (张小衡) (1998). "也谈汉语书面语的分词问题——分词连写十大好处 (Written Chinese Word Segmentation Revisited: Ten advantages of word-segmented writing)". Journal of Chinese Information Processing (中文信息学报). 12 (1998) (3): 57–63.
  3. ^ a b c d e Chen 1996, 12페이지
  4. ^ Chen, Liwei (陈力为) (1987). "当前中文信息处理 中的几个问题及其发展前景 (Some issues in Chinese information processing and their perspective development)". Chinese Computer World (计算机世界). 21 (34).
  5. ^ 1998, 페이지 57–63.
  6. ^ "English-Chinese/Word segmentation of Hanzi - Wikiversity".
  7. ^ Peng, Zerun (彭泽润、李葆嘉 eds) (2000). 语言理论 (Language theories) (in Chinese). Changsha: 中南大学出版社 (Central South University Press). ISBN 978-7-810-61342-2.
  8. ^ "教育部《重編國語辭典修訂本》2021".
  9. ^ 1998, 61페이지
  10. ^ http://www.moe.gov.cn/ewebeditor/uploadfile/2015/01/13/20150113091717604.pdf
  11. ^ 1998, 62페이지
  12. ^ Chinese Baptist Press, Hong Kong (translation) (1998). 聖經 現代標點和合本 (Holy Bible, Union Version with modern punctuation) (in Chinese). Hong Kong: Chinese Baptist Press (浸信會出版社). ISBN 962-933-101-2.
  13. ^ 1998, 페이지 57–61.
  14. ^ "Chinese Word Segmentation".
  15. ^ 1998, 57페이지

외부 링크