힌디-우르두 번역

Hindi–Urdu transliteration

힌디어-우르두어(Devanagari: हिन--उर--, Nastaliq: ہندد-اردوو) (일명 힌두스타니어)북인도파키스탄(동종적으로 힌두스탄어)의 언어 프랑카[1][2]. 힌디데바나가리 문자를 사용하여 작성된 표준으로 현대 인도에 공식 등록되어 있고, 우르두는 확장된 페르소 아라빅 문자를 사용하여 작성된 표준으로 현대 파키스탄에 공식적으로 등록되어 있다.

힌두-우르두 번역(또는 힌두스탄 번역)은 힌두스타니 화자들이 서로의 텍스트를 이해하는데 필수적이며, 힌두어와 우르두어 등록부의 기초 언어가 거의 같기 때문에 특히 중요하다.[4] 힌두-우르두의 기초가 되는 일반적인 힌두스타니 음운론 때문에 이론적으로 반투명이 가능하다. 오늘날 힌두스탄어는 마하트마 간디힌두-우르두 논란을 해결하기 위해 처음 제안한 것처럼 [5]통일된 언어로 보여진다.([6]주: '힌두'라는 용어는 페르시아어로 '인도'를 의미하며, 현대의 구어 규범이 된 오성격인 인도 다신교의 추종자들과 '힌두'를 혼동하지 말라)

기술적으로 힌디-우르두의 직접적인 일대일 스크립트 매핑이나 규칙 기반의 무손실 변환은 불가능하며, 힌디가 아부기다 스크립트로 쓰여지고 우르두는 아부자드 스크립트로 쓰여지기 때문에, 그리고 데바나가리에서 하나의 문자로 매핑되는 페르소-아랍어의 여러 유사 문자들과 같은 다른 제약조건들도 있다.[7] 그러나 사전 기반 매핑 시도가 있었는데, 이는 정확도가 매우 높아 거의 완벽한 번역기를 제공했다.[8] 문학 영역의 경우, 형식적인 힌디-우르두어가 산스크리트어 어휘에 더 치우친 반면 형식적인 우르두는 페르시아어와 아랍어 어휘에 더 치우쳐 있기 때문에 단순히 번역과 번역을 결합하는 시스템이 필요한 것은 아니다.[9]

In addition to Hindi-Urdu, there have been attempts to design Indo-Pakistani transliteration systems for digraphic languages like Sindhi (written in extended Perso-Arabic in Sindh of Pakistan and in Devanagari by Sindhis in partitioned India), Punjabi (written in Gurmukhi in East Punjab and Shahmukhi in West Punjab), Saraiki (written in extended-Sh사라이키스탄에서는 아흐무히 문자, 인도의 신디-데바나가리 문자에서 비공식적으로 쓰임)와 카슈미리 문자(카슈미리 회교도들에 의해 확장된 페르소-아라비어, 카슈미리 힌두스에 의해 확장된 데바나가리로 쓰임)가 있다.[10][11][12]

모음.

힌두스탄 모음
IPA 힌디어 ISO 15919 우르두[13] 펙시. 영어

등가의

이니셜 파이널 파이널 메디알 이니셜
ə[14] a ـہ ـا ـ◌َـ اَ 에 관하여
a ː ā ـا آ 먼 곳에
ɪ ि i ـی ـ◌ِـ اِ 가만히
I ː ī ◌ِـیـ اِیـ 수수료
ʊ u ـو ـ◌ُـ اُ 예약하다
u ū ◌ُـو اُو 달님
ē ے ـیـ ایـ 짝을 짓다
ɛː ai ◌َـے ◌َـیـ اَیـ 요정의
oh ō ـو او 강제하다
ɔː au ◌َـو اَو 로트(수신된 발음)
ʰ[15] h ھ (어스피레이션된 소리) 케이크
◌̃[16] ں ـن٘ـ ن٘ 코모음 파우언
([ã, õː] 등)
정글

자음

다음 표에는 힌디-우르두 자음,[17] 특히 연산 목적(무손실 스크립트 변환)에 대한 대략적인 일대일 매핑이 나와 있다. 이러한 직접 스크립트 변환은 정확한 철자를 산출하는 것이 아니라 [18]독자에게 읽기 쉬운 텍스트를 산출한다는 점에 유의하십시오. 힌디-우르두 번역 방식은 구르무크히(동 펀자비)에서 샤무크히(서 펀자비)로의 변환에도 사용될 수 있는데, 샤무크는 우르두 알파벳의 초성(자음 2개 추가)이고 구르무크 폰트는 데바나가리 폰트로 쉽게 변환할 수 있기 때문이다.

힌두스타니 자음
페르소아라비치 로만 데바나가리 평.
ک k
کھ kh
ق q क़ 구어적 설정에서 누크타는 힌디어로 무시되기도 하고 क로[19][20] 쓰이기도 한다.
خ k͟h ख़ 구어적 설정에서 누크타는 힌디어로 무시되기도 하고 ख로[19][20] 쓰이기도 한다.
گ g
ڳ 사라이키와 같은 언어에서만 찾을 수 있다.
غ G͟h ग़ 구어적 설정에서 누크타는 힌디어로 무시되기도 하고 ग로[19][20] 쓰이기도 한다.
گھ gh
چ c
چھ ch.
ج j
ڄ ̈ 사라이키와 같은 언어에서만 찾을 수 있다.
جھ JH
ز z ज़ 구어적 설정에서 누크타는 힌디어로 무시되기도 하고 ज로[19][20] 쓰이기도 한다.
ذ ज़़ (일대일 지도에 대해서는 데바나가리에서 대략 추정함. 사실 ज़과 동일)
ض (일대일 지도에 대해서는 데바나가리에서 대략 추정함. 사실 ज़과 동일)
ظ ॹ़ (일대일 지도에 대해서는 데바나가리에서 대략 추정함. 사실 ज़과 동일)
ژ 지크 झ़ Farsi 대출 단어에서 사용됨
ٹ
ٹھ
ڈ
ݙ 사라이키와 같은 언어에서만 찾을 수 있다.
ڈھ
ڑ ड़ 구어적으로 ṛ은 ḍ과 그 반대로 혼동되는 경우가 많다.
ڑھ ढ़ 구어적으로 ṛh는 ḍh와 그 반대로 혼동되는 경우가 많다.
ت t
تھ th
ط t त़ 누크타는 일반적으로 힌디어로 무시되고 त로 쓰여진다.
د d
دھ dh
ن n
ں 비침 반협화음
ݨ 샤무크히와 같은 스크립트에서만 찾을 수 있다.
ن٘ 산스크리트어 대출 단어에만 사용됨
ݩ ñ 산스크리트어 대출 단어에만 사용됨
پ p
پھ ph
ف f फ़ 구어적 설정에서 누크타는 힌디어로 무시되기도 하고 फ로[19][20] 쓰이기도 한다.
ب b
ٻ ॿ 사라이키와 같은 언어에서만 찾을 수 있다.
بھ bh
م m
ی y
ے ē (사실 badi ye라는 긴 모음)
ر r
ل l
لؕ 샤무크히와 같은 스크립트에서만 찾을 수 있다.
و v
ش
ۺ 산스크리트어 대출 단어에만 사용됨
س s
ص स़ 누크타는 일반적으로 힌디어로 무시되고 स로 쓰여진다.
ث स़़ (일대일 지도에 대해 유니코드 누크타 2개로 데바나가리에서 대략 추정됨. 실제로 स과 동일)
ہ h
ح ह़ 누크타는 일반적으로 힌디어로 무시되고 ह로 쓰여진다.
ۃ ह॒ 아랍어에서 파생된 단어에만 사용됨(데바나가리 근사치)
ھ h ھ은 일반적으로 흡인된 자음에만 쓰인다. 개별적인 용도는 일반적으로 오류로 간주되며 ہ로 간주된다.
ع ʿ ʿ 가변 자음 자리 표시자

숫자

사용법 숫자 시스템
우르두 동아랍어 ۰ ۱ ۲ ۳ ۴ ۵ ۶ ۷ ۸ ۹
국제 힌두아랍어 0 1 2 3 4 5 6 7 8 9
힌디어 모던 데바나가리

구두점 & 기호

스크립트 기간 물음표 쉼표 세미콜론 슬래시 백분율 시말
페르소아라비치 ۔ ؟ ، ؛ ؍ ٪ ۝
모던 데바나가리 ? , ; / %

참고 항목

참조

  1. ^ "About Hindi-Urdu". North Carolina State University. Archived from the original on 15 August 2009. Retrieved 9 August 2009.
  2. ^ Ray, Aniruddha (2011). The Varied Facets of History: Essays in Honour of Aniruddha Ray. Primus Books. ISBN 978-93-80607-16-0. There was the Hindustani Dictionary of Fallon published in 1879; and two years later (1881), John J. Platts produced his Dictionary of Urdu, Classical Hindi and English, which implied that Hindi and Urdu were literary forms of a single language. More recently, Christopher R. King in his One Language, Two Scripts (1994) has presented the late history of the single spoken language in two forms, with the clarity and detail that the subject deserves.
  3. ^ Ashmore, Harry S. (1961). Encyclopaedia Britannica: a new survey of universal knowledge, Volume 11. Encyclopædia Britannica. p. 579. The everyday speech of well over 50,000,000 persons of all communities in the north of India and in West Pakistan is the expression of a common language, Hindustani.
  4. ^ Lehal, Gurpreet Singh; Saini, Tejinder Singh (December 2012). "Development of a Complete Urdu-Hindi Transliteration System". Proceedings of COLING 2012: Posters. Mumbai, India: The COLING 2012 Organizing Committee: 643–652.
  5. ^ David Lunn, Dawn com. "Urdu and Hindi could be one language called Hindustani. Will the politics of language allow it?". Scroll.in. Retrieved 2021-04-08.
  6. ^ "After experiments with Hindi as national language, how Gandhi changed his mind". Prabhu Mallikarjunan. The Feral.
  7. ^ Visweswariah, Karthik; Chenthamarakshan, Vijil; Kambhatla, Nandakishore (August 2010). "Urdu and Hindi: Translation and sharing of linguistic resources". Coling 2010: Posters. Coling 2010 Organizing Committee: 1283–1291.
  8. ^ Lehal, Gurpreet Singh; Saini, Tejinder Singh (2010). "A Hindi to Urdu Transliteration System" (PDF). Cite 저널은 필요로 한다. journal= (도움말)
  9. ^ Durrani, Nadir; Sajjad, Hassan; Fraser, Alexander; Schmid, Helmut (July 2010). "Hindi-to-Urdu Machine Translation through Transliteration". Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, Sweden: Association for Computational Linguistics: 465–474.
  10. ^ "Perso-Arabic To Indic Script Transliteration". sangam.learnpunjabi.org. Retrieved 2021-04-07.
  11. ^ "Saraiki - Devanagari Machine Transliteration System - SDMTS". www.sanlp.org. Retrieved 2021-08-09.
  12. ^ Lawaye, Aadil; Kak, Aadil; Mehdi, Nali (January 2010). "Building a Cross Script Kashmiri Converter: Issues and Solutions". Proceedings of Oriental COCOSDA.
  13. ^ 우르두의 분음부(diacritics)는 일반적으로 쓰이지 않으며 일반적으로 문장의 문맥에 기초하여 묵시적이고 해석된다.
  14. ^ [condition]은 schwas에 의해 양쪽에 둘러싸인 /condition/ 근처에 /conditional/의 조건부 전축으로 발생한다. 보통 두 번째 슈와는 동기화 과정을 거치며, 결과물은 / //보다 앞선 [ɛ]에 불과하다. 힌디에는 ə을 나타내는 글자가 없는 것이 보통 함축되어 있기 때문이다.
  15. ^ 힌디에는 흡음 자음의 개별 문자가 있는 반면 우르두는 흡음 자음을 나타내는 특정 문자가 있다.
  16. ^ 힌두스탄어로 된 어떤 말도 비음문자/다이아크리트어로 시작할 수 없다. 우르두에서 비음어를 나타내는 초기 형태(문자)는 is:(nun + 작은 nun ghunna diacritic)이다.
  17. ^ NC, Gokul (2021-05-07), GokulNC/Indic-PersoArabic-Script-Converter, retrieved 2021-05-28
  18. ^ Ahmed, Nisar. "An efficient Hindi-Urdu Transliteration System" (PDF). 5th International. Multidisciplinary Conference, 29-31 Oct., at, ICBS, Lahore.
  19. ^ Jump up to: a b c d e Shapiro, Michael C. (1989). A Primer of Modern Standard Hindi. Motilal Banarsidass Publ. p. 20. ISBN 978-81-208-0508-8. In addition to the basic consonantal sounds discussed in sections 3.1 and 3.2, many speakers use any or all five additional consonants (क़ , ख़ ḳh,ग़ ġ, ज़ z, फ़ f) in words of foreign origin (primarily from Persian, Arabic, English, and Portuguese). The last two of these, ज़ z and फ़ f, are the initial sounds in English zig and fig respectively. The consonant क़ is a voiceless uvular stop, somewhat like k, but pronounced further back in the mouth. ख़ ḳh is a voiceless fricative similar in pronunciation to the final sound of the German ach. ग़ ġ is generally pronounced as a voiceless uvular fricative, although it is occasionally heard as a stop rather than a fricative. In devanāgari each of these five sounds is represented by the use of a subscript dot under one of the basic consonant signs. In practice, however, the dot is often omitted, leaving it to the reader to render the correct pronunciation on the basis of his prior knowledge of the language.
  20. ^ Jump up to: a b c d e Pandey, Dipti; Mondal, Tapabrata; Agrawal, S. S.; Bangalore, Srinivas (2013). "Development and suitability of Indian languages speech database for building watson based ASR system". 2013 International Conference Oriental COCOSDA held jointly with 2013 Conference on Asian Spoken Language Research and Evaluation (O-COCOSDA/CASLRE): 3. doi:10.1109/ICSDA.2013.6709861. Only in Hindi 10 Phonemes व /v/ क़ /q/ ञ /ɲ/ य /j/ ष /ʂ/ ख़ /x/ ग़ /ɣ/ ज़ /z/ झ़ /ʒ/ फ़ /f/