인디케이터 OC

Indic OCR

Indic OCR은 OCR(광학식 문자 인식) 기술을 사용하여 Indic 스크립트로 작성된 텍스트 이미지를 전자 텍스트로 변환하는 과정을 말합니다.대체로 인도 아대륙 문자뿐만 아니라 남아시아, 동남아시아 언어브라흐미 문자 OCR 시스템도 참조할 수 있다.

라틴 문자에 대한 OCR은 여전히 100% 정확하지는 않지만 비교적 높은 수준의 변환 정확도를 달성할 수 있었다.OCR을 사용하는 Indician 스크립트의 경우 이러한 정확도는 아직 달성되지 않았습니다.이는 부분적으로 인디케이터 언어의 쓰기 시스템과 운영 체제와 키보드 간의 표준 표현, 인코딩 및 지원이 부족하기 때문입니다.

인도전자정보기술부(MeitY라고도 함)의 주요 연구개발 기관인 C-DAC(Advanced Computing 개발 센터)와 인도 언어 기술 개발 센터(Technology Development for Indian Languages)는 OCR과 관련된 많은 프로젝트를 수행해 왔습니다.이들의 프로젝트에는 말레이람, Odia, Punjabi, TeluguDevanagari 스크립트의 OCR이 포함됩니다.

인도 문자의 특성

인도에는 공식적으로 인정된 22개의 언어가 있습니다.이들 중 힌디어, 벵골어, 펀자비가장 널리 사용되는 인도아리아어이며 각각 세계에서 네 [1]번째, 일곱 번째, 그리고 열 번째 가장 널리 사용되는 언어이다.2개 이상의 언어를 같은 스크립트로 작성할 수 있습니다.예를 들어 데바나가리는 힌두어, 마라티어, 라자스탄어, 산스크리트어, 보즈푸리 등을 쓰는 데 사용되고, 동나가리벵골어, 아사메어, 마니푸리 등을 쓰는 데 사용된다.

자음모음과 같은 기본 문자를 제외하고, 대부분의 인도 언어는 두 개 이상의 기본 문자를 결합하여 복합 문자를 형성합니다.복합 문자의 모양은 구성 기본 문자보다 복잡합니다.일부 인도아리아어(힌디어, 펀자비어 포함)는 문자 위에 가로줄이 있고, 다른 언어(구자라티어 포함)와 드라비다어(말레이알람어, 칸나다어, 타밀어, 텔루구어)는 가로줄이 없습니다.이것들은 모든 인도 [2]언어에서 단일 OCR을 작성하기 위한 주요 과제 중 일부입니다.

Indic OCR은 일반적으로 인도에서 최근에 발명된 Ol Chiki, Warang Citi, Mundari Bani 등과 같은 문자를 지원하는데, 이들은 주로 오스트로아시아어족문다어를 쓰기 위해 만들어졌다.

Indicator 스크립트에는 대문자와 소문자의 개념이 없습니다.우르두어, 신디어, 카슈미르어, 타아나를 제외한 모든 인도어는 왼쪽에서 오른쪽으로 표기된다.

  1. 산스크리트 OCR - 데바나가리 문자를 기반으로 한 산스크리트어, 힌디어 및 기타 인도아리아어용 OCR 소프트웨어.산스크리트 OCR은 독일의 산스크리트 학자인 프레이 대학 베를린 남부 아시아 언어 및 문화학과 올리버 헬위그 박사에 의해 개발되었습니다.공식 웹사이트는 독일어로 되어 있습니다.이전 버전의 소프트웨어 인터페이스도 독일어로 되어 있었지만 이후 버전에는 영어 인터페이스도 있습니다.[3][4][5]
  2. e-acsharayan - 인도어용 광학 문자 인식 엔진
  3. Chitrankan - 이 기술은 ISI, Kolkata에 의해 개발되어 C-DAC로 이전되었습니다.스캐너 또는 이미지에서 인쇄된 힌디어 텍스트를 처리합니다.
  4. Teseract용 OCR 모델 표시(소프트웨어)

OCR 사용 중

OCR은 Wikisource 등의 프로젝트에 [6][7][8]사용되고 있습니다.

레퍼런스

  1. ^ GmbH, Lesson Nine. "The 10 Most Spoken Languages In The World". The Babbel Magazine. Retrieved 2018-03-20.
  2. ^ Pal, U.; Chaudhuri, B.B. (2004-09-01). "Indian script character recognition: a survey". Pattern Recognition. 37 (9): 1887–1899. doi:10.1016/j.patcog.2004.02.003. ISSN 0031-3203.
  3. ^ Prabhu, S. (2020-06-04). "Pazhur Patasala — a revival story". The Hindu. ISSN 0971-751X. Retrieved 2021-09-01. An OCR (Optical Character Recognition) for Sanskrit has created an offline corpus that includes over 3,000 books.
  4. ^ "Digitisation going on at brisk pace: Vice-Chancellor Prof V Muralidhara Sharma". www.thehansindia.com. Hans News Service. 2019-03-20. Retrieved 2021-09-01.
  5. ^ Dikshit, Ashish (2016-10-27). "Who Says Sanskrit Is Dead? It's Rocking the Wiki World". TheQuint. Retrieved 2021-09-01.
  6. ^ Prabhu, S. (2020-06-04). "Pazhur Patasala — a revival story". The Hindu. ISSN 0971-751X. Retrieved 2021-09-01. An OCR (Optical Character Recognition) for Sanskrit has created an offline corpus that includes over 3,000 books.
  7. ^ "Digitisation going on at brisk pace: Vice-Chancellor Prof V Muralidhara Sharma". www.thehansindia.com. Hans News Service. 2019-03-20. Retrieved 2021-09-01.
  8. ^ Dikshit, Ashish (2016-10-27). "Who Says Sanskrit Is Dead? It's Rocking the Wiki World". TheQuint. Retrieved 2021-09-01.

외부 링크