광학 문자 인식
Optical character recognition광학 문자 인식 또는 광학 문자 판독기(OCR)는 타이핑, 수기 또는 인쇄된 텍스트의 이미지를 스캔 문서, 문서 사진, 장면 사진(예를 들어 풍경 사진의 간판 및 광고판의 텍스트) 또는 자막 텍스트 슈퍼임프로부터 기계로 인코딩된 텍스트로 전자적 또는 기계적으로 변환하는 것입니다.(예를 들어 TV 브로드캐스트에서)[1] 이미지 상에 배치됩니다.
여권 문서, 청구서, 은행 명세서, 전산 영수증, 명함, 메일, 정적 데이터 출력물 또는 기타 적합한 문서 등 인쇄된 종이 데이터 기록에서 데이터 입력 형식으로 널리 사용됨 - 인쇄된 텍스트를 전자적으로 편집, 검색, 저장하기 위한 일반적인 방법입니다.ly는 온라인으로 표시되며 인지 컴퓨팅, 기계 번역, 텍스트에서 텍스트로 변환, 주요 데이터 및 텍스트 마이닝 등의 기계 프로세스에 사용됩니다.OCR은 패턴 인식, 인공지능, 컴퓨터 비전 분야의 연구 분야입니다.
초기 버전은 각 문자의 이미지로 교육되어야 했고 한 번에 한 글꼴로 작동했습니다.대부분의 글꼴에 대해 높은 수준의 인식 정확도를 생성할 수 있는 고급 시스템이 현재 일반적이며 다양한 디지털 이미지 [2]파일 형식 입력을 지원합니다.일부 시스템에서는 이미지, 열 및 기타 텍스트 이외의 컴포넌트를 포함하여 원본 페이지에 근접한 형식화된 출력을 재생할 수 있습니다.
역사
초기의 광학 문자 인식은 전신과 [3]시각장애인을 위한 판독 장치를 만드는 기술과 관련된 기술로 추적될 수 있다.1914년, 이매뉴얼 골드버그는 문자를 읽고 그것들을 표준 전신 [4]코드로 변환하는 기계를 개발했다.동시에 Edmund Fournier d'Albe는 인쇄된 페이지를 이동할 때 특정 문자나 [5]문자에 해당하는 톤을 생성하는 휴대용 스캐너인 Optophone을 개발했습니다.
1920년대 후반과 1930년대에 이매뉴얼 골드버그는 광학 코드 인식 시스템을 사용하여 마이크로 필름 아카이브를 검색하기 위한 "통계 기계"를 개발했습니다.1931년 그는 발명으로 미국 특허번호 1838,389를 부여받았다.특허는 IBM에 의해 취득되었다.
시각장애인 및 시각장애 사용자
1974년 Ray Kurzweil은 Kurzweil Computer Products, Inc.를 설립하고 거의 모든 글꼴로 인쇄된 텍스트를 인식할 수 있는 옴니 폰트 OCR을 계속 개발했습니다(Kurzweil은 종종 옴니 폰트 OCR을 발명했지만, 1960년대 후반과 1970년대[3][6] 후반에는 CompuScan을 포함한 기업에서 사용되었습니다).Kurzweil은 이 기술의 가장 좋은 적용은 시각장애인을 위한 읽기 기계를 만들어 시각장애인들이 텍스트를 소리내어 읽을 수 있도록 하는 것이라고 결정했다.이 장치에는 CCD 플랫베드 스캐너와 텍스트-투-스피치 신시사이저라는 두 가지 기술 발명이 필요했습니다.1976년 1월 13일, Kurzweil과 [citation needed]전국맹인연맹의 지도자들이 이끄는 널리 보도된 기자회견에서 성공적인 완제품이 공개되었습니다.1978년 Kurzweil Computer Products는 광학 문자 인식 컴퓨터 프로그램의 상용 버전을 판매하기 시작했습니다.LexisNexis는 최초의 고객 중 하나이며, 법률 서류와 뉴스 문서를 초기 온라인 데이터베이스에 업로드하는 프로그램을 구입했습니다.2년 후, Kurzweil은 그의 회사를 제록스에 매각했고, 제록스는 종이에서 컴퓨터로의 텍스트 변환을 더욱 상용화하는 데 관심이 있었다.Xerox는 결국 Scansoft로 분사하여 Nuance Communications와 합병하였다.
2000년대에 OCR은 서비스로서의 온라인(WebOCR), 클라우드 컴퓨팅 환경 및 스마트폰의 외국어 간판의 실시간 번역과 같은 모바일 애플리케이션에서 사용할 수 있게 되었습니다.스마트폰과 스마트안경의 등장으로 OCR은 카메라로 캡처한 텍스트를 추출하는 인터넷 연결 모바일 기기 애플리케이션에 사용될 수 있다.운영체제에 OCR 기능이 내장되어 있지 않은 이러한 디바이스는 일반적으로 OCR API를 사용하여 디바이스에 [7][8]의해 캡처되어 제공되는 이미지 파일에서 텍스트를 추출합니다.OCR API는 추출된 텍스트를 원본 이미지에서 검출된 텍스트의 위치에 대한 정보와 함께 장치 앱으로 반환하여 추가 처리(텍스트/스피치 등) 또는 표시를 수행합니다.
라틴어, 키릴어, 아랍어, 히브리어, 인도어, 벵골어(방글라), 데바나가리어, 타밀어, 중국어, 일본어 및 한국어 문자를 포함한 다양한 상용 및 오픈 소스 OCR 시스템을 사용할 수 있습니다.
적용들
OCR 엔진은 영수증 OCR, 청구서 OCR, 수표 OCR, 법적 청구 문서 OCR 등 다양한 종류의 도메인 고유 OCR 응용 프로그램으로 개발되었습니다.
다음 용도로 사용할 수 있습니다.
- 비즈니스 문서(수표, 여권, 송장, 은행 명세서, 영수증 등)의 데이터 입력
- 자동 번호판 인식
- 공항에서 여권 인식 및 정보 추출을 위해
- 자동 보험 서류 주요 정보 추출[citation needed]
- 교통 표지 인식[9]
- 연락처[10] 목록에 명함 정보 추출
- Project Gutenberg의 책 스캔 등 인쇄된 문서의 텍스트 버전을 보다 빠르게 만들 수 있습니다.
- 인쇄된 문서의 전자 이미지를 검색 가능 상태로 만듭니다(예: Google Books).
- 컴퓨터를 제어하기 위해 실시간으로 필기 변환(펜 컴퓨팅)
- CAPTCHA 안티봇 시스템을 물리치지만 OCR을 [11][12][13]방지하기 위해 특별히 설계되었습니다.또한 목적은 CAPTCHA 안티봇 시스템의 견고성을 테스트하는 것일 수 있습니다.
- 시각장애인 및 시각장애인을 위한 보조 테크놀로지
- 실시간으로 변화하는 차량 설계에 적합한 CAD 이미지를 데이터베이스에서 식별하여 차량에 대한 지침을 작성합니다.
- 스캔한 문서를 검색 가능한 PDF로 변환하여 검색 가능 상태로 만들기
종류들
- 광학 문자 인식(OCR) – 타이프된 텍스트, 한 번에 한 글자씩 또는 한 글자를 대상으로 합니다.
- 광학 단어 인식 – 한 번에 한 단어씩 타이핑된 텍스트를 대상으로 합니다(단어 구분자로 공백을 사용하는 언어).(보통 'OCR'이라고 불립니다)
- 인텔리전트 문자 인식(ICR) – 손으로 쓴 인쇄 스크립트 또는 필기체 텍스트를 대상으로 하며, 일반적으로 기계 학습이 수반됩니다.
- 인텔리전트 워드 인식(IWR)– 손으로 쓴 프린트 스크립트 또는 필기체 텍스트도 한 번에 한 단어씩 대상으로 합니다.이것은 특히 필기체 문자로 글리프가 분리되지 않은 언어에서 유용합니다.
OCR은 일반적으로 정적 문서를 분석하는 "오프라인" 프로세스입니다.온라인 OCR API 서비스를 제공하는 클라우드 기반 서비스가 있습니다.필기 동작 분석은 필기 [14]인식 입력으로 사용할 수 있습니다.이 기술은 단순히 문자와 단어의 모양을 사용하는 대신, 세그먼트가 그려지는 순서, 방향, 펜을 내려놓고 들어올리는 패턴과 같은 움직임을 포착할 수 있다.이러한 추가 정보를 통해 엔드 투 엔드 프로세스의 정확성을 높일 수 있습니다.이 기술은 "온라인 문자 인식", "동적 문자 인식", "실시간 문자 인식", "지능적 문자 인식"이라고도 합니다.
기술
전처리
OCR 소프트웨어는 종종 이미지를 "사전 처리"하여 성공적인 인식 가능성을 높입니다.기술에는 다음이 포함됩니다.[15]
- 디스큐 – 스캔할 때 원고가 올바르게 정렬되지 않은 경우 텍스트의 행을 완전히 수평 또는 수직으로 만들기 위해 원고를 시계방향 또는 반시계방향으로 몇 도 기울여야 할 수 있습니다.
- 디스페클 – 양극 및 음극 부분을 제거하고 모서리를 부드럽게 합니다.
- 2치화 – 이미지를 컬러 또는 그레이스케일에서 흑백으로 변환합니다(두 가지 색상이 있기 때문에 바이너리 이미지라고 부릅니다).2치화 작업은 텍스트(또는 다른 원하는 영상 구성 요소)를 [16]배경에서 분리하는 간단한 방법으로 수행됩니다.대부분의 상업적 인식 알고리즘은 [17]바이너리 이미지로만 작동하므로 바이너리화 작업 자체가 필요하다.또한, 2치화 단계의 효과는 문자 인식 단계의 품질에 상당한 영향을 미치며, 2치화 결과를 얻기 위해 사용된 2치화 방법의 품질은 유형에 따라 달라지기 때문에 신중한 결정이 이루어진다.f 입력 이미지(문서, 장면 텍스트 이미지, 이력 열화 문서 등)[18][19]
- 호선 제거 – Cleans을non-glyph 상자와 대사들이다.
- 배치 분석 또는 뚜렷한 원칙으로서"지역제"–를 식별 기둥, 단락, 캡션 등.특히 다단 레이아웃과 표에서 중요하다.
- 호선과 단어 탐지 – 필요하다면 말을 구분하는 단어와 문자 도형에 기준치를 설정합니다.
- 다중 언어 문서에서 스크립트 인식 –, 이 대본이 단어의 수준에서이며, 따라서 대본의 식별이 있기도 전에 올바른 OCR은 특정한 대본을 다루는 방식으로 호출될 수도 필요하다 바뀔 수도 있다.[20]
- per-character OCR, 화상 거짓 지시 때문에 연결되어 있는 여러 캐릭터들을 위해 캐릭터가 격리 또는"세분화"–, 여러 조각으로 부러져 않고 문자 유물들 연결되어 있어야 합니다 때문에 구분되어야 합니다.
- Normalize 가로 세로 비율 및 scale[21].
fixed-pitch의 글꼴 Segmentation 상대적으로 단순히 일정한 그리드가 수직 격자선 못생긴 얼굴은 종종 까만 지역 교차하는 것에 근거한 이미지들을 연계함으로써 완성된다.때문에 문자 사이의 공간을 좀 많이 띄워라 때때로 그것보다 단어 사이의 더 클 수 있비례 글꼴을 위해 더욱 세심한 기법과 수직 라인 여러 문자 교차할 수 있다.[22]
텍스트 인식
에는 핵심 OCR알고리즘의 어느 후보의 문자를 더 잘 알려져 목록을 만들길 수 있는 두가지 기본 종류가 있다.[23]
- 매트릭스 일치하는 저장 문자 모양에pixel-by-pixel 기준에 대한 이미지를 비교하다;그것은"패턴과 일치하는","패턴 인식"또는"이미지 상관 관계"로 알려져 있는 것을 포함한다.이것은 입력 문자 모양 있는 것을 정확하게 이미지의 나머지로부터 격리되어 저장된 문자 모양 비슷한 글꼴과 같은 규모로에 있는 것에 의존하고 있다.이 기술은 최고 타자 글씨가 있고 새로운 글꼴을 겪는 경우 제대로 동작하지 않습니다.초기 물리적photocell-based OCR, 다소 직접적으로 추진하였다 이것은 기술이다.
- Feature추출, 닫힌 루프 라인 방향 및 라인 교차로처럼"기능"에 기호 분해한다.그 추출 기능 및 지붕 인정 과정 computationally 효율적으로 해 준다 그 표현의차원을 감소시킨다.이러한 특징을 추상 벡터처럼 표현한 문자와 비교하면 하나 이상의 글리프 프로토타입으로 축소될 수 있습니다.컴퓨터 비전에서의 특징 검출의 일반적인 기술은 이러한 유형의 OCR에 적용할 수 있습니다. OCR은 일반적으로 "지능적인" 필기 인식 및 대부분의 최신 OCR 소프트웨어에서 [24]볼 수 있습니다.k-nearest neighbors 알고리즘과 같은 근접 근접 근접 분류자를 사용하여 이미지 피쳐와 저장된 글리프 피쳐를 비교하고 가장 근접한 [25]일치를 선택합니다.
Cuniform 및 Teseract와 같은 소프트웨어는 문자 인식에 2패스 방식을 사용합니다.두 번째 패스는 "적응 인식"으로 알려져 있으며 첫 번째 패스에서 높은 신뢰도로 인식된 문자 모양을 사용하여 두 번째 패스의 나머지 문자를 더 잘 인식합니다.이 기능은 글꼴이 왜곡된 비정상적인 글꼴 또는 저품질 스캔(예: 흐릿하거나 [22]희미함)에 유용합니다.
최신 OCR 소프트웨어에는 Google Docs OCR, ABBYY FineReader 및 [26]Transym이 포함됩니다.OCRopus나 Teseract와 같은 다른 것들은 하나의 문자에 초점을 맞추는 대신 텍스트의 모든 줄을 인식하도록 훈련된 신경망을 사용한다.
반복 OCR로 알려진 새로운 기술은 페이지 레이아웃에 따라 문서를 자동으로 섹션으로 자릅니다.OCR은 페이지 수준의 OCR 정확도를 최대화하기 위해 가변 문자 신뢰도 수준 임계값을 사용하여 섹션에서 개별적으로 실행됩니다.미국 특허청의 특허가 이 방법에 대해 발행되었다.
OCR 결과는 미국 의회도서관이 관리하는 전용 XML 스키마인 표준화된 ALTO 형식으로 저장할 수 있습니다.기타 일반적인 형식으로는 hOCR 및 PAGE XML이 있습니다.
광학 문자 인식 소프트웨어의 리스트에 대해서는, 광학 문자 인식 소프트웨어의 비교를 참조해 주세요.
후처리
OCR 의 정확도는,[15] 문서내에서 발생하는 것을 허가하는 단어 리스트인 렉시콘에 의해서 출력이 제한되는 경우에 향상할 수 있습니다.예를 들어 영어의 모든 단어 또는 특정 분야의 보다 기술적인 어휘일 수 있습니다.문서에 고유 명사와 같이 어휘에 없는 단어가 포함되어 있으면 이 기술은 문제가 될 수 있습니다.Teseract는 사전을 사용하여 문자 분할 단계에 영향을 미쳐 정확도를 [22]높입니다.
출력 스트림은 일반 텍스트 스트림 또는 문자 파일일 수 있지만 보다 정교한 OCR 시스템은 페이지의 원래 레이아웃을 보존하고 페이지의 원본 이미지와 검색 가능한 텍스트 표현을 모두 포함하는 주석 첨부 PDF를 생성할 수 있습니다.
"근접 이웃 분석"은 특정 단어가 종종 [28]함께 나타나는 것에 주목함으로써 오류를 수정하기 위해 공존 빈도를 사용할 수 있다.예를 들어 "Washington, D.C."는 일반적으로 "Washington DOC"보다 영어에서 훨씬 더 많이 사용됩니다.
스캔되는 언어의 문법에 대한 지식은 단어가 동사인지 명사인지를 결정하는데 도움을 줄 수 있으며, 예를 들어 더 높은 정확도를 가능하게 한다.
Levenshtein Distance 알고리즘은 OCR API의 결과를 더욱 최적화하기 위해 [29]OCR 후 처리에도 사용되었습니다.
응용 프로그램별 최적화
최근 몇 [when?]년 동안 주요 OCR 기술 제공업체들은 특정 유형의 입력을 보다 효율적으로 처리하기 위해 OCR 시스템을 조정하기 시작했습니다.애플리케이션 고유의 용어집을 넘어 비즈니스 규칙, 표준 [clarification needed]표현 또는 컬러 이미지에 포함된 풍부한 정보를 고려함으로써 성능을 향상시킬 수 있습니다.이 전략은 '애플리케이션 지향 OCR' 또는 '커스텀 OCR'로 불리며 번호판, 청구서, 스크린샷, 신분증, 운전면허증, 자동차 제조 등 OCR에 적용됐다.
New York Times는 OCR 기술을 Document Helper라는 자체 툴로 채택하여 인터랙티브 뉴스 팀이 검토해야 할 문서를 신속하게 처리할 수 있도록 했습니다.이들은 이를 통해 시간당 5400페이지에 달하는 내용을 [30]취재진이 검토할 수 있도록 준비할 수 있다고 지적했다.
회피책
개선된 OCR 알고리즘 이외의 방법으로 문자인식의 문제를 해결하기 위한 몇 가지 기술이 있다.
더 나은 입력 강제
OCR-A, OCR-B 또는 MICR 글꼴과 같은 특수 글꼴은 크기, 간격 및 고유한 문자 모양을 정확하게 지정하므로 뱅크 수표 처리 시 문자 변환 시 정확도가 높아집니다.그러나 아이러니하게도 몇몇 OCR 엔진은 Arial 또는 Times New Roman과 같은 인기 있는 글꼴로 텍스트를 캡처하도록 설계되었으며, 일반적으로 사용되는 글꼴과 많이 다른 특수 글꼴로 텍스트를 캡처할 수 없습니다.구글 테서랙트는 새로운 폰트를 인식하도록 훈련할 수 있어 OCR-A, OCR-B,[31] MICR 폰트를 인식할 수 있다.
"콤 필드"는 인간이 더 읽기 쉽게 쓰도록 권장하는 사전 인쇄 상자입니다.[28] 상자당 1개의 문양이 있습니다.OCR 시스템에서 [28]쉽게 제거할 수 있는 "드롭아웃 컬러"로 인쇄되는 경우가 많습니다.
Palm OS는 "Graffiti"라고 알려진 특수 문자 세트를 사용했습니다. 이 문자는 인쇄된 영어 문자와 비슷하지만, 플랫폼의 제한된 하드웨어에서 더 쉽게 인식하기 위해 단순화되거나 수정되었습니다.사용자들은 이 특별한 글자를 쓰는 법을 배워야 할 것이다.
영역 기반 OCR은 이미지를 문서의 특정 부분으로 제한합니다.이것은 종종 "템플릿 OCR"이라고 불립니다.
크라우드 소싱
크라우드소싱으로 문자 인식을 수행할 경우 컴퓨터로 구동되는 OCR과 같은 이미지를 빠르게 처리할 수 있지만 컴퓨터로 얻은 것보다 이미지를 인식하는 정확도가 더 높습니다.실용적인 시스템으로는 Amazon Mechanical Turk와 reCAPTCHA가 있습니다.핀란드 국립도서관은 표준화된 ALTO [32]형식의 OCR 텍스트를 수정할 수 있는 온라인 인터페이스를 개발했습니다.또한 크라우드 소싱은 문자 인식을 직접 수행하는 것이 아니라 소프트웨어 개발자가 예를 들어 순위 [33]토너먼트를 사용하여 이미지 처리 알고리즘을 개발하도록 유도하는 데 사용되어 왔다.
정확성.
![]() | 이 문서는 갱신할 필요가 있습니다.최신 하기 위해 이 . (2013년 3월) |
미국 에너지부(DOE)의 의뢰를 받아 정보과학연구소(ISRI)는 기계 인쇄 문서를 이해하기 위한 자동화 기술 개선을 촉진하는 임무를 수행했으며 1992년부터 [34]1996년까지 OCR 정확도 연례 테스트를 가장 권위 있게 실시했습니다.
또렷한 이미징이 가능한 곳에서도 라틴어 스크립트, 타이프 텍스트의 인식은 100% 정확하지 않습니다.19세기 및 20세기 초반 신문 페이지의 인식에 기초한 한 연구에서는 상용 OCR 소프트웨어에 대한 문자별 OCR 정확도가 81%에서 99%[35]까지 다양하다고 결론지었다. 전체 정확도는 인간 검토 또는 데이터 사전 인증을 통해 달성할 수 있다.다른 분야(특히 한 글자에 많은 획을 가진 동아시아 언어 문자)는 여전히 활발한 연구 대상이다.MNIST 데이터베이스는 일반적으로 손으로 쓴 숫자를 인식하는 시스템의 능력을 테스트하기 위해 사용됩니다.
정확도는 여러 가지 방법으로 측정할 수 있으며, 측정 방법에 따라 보고된 정확도에 큰 영향을 미칠 수 있습니다.예를 들어 존재하지 않는 단어를 찾아내기 위해 워드 컨텍스트(기본적으로 단어 사전)를 사용하지 않는 경우 1%(99% 정확도)의 문자 [36]오류율은 각 단어가 잘못된 문자로 인식되었는지 여부에 따라 측정이 이루어지면 5%(95% 정확도) 이상의 오류율이 발생할 수 있습니다.뉴럴 네트워크 기반 필기 인식 솔루션에서는 충분히 큰 데이터 세트를 사용하는 것이 매우 중요합니다.반면, 자연 데이터셋을 생성하는 것은 매우 복잡하고 시간이 [37]많이 소요됩니다.
오래된 텍스트를 디지털화하는 데 내재된 어려움의 예로는 OCR이 "긴 s"[38]와 "f" 문자를 구별할 수 없다는 것이 있습니다.
손으로 인쇄한 텍스트를 즉석에서 인식하기 위한 웹 기반 OCR 시스템은 최근 상용[when?] 제품으로 잘 알려져 있습니다(태블릿 PC 역사 참조).깔끔하고 깔끔한 손으로 인쇄한 글자의 정확도는 펜 컴퓨팅 소프트웨어로 80~90%입니다만, 그 정확도는 페이지당 수십개의 에러로 해석되기 때문에,[citation needed] 매우 한정된 애플리케이션에서만 유효합니다.
필기체의 인식은 활발한 연구 분야이며, 인식률은 손으로 인쇄한 것보다 더 낮다.일반적인 필기체 문자는 문맥이나 문법 정보를 사용하지 않고서는 인식률이 높아질 수 없습니다.예를 들어 사전에서 전체 단어를 인식하는 것이 스크립트에서 개별 문자를 구문 분석하는 것보다 쉽습니다.수표의 금액 행(항상 기입된 숫자)을 읽는 것은 작은 사전을 사용하는 것이 인식률을 크게 높일 수 있는 예입니다.개별 필기체 문자 자체의 모양에는 손으로 쓴 필기체를 [citation needed]모두 정확하게 인식할 수 있는 충분한 정보가 포함되어 있지 않습니다(98% 이상).
대부분의 프로그램에서는 사용자가 "신뢰율"을 설정할 수 있습니다.즉, 소프트웨어가 원하는 수준의 정확도를 달성하지 못할 경우 사용자에게 수동 검토를 위한 알림을 보낼 수 있습니다.
OCR 스캔에 의해 발생하는 에러는, 스캔노([39][40]typo)라고 불리기도 합니다.
유니코드
OCR을 지원하는 문자는 1993년 6월 버전 1.1과 함께 Unicode Standard에 추가되었습니다.
이러한 문자의 일부는 MICR, OCR-A 또는 OCR-B 고유의 글꼴에서 매핑됩니다.
광학 문자 인식[1][2] Unicode Consortium 공식 코드 차트(PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
U+244x | ⑀ | ⑁ | ⑂ | ⑃ | ⑄ | ⑅ | ⑆ | ⑇ | ⑈ | ⑉ | ⑊ | |||||
U+245x | ||||||||||||||||
메모들
|
참고 항목
레퍼런스
- ^ OnDemand, HPE Haven. "OCR Document". Archived from the original on April 15, 2016.
- ^ OnDemand, HPE Haven. "undefined". Archived from the original on April 19, 2016.
- ^ a b Schantz, Herbert F. (1982). The history of OCR, optical character recognition. [Manchester Center, Vt.]: Recognition Technologies Users Association. ISBN 9780943072012.
- ^ Dhavale, Sunita Vikrant (March 10, 2017). Advanced Image-Based Spam Detection and Filtering Techniques. Hershey, PA: IGI Global. p. 91. ISBN 9781683180142. Retrieved September 27, 2019.
- ^ d'Albe, E. E. F. (July 1, 1914). "On a Type-Reading Optophone". Proceedings of the Royal Society A: Mathematical, Physical and Engineering Sciences. 90 (619): 373–375. Bibcode:1914RSPSA..90..373D. doi:10.1098/rspa.1914.0061.
- ^ "The History of OCR". Data Processing Magazine. 12: 46. 1970.
- ^ "Extracting text from images using OCR on Android". June 27, 2015. Archived from the original on March 15, 2016.
- ^ "[Tutorial] OCR on Google Glass". October 23, 2014. Archived from the original on March 5, 2016.
- ^ Qing-An Zeng (October 28, 2015). Wireless Communications, Networking and Applications: Proceedings of WCNA 2014. Springer. ISBN 978-81-322-2580-5.
- ^ "[javascript] Using OCR and Entity Extraction for LinkedIn Company Lookup". July 22, 2014. Archived from the original on April 17, 2016.
- ^ "How To Crack Captchas". andrewt.net. June 28, 2006. Retrieved June 16, 2013.
- ^ "Breaking a Visual CAPTCHA". Cs.sfu.ca. December 10, 2002. Retrieved June 16, 2013.
- ^ John Resig (January 23, 2009). "John Resig – OCR and Neural Nets in JavaScript". Ejohn.org. Retrieved June 16, 2013.
- ^ Tappert, C. C.; Suen, C. Y.; Wakahara, T. (1990). "The state of the art in online handwriting recognition". IEEE Transactions on Pattern Analysis and Machine Intelligence. 12 (8): 787. doi:10.1109/34.57669. S2CID 42920826.
- ^ a b "Optical Character Recognition (OCR) – How it works". Nicomsoft.com. Retrieved June 16, 2013.
- ^ Sezgin, Mehmet; Sankur, Bulent (2004). "Survey over image thresholding techniques and quantitative performance evaluation" (PDF). Journal of Electronic Imaging. 13 (1): 146. Bibcode:2004JEI....13..146S. doi:10.1117/1.1631315. Archived from the original (PDF) on October 16, 2015. Retrieved May 2, 2015.
- ^ Gupta, Maya R.; Jacobson, Nathaniel P.; Garcia, Eric K. (2007). "OCR binarisation and image pre-processing for searching historical documents" (PDF). Pattern Recognition. 40 (2): 389. Bibcode:2007PatRe..40..389G. doi:10.1016/j.patcog.2006.04.043. Archived from the original (PDF) on October 16, 2015. Retrieved May 2, 2015.
- ^ Trier, Oeivind Due; Jain, Anil K. (1995). "Goal-directed evaluation of binarisation methods" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 17 (12): 1191–1201. doi:10.1109/34.476511. Retrieved May 2, 2015.
- ^ Milyaev, Sergey; Barinova, Olga; Novikova, Tatiana; Kohli, Pushmeet; Lempitsky, Victor (2013). "Image binarisation for end-to-end text understanding in natural images" (PDF). Document Analysis and Recognition (ICDAR) 2013. 12th International Conference on: 128–132. doi:10.1109/ICDAR.2013.33. ISBN 978-0-7695-4999-6. S2CID 8947361. Retrieved May 2, 2015.
- ^ Pati, P.B.; Ramakrishnan, A.G. (May 29, 1987). "Word Level Multi-script Identification". Pattern Recognition Letters. 29 (9): 1218–1229. doi:10.1016/j.patrec.2008.01.027.
- ^ "Basic OCR in OpenCV Damiles". Blog.damiles.com. November 20, 2008. Retrieved June 16, 2013.
- ^ a b c Ray Smith (2007). "An Overview of the Tesseract OCR Engine" (PDF). Archived from the original (PDF) on September 28, 2010. Retrieved May 23, 2013.
- ^ "OCR Introduction". Dataid.com. Retrieved June 16, 2013.
- ^ "How OCR Software Works". OCRWizard. Archived from the original on August 16, 2009. Retrieved June 16, 2013.
- ^ "The basic pattern recognition and classification with openCV Damiles". Blog.damiles.com. November 14, 2008. Retrieved June 16, 2013.
- ^ Assefi, Mehdi (December 2016). "OCR as a Service: An Experimental Evaluation of Google Docs OCR, Tesseract, ABBYY FineReader, and Transym". ResearchGate.
- ^ "How the Best OCR Technology Captures 99.91% of Data". www.bisok.com. Retrieved May 27, 2021.
- ^ a b c "How does OCR document scanning work?". Explain that Stuff. January 30, 2012. Retrieved June 16, 2013.
- ^ "How to optimize results from the OCR API when extracting text from an image? - Haven OnDemand Developer Community". Archived from the original on March 22, 2016.
- ^ Fehr, Tiff, 코헨 문서를 10분 이내에 900페이지나 빠르게 읽는 방법, Times Insider, New York Times, 2019년 3월 26일
- ^ "Train Your Tesseract". Train Your Tesseract. September 20, 2018. Retrieved September 20, 2018.
- ^ "What is the point of an online interactive OCR text editor? - Fenno-Ugrica". February 21, 2014.
- ^ Riedl, C.; Zanibbi, R.; Hearst, M. A.; Zhu, S.; Menietti, M.; Crusan, J.; Metelsky, I.; Lakhani, K. (February 20, 2016). "Detecting Figures and Part Labels in Patents: Competition-Based Development of Image Processing Algorithms". International Journal on Document Analysis and Recognition. 19 (2): 155. arXiv:1410.6751. doi:10.1007/s10032-016-0260-8. S2CID 11873638.
- ^ "Code and Data to evaluate OCR accuracy, originally from UNLV/ISRI". Google Code Archive.
- ^ Holley, Rose (April 2009). "How Good Can It Get? Analysing and Improving OCR Accuracy in Large Scale Historic Newspaper Digitisation Programs". D-Lib Magazine. Retrieved January 5, 2014.
- ^ Suen, C.Y.; Plamondon, R.; Tappert, A.; Thomassen, A.; Ward, J.R.; Yamamoto, K. (May 29, 1987). Future Challenges in Handwriting and Computer Applications. 3rd International Symposium on Handwriting and Computer Applications, Montreal, May 29, 1987. Retrieved October 3, 2008.
- ^ Ayda Mohseni, Reza Azmi, Arvin Maleki, Kamran Layeghi (2019). Comparison of Synthesized and Natural Datasets in Neural Network Based Handwriting Solutions. ITCT.
{{cite book}}
: CS1 maint: 여러 이름: 작성자 목록(링크) - ^ Sarantos Kapidakis, Cezary Mazurek, Marcin Werla (2015). Research and Advanced Technology for Digital Libraries. Springer. p. 257. ISBN 9783319245928. Retrieved April 3, 2018.
{{cite book}}
: CS1 maint: 여러 이름: 작성자 목록(링크) - ^ Atkinson, Kristine H. (2015). "Reinventing nonpatent literature for pharmaceutical patenting". Pharmaceutical Patent Analyst. 4 (5): 371–375. doi:10.4155/ppa.15.21. PMID 26389649.
- ^ http://www.hoopoes.com/jargon/entry/scanno.shtml 데드링크
외부 링크
- Unicode OCR – 16진수 범위: 2440~245F의 Unicode 광학 문자 인식
- 필기 문자 인식 및 펜 컴퓨팅에 대한 참고 문헌 주석 목록