전자 텍스트
E-text![]() | 이 글에는 여러 가지 문제가 있다. 이 문제를 개선하거나 대화 페이지에서 토의하십시오. (이러한 템플릿 메시지를 제거하는 방법 및 시기 알아보기)
|
전자 텍스트("전자 텍스트"로부터, 때로는 전자 텍스트로 쓰여짐)는 디지털 형태로 읽히는 모든 문서, 특히 텍스트가 주를 이루는 문서에 대한 일반적인 용어다. 예를 들어, 최소한의 텍스트를 가진 컴퓨터 기반의 미술책이나 페이지의 사진이나 스캔들은 보통 "전자 텍스트"라고 불리지 않을 것이다. 전자 텍스트는 공개 소스 또는 독점 소프트웨어로 보는 이진 또는 일반 텍스트 파일일 수 있다. 전자 텍스트에는 마크업 또는 기타 형식 정보가 있을 수 있으며, 그렇지 않을 수도 있다. 전자 텍스트는 원래 다른 매체에서 구성되거나 출판된 작품의 전자판일 수도 있고, 원래 전자 형식으로 만들어질 수도 있다. 이 용어는 보통 전자책과 동의어다.
E-텍스트 기원
전자 텍스트 또는 전자 문서는 인터넷, 웹 및 전문 전자책 읽기 하드웨어 이전부터 존재해왔다. 로베르토 부사는 1940년대부터 아퀴나스의 전자판을 개발하기 시작했으며, 1960년대에는 어그먼트, FRESS 등의 대규모 전자문자 편집, 하이퍼텍스트, 온라인 독서 플랫폼이 등장하였다. 이러한 초기 시스템은 텍스트뿐 아니라 그래픽도 지원하는 일부 사례(예: FRESS)뿐만 아니라 텍스트의 형식, 마크업, 자동 목차, 하이퍼링크 및 기타 정보를 광범위하게 사용했다.[1]
"단순 텍스트"
![]() |
일부 커뮤니티에서는 "e-text"가 훨씬 더 좁게 사용되는데, 말하자면 "플레인 바닐라 ASCII"인 전자 문서를 지칭하는 것이다. 이것은 문서가 일반 텍스트 파일일 뿐만 아니라 "텍스트 그 자체"를 넘어 볼드체나 이탤릭체, 단락, 페이지, 장 또는 각주 경계 등을 나타내지 않는다는 것을 의미한다. 마이클 S. 예를 들어,[2] Hart는 이것이 "눈과 컴퓨터 모두에 쉬운 유일한 텍스트 모드"라고 주장했다. Hart는 독점적인 워드프로세서 형식이 텍스트에 접근할 수 없게 만들었지만, 그것은 표준의 공개 데이터 형식과는 무관하다는 올바른[according to whom?] 주장을 했다. "단지 바닐라 ASCII"(조견해 보면 매력적)라는 개념이 심각한 어려움을 겪고 있는 것으로 밝혀졌기 때문에 "e-text"의 좁은 감각은 이제 흔치 않다.
첫째, 이 좁은 형태의 "e-text"는 영어 문자로 제한된다. 많은 유럽 언어에서 사용되는 스페인어 뇨나 억양 모음도 표현될 수 없다("~n" "a"로 어색하고 모호하지 않는 한). 아시아어, 슬라브어, 그리스어, 그리고 다른 문자 체계는 불가능하다.
둘째, 도표와 그림은 수용할 수 없으며, 많은 책들이 적어도 그러한 자료를 가지고 있다; 종종 그것은 책에 필수적이다.
셋째, 이런 좁은 의미의 "e-텍스트"는 작품에서 일어나는 다른 일들과 "텍스트"를 구별할 수 있는 믿을 만한 방법이 없다. 예를 들어, 페이지 번호, 페이지 머리글 및 각주가 생략되거나 단순히 텍스트의 추가 행으로 표시될 수 있으며, 전후에 빈 줄이 있을 수도 있다(또는 그렇지 않을 수도 있음). 화려한 구분선은 별표(또는 별표)의 선으로 대신 나타낼 수 있다. 마찬가지로 장과 섹션 제목도 텍스트의 추가 줄에 불과하다. 모두 원본의 대문자(또는 그렇지 않은 경우)일 경우 대문자로 탐지할 수 있다. 어떤 규약이 사용되었는지(있는 경우) 알아내기 위해서라도 각 책을 새로운 연구나 역공학 프로젝트로 만든다.
그 결과, 그러한 텍스트는 신뢰성 있게 다시 포맷될 수 없다. 프로그램은 각주, 머리글 또는 바닥글이 어디에 있는지 또는 심지어 단락까지 신뢰성 있게 구분할 수 없으므로, 예를 들어 좁은 화면에 맞게 텍스트를 다시 정렬하거나 시각 장애인을 위해 소리내어 읽을 수 없다. 프로그램은 구조물을 추측하기 위해 휴리스틱스를 적용할 수 있지만, 이것은 쉽게 실패할 수 있다.
넷째, 그리고 어쩌면 놀랄[according to whom?] 만큼 중요한 이슈인 "일반 텍스트" 전자 텍스트는 작업에 대한 정보를 나타낼 수 있는 방법을 제공하지 않는다. 예를 들면 제1판인가 제10판인가. 누가 준비했고, 그들은 다른 사람들에게 어떤 권리를 부여하고 있는가? 이것이 스캐너에서 바로 꺼낸 원시 버전인가, 아니면 교정하고 수정한 것인가? 텍스트와 관련된 메타데이터는 때때로 전자 텍스트와 함께 포함되지만, 이 정의에 의해 사전 설정 여부나 장소를 말할 수 있는 방법이 없다. 기껏해야 제목 페이지의 텍스트는 들여쓰기로 모방한 중심축과 함께 포함되거나 포함되지 않을 수 있다.
다섯째, 더 복잡한 정보가 있는 텍스트는 실제로 전혀 취급할 수 없다. 2개 국어로 된 판, 각주, 해설, 중요 기구, 상호 참조 또는 가장 간단한 표까지 포함된 비평 판. 이는 끝없는 현실적인 문제로 이어진다. 예를 들어 컴퓨터가 각주를 신뢰성 있게 구별하지 못하면 각주가 방해하는 구절을 찾을 수 없다.
원시 스캐너 OCR 출력도 보통 이것보다 굵은 글씨나 기울임꼴로 사용하는 정보가 더 많이 나온다. 만약 이 정보를 보관하지 않는다면, 그것을 재구성하는 것은 비용이 많이 들고 시간이 많이 소요된다; 당신이 가지고 있는 판과 같은 더 정교한 정보는 전혀 복구되지 않을 수도 있다.
실제의 경우, 심지어 "일반적으로 "일반적으로" "문자, 공백, 탭 등 "표시"를 사용한다. 단어 사이의 공백, 두 개의 반환 및 5개의 단락을 위한 공백. 보다 공식적인 마크업과의 주요 차이점은 "일반적으로 문서화되지 않은 묵시적인 규약을 "일반적으로 평문"이 사용한다는 것인데, 이는 따라서 일관성이 없고 인식하기도 어렵다.[3]
"플레인 바닐라 ASCII"라는 좁은 e-텍스트의 감각은 호의에서 벗어났다.[according to whom?] 그럼에도 불구하고, 그러한 많은 텍스트들은 웹 상에서 자유롭게 이용할 수 있는데, 아마도 그것들이 어떤 것으로 알려진 이식성 이점 때문에 쉽게 만들어지기 때문일 것이다. 수년 동안 프로젝트 구텐베르크는 이 텍스트 모델을 강력히 선호했지만, 시간이 지나면서 HTML과 같은 보다 유능한 형식을 개발하고 배포하기 시작했다.
참고 항목
참조
- ^ 전자책을 읽고 쓰는 것. 니콜 얀켈로비치, 노먼 메이로위츠, 안드리스 반 댐. IEEE 컴퓨터 18(10), 1985년 10월. http://dl.acm.org/citation.cfm?id=4407
- ^ 마이클 S. 하트
- ^ Coombs, James H.; Renear, Allen H.; DeRose, Steven J. (November 1987). "Markup systems and the future of scholarly text processing". Communications of the ACM. ACM. 30 (11): 933–947. doi:10.1145/32206.32209. S2CID 59941802.