텍스트 인코딩 이니셔티브

Text Encoding Initiative
Text Encoding InitiativeTEI Logo.svg

TEI(Text Encoding Initiative, TEI)는 1980년대부터 지속적으로 운영되는 디지털 인문학학문 분야에서의 텍스트 중심 실천 공동체다.이 커뮤니티는 현재 메일링 리스트, 회의, 회의 시리즈를 운영하고 있으며, TEI 기술 표준, 저널, 위키, 기트허브 저장소, 툴체인 등을 유지하고 있다.

TEI 지침

TEI 지침XML 형식의 유형을 집합적으로 정의하며, 실천 공동체의 정의 산출물이다.형식은 주로 현재적이라기 보다는 의미론적이라는 점에서 텍스트에 대해 잘 알려진 다른 개방형 형식(HTML, OpenDocument 등)과는 다르다. 모든 태그와 속성의 의미론 및 해석이 지정된다.500여 개의 서로 다른 텍스트 구성 요소와 개념이 있다. 단어,[1] 단어,[2] 문자,[3] 문자, 문자,[4] 사람 [5]등); 각각 하나 이상의 학문적 학문에 기초하며 예를 제시한다.

기술적 세부사항

이 표준은 두 부분으로 나뉜다. 확장된 예제와 토론 및 태그별 정의 집합이 있는 분산적 텍스트 설명이다.대부분의 최신 형식(DTD, REACE NG, W3C Schema)의 스키마는 태그별 정의에서 자동으로 생성된다.가이드라인의 제작과 특정 프로젝트에 대한 가이드라인의 적용을 지원하는 툴이 많다.

기본 유니코드에 의해 부과된 제한을 회피하기 위해 많은 특수 태그가 사용된다; 유니코드 포함에[1] 적합하지 않은 문자의 표현과 요구되는 엄격한 선형성을 극복하기 위한 선택을 허용하는 글리프.[6]

형식의 대부분의 사용자는 태그의 전체 범위를 사용하지 않고 가이드라인에 의해 정의된 태그 및 속성의 프로젝트별 하위 집합을 사용하여 사용자 정의 기능을 생성한다.TEI는 이러한 목적을 위해 ODD라고 알려진 정교한 사용자 정의 메커니즘을 정의한다.각 TEI 태그를 문서화하고 기술하는 것 외에도, OD 규격은 그것의 컨텐츠 모델과 다른 사용 제약조건을 명시하며, 도식을 사용하여 표현할 수 있다.

TEI Lite는 이러한 맞춤화의 한 예다.텍스트 교환을 위한 XML 기반 파일 형식을 정의한다.본 문서는 전체 TEI 가이드라인에서 이용할 수 있는 광범위한 요소 집합에서 관리 가능한 선택사항이다.

XML 기반 형식으로서 TEI는 겹치는 마크업과 비계층 구조를 직접 다룰 수 없다.이러한 종류의 데이터를 나타내는 다양한 옵션이 가이드라인에 의해 제안된다.[7]

TEI 지침의 본문에는 예가 풍부하다.TEI 위키에는 또한 샘플 페이지가 있는데,[8] TEI의 기초가 되는 TEI를 노출시키는 실제 프로젝트의 예를 제공한다.

산문 태그

TEI는 텍스트가 어떤 수준의 세분화 또는 세분화 혼합으로 구문적으로 표시되도록 허용한다.예를 들어, 이 단락 (p)은 문장과 절 (cl)로 표시되었다.[9]

<>s>,<>cl>.9월, 1664년의 시작 부분,<>cl&gt에 대해, 나는, 내 이웃 중에, 평범한 담론에 들어 본;cl>, 역병 다시 네덜란드로 돌아왔습니다,<>/cl>,<>/cl>,<>/cl>,<>cl>, 이것은 매우, 암스테르담과 로테르담에, 올해 1663년에는 나라에서 폭력적인 생활을 했으며,<>/다.cl>,<>cl>, whither,<>cl>, 그들은 말한다,어떤 이들은 터키 함대가 본국으로 가지고 온 상품들 중 이탈리아에서 온 상품들, 레반트에서 온 상품들, 다른 사람들은 칸디아에서 가져온 것이라고 했고, 다른 사람들은 키프로스에서 가져온 것이라고 말했다.</cl> </s>는 그것이 언제 오느냐가 중요한 것이 아니라, </cl> </cl>은 모두 동의한 <cl>은 다시 네덜란드로 들어왔다.</cl> </cl> </s>

TEI는 시를 표시하는 태그를 가지고 있다.이 예시(TEI 가이드라인의 프랑스어 번역에서 발췌)는 소네트 하나를 보여준다.[10]

<div type="sonnet"> <lg type="quatrain"> <l>Les amoureux fervents et les savants austères</l> <l> Aiment également, dans leur mûre saison,</l> <l> Les chats puissants et doux, orgueil de la maison,</l> <l> Qui comme eux sont frileux et comme eux sédentaires.</l> </lg> <lg type="quatrain"> <l>Amis de la science et de la volupté</l> <l> Ils cherchent le silence et l'horreur des ténèbres ;</l> <l> L'Érèbe les eût pris pour ses coursiers funèbres,</l> <l> S'ils pouvaient au servage incliner leur fierté.<>/l>,<>/lg>,<>lg type="3행 연구">,<>l&gt을 말한다.llsprennent 앙songeant도 귀족들;/l>,<>l>, 사막 grands solitudes,<, /l>,<>l> allongésau 좋아하des sphinx, attitudes<.시민semblent s'endormirdansrêve 없이 지느러미,<>/l>,<>/lg>,<>lg type="3행 연구">,<>l&gt을 말한다.Leurs reins féconds, 다 데 d'or,ainsiqu'un 초피 fin,<, /l>,<>l> parcelles,Étoilent va. d'étincelles magiques,< pleins, /l>,<>l> sont귀신이 출몰하다</l> </lg> </div>

선택 태그

선택 태그는 두 가지 이상의 가능한 방법으로 인코딩되거나 태그될 수 있는 텍스트의 섹션을 나타내기 위해 사용된다.다음의 예에서, 표준의 하나를 기초로 하여, 선택은 두 번, 한 번은 원본과 수정된 숫자를 나타내기 위해, 한 번은 원본과 정규화된 철자를 나타내기 위해 사용된다.[11]

<>안 xml:id="p23">, 마지막으로, 그, 그의 엄숙한 맹세에 대한 모든 위의 기사를 관찰하기 위해, man-mountain하고, choice&gt의 지원에 대한 충분한 마시고,<>sic>, 1724<, /sic>,<>corr>, 1728<, /corr>,<>/choice>, 우리의 과목, 우리의 왕실 사람에 자유롭게 접속, 그리고 다른 자국과 함께 고기 하루 허용량이 있어야 한다.우리의<>;choice>,<>orig>, favour<, /orig>,<>reg&gt을 말한다.호의[선호] 

OD

모두 하는 하나의 문서("OD")는 XML 스키마에 대한 문맹 프로그래밍 언어다.[12][13][14][15]

문학 프로그래밍 방식으로 OD 문서는 텍스트 인코딩 이니셔티브의 문서 요소 모듈을 사용하여 사람이 판독할 수 있는 문서와 기계 판독이 가능한 모델을 결합한다.도구는 로컬화되고 국제화HTML, ePub 또는 PDF 사람이 읽을 수 있는 출력물 및 DTD, W3C XML 스키마, Relax NG Compact Syntax 또는 Relax NG XML 구문 기계 판독 가능 출력을 생성한다.

Roma 웹 애플리케이션은[16] ODD 포맷을 기반으로 구축되며, 이를 사용하여 많은 XML 유효성 검사 도구 및 서비스에 사용되는 DTD, W3C XML 스키마, Relax NG Compact Syntax 또는 Relax NG XML 구문 형식의 스키마를 생성할 수 있다.

ODD는 TEI 기술표준을 위해 Text Encoding Initiative에서 내부적으로 사용하는 형식이다.[17]일반적으로 OD 파일은 사용자 정의된 XML 형식과 전체 TEI 모델의 차이를 설명하지만, OD는 TEI와 완전히 분리된 XML 형식을 설명하는 데도 사용될 수 있다.이것의 한 예는 W3C의 국제화 태그 세트로, OD 형식을 사용하여 스키마를 생성하고 어휘를 문서화한다.[18][19]

TEI 사용자 지정

TEI 커스터마이징은 특정 분야 또는 특정 커뮤니티에서 사용하기 위한 TEI XML 규격의 전문화다.

  • EpiDoc(Epigraphic Documents)
  • Charters 인코딩 이니셔티브[20]
  • 중세 북유럽 문서 보관소(메노타)[21]

TEI에서 사용자 정의는 위에서 언급한 ODD 메커니즘을 통해 이루어진다.사실 P5 버전 이후 TEI 가이드라인의 소위 'TEI 컨포넌트' 사용은 TEI ODD 파일에 문서화된 TEI 커스터마이징에 기초한다.사용자가 검증할 기성품 스키마 중 하나를 선택할 때에도, 이러한 스키마는 자유롭게 사용할 수 있는 사용자 정의 파일에서 만들어진다.

프로젝트

이 형식은 전세계 많은 프로젝트에서 사용되고 있다.사실상 모든 프로젝트는 하나 이상의 대학과 연계되어 있다.TEI를 사용하여 텍스트를 인코딩하는 잘 알려진 프로젝트에는 다음이 포함된다.

TEI 프로젝트
프로젝트 URL
브리티시 내셔널 코퍼스 http://www.natcorp.ox.ac.uk 현재 영어의 1억 단어의 스냅숏
옥스퍼드 텍스트 아카이브 https://ota.bodleian.ox.ac.uk/repository/xmlui/ >25개 언어로 된 1GB의 언어 데이터 및 전자 텍스트
페르세우스 프로젝트 https://www.perseus.tufts.edu/ 그리스어라틴어 텍스트
에피닥 https://sourceforge.net/p/epidoc/wiki/Home/ 경구교황학
여성작가 프로젝트 https://wwp.northeastern.edu/ 초기 현대 여성 작가(마가렛 카벤디시, 엘리자 헤이우드 등)
뉴질랜드 전자 텍스트 센터 http://www.nzetc.org/ 뉴질랜드태평양 제도 문자
SEAD 프로젝트 https://www.crosswire.org/sword/ 성경 소프트웨어, 사전, 기독교 문학
프리딕트 https://freedict.org/ 이중언어사전
텍스트 생성 파트너십 https://textcreationpartnership.org/ 초기 영미 도서
CELT https://celt.ucc.ie/publishd.html 고대 및 중세 아일랜드 원고
이스텍스 https://www.istex.fr/ 과학 간행물 보관소
CAB https://cab.geschkult.fu-berlin.de/ 아베스타어 조로아스트리아 의례판

역사

TEI가 만들어지기 전에는 인문학자들도 자신의 학문적 목표에 부합하는 방식으로 전자문서를 인코딩하는 공통적인 표준이 없었다(Hockey 1993, 페이지 41).1987년에 바사르 대학에서 인문, 언어학, 컴퓨터 분야의 학자들을 대표하는 학자들이 "거친 유지 원칙"이라고 알려진 일련의 지침을 내놓기 위해 소집되었다.이 지침은 첫 번째 TEI 표준인 "P1"[22][23]의 개발을 지시하였다.

  • 1987년 – 컴퓨터와 인문학을 위한 협회,[24] 컴퓨터 언어학 협회문학 언어 컴퓨팅 협회가 시작한 TEI가 될 것에 대한 작업.[25]이것은 바사르 계획 회의의 폐막 성명에서 절정을 이루었다.[26]
  • 1994 – TEI P3 출시,[27] 버나드(옥스퍼드 대학)와 마이클 스퍼버그-맥퀸(당시 시카고 일리노이 대학, 이후 W3C)이 공동 집필했다.
  • 1999 – TEI P3 업데이트.
  • 2002 – TEI P4 출시, SGML에서 XML로 이동; XML 파서가 지원해야 하는 유니코드 채택.[28]
  • 2007 – TEI P5 출시(각종과의 통합 포함)xml:lang그리고xml:idW3C의[29] 속성(이전에는 TEI 네임스페이스의 속성이었다), 해시를 사용하기 위한 로컬 포인팅 속성의 정규화(HTML에서 사용되는 경우) 및 ptr 및 xptr 태그의 통일.이러한 변화들과 더 많은 새로운 추가 사항들을 함께 하면 P5는 더 규칙적으로 만들어지고 W3C에 의해 촉진되고 다른 XML 변종들에 의해 사용되는 현재의 xml 관행에 더 가까워진다.TEI P5의 유지보수 및 기능 업데이트 버전은 2007년 이후 매년 최소 2회 이상 출시되고 있다.
  • 2011년 – 유전자[30] 편집 지원으로 출시된 TEI P5 v2.0.1(다른 많은 추가 사항 중, 유전자 편집 기능은 특정 의미론에 대한 해석 없이 텍스트 인코딩을 허용함)
  • 2017 – TEI는 디지털 인문 단체 연합으로부터 안토니오 잠폴리 상을 받았다.[31]

참조

  1. ^ a b "TEI element w (word)". tei-c.org.
  2. ^ "TEI element s (s-unit)". tei-c.org.
  3. ^ "TEI element c (character)". tei-c.org.
  4. ^ "TEI element g (character or glyph)". tei-c.org.
  5. ^ "TEI element person (person)". tei-c.org.
  6. ^ "Element choice". www.tei-c.org.
  7. ^ "20 Non-hierarchical Structures - TEI P5: — Guidelines for Electronic Text Encoding and Interchange". tei-c.org. 2019. Retrieved 19 March 2019.
  8. ^ "Samples of TEI texts". wiki.tei-c.org. 2011. Retrieved 17 April 2012.
  9. ^ "17 Simple Analytic Mechanisms - TEI P5: — Guidelines for Electronic Text Encoding and Interchange". tei-c.org. 2012. Retrieved 15 April 2012.
  10. ^ "TEI element lg (groupe de vers)". tei-c.org. 2012. Retrieved 15 April 2012.
  11. ^ "TEI element choice". tei-c.org. 2012. Retrieved 15 April 2012.
  12. ^ Bauman, Syd; Flanders, Julia (2004), "ODD customizations", Extreme Markup Languages 2004.
  13. ^ Burnard, Lou; Rahtz, Sebastian (2004), "RelaxNG with Son of ODD", Extreme Markup Languages 2004.
  14. ^ Reiss, Kevin M. (2007), Literate Documentation for XML (PDF), Urbana-Champaign, Illinois: Digital Humanities 2007.
  15. ^ Burnard, Lou; Rahtz, Sebastian (June 2013). "A complete schema definition language for the Text Encoding Initiative". XML London 2013: 152–161. doi:10.14337/XMLLondon13.Rahtz01. ISBN 978-0-9926471-0-0.
  16. ^ 로마 웹 애플리케이션
  17. ^ Burnard, Lou; Bauman, Syd, eds. (2007), TEI P5: Guidelines for Electronic Text Encoding and Interchange, Charlottesville, Virginia, USA: TEI Consortium.
  18. ^ W3C ITSTEI OD 파일
  19. ^ Savourel, Yves; Kosek, Jirka; Ishida, Richard, eds. (2008), "5.2 ITS and TEI", Best Practices for XML Internationalization, W3C Working Group.
  20. ^ "Charters Encoding Initiative - Ludwig-Maximilians-Universität München". www.cei.lmu.de.
  21. ^ "Medieval Nordic Text Archive (Menota)". www.menota.org.
  22. ^ Ahronheim, J.R. (1998). "Descriptive metadata: Emerging standards". Journal of Academic Librarianship. 24 (5): 395–403. doi:10.1016/S0099-1333(98)90079-9.
  23. ^ Cantara, L. (2005). "The text-encoding initiative: Part 1". OCLC Systems & Services. 21 (1): 36–39. doi:10.1108/10650750510578136.
  24. ^ "The Association for Computers and the Humanities ". ach.org.
  25. ^ "역사적 배경", TEI P5의 섹션 iv.2: 전자 텍스트 인코딩 및 교환에 대한 지침.
  26. ^ "Closing statement of the Vassar Planning Conference". tei-c.org. 2009. Retrieved 15 April 2012.
  27. ^ "TEI Guidelines". Retrieved 2010-06-18.
  28. ^ "2", XML Basics, retrieved 2011-07-09
  29. ^ "Extensible Markup Language (XML) 1.0 (Fifth Edition)". w3.org.
  30. ^ "P5 version 2.0.1 release notes". tei-c.org. 2012. Retrieved 15 April 2012.
  31. ^ "TEI: Text Encoding Initiative".

외부 링크