텍스트 생성 파트너십

Text Creation Partnership

TCP(Text Creation Partnership, TCP)는 2000년 이후 미시간 대학의 도서관에 기반을 둔 비영리 단체다.그 목적은 회원 기관(특히 학술 도서관)과 학술 출판사를 대표하여, 양쪽 모두의 요구를 충족시키기 위해 계산된 약정에 따라, 대규모의 전문 전자 자원(특히 인문계)을 생산하고, 그렇게 함으로써 기업과 비전문가를 보는 비즈니스 모델의 가치를 증명하는 것이다.그것의 정보-각각 적대적인 판매업자와 고객보다는 잠재적으로 우호적인 협력자로 간주된다.[1]

프로젝트

TCP는 지금까지 네 개의 텍스트 생성 프로젝트를 후원해왔다.The first and the largest is "EEBO-TCP (Phase I)" (2001–2009), an effort to produce structurally marked-up full-text transcriptions of 25,000+ of the roughly 125,000 books to be found either in the Pollard and Redgrave and Wing short-title catalogues of early English printed books, or among the Thomason Tracts, that is, from among nearly all books, 팜플렛, 그리고 1700년 이전에 영국이나 영어로 출판된 넓은 책들.이 책들은 ProQuest Information and Learning이 제작한 디지털 스캔에서 선정되어 필사되었으며, 이 책들이 'Early English Books Online'(EEBO)이라는 이름으로 웹 기반 제품으로 배포하였다.에서 본문을 복사되었다 이 스캔은 마이크로 필름을 복사한 몇년간 ProQuest과 자기 기업이 만든를 제외하고, 최초의 대학 Microfilms, Inc.[2]EEBO-TCP 단계 나는 2009년 말에 결론을 내리고 즉시 EEBO-TCP 단계 2(2009–)으로 이사했다에 대해 25,300 제목 복사된 것을 포함하여 만들어졌다.,나머지 독특한 영자 전집(약 45,000개의 추가 제목)을 전부 개조한 속편 프로젝트

The third TCP project was Evans-TCP (2003–2007, with some ongoing work through 2010), an effort to transcribe 6,000 of the 36,000 pre-1800 titles listed in Charles Evans' American Bibliography, and distributed, again as page images scanned from microfilm copies, by Readex, a division of NewsBank, Inc. under the name "Archive of Americana" ("Early AMerican Impints, 시리즈 I: Evans, 1639–1800").에반스-TCP는 거의 5,000권의 책을 전자교과서로 제작했다.

최종 TCP 프로젝트는 ECCO-TCP(2005~2010년, 일부 작업이 진행 중)로, 톰슨-제일의 웹 기반 자원인 "온라인 18세기 컬렉션"(ECCO)에서 이용할 수 있는 13만6000권의 타이틀 중 10,000권의 18세기 책을 필사하기 위한 노력이었다.ECCO-TCP는 2010년 약 3,000개의 타이틀(및 약 2,400개의 편집)을 필사한 후 자금이 바닥났다.

프로젝트 공통성

4개의 TCP 텍스트 프로젝트는 모두 매우 유사하다.각 경우:

  1. TCP는 초기 책의 마이크로필름 복사본으로부터 차례로 만들어진 상업용 이미지 파일로부터 텍스트를 생산한다.
  2. 상업용 이미지 제공업체는 실제 이미지 제품에 대한 전체 텍스트 색인을 자체 제작에 드는 비용보다 훨씬 적은 비용으로 받는다. 즉 제품에 추가된 가치.
  3. 파트너 도서관은 단순히 허가만 하는 것이 아니라 실제로 그 결과물을 소유하고 있으며, 본문 자체를 그들이 좋아하는 시스템에 탑재할 수 있는 자유(일부 조건에 따름)이거나, 본문을 내부적으로 장학금 및 교습의 도구로 사용할 수 있다.
  4. 본문은 도서관이 정한 표준에 따라 작성되며, 여러 데이터 집합에 걸쳐 균일하며, 잠재적으로 교차 검색이 가능하다.
  5. 그것들은 협력적으로 만들어지기 때문에 상대적으로 (책당) 비용이 저렴하고 파트너십에 참여하는 각 도서관과 함께 더욱 그렇게 된다.
  6. 이 글들은 결국 일반 대중들이 자유롭게 접할 수 있도록 만들어질 것이다.
  7. 프로젝트마다 다르지만, 각각의 경우에서 변환할 텍스트의 선정은 다양성, 중요성, 대표 품질, 중복의 회피라는 유사한 원칙을 따르고, 회원 기관의 교수진이나 학술적 시책의 구체적인 요청도 일반적으로 존중된다.
  8. TCP는 지금까지 "제품"을 만드는 것이 아니라 텍스트 생성에 주로 관심을 가져왔다; 비록 세 프로젝트 모두의 텍스트가 미시간 대학교 도서관의 서버에 설치되거나 설치될 것이지만, 미시간 사이트는 공식적인 TCP 사이트가 아니다. 적절한 자원과 안전장치를 갖춘 파트너 라이브러리는 같은 일을 할 수 있다.예를 들어 EEBO-TCP 텍스트는 미시건, 프로퀘스트, 옥스퍼드 대학교 디지털 라이브러리, 시카고 대학교에서 제공된다.

조직

TCP는 주로 협력 기관의 선임 도서관 관리자, 기업 파트너 대표, 도서관 정보 자원 위원회(CLIR)에서 뽑은 이사회에 의해 감독된다.이사회는 초창기 현대 영어 및 미국학 분야의 교수진을 포함하는 학술 자문단의 선정 및 장학금 문제에 도움을 받는다.

TCP는 대학에 기반을 둔 다수의 학술적 텍스트 프로젝트와 비공식적으로 연계되어 있으며, 특히 그들에게 작업할 소스 텍스트를 제공하는 데 도움을 준다.대표적인 기관으로는 노스웨스턴 대학교(IL), 옥스퍼드 대학교(영국), 워싱턴 대학교(St.루이스(Louis), 시드니 대학교(호주), 토론토 대학교(ON), 빅토리아 대학교(BC) 등이 있다.TCP는 또한 매년 학부논술대회를 후원하고, 교육학에서 TCP 텍스트의 사용에 관한 태스크포스(TF)를 소집하며, 학자와 학생들에게 선택과 사용에 관한 아이디어를 호소하여 학생들과 협력해왔다.

텍스트 생산은 SGML/XML 인코딩 전자 텍스트 생산에 대한 폭넓은 경험을 가지고 미시간 대학의 DLPS(Digital Library Production Service)를 통해 관리된다.DLPS는 고 세바스티안 라츠를 포함한 옥스퍼드 대학의 보들리언 디지털 라이브러리 시스템 & 서비스(BDLS)의 지원을 받고 있다.라틴어 서적을 전문으로 하는 프랫 도서관(토론토 대학 빅토리아 대학교)의 개혁 르네상스 연구 센터와 웨일스 서적을 전문으로 하는 애버리스트위스의 국립 웨일스 도서관(Llyfrell Genedlaethol Cymru) 등 다른 두 도서관에서도 소규모 시간제 제작이 시작되었다.

표준

4개의 TCP 텍스트 프로젝트는 최소한 부분적으로 TCP 웹 사이트에 문서화되어 있는 동일한 방식과 동일한 표준으로 제작된다.[3]

  1. 정확성.TCP는 가능한 한 정확하게 번역된 텍스트를 제작하기 위해 노력하며, 지정된 전체 정확도는 99.995% 이상이다(즉, 2만자당 1오차 이하).
  2. 키잉. 자료의 성격을 감안할 때, 그러한 정확성을 경제적으로 전달할 수 있는 유일한 방법은 데이터 변환 회사들에 의해 계약되어 있는 책들을 키딩하는 것이었다.
  3. 품질 관리.기록의 정확성과 마크업의 적합성은 미시간 DLPS대학이 관리하는 도서관 기반의 교정자와 검토자 그룹에 의해 모든 경우에 평가된다.
  4. 인코딩.모든 결과 텍스트 파일은 TEI(텍스트 인코딩 이니셔티브) 표준의 P3/P4 버전에서 파생된 독점적인 "문서 유형 설명"(DTD)을 준수하는 유효한 SGML 또는 XML(SGML은 보관, XML은 내보내기)으로 표시된다.
  5. 의도적인 마크업.완전한 TEI에 비해 TCP DTD는 매우 간단하며, 지능적인 디스플레이, 지능형 내비게이션, 생산적인 검색에 가장 유용한 기능만을 포착하기 위한 것이다.TCP 관행은 실현 가능한 한 각 책의 전반적인 계층 구조(부품, 섹션, 장 등)를 포착하는 것이다.; 분할의 시작과 끝을 표시하는 경향이 있는 특징(표제, 탐색, 경례, 발레더링, 날짜 표시, 기준선, 비문 등); 담화 및 조직의 가장 중요한 요소(극, 노트, 블록 인용문, 모든 종류의 순차적 숫자의 산문, 대사, 연사 및 무대 방향의 산문, 대사, 연사, 무대 방향의 표시)와 물리적 포맷의 가장 필수적인 요소(페이지 구분, 목록, 표, 글꼴 변경)만 해당된다.
  6. 원작에 대한 충실함.각각의 경우에 본문은 가능한 한 원래 인쇄된 대로 책을 나타내기 위한 것이다.프린터의 오류는 보존되고, 손으로 쓴 변경은 무시되며, 중복 스캔은 생략되고, 순서 없는 이미지는 의도된 순서대로 키로 연결되며, 원본의 특이한 문자는 대부분 보존된다.
  7. 읽기 및 검색의 용이성.동시에, 모든 전사는 한 상징적 시스템에서 다른 상징적 시스템으로의 일종의 번역이라는 이론에 대해서, 문자별로 수행되지만, TCP는 형식보다는 문자의 의미에 대해 정의하고, 편심적인 문자 형태를 의미 있는 현대적 등가물에 매핑하는 경향이 있는데, 일반적으로는 ke에 있다."문자"의 유니코드 정의로 에핑.
  8. 언어.대부분의 TCP 텍스트는 영어로 되어 있지만, 많은 텍스트는 그렇지 않다.영어로 되어 있지 않은 책과 책의 구획에는 적절한 언어 코드가 태그되어 있지만, 달리 구분되지 않는다.
  9. 생략된 재료.TCP는 라틴 알파벳 문자를 생산한다.음악 표기법, 수학적 공식, 삽화(포함할 수 있는 텍스트는 제외)와 같은 비 텍스트 자료는 생략하고 그 위치에 특수 태그를 표시한다.비라틴 문자(그리스어, 히브리어, 페르시아어 등)의 확장 텍스트도 생략한다.

성과 및 전망

2011년 4월 현재, TCP는 많은 분야의 학생들에게 비교할 수 없는 범위, 규모, 효용성의 데이터베이스인 초기 책의 약 40,000개의 검색 가능하고, 탐색 가능한 전체 텍스트 기록물을 만들었다.(EEBO-TCP 2단계) 야심찬 최근의 계획에 포함된 나머지 3만 8천 개의 본문을 계속 제작할 수 있을지는 도서관이 소비자보다는 생산자와 표준제정자가 되기 위해 협력할 수 있고 협력해야 한다는 이론에서 비롯되며, 대학과 협회가 이를 위해 노력한다는 이론에서 비롯되는 본래의 비전의 타당성에 따라 달라질 것이다.ial 회사들은 그들의 매우 다른 라이프사이클, 제약조건 및 동기에도 불구하고 모든 당사자들에 대한 이익의 지속적인 파트너십에 참여할 수 있다.

2015년 1월 1일 현재 EEBO 단계 1의 전문은 크리에이티브 커먼즈 라이선스 하에 발매되었으며, 자유롭게 다운로드하여 배포할 수 있다.

2014년에는 2단계를 통해 이용할 수 있는 28,466개의 타이틀이 있었다.2015년 7월 현재 프로퀘스트는 EEBO-TCP Phase II 컬렉션 배포 독점권을 5년간 보유하고 있다.그 5년 후에 그 본문은 대중이 자유롭게 볼 수 있게 될 것이다.

참고 항목

참조

  1. ^ Blumenstyk, Goldie (August 10, 2001). "A Project Seeks to Digitize Thousands of Early English Texts". Chronicle of Higher Education: A47. Retrieved 2007-01-04.
  2. ^ Beamish, Rita (July 29, 1999). "Online Archive Will Preserve Earliest English Books". New York Times. Retrieved 2007-01-04.
  3. ^ "Production files". Text Creation Partnership. Retrieved 2020-03-12.

외부 링크