외마디

EXCLAIM

EXTensible Cross-Linguistic Automatic Information Machine(EXCLAIM)은 2006년 초 산타 크루즈 캘리포니아 대학교에서 만들어진 교차 언어 정보 검색(CLIR)을 위한 통합 도구로, 12개 이상의 언어를 일부 지원했다.주요 개발자는 저스틴 누거와 제시 사바 키르치너였다.

CLIR에 대한 초기 작업은 각 언어 쌍에 대해 수동으로 구성된 병렬 회사에 의존했다.이 방법은 자동으로 만들어지는 병행기업에 비해 노동집약적이다.CLIR 시스템을 교육하기 위한 보다 효율적인 데이터 검색 방법은 다른 언어로 작성된 에서 일치하는 페이지를 사용하는 것이다.[1]

EXCLAIM은 다양한 영역에서 이러한 기업의 정렬을 자동화함으로써 웹 에 잠재되어 있는 병렬 기업의 아이디어를 활용한다.그중 가장 중요한 것은 250개 국어로 된 기사를 포함하는 위키백과 그 자체다.EXCLAIM의 역할은 의미론언어 분석 도구를 사용하여 이들 위키피디아에 있는 정보를 정렬하여 평행기업으로 취급할 수 있도록 하는 것이다.EXCLAIM은 또한 중국 지역사회 보건 자원 센터(CCHRC)와 같은 많은 다른 출처의 정보를 통합할 수 있도록 확장 가능하다.

EXCLAIM 프로젝트의 주요 목표 중 하나는 종종 강력하거나 번창하는 다수 언어에서만 사용할 수 있는 소수 언어멸종 위기에 처한 언어를 위한 일종의 계산 도구와 CLIR 도구를 제공하는 것이다.

현재 상태

2009년에 EXCLAIM은 다양한 언어의 기능성을 가진 베타 상태에 있었다.전체 UTF-8 지원 및 영어 구성요소에 대한 Porter를 포함하여 위키백과 데이터 집합과 최신 버전의 EXCLAIM(v.0.5)을 사용한 CLIR 지원은 다음 23개 언어에 대해 제공되었다.

알바니아어
암하릭
벵골어
고딕어
그리스어
아이슬란드어
인도네시아어
아일랜드어
자바어
라트비아어
말라가시
만다린 중국어
나후아틀
나바호
케추아
사르디니아어
스와힐리
타갈로그어
티베트어
터키어
웨일스어
월로프
이디시어

위키백과 데이터 세트 및 이전 버전의 EXCLAIM(v.0.3)을 사용한 지원은 다음 언어에 대해 제공된다.

네덜란드어
스페인어

가장 최근 버전의 EXCLAIM의 중요한 발전은 만다린 중국인에 대한 지원을 포함한다.EXCLAIM은 이 언어에 대한 지원을 개발함으로써 분할인코딩 문제에 대한 해결책을 추가하였고, 이 솔루션을 통해 시스템이 비유럽어 맞춤법 규약으로 작성된 다른 많은 언어로 확장될 수 있게 되었다.이 지원은 TARMS(Triming And Formatting Modular System) 툴킷을 통해 제공된다.

향후 버전의 EXCLAIM은 시스템을 추가 언어로 확장시킬 것이다.다른 목표에는 위키백과 데이터 집합 외에 이용 가능한 잠재 데이터 집합의 통합이 포함된다.

EXCLAIM 개발 계획은 EXCLAIM 1.0이 출시되었을 때 지원되는 언어의 정보를 영어로 검색하거나 지원되는 언어에서 영어로 정보를 검색할 수 있는 통합 CLIR 기기가 필요하다.향후 버전에서는 지원되는 모든 언어에서 다른 언어로 검색하고 여러 언어로 검색하는 것을 허용한다.

추가 애플리케이션

EXCLAIM은 여러 프로젝트에 통합되어 있으며, 이들의 지원의 일환으로 교차 언어 쿼리 확장에 의존하고 있다.그러한 프로젝트 중 하나는 ACL 2009에서 제시된 작업에 자세히 설명된 교차 언어 가독성 소프트웨어 생성 프레임워크다.[2]

참고 및 참조

  1. ^ "Cross-Language Information Retrieval based on Parallel Texts and Automatic Mining of Parallel Texts in the Web" (PDF). ACM-SIGIR 1999. Retrieved 2006-12-02.
  2. ^ "A crosslinguistic readability framework" (PDF). ACL-IJNLP 2009. Retrieved 2009-09-04.

외부 링크