리백 동기 코퍼스
LIVAC Synchronous Corpus초기 릴리즈 | 1995년 7월 |
---|---|
운영 체제 | 크로스 플랫폼 |
다음에서 사용 가능 | 영어, 중국어 번체 및 중국어 간체 |
유형 | 코퍼스 |
웹사이트 | www |
리백은 1995년 이후 동적으로 유지된 흔치 않은 언어 말뭉치다. 기존 기업과는 달리 리백은 홍콩, 마카오, 타이베이, 싱가포르, 상하이, 베이징, 광저우, 선전 등 중국 대표 음성 커뮤니티에서 방대한 미디어 텍스트를 처리하고 필터링하는 '윈도우즈' 접근방식은 물론 엄격하고 규칙적인 방식을 채택했다.[1] 따라서 그 내용은 대부분의 경우 의도적으로 반복적이며, 사설, 국내 및 국제 뉴스, 포모산 해협 횡단 뉴스, 금융, 스포츠 및 오락 관련 뉴스에서 추출한 텍스트 샘플로 대표된다.[2] 2020년까지 지금까지 27억 자에 달하는 뉴스미디어 텍스트가 걸러졌고, 이 중 6억 8천만 자에 달하는 문자가 처리 및 분석되었으며, 범중국어 인쇄매체로부터 230만 단어의 범중국어 사전이 확대되었다. 리백은 연산 언어 방법론에 근거한 엄격한 분석을 통해 동시에 범중국 지역의 중국어 및 그 언어 공동체에 대한 정확하고 의미 있는 통계 자료를 다량 축적했으며, 그 결과는 상당히 중요한 편차를 보여준다.[3][4]
'윈도우즈' 접근방식은 LIVAC의 가장 대표적인 특징으로 위치, 시간, 주제 영역 등 다양한 속성에 따라 범중국 매체 텍스트를 정량적으로 분석할 수 있게 했다. 그러므로 정보기술에 있어서의 다양한 형태의 비교 연구와 응용은 물론 자주 관련되는 혁신 응용 프로그램의 개발이 가능해졌다.[5][6] 더욱이, LIVAC는 종적 개발을 고려하도록 하여, 지역, 지속시간, 내용 등의 변수에 기초하여 지난 20년간 언어 구조뿐만 아니라 대상 단어와 그 기본 개념에 대한 포괄적인 연구를 가능하게 했다. LIVAC에 포함된 광범위하고 축적된 데이터 분석의 결과는 적절한 이름, 장소 이름, 조직 이름, 새로운 단어, 그리고 미디어 피규어의 격주 및 연간 로스터의 텍스트 데이터베이스를 배양할 수 있게 했다. 관련 응용 프로그램 및 비교하는 중국 언론(LIVAC회 Pan-Chinese 연예인 Rosters, 나중에 그 Pan-Chinese MediaPersonalities Rosters로 이름을)[7][8][9]에 글로벌 주요 인사의 인기를 측정하기 위해 동사와 형용사의 데이터베이스 구축 심리 지수의 형성, 그리고 관련된 의견 채굴을 포함하고 있다.[10]찬부 양론으로월간 신어 사전(LIVAC Annual Pan-Chinese New Word Rosters) 구축.[11][12][13][14] 이를 바탕으로 신조어의 출현과 확산, 변혁에 대한 분석과 신어 사전의 출간이 가능해졌다.[15][16]
최근의 초점은 중국어의 단조어와 증가하는 삼조어 사이의 상대적 균형과 [17]세 개의 중국어 음성 공동체에서의 빛 동사의 비교 연구에 초점을 맞추고 있다.[18]
코퍼스 데이터 처리
- 미디어 텍스트 액세스, 수동 입력 등
- 단순화된 한자에서 전통적인 한자로의 변환을 포함한 텍스트 통일, 빅5 및 유니코드 버전으로 저장
- 자동 단어 분할
- 병렬 텍스트 자동 정렬
- 수동 확인, 음성 변환 태그 지정
- 단어 추출 및 지역 하위 기업 추가
- LIVAC 말뭉치를 업데이트하기 위한 지역 소기업과 마스터 어휘 데이터베이스의 조합
데이터 큐레이션에 대한 라벨링
- 사용되는 범주는 일반 용어와 고유 명칭을 포함한다. 예를 들어 일반 명칭, 성씨, 준 호칭, 지리적, 조직 및 상업적 실체 등, 시간, 전치사, 위치 등, 단어 쌓기, 외래어, 대소문자, 숫자 등.
- 적절한 이름, 장소 이름 및 특정 용어의 데이터베이스 구축
- 로스터 생성: "새로운 단어 로스터", "연예인 또는 미디어 개인 로스터", "플레이스 네임 로스터", 복합 단어 및 일치하는 단어
- 그 밖에 서브데이터베이스에 대한 음성태깅의 다른 부분, 예를 들어, 공통명사, 숫자분류기, 동사의 다른 유형, 형용사, 대명사, 부사, 전치사, 접속사, 입자표시 무드, 의성어, 간섭 등.
적용들
- 범중국어 사전 또는 로컬 사전의 컴파일
- 휴대전화용 예측 중국어 텍스트 입력, 자동 음성 텍스트 변환, 의견 마이닝 등 정보기술 연구
- 범중국 지역의 언어 및 문화발전에 관한 비교연구
- 언어 교육 및 학습 연구, 음성-텍스트 변환
- 국제 법인 및 정부 기관을 대상으로 언어 연구 및 어휘 검색에 대한 맞춤형 서비스
참고 항목
참조
- ^ Tsou, Benjamin, Lai, Tom, Chan, Samuel, 그리고 Wang, William S.Y. (1998). Quantitative and Computational Studies on the Chinese Language 《漢語計量與計算研究》. 시티 대학 출판부의 언어 정보 과학 연구 센터.
- ^ Tsou, B. K., Kwong, O.Y. (Eds. (2015). 중국어 문맥의 언어 코퍼스와 코퍼스 언어학(중국 언어학 단문 시리즈 번호 25), 홍콩: 중국 대학 출판부.
- ^ 츠우, 벤자민 (2004). C R 황과 W 대여자 언어 및 언어학 단문 시리즈 B: 언어학 I의 프런티어, 페이지 189–207에서 "21세기 여명의 중국어 처리". 언어학 연구소, 학계 시니카.
- ^ Tsou, B. K. (2017). 다른 중국 사투리를 통한 만다린어로 된 외래어. R. Sybesma, W. Behr, Y. Gu, Z.에서. 헨델, C.T. 황 & J. 마이어스 (Eds.), 중국어와 언어학의 백과사전 (Vol. 2, 페이지 641-647) 레이든; 보스턴: 브릴
- ^ 차우, 벤자민, 쿤, 올리비아 (2015). 언어학을 넘어선 추세를 추적하기 위한 감시 기관으로서의 LIVAC. Tsou, Benjamin, Kwong, Olivia, (eds)에서는 중국 문맥의 언어학 코퍼스와 코퍼스 언어학(Journal of Chinese Language Monography Series No.25)에서 언어학 코퍼스 언어학(Journal of China Languhician Monogical Monographanistics Series Series Series 홍콩: 중국 대학 출판부, 447-471페이지.
- ^ 츠우, 벤자민 (2016). 스킵랜티스 재방문: 신학 및 터미네이션과 함께. 진, 치온 앤디와 궈, 비트치, 츄, 벤자민 K, (에드스), 유엔렌 차오 교수를 위한 기념 에세이: 현대 중국어 언어학의 아버지. 대만: 크레인 출판 343-357페이지.
- ^ 시티U는 2015년 12월 28일 홍콩 시티대학에서 2015 리백 범중국 미디어 인성명단을 발표한다.
- ^ 시티U는 2017년 1월 02일 홍콩 시티대학에서 2016 리백 범중국 미디어 인성명단을 발매한다.
- ^ 시티U는 2019년 1월 07일 홍콩 시티대학에서 2019 리백 범중국 미디어 인성 로스터를 발매한다.
- ^ "Pan-Chinese top newsmakers of 2020". City University of Hong Kong. Retrieved 2021-01-18.
- ^ 시티U는 2015년 2월 12일 홍콩 시티대학에서 2014년 범중국어 뉴워드 로스터를 발매한다.
- ^ 시티U는 2016년 2월 04일 홍콩 시티대학의 2015 LIVAC 범중국어 뉴워드 로스터스를 발매한다.
- ^ 시티U는 2019년 1월 09일 홍콩 시티 대학교 리백 판차이나 뉴 워드 로스터를 발매한다.
- ^ "New Chinese Buzz words for 2020 released by LIVAC Pan-Chinese linguistic database". City University of Hong Kong. Retrieved 2021-01-18.
- ^ 鄒嘉彥、游汝杰(編)(2007),《21世紀華語新詞語詞典》(簡體字版),上海,復旦大學出版社。
- ^ 鄒嘉彥、游汝杰(編)(2010),《全球華語新詞語詞典》,北京,商務印書館。
- ^ 鄒嘉彥(2019),"泛華語地區多音節詞的近20年發展:從LIVAC大大據庫 ((최근 수십 년 동안 범중국어로 다음절어인 경우 개발: LIVAC 빅 데이터베이스 기반 조사"《,語歷詞詞語語法學(((((((((한문과 문법에 관한 국제사적조사회의)》.》,北京大學。
- ^ 츠우, 벤자민 K, 카파이입. 출연하다. 세 개의 중국어 음성 공동체에서 빛 동사에 대한 말뭉치에 기반한 비교 연구. 제34회 아시아 언어, 정보 및 계산 회의.