트루캐싱
TruecasingTruecasing은 자연어 처리(NLP)에서 이러한 정보를 사용할 수 없는 단어의 적절한 대문자를 결정하는 문제입니다.이것은 보통 문장의 첫 단어를 자동으로 대문자로 표기하는 표준 관행(영어와 다른 많은 언어) 때문에 발생한다.또한 대문자와 소문자가 구분되지 않은 텍스트(예: 모두 소문자 또는 모두 대문자로 된 텍스트)에서도 발생할 수 있습니다.
스크립트에 대소문자가 구분되지 않는 언어에서는 TrueCaseing이 필요하지 않습니다.여기에는 일본어, 중국어, 태국어, 히브리어, 아랍어, 힌디어, 그루지야어 등 라틴어, 그리스어, 키릴어 또는 아르메니아어 알파벳으로 작성되지 않은 모든 언어가 포함됩니다.
기술
- 문장 분할은 문장이 어디서 시작되는지 판단하기 위해 사용될 수 있으며, 모든 문장의 첫 단어는 대문자로 표시되어야 한다는 규칙을 구현하기 위해 사용될 수 있다.
- 언어 부분 태그는 고유 명사(아프리카, 주피터, 사라 또는 Amazon 등)를 식별하기 위해 사용할 수 있으며, 대문자여야 합니다.경우에 따라서는 같은 단어가 다른 부분으로 사용될 수 있으며 대문자로 구분됩니다.예를 들어, 회사는 명사로서 대문자이지만 문서를 동사로서 대문자화하지 않는다.제록스는 문서의 복사본과 마찬가지로 고유명사에는 사용되지 않는 결정자의 존재로 인식될 수 있다.
- 명명된 개체 인식은 고유 명사를 식별하기 위해 사용할 수 있으며, 대문자여야 한다.
- 맞춤법 검사기를 사용하여 항상 대문자로 표시된 단어를 식별할 수 있습니다.
적용들
Truecasing은 이름 있는 엔티티 인식, 자동 콘텐츠 추출, 머신 번역 [1]등 기타 NLP 태스크에 도움이 됩니다.적절한 대문자를 사용하면 NER 및 ACE의 시작점인 고유 명사를 쉽게 검출할 수 있습니다.일부 번역 시스템은 통계 기계 학습 기술을 사용합니다.이 기술은 대문자에 포함된 정보를 사용하여 정확도를 높일 수 있습니다.
「 」를 참조해 주세요.
레퍼런스
- ^ Lita, L. V.; Ittycheriah, A.; Roukos, S.; Kambhatla, N. (2003). "tRuEcasIng". Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics. Sapporo, Japan. pp. 152–159.