텍스트 분할
Text segmentation텍스트 분할은 쓰여진 텍스트를 단어, 문장 또는 주제와 같은 의미 있는 단위로 나누는 과정입니다.이 용어는 인간이 텍스트를 읽을 때 사용하는 정신 과정과 자연 언어 처리의 대상인 컴퓨터에 구현되는 인공 과정 모두에 적용됩니다.문제는 간단하지 않다.왜냐하면 일부 문어 언어에는 명시적인 단어 경계 표기가 있기 때문이다.예를 들어, 영어 문어의 첫 글자, 중간 문자, 아랍어의 마지막 글자 모양과 같이, 그러한 신호는 때때로 모호하고 모든 문어 언어에서 존재하지 않는다.
언어적으로 의미 있는 부분으로 음성을 나누는 과정인 음성 분할을 비교합니다.
세그멘테이션 문제
단어 분할
단어 분할은 언어의 문자열을 구성 단어로 나누는 문제입니다.
영어 및 라틴 알파벳의 어떤 형식을 사용하는 많은 언어에서 공간은 단어 구분자(단어 구분자)의 좋은 근사치입니다. 비록 이 개념은 언어들이 코로케이션과 복합어를 에뮬레이션으로 간주하는 가변성 때문에 한계가 있습니다.많은 영어 복합 명사는 일정치 않게(예를 들어, 얼음 상자)ice-box)아이스 박스, 돼지 다래끼)pig-sty)돼지 우리)인지 사람들의 명사 어구 또는 단일 명사로 생각한다에 상응하는 변화에 따른이 어떻게 규범 정해지면, 개방형 화합물은 종종 결국 광범위한 관습에 의해 굳어지는 경향이 있어 같은 추세지만, v는 써져 있다ariation 체계적인 남아 있다.대조적으로, 독일 복합 명사, 응고 되는 것 더 강한 규범과 짧은 정자 법의 변화를 보여 준다.
단, 모든 스크립트에는 공백 문자와 동등한 문자가 포함되어 있지 않으며, 공백 문자가 없으면 단어 분할이 어렵습니다.간단한 단어 분할 과정이 없는 언어로는 중국어, 일본어, 문장은 구분하지만 단어는 구분하지 않는 태국어와 라오스어, 음절은 구분하지만 단어는 구분하지 않는 베트남어 등이 있다.
그러나 다른 언어 중 암하라어와 티그린야어에 사용되는 게즈 문자와 같은 일부 문자 체계에서는 단어들이 공백이 아닌 문자로 (적어도 역사적으로)
유니코드 컨소시엄은 다중 문자 텍스트의 분할 문제를 탐구하는 텍스트 [1]분할에 관한 표준 부록을 발행했다.
단어 분할은 연결된 텍스트(즉, 공백이나 다른 단어 구분자를 포함하지 않는 텍스트)를 구문 분석하여 단어 구분이 존재하는 위치를 추론하는 과정입니다.
단어 분할은 하이픈 처리 과정도 나타낼 수 있습니다.
의도 세그먼트화
![]() | 이 섹션은 독자들에게 혼란스럽거나 불분명할 수 있습니다.(2019년 9월 (이 및 ) |
의도 분할은 쓰여진 단어를 키프레이즈(2개 이상의 단어 그룹)로 나누는 문제입니다.
영어 및 기타 모든 언어에서 핵심 목적 또는 욕구가 특정되어 주요 문구인 Intention 세그멘테이션의 초석이 됩니다.핵심 제품/서비스, 아이디어, 행동 및 사고가 핵심 문구에 포함됩니다.
[만물은 모두 원자][움직이는 작은 입자들][영구적인 움직임], [서로 끌어당기는][조금 떨어져 있을 때], [하지만 서로 밀리는 순간][맞추기]"
문장 분할
문장 분할은 일련의 문어를 구성 문장으로 나누는 문제입니다.영어 및 기타 언어에서는 구두점을 사용하여 특히 마침표/마침표 문자는 적절한 근사치입니다.그러나 영어에서조차 이 문제는 줄임말의 마침표 문자를 사용하므로 사소한 문제가 아니다. 줄임말은 문장을 종료하거나 종료하지 않을 수 있다.예를 들어, "Mr. Smith goed to the shops in Jones Street"에서 Mr.는 그 자체 문장이 아니다.일반 텍스트를 처리할 때 마침표를 포함하는 약어 표를 사용하면 문장 경계를 잘못 할당하는 것을 방지할 수 있습니다.
단어 분할과 마찬가지로, 모든 문어에는 문장 경계 근사치에 유용한 구두점 문자가 포함되어 있지 않습니다.
토픽 세그멘테이션
주제 분석은 주제 식별과 텍스트 세분화의 두 가지 주요 작업으로 구성됩니다.첫 번째는 특정 텍스트의 단순한 분류이지만, 후자는 문서가 여러 개의 주제를 포함할 수 있음을 의미하며, 컴퓨터화된 텍스트 분할 작업은 이러한 주제를 자동으로 발견하고 그에 따라 텍스트를 분할하는 것일 수 있습니다.토픽의 경계는 섹션 제목과 단락에서 명확하게 나타납니다.다른 경우에는 문서 분류에 사용된 것과 유사한 기법을 사용해야 한다.
텍스트를 주제 또는 담화 턴으로 분할하는 것은 일부 자연 처리 태스크에서 유용할 수 있다. 즉, 정보 검색 또는 음성 인식을 크게 개선할 수 있다(문서를 보다 정확하게 색인/인식하거나 결과적으로 쿼리에 대응하는 문서의 특정 부분을 제공함으로써).또한 토픽 검출 및 추적 시스템과 문제를 요약하는 텍스트에도 필요합니다.
HMM, 어휘 체인, 단어 공존을 사용한 구문 유사성, 클러스터링, 주제 모델링 등 다양한 접근법이 [2][3]시도되었다.
이것은 상당히 애매한 작업입니다.텍스트 분할 시스템을 평가하는 사람들은 종종 토픽의 경계를 달리합니다.따라서 텍스트 세그먼트 평가도 어려운 문제입니다.
기타 세그멘테이션 문제
텍스트는 형태소(일반적으로 형태소 분석이라고 불리는 작업)나 단락을 포함하여 언급되지 않은 세그먼트(segment)로 분할해야 합니다.
자동 세그멘테이션 접근법
자동 분할은 텍스트를 분할하는 컴퓨터 프로세스를 구현하는 자연 언어 처리의 문제입니다.
구두점 및 유사한 단서를 일관되게 사용할 수 없는 경우, 분할 작업은 종종 통사적 및 의미적 제약 조건의 고려뿐만 아니라 통계적 의사결정, 대형 사전과 같은 상당히 사소한 기술을 필요로 한다.효과적인 자연어 처리 시스템과 텍스트 분할 도구는 일반적으로 특정 도메인 및 소스의 텍스트에서 작동합니다.예를 들어, 의료기록에 사용되는 텍스트를 처리하는 것은 뉴스 기사나 부동산 광고를 처리하는 것과 매우 다른 문제입니다.
텍스트 분할 도구를 개발하는 과정은 애플리케이션 도메인에서 대량의 텍스트 말뭉치를 수집하는 것으로 시작됩니다.일반적인 접근방식은 두 가지가 있습니다.
일부 텍스트 세그멘테이션 시스템은 HTML과 같은 마크업을 활용하고 PDF와 같은 문서 형식을 알고 문장 및 단락 경계에 대한 추가 증거를 제공합니다.
「 」를 참조해 주세요.
레퍼런스
- ^ UAX #29
- ^ Freddy Y. Y. Choi (2000). "Advances in domain independent linear text segmentation" (PDF). Proceedings of the 1st Meeting of the North American Chapter of the Association for Computational Linguistics (ANLP-NAACL-00). pp. 26–33.
- ^ Jeffrey C. Reynar (1998). "Topic Segmentation: Algorithms and Applications" (PDF). IRCS-98-21. University of Pennsylvania. Retrieved 8 November 2007.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말)