의미 압축

Semantic compression

자연어 처리에서 의미 압축은 텍스트 의미론을 유지하면서 언어 이질성을 줄임으로써 텍스트 문서(또는 문서 집합)를 구축하는 데 사용되는 어휘를 압축하는 과정이다. 결과적으로, 같은 생각들은 더 작은 단어들을 사용하여 표현될 수 있다.

대부분의 애플리케이션에서 의미 압축은 손실 압축, 즉 장황성 증가는 어휘 압축을 보상하지 않으며, 원본 문서는 역공정에서 재구성할 수 없다.

일반화에 의해

의미 압축은 기본적으로 주파수 사전의미 네트워크를 사용하여 두 단계로 이루어진다.

  1. 목표 어휘소를 식별하기 위해 누적된 기간 주파수 결정
  2. 빈도가 낮은 항을 대상 어휘소의 하이퍼니임(일반화)으로 대체한다.[1]

1단계에서는 단어 빈도와 의미 관계, 특히 저포니에 대한 정보를 조합해야 한다. Moving upwards in word hierarchy, a cumulative concept frequency is calculating by adding a sum of hyponyms' frequencies to frequency of their hypernym: where is a hypernym of j 그런 다음 타르식 어휘를 작성하기 위해 최상위 누적 주파수를 가진 원하는 수의 단어를 선택한다.

두 번째 단계에서 압축 매핑 규칙은 출력 텍스트의 하이퍼니임으로 덜 자주 발생하는 모든 hyponim을 처리하기 위해 나머지 단어에 대해 정의된다.

아래의 텍스트 조각은 의미 압축에 의해 처리되었다. 굵은 글씨로 된 단어들은 하이퍼니어로 대체되었다.

그들은 둘 다 사회 곤충을 만들고 있지만 종이 말벌꿀벌이 그들의 군락을 조직한다.

아주 다른 방법으로 새로운 연구에서, 연구원들은 그들의 차이점에도 불구하고, 이 곤충들이 그들의 사회적 행동을 이끌기 위해 같은 유전자의 네트워크에 의존하고 있다고 보고한다.이 연구는 왕립학회 B: 생물학회에 나와 있다. 꿀벌종이 말벌은 1억년 이상 떨어져 있다.

진화, 그리고 그들이 어떻게 식민지를 유지하는 일을 구분하는가에 현저한 차이가 있다.

이 절차에서는 다음 텍스트를 출력한다.

둘 다 시설조성 곤충이지만 곤충꿀벌레생물군배열한다.

매우 다른 구조로 새로운 연구에서, 연구원들은 그들의 의견 차이에도 불구하고, 이 곤충들이 그들의 당의 품위떨어뜨리기 위해 같은 유전자의 네트워크 역할을 한다고 보고한다. 이 연구는 생물학 연구소의 진행에 나타난다. 꿀벌레곤충은 1억년 이상 떨어져 있다.

유기적 과정, 그리고 그들이 생물학적 집단긍정하는 작업을 어떻게 구분하는지에 대한 의견의 차이를 유발한다.

암시적 의미 압축

자연어 표현을 간결하게 유지하려는 자연적인 경향은 의미 없는 말이나 중복적인 의미 있는 말(특히 플론나스를 피하기 위해)을 생략함으로써 암묵적인 의미 압축의 한 형태로 인식될 수 있다.[2]

애플리케이션 및 이점

벡터 공간 모델에서 어휘를 압축하면 차원성이 감소하여 계산 복잡성이 줄어들고 효율성에 긍정적인 영향을 미친다.

의미론적 압축은 정보 검색 업무에 유리하여 그 효과성을 향상시킨다(정밀성과 회수 양면에서).[3] 이는 보다 정밀한 설명자(언어 다양성의 감소 효과 - 제한된 언어 중복성, 통제된 사전을 향한 한 단계) 때문이다.

위의 예와 같이 출력을 자연 텍스트로 표시할 수 있다(재응용 경직성, 정지 단어 추가).

참고 항목

참조

  1. ^ Ceglarek, D.; Haniewicz, K.; Rutkowski, W. (2010). "Semantic Compression for Specialised Information Retrieval Systems". Advances in Intelligent Information and Database Systems. Studies in Computational Intelligence. 283: 111–121. doi:10.1007/978-3-642-12090-9_10. ISBN 978-3-642-12089-3.
  2. ^ Percova, N.N. (1982). "On the types of semantic compression of text". COLING '82 Proceedings of the 9th Conference on Computational Linguistics. Vol. 2. pp. 229–231. doi:10.3115/990100.990155. ISBN 0-444-86393-1. S2CID 33742593.
  3. ^ Ceglarek, D.; Haniewicz, K.; Rutkowski, W. (2010). "Quality of semantic compression in classification". Proceedings of the 2nd International Conference on Computational Collective Intelligence: Technologies and Applications. Vol. 1. Springer. pp. 162–171. ISBN 978-3-642-16692-1.

외부 링크