인증되지 않은 텍스트
Inauthentic text정확하지 않은 텍스트는 진품으로 나타나도록 의도된 컴퓨터로 만들어진 설명서 문서지만, 실제로는 의미가 없다. 스팸 블로그와 마찬가지로 정품 문서와 혼합되어 검색 엔진의 결과를 조작하기 위해 만들어지는 경우가 많다. 그들은 또한 스팸에 합법적인 텍스트의 피상적인 특성을 부여함으로써 스팸 필터를 속이기 위해 이메일에 첨부된다.
때때로 비논리적 문서는 디스커버리시나 플라프시와 같이 유머러스한 효과를 위해 컴퓨터 보조로 만들어진다. 그들은 또한 출판물의 진실성에 도전하기 위해 사용되었다.MIT 학생들은 SCIgen이라는 컴퓨터 프로그램에 의해 생성된 논문을 컨퍼런스에 제출했고, 그곳에서 그들은 처음에 받아들여졌다. 이 때문에 학생들은 제출에 필요한 바가 너무 낮다고 주장하게 되었다.
컴퓨터로 만들어진 텍스트의 양이 그것을 큐레이팅할 수 있는 인간에 대한 사람들의 능력을 앞지르고 있기 때문에, 이 두 가지를 구별할 수 있는 어떤 수단이 필요하다. 그러나 텍스트가 진정한 의미론적 본질적 난제에 직면해 있는지 아닌지를 절대적으로 결정하기 위한 자동화된 접근방식. Noam Chompsky는 문법적으로는 정확하지만 의미론적으로는 일관성이 없는 문장의 예를 들어 "색 없는 녹색 사상은 격하게 잠을 잔다"라는 문구를 만들었다; 어떤 사람들은 어떤 맥락에서 이 문장(또는 어떤 구절)에 의미를 부여할 수 있다고 지적할 것이다.
이와 관련하여 이 표현을 처음 사용한 그룹은 인디아나 대학교에서 아래를 찾을 수 있다. 그들의 연구는 사이버 공간에서 신뢰할 수 없는 텍스트를 탐지하고 신뢰할 수 없는 텍스트의 유해한 문제를 식별하려는 시도를 상세히 설명한다. 이 사이트는 말뭉치가 진짜인지 아닌지에 대한 감독된 학습에 기초하여 평가자를 평가하는 텍스트를 제출하는 수단을 가지고 있다. 많은 사용자들이 잘못된 유형의 데이터를 제출했고 그에 상응하는 코멘트를 했다. 이 신청서는 특정 종류의 데이터를 위한 것이므로, 예를 들어 이메일을 제출하는 것은 의미 있는 점수를 반환하지 않을 것이다.