내용 유사성 검출

Content similarity detection

표절 검출 또는 내용 유사성 검출은 저작물이나 문서 에서 표절이나 저작권 침해의 사례를 찾아내는 과정이다.컴퓨터의 광범위한 사용과 인터넷의 도래는 다른 사람들의 작품을 표절하는 것을 더 쉽게 만들었다.[1][2]null

표절의 발견은 다양한 방법으로 행해질 수 있다.인간의 발견은 저작물에서 표절을 식별하는 가장 전통적인 형태다.이것은 독자들에게[2] 장황하고 시간이 많이 걸리는 작업이 될 수 있으며 조직 내에서 표절이 어떻게 식별되는지에 대한 불일치를 초래할 수도 있다.[3]'표절감지 소프트웨어' 또는 '표절방지 소프트웨어'라고도 불리는 텍스트매칭 소프트웨어(TMS)는 오픈소스[examples needed] 소프트웨어뿐만 아니라 상용화된 두 가지 제품 모두 형태로 널리 보급되었다.TMS는 실제로 표절을 감지하지 않고, 대신 다른 문서의 텍스트와 일치하는 특정 텍스트 구절을 한 문서에서 찾는다.null

소프트웨어 지원 표절 탐지

CaPD(Computer- Assisted Praction Detection, CaPD)는 전문 IR 시스템이 지원하는 정보검색(IR) 업무로, 이를 표절 탐지 시스템(PDS) 또는 문서 유사성 탐지 시스템(Document 유사성 탐지 시스템)이라고 한다.2019년 체계적인 문헌 리뷰는[4] 최첨단 표절 탐지 방법에 대한 개요를 제시한다.null

텍스트 문서

텍스트 유사성 검출 시스템은 두 가지 일반적인 검출 접근법 중 하나를 구현한다.[5] 하나는 외부, 다른 하나는 내재가 있다.외부 탐지 시스템은 의심스러운 문서를 진품으로 추정되는 일련의 문서인 참조 수집과 비교한다.[6]선택된 문서 모델과 미리 정의된 유사성 기준에 기초하여, 검출 과제는 선택된 임계값을 초과하는 텍스트가 포함된 모든 문서를 의심스러운 문서에서 검색하는 것이다.[7]본질적인 PDS는 외부 문서와 비교하지 않고 평가될 텍스트만을 분석한다.이 접근방식은 잠재적 표절의 지표로서 저자의 독특한 작문 방식의 변화를 인식하는 것을 목적으로 한다.[8][9]PDS는 사람의 판단 없이는 표절을 신뢰성 있게 파악할 수 없다.유사점과 쓰기 스타일 특성은 사전 정의된 문서 모델의 도움을 받아 계산되며 잘못된 긍정을 나타낼 수 있다.[10][11][12][13][14]null

고등교육 환경에서 이러한 도구의 효과

고등교육 환경에서 유사성 검출 소프트웨어의 효과를 시험하기 위한 연구가 실시되었다.이 연구의 한 부분은 한 그룹의 학생들에게 논문을 쓰도록 했다.이 학생들은 처음에 표절에 대해 교육을 받았고, 내용 유사성 탐지 시스템을 통해 그들의 작업이 실행될 것이라는 것을 알게 되었다.두 번째 그룹의 학생들은 표절에 대한 어떠한 정보도 없이 논문을 쓰도록 배정되었다.연구원들은 그룹 1에서 낮은 비율을 찾을 것으로 기대했지만 두 그룹 모두에서 거의 동일한 비율의 표절 사실을 발견했다.[15]null

접근

아래 그림은 컴퓨터 지원 콘텐츠 유사성 검출을 위해 현재 사용 중인 모든 탐지 접근방식의 분류를 나타낸다.접근방식은 그들이 수행하는 유사성 평가 유형(글로벌 또는 로컬)으로 특징지어진다.글로벌 유사성 평가 접근방식은 유사성을 계산하기 위해 텍스트나 문서의 더 큰 부분에서 취한 특성을 사용하는 반면, 로컬 방법은 입력으로 미리 선택된 텍스트 세그먼트만 검사한다.null

컴퓨터 지원 표절 탐지 방법의 분류
지문 채취

지문 인식은 현재 콘텐츠 유사성 검출에 가장 광범위하게 적용되는 접근법이다.이 방법은 문서에서 여러 개의 하위 문자열(n그램) 집합을 선택하여 문서의 대표적인 요약을 형성한다.이 세트들은 지문을 나타내며, 그 요소들을 미니티애라고 부른다.[16][17]의심스러운 문서는 지문을 계산하고, 참고문헌의 모든 문서에 대해 미리 계산된 지문으로 미니타이에를 조회하여 표절 여부를 확인한다.다른 문서와 일치하는 미니타이에는 공유 텍스트 세그먼트가 표시되며, 선택된 유사성 임계값을 초과할 경우 표절이 발생할 수 있음을 시사한다.[18]계산 자원과 시간은 지문 채취에 한정되는 요소로서, 이 방법은 일반적으로 계산 속도를 높이고 인터넷과 같은 매우 큰 수집에서 검사를 허용하기 위해 미니티아의 부분 집합만을 비교하는 것이다.[16]null

문자열 매칭

끈 매칭은 컴퓨터 공학에서 널리 사용되는 접근법이다.표절 검출 문제에 적용하면 말 그대로의 텍스트와 중복되는 문서를 비교한다.이 과제에 대처하기 위한 수많은 방법들이 제안되었고, 그 중 일부는 외부 표절 탐지에 적응되었다.이 설정에서 의심스러운 문서를 확인하려면 참조 컬렉션의 모든 문서를 쌍으로 비교하기 위해 효율적으로 비교 가능한 표현을 계산하고 저장해야 한다.일반적으로 접미사 트리 또는 접미사 벡터와 같은 접미사 문서 모델이 이 작업에 사용되어 왔다.그럼에도 불구하고, 하위 문자열 일치는 계산적으로 비싸게 유지되고 있어, 이것은 많은 문서 모음의 확인을 위한 비존재적인 해결책이 된다.[19][20][21]null

헛소리

단어분석은 전통적인 IR 개념인 벡터 공간 검색을 내용 유사성 검출 영역에 채택하는 것을 나타낸다.문서는 한 개 또는 복수의 벡터로 표현된다. 예를 들어, 서로 다른 문서 부분에 대해서는 쌍으로 현명한 유사성 계산에 사용된다.유사성 계산은 전통적인 코사인 유사성 측정 또는 보다 정교한 유사성 측정에 의존할 수 있다.[22][23][24]null

인용분석

인용 기반 표절 탐지(CbPD)[25]인용 분석에 의존하며, 텍스트 유사성에 의존하지 않는 유일한 표절 탐지에 대한 접근법이다.[26]CbPD는 인용 순서에서 유사한 패턴을 식별하기 위해 본문의 인용 및 참조 정보를 검토한다.이와 같이, 이 접근방식은 인용문이 포함된 과학적 문헌 또는 기타 학술 문서에 적합하다.표절을 탐지하기 위한 인용 분석은 비교적 젊은 개념이다.상용 소프트웨어에 채택된 것은 아니지만, 인용 기반 표절 탐지 시스템의 첫 번째 시제품이 존재한다.[27]조사된 문서에서 유사한 순서와 인용문 근접성은 인용문양 유사성을 계산하는 데 사용되는 주요 기준이다.인용문 패턴은 비교한 문서에 의해 공유된 인용문을 포함하지 않고 비독점적으로 나타낸다.[26][28]패턴에서 공유된 인용문의 절대수 또는 상대적인 부분을 포함한 요소와 문서에서 인용문이 동시에 발생할 확률도 패턴의 유사성 정도를 수량화하는 것으로 간주된다.[26][28][29][30]null

스타일로메트리

스타일로메트리는 저자의 독특한 글쓰기를[31][32] 계량화하기 위한 통계적 방법을 소급하며, 주로 저자 귀속이나 본질적인 표절 탐지에 사용된다.[33]저자 귀속성 표절을 탐지하려면 특정 작성자가 작성한 것으로 추정되는 의심스러운 문서의 작성 스타일이 같은 작성자가 작성한 문서의 말뭉치와 일치하는지 확인해야 한다.반면 본질적인 표절 탐지는 다른 문서와 비교하지 않고 의심스러운 문서의 내부 증거를 토대로 표절을 밝혀낸다.이는 의심스러운 문서의 다른 텍스트 부분에 대해 스타일리쉬한 모델을 구성하여 비교함으로써 수행되며, 다른 것과 스타일리시하게 다른 구절은 표절/침해 가능성이 있는 것으로 표시된다.[8]추출은 간단하지만 캐릭터 n그램은 본질적인 표절 탐지를 위한 최고의 스타일리시한 특징 중 하나로 입증된다.[34]null

신경망

신경망을 이용한 콘텐츠 유사성을 평가하기 위한 보다 최근의 접근법은 상당히 높은 정확도를 달성했지만, 엄청난 계산 비용과 문자 그대로의 비용으로 이루어졌다.[35] 이러한 접근방식은 신경 네트워크를 사용하여 두 내용물이 모두 모델에 공급되며, 두 텍스트에 대한 벡터 임베딩이 생성된다. 일단 임베딩이 반환되면 시스템은 벡터 사이의 코사인 유사성과 같은 많은 차이 지표 중 하나를 계산할 수 있다.많은 유사성 탐지 시스템은 수십억 개가 아니더라도 수백만 개의 문서를 통해 채굴해야 하기 때문에, 이 접근법은 대규모 또는 공개적으로 이용 가능한 시스템에서는 사용할 수 없는 것으로 입증되었다.null

퍼포먼스

콘텐츠 유사성 검출 시스템의[6][36][37][38][39][40] 비교 평가는 그 성능이 존재하는 표절의 유형에 따라 달라진다는 것을 나타낸다(그림 참조).인용 패턴 분석을 제외하고 모든 검출 접근법은 텍스트 유사성에 의존한다.따라서 검출 정확도가 떨어질수록 표절 사례가 난독해지는 것은 증상이다.null

존재하는 표절의 유형에 따라 CaPD 접근법의 탐지 성능

리터럴 카피, 카피 앤 페이스트(c&p) 표절이나 노골적인 저작권 침해, 또는 적당히 위장한 표절 사례는 소프트웨어에 출처가 접근 가능한 경우 현재의 외부 PDS에 의해 높은 정확도로 검출될 수 있다.특히 하위 문자열 매칭 절차는 접미사 나무와 같은 무손실 문서 모델을 일반적으로 사용하기 때문에 c&p 표절에 좋은 성과를 낸다.사본 검출에 지문 분석이나 단어 분석 백을 사용하는 시스템의 성능은 사용하는 문서 모델에 의해 발생하는 정보 손실에 따라 달라진다.유연한 청킹과 선택 전략을 적용함으로써 하위 문자열 매칭 절차와 비교할 때 중간 형태의 위장 표절을 더 잘 탐지할 수 있다.null

양식법을 이용한 내재적 표절 검출은 언어적 유사성을 비교함으로써 텍스트 유사성의 경계를 어느 정도 극복할 수 있다.표절 부분과 원본 부분 간의 양식적 차이가 유의하고 신뢰할 수 있는 식별이 가능하다는 점에서, 스타일 측정은 위장 및 패러프레이드 표절을[citation needed] 식별하는 데 도움이 될 수 있다.표절주의자의 개인적인 글쓰기 스타일과 더 밀접하게 닮은 부분이나 복수의 저자에 의해 글이 편찬될 정도로 부문이 강하게 패러프레이팅되는 경우, 기법 비교는 실패할 가능성이 높다.로 실험 Stein,[33]에 의해 수행된다는stylometric 분석 안정적으로 수천의 문서 길이나 단어의 메서드의 CaPD setti 적용을 제한하는 수천 수만명에 대해서만 소용이 없는 것 같아 표시하는 국제 경쟁 부문 표절 검출에 결과는 2009년 2010년과 2011,[6][39][40]에서를 열었다.ngs.null

번역된 표절을 검출할 수 있는 방법과 시스템에 대한 연구가 증가하고 있다.현재 교차언어표절검출(CLPD)은 성숙된 기술로[41] 보지 못하고 있으며, 각 시스템은 실제로도 만족스러운 검출 결과를 달성하지 못하고 있다.[38]null

인용 패턴 분석을 이용한 인용 기반 표절 검출은 텍스트 특성과는 무관하기 때문에 다른 검출 접근법에 비해 성공률이 높은 강력한 파라프레이와 번역을 식별할 수 있다.[26][29]다만 인용문형 분석은 충분한 인용정보의 이용가능성에 따라 달라지기 때문에 학술지문에만 국한된다.그것은 복사하여 붙이거나 흔들어서 붙이는 표절의 경우에 전형적으로 나타나는 더 짧은 표절을 감지하는 텍스트 기반 접근법보다 여전히 열등하다; 후자는 다른 출처에서 약간 변형된 파편을 혼합하는 것을 말한다.[42]null

소프트웨어

텍스트 문서와 함께 사용하기 위한 컨텐츠 유사성 검출 소프트웨어의 설계는 다음과 같은 여러 가지 요인에 의해 특징지어진다.[citation needed]

요인 설명 및 대안
검색범위 공용 인터넷에서는 검색 엔진 / 기관 데이터베이스 / 로컬 시스템별 데이터베이스 사용.[citation needed]null
분석시간 문서를 제출한 시간과 결과를 사용할 수 있는 시간 사이의 지연.[citation needed]null
문서 용량 / 일괄 처리 시스템이 시간 단위당 처리할 수 있는 문서 수입니다.[citation needed]null
강도 검사 시스템에서 검색 엔진과 같은 외부 리소스를 쿼리하는 문서 조각 유형(문단, 문장, 고정 길이 워드 시퀀스)의 빈도와 유형null
비교 알고리즘 유형 시스템이 서로 문서를 비교하는 방법을 정의하는 알고리즘.[citation needed]null
정밀도 및 리콜 플래그 지정된 총 문서 수와 비교하여 표절로 올바르게 표시된 문서 수 및 실제 표절한 총 문서 수입니다.정밀도가 높다는 것은 거짓 양성이 거의 발견되지 않았다는 것을 의미하며, 리콜이 높다는 것은 거짓 양성이 발견되지 않은 채로 남아 있는 경우가 거의 없다는 것을 의미한다.[citation needed]null

대부분의 대규모 표절 탐지 시스템은 분석을 위해 제출되는 각 추가 문서에 따라 증가하는 대규모 내부 데이터베이스(다른 자원 외에도)를 사용한다.그러나 이 기능은 일부에 의해 학생 저작권 침해로 간주된다.[citation needed]null

소스 코드에서

컴퓨터 소스 코드의 표절도 빈번하며, 문서의 텍스트 비교에 사용되는 것과 다른 도구를 필요로 한다.중요한 연구가 학술적 소스 코드 표절에 바쳐졌다.[43]null

소스 코드 표절의 독특한 측면은 전통적인 표절에서 찾을 수 있는 것과 같은 에세이 제분소가 없다는 것이다.대부분의 프로그래밍 과제들은 학생들이 매우 구체적인 요구조건이 있는 프로그램을 쓰기를 기대하기 때문에, 이미 그것들에 맞는 기존의 프로그램을 찾기가 매우 어렵다.외부 코드를 통합하는 것이 처음부터 쓰는 것보다 더 어려운 경우가 많기 때문에, 대부분의 표절 학생들은 동료들로부터 그렇게 하는 것을 선택한다.null

로이와 코디에 따르면,[44] 소스 코드 유사성 검출 알고리즘은 다음 중 하나에 기초하여 분류할 수 있다.

  • 문자열 – 5단어 계단진행과 같은 세그먼트의 텍스트 일치 항목을 정확하게 찾으십시오.빠르지만 식별자의 이름을 바꾸면 혼동될 수 있다.
  • 토큰 - 문자열과 마찬가지로, 프로그램을 먼저 토큰으로 변환하기 위해 렉서를 사용한다.이렇게 하면 공백, 주석 및 식별자 이름이 삭제되어 시스템이 단순한 텍스트 대체에 보다 강력해진다.대부분의 학술적 표절 탐지 시스템은 토큰 시퀀스 사이의 유사성을 측정하기 위해 다른 알고리즘을 사용하여 이 수준에서 작동한다.
  • 파스 트리 – 파스 트리를 만들고 비교한다.이를 통해 보다 높은 수준의 유사성을 발견할 수 있다.예를 들어, 트리 비교는 조건문을 정규화할 수 있고, 서로 유사한 등가 구조를 탐지할 수 있다.
  • PDG(Program Dependency Graphs) – PDG는 프로그램에서 제어의 실제 흐름을 캡처하고 복잡성과 계산 시간에서 더 큰 비용으로 훨씬 높은 수준의 동등성을 찾을 수 있다.
  • 메트릭 – 메트릭은 특정 기준에 따라 코드 세그먼트의 '점수(예: "루프 및 조건 수" 또는 "사용되는 다른 변수의 수")를 캡처한다.메트릭스는 계산이 간단하고 빠르게 비교할 수 있지만 잘못된 긍정으로 이어질 수 있다. 메트릭 세트에서 동일한 점수를 가진 두 조각은 완전히 다른 일을 할 수 있다.
  • 예를 들어, 구문 분석 트리 + 접미사 트리는 구문 분석 트리의 탐지 기능과 문자열 매칭 데이터 구조의 일종인 접미사가 제공하는 속도를 결합할 수 있다.

이전의 분류는 학술적 표절 탐지가 아닌 코드 리팩터링을 위해 개발되었다(리팩터링의 중요한 목표는 문헌에서 코드 클론이라고 하는 중복된 코드를 피하는 것이다).위의 접근방식은 서로 다른 수준의 유사성에 대해 효과적이다. 낮은 수준의 유사성은 동일한 텍스트를 참조하는 반면, 높은 수준의 유사성은 유사한 규격에 기인할 수 있다.학문적 환경에서는 모든 학생이 동일한 규격으로 코딩을 해야 할 때 기능적으로 동등한 코드(높은 수준의 유사성을 갖는 코드)가 전적으로 기대되며, 낮은 수준의 유사성만이 부정행위의 증거로 간주된다.null

표절 탐지를 위한 텍스트 매칭 소프트웨어 사용으로 인한 합병증

표절 탐지에 사용될 때 텍스트 매칭 소프트웨어의 사용으로 다양한 합병증이 문서화되었다.가장 보편적인 관심사 중 하나는 지적재산권 문제에 관한 문서화된 중심이다.기본적인 주장은 TMS가 효과적으로 일치를 판단하기 위해서는 자료를 데이터베이스에 추가해야 한다는 것이지만, 그러한 데이터베이스에 사용자 자료를 추가하는 것은 그들의 지적 재산권을 침해할 수 있다.그 문제는 여러 법정 사건에서 제기되었다.null

TMS 사용과 관련된 추가적인 문제는 소프트웨어가 다른 텍스트와 정확히 일치하는 항목만 찾는다는 것이다.예를 들어, 불량하게 패러프레이팅된 작업이나 로게팅이라고 알려진 탐지 소프트웨어를 회피하기 위해 충분한 단어 대체물을 사용하여 표절을 하는 관행은 포착하지 않는다.null

참고 항목

참조

  1. ^ "CiteSeerX (Pennsylvania State University)". citeseerx.ist.psu.edu. Archived from the original on 4 March 2008. Retrieved 1 November 2021.
  2. ^ a b 브레타그, T, & 마흐무드, S. (2009)학생 표절을 결정하는 모델:전자 탐지 및 학술적 판단.대학 교육 학습 실습 저널 6(1)http://ro.uow.edu.au/jutlp/vol6/iss1/6에서 검색됨
  3. ^ 맥도날드, R, & 캐롤, J. (2006)표절—전체적인 제도적 접근이 필요한 복잡한 문제.고등교육 평가 평가, 31(2), 233–245. doi:10.1080/02602930500262536
  4. ^ Foltýnek, Tomáš; Meuschke, Norman; Gipp, Bela (16 October 2019). "Academic Plagiarism Detection: A Systematic Literature Review". ACM Computing Surveys. 52 (6): 1–42. doi:10.1145/3345317.
  5. ^ Stein, Benno; Koppel, Moshe; Stamatatos, Efstathios (December 2007), "Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection PAN'07" (PDF), SIGIR Forum, 41 (2): 68, doi:10.1145/1328964.1328976, S2CID 6379659, archived from the original (PDF) on 2 April 2012, retrieved 7 October 2011
  6. ^ a b c Potthast, Martin; Stein, Benno; Eiselt, Andreas; Barrón-Cedeño, Alberto; Rosso, Paolo (2009), "Overview of the 1st International Competition on Plagiarism Detection", PAN09 - 3rd Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection (PDF), CEUR Workshop Proceedings, vol. 502, pp. 1–9, ISSN 1613-0073, archived from the original (PDF) on 2 April 2012
  7. ^ Stein, Benno; Meyer zu Eissen, Sven; Potthast, Martin (2007), "Strategies for Retrieving Plagiarized Documents", Proceedings 30th Annual International ACM SIGIR Conference (PDF), ACM, pp. 825–826, doi:10.1145/1277741.1277928, ISBN 978-1-59593-597-7, S2CID 3898511, archived from the original (PDF) on 2 April 2012, retrieved 7 October 2011
  8. ^ a b Meyer zu Eissen, Sven; Stein, Benno (2006), "Intrinsic Plagiarism Detection", Advances in Information Retrieval 28th European Conference on IR Research, ECIR 2006, London, UK, April 10–12, 2006 Proceedings (PDF), Lecture Notes in Computer Science, vol. 3936, Springer, pp. 565–569, CiteSeerX 10.1.1.110.5366, doi:10.1007/11735106_66, ISBN 978-3-540-33347-0, archived from the original (PDF) on 2 April 2012, retrieved 7 October 2011
  9. ^ Bensalem, Imene (2020). "Intrinsic Plagiarism Detection: a Survey". Plagiarism Detection: A focus on the Intrinsic Approach and the Evaluation in the Arabic Language (PhD thesis). Constantine 2 University. doi:10.13140/RG.2.2.25727.84641.
  10. ^ Bao, Jun-Peng; Malcolm, James A. (2006), "Text similarity in academic conference papers", 2nd International Plagiarism Conference Proceedings (PDF), Northumbria University Press, archived from the original (PDF) on 16 September 2018, retrieved 7 October 2011
  11. ^ Clough, Paul (2000), Plagiarism in natural and programming languages an overview of current tools and technologies (PDF) (Technical Report), Department of Computer Science, University of Sheffield, archived from the original (PDF) on 18 August 2011
  12. ^ Culwin, Fintan; Lancaster, Thomas (2001), "Plagiarism issues for higher education" (PDF), Vine, 31 (2): 36–41, doi:10.1108/03055720010804005, archived from the original (PDF) on 5 April 2012
  13. ^ Lancaster, Thomas (2003), Effective and Efficient Plagiarism Detection (PhD Thesis), School of Computing, Information Systems and Mathematics South Bank University
  14. ^ Maurer, Hermann; Zaka, Bilal (2007), "Plagiarism - A Problem And How To Fight It", Proceedings of World Conference on Educational Multimedia, Hypermedia and Telecommunications 2007, AACE, pp. 4451–4458, ISBN 9781880094624
  15. ^ Youmans, Robert J. (November 2011). "Does the adoption of plagiarism-detection software in higher education reduce plagiarism?". Studies in Higher Education. 36 (7): 749–761. doi:10.1080/03075079.2010.523457. S2CID 144143548.
  16. ^ a b Hoad, Timothy; Zobel, Justin (2003), "Methods for Identifying Versioned and Plagiarised Documents" (PDF), Journal of the American Society for Information Science and Technology, 54 (3): 203–215, CiteSeerX 10.1.1.18.2680, doi:10.1002/asi.10170, archived from the original (PDF) on 30 April 2015, retrieved 14 October 2014
  17. ^ Stein, Benno (July 2005), "Fuzzy-Fingerprints for Text-Based Information Retrieval", Proceedings of the I-KNOW '05, 5th International Conference on Knowledge Management, Graz, Austria (PDF), Springer, Know-Center, pp. 572–579, archived from the original (PDF) on 2 April 2012, retrieved 7 October 2011
  18. ^ Brin, Sergey; Davis, James; Garcia-Molina, Hector (1995), "Copy Detection Mechanisms for Digital Documents", Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data (PDF), ACM, pp. 398–409, CiteSeerX 10.1.1.49.1567, doi:10.1145/223784.223855, ISBN 978-1-59593-060-6, S2CID 8652205
  19. ^ Monostori, Krisztián; Zaslavsky, Arkady; Schmidt, Heinz (2000), "Document Overlap Detection System for Distributed Digital Libraries", Proceedings of the fifth ACM conference on Digital libraries (PDF), ACM, pp. 226–227, doi:10.1145/336597.336667, ISBN 978-1-58113-231-1, S2CID 5796686, archived from the original (PDF) on 15 April 2012, retrieved 7 October 2011
  20. ^ Baker, Brenda S. (February 1993), On Finding Duplication in Strings and Software (Technical Report), AT&T Bell Laboratories, NJ, archived from the original (gs) on 30 October 2007
  21. ^ Khmelev, Dmitry V.; Teahan, William J. (2003), "A Repetition Based Measure for Verification of Text Collections and for Text Categorization", SIGIR'03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval, ACM, pp. 104–110, CiteSeerX 10.1.1.9.6155, doi:10.1145/860435.860456, ISBN 978-1581136463, S2CID 7316639
  22. ^ Si, Antonio; Leong, Hong Va; Lau, Rynson W. H. (1997), "CHECK: A Document Plagiarism Detection System", SAC '97: Proceedings of the 1997 ACM symposium on Applied computing (PDF), ACM, pp. 70–77, doi:10.1145/331697.335176, ISBN 978-0-89791-850-3, S2CID 15273799
  23. ^ Dreher, Heinz (2007), "Automatic Conceptual Analysis for Plagiarism Detection" (PDF), Information and Beyond: The Journal of Issues in Informing Science and Information Technology, 4: 601–614, doi:10.28945/974
  24. ^ Muhr, Markus; Zechner, Mario; Kern, Roman; Granitzer, Michael (2009), "External and Intrinsic Plagiarism Detection Using Vector Space Models", PAN09 - 3rd Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection (PDF), CEUR Workshop Proceedings, vol. 502, pp. 47–55, ISSN 1613-0073, archived from the original (PDF) on 2 April 2012
  25. ^ Gipp, Bela (2014), Citation-based Plagiarism Detection, Springer Vieweg Research, ISBN 978-3-658-06393-1
  26. ^ a b c d Gipp, Bela; Beel, Jöran (June 2010), "Citation Based Plagiarism Detection - A New Approach to Identifying Plagiarized Work Language Independently", Proceedings of the 21st ACM Conference on Hypertext and Hypermedia (HT'10) (PDF), ACM, pp. 273–274, doi:10.1145/1810617.1810671, ISBN 978-1-4503-0041-4, S2CID 2668037, archived from the original (PDF) on 25 April 2012, retrieved 21 October 2011
  27. ^ Gipp, Bela; Meuschke, Norman; Breitinger, Corinna; Lipinski, Mario; Nürnberger, Andreas (28 July 2013), "Demonstration of Citation Pattern Analysis for Plagiarism Detection", Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval (PDF), ACM, p. 1119, doi:10.1145/2484028.2484214, ISBN 9781450320344, S2CID 2106222
  28. ^ a b Gipp, Bela; Meuschke, Norman (September 2011), "Citation Pattern Matching Algorithms for Citation-based Plagiarism Detection: Greedy Citation Tiling, Citation Chunking and Longest Common Citation Sequence", Proceedings of the 11th ACM Symposium on Document Engineering (DocEng2011) (PDF), ACM, pp. 249–258, doi:10.1145/2034691.2034741, ISBN 978-1-4503-0863-2, S2CID 207190305, archived from the original (PDF) on 25 April 2012, retrieved 7 October 2011
  29. ^ a b Gipp, Bela; Meuschke, Norman; Beel, Jöran (June 2011), "Comparative Evaluation of Text- and Citation-based Plagiarism Detection Approaches using GuttenPlag", Proceedings of 11th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL'11) (PDF), ACM, pp. 255–258, CiteSeerX 10.1.1.736.4865, doi:10.1145/1998076.1998124, ISBN 978-1-4503-0744-4, S2CID 3683238, archived from the original (PDF) on 25 April 2012, retrieved 7 October 2011
  30. ^ Gipp, Bela; Beel, Jöran (July 2009), "Citation Proximity Analysis (CPA) - A new approach for identifying related work based on Co-Citation Analysis", Proceedings of the 12th International Conference on Scientometrics and Informetrics (ISSI'09) (PDF), International Society for Scientometrics and Informetrics, pp. 571–575, ISSN 2175-1935, archived from the original (PDF) on 13 September 2012, retrieved 7 October 2011
  31. ^ Holmes, David I. (1998), "The Evolution of Stylometry in Humanities Scholarship", Literary and Linguistic Computing, 13 (3): 111–117, doi:10.1093/llc/13.3.111
  32. ^ Juola, Patrick (2006), "Authorship Attribution" (PDF), Foundations and Trends in Information Retrieval, 1 (3): 233–334, CiteSeerX 10.1.1.219.1605, doi:10.1561/1500000005, ISSN 1554-0669
  33. ^ a b Stein, Benno; Lipka, Nedim; Prettenhofer, Peter (2011), "Intrinsic Plagiarism Analysis" (PDF), Language Resources and Evaluation, 45 (1): 63–82, doi:10.1007/s10579-010-9115-y, ISSN 1574-020X, S2CID 13426762, archived from the original (PDF) on 2 April 2012, retrieved 7 October 2011
  34. ^ Bensalem, Imene; Rosso, Paolo; Chikhi, Salim (2019). "On the use of character n-grams as the only intrinsic evidence of plagiarism". Language Resources and Evaluation. 53 (3): 363–396. doi:10.1007/s10579-019-09444-w. hdl:10251/159151. S2CID 86630897.
  35. ^ Reimers, Nils; Gurevych, Iryna (2019). "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks". Arxiv.org. arXiv:1908.10084. Archived from the original on 27 November 2019. Retrieved 8 December 2021.
  36. ^ Portal Plagiat - Softwaretest 2004 (in German), HTW University of Applied Sciences Berlin, archived from the original on 25 October 2011, retrieved 6 October 2011
  37. ^ Portal Plagiat - Softwaretest 2008 (in German), HTW University of Applied Sciences Berlin, retrieved 6 October 2011
  38. ^ a b Portal Plagiat - Softwaretest 2010 (in German), HTW University of Applied Sciences Berlin, retrieved 6 October 2011
  39. ^ a b Potthast, Martin; Barrón-Cedeño, Alberto; Eiselt, Andreas; Stein, Benno; Rosso, Paolo (2010), "Overview of the 2nd International Competition on Plagiarism Detection", Notebook Papers of CLEF 2010 LABs and Workshops, 22–23 September, Padua, Italy (PDF), archived from the original (PDF) on 3 April 2012, retrieved 7 October 2011
  40. ^ a b Potthast, Martin; Eiselt, Andreas; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), "Overview of the 3rd International Competition on Plagiarism Detection", Notebook Papers of CLEF 2011 LABs and Workshops, 19–22 September, Amsterdam, Netherlands (PDF), archived from the original (PDF) on 2 April 2012, retrieved 7 October 2011
  41. ^ Potthast, Martin; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), "Cross-Language Plagiarism Detection" (PDF), Language Resources and Evaluation, 45 (1): 45–62, doi:10.1007/s10579-009-9114-z, hdl:10251/37479, ISSN 1574-020X, S2CID 14942239, archived from the original (PDF) on 26 November 2013, retrieved 7 October 2011
  42. ^ Weber-Wulff, Debora (June 2008), "On the Utility of Plagiarism Detection Software", In Proceedings of the 3rd International Plagiarism Conference, Newcastle Upon Tyne (PDF)
  43. ^ "표절 방지탐지 - 소스 코드 표절에 대한 온라인 리소스" 2012년 11월 15일 웨이백 머신에 보관.울스터 대학교 고등 교육 아카데미.
  44. ^ 로이, 찬찰 쿠마르;코디, 제임스 R. (2007년 9월 26일)「소프트웨어 클론 검출 연구 조사」.캐나다 퀸즈 대학의 컴퓨터 학교

문학

  • 캐롤, J. (2002년)고등교육에서 표절을 막기 위한 지침서.옥스퍼드:옥스포드 브룩스 대학의 직원 및 학습 개발 센터.(96 페이지), ISBN 1873576560
  • Zeidman, B. (2011)소프트웨어 IP 탐정 핸드북.프렌티스 홀. (480 페이지), ISBN 0137035330