스타일로메트리
Stylometry다음에 대한 시리즈 일부 |
언어학 |
---|
![]() |
스타일로메트리는 보통 문어에도 언어양식을 응용하는 것이지만, 음악이나[1] 미술작품에도[2] 성공적으로 적용되고 있다.[3] 또 다른 개념화에서는 이를 자신의 저작물에 통계적 분석을 적용하여 작가의 문체를 평가하는 언어적 규율이라고 정의한다.[4]
양식법은 종종 저작권을 익명 또는 논쟁의 여지가 있는 문서에 귀속시키는 데 사용된다.[5] 셰익스피어 작품의 저자 문제부터 법의학 언어학까지 학문적, 문학적 응용뿐 아니라 법률적 응용도 갖추고 있다.
역사
스타일로메트리는 진위여부, 저자 정체성, 그리고 다른 질문들에 대한 증거를 위해 텍스트를 분석하는 이전의 기술에서 발전했다.
그 규율의 현대적 관행은 영국 르네상스 드라마의 저자 문제 연구로부터 명성을 얻었다. 연구자들과 독자들은 그 시대의 몇몇 극작가들이 언어 선호의 독특한 패턴을 가지고 있다는 것을 관찰했고, 그 패턴을 불확실하거나 협력적인 작품의 작가들을 식별하기 위해 사용하려고 시도했다. 초기 노력이 항상 성공적인 것은 아니었다: 1901년, 한 연구자가 존 플레처의 수축형인 'em'을 선호하는 것을 그들의 협력에서 플레처와 필립 매싱어를 구별하기 위한 표식으로 사용하려 했지만, 그는 편집자가 모든 것을 확장시킨 매싱거의 작품 판을 실수로 사용하였다.'[6]그들'에서 '그들' 사이의 왕좌
양식법의 기본은 폴란드 철학자 윈센티 루토스와프스키가 1890년 프린세스 데 스틸로메트리(Principles de stylométrie)에서 확립했다. 루토스와프스키는 플라톤의 대화 연대기를 개발하기 위해 이 방법을 사용했다.[7]
대량의 데이터를 분석하기 위한 컴퓨터 및 컴퓨터의 개발은 이러한 유형의 노력을 크기순으로 향상시켰다. 그러나 데이터 분석을 위한 컴퓨터의 큰 용량은 좋은 품질의 출력을 보장하지 못했다. 1960년대 초 A. Q. Morton 목사는 성경에 기인하는 신약성서의 14개 서면에 대한 컴퓨터 분석을 했다. Paul은 여섯 명의 다른 작가들이 그 작품을 썼다는 것을 암시했다. 제임스 조이스의 작품에 적용된 그의 방법의 검사는 조이스의 다면적이고 다면적인 소설인 율리시스가 다섯 명의 별개의 개인에 의해 작곡되었다는 결과를 주었는데, 그들 중 아무도 조이스의 첫 번째 소설인 "젊은 사람으로서의 예술가의 초상"을 제작하는데 관여하지 않은 것으로 보인다.[8]
하지만, 시간이 지나고, 그리고 실천과 함께, 연구자들과 학자들은 더 나은 결과를 내기 위해 그들의 방법을 다듬었다. 한 가지 주목할 만한 초기 성공은 프레데릭 모스텔러와 데이비드 월리스가 <연방주의자 논문> 12편의 저자 논쟁의 해결이었다.[9] 초기 가정과 방법에 관한 질문들이 여전히 남아 있지만(그리고 아마도, 항상 그럴 것이다), 이제는 쓰여진 텍스트의 언어 분석이 귀중한 정보와 통찰력을 산출할 수 있다는 기본적인 전제에 이의를 제기하는 사람은 거의 없다.(사실, 이것은 컴퓨터가 등장하기 전부터 명백했다: 텍스트/언어적 항문의 성공적인 적용.1950년대 후반과 1960년대 초 사이러스 호이 등에 의한 플레처 캐논에 대한 ysis는 명확한 결과를 낳았다.)
적용들
양식법의 적용에는 문학 연구, 역사 연구, 사회 연구, 그리고 많은 법의학적 사례와 연구가 포함된다.[10][11] 컴퓨터 코드나[12] 본질적인 표절 검출에도 적용할 수 있는데, 이는 문서 내의 작문 스타일 변화에 따라 표절을 검출하는 것이다.[13] 스타일로메트리는 또한 타이핑 속도를 통해 누군가가 원어민인지 아니면 원어민이 아닌지를 예측하는 데 사용될 수 있다.[14]
수법으로서의 스타일로메트리는 수정 시 텍스트 왜곡에 취약하다.[15] 필자가 소크라테스 문제를 다루기 위해 초·중간 대화를 위해 채택된 정책 등 서로 다른 스타일 정책을 선택한 플라톤의 사례에서 보듯 경력 과정에서 다른 스타일을 채택한 사례도 있다.[16]
현재 연구
현대의 양식법은 통계적 분석과 인공지능을 위해 컴퓨터를 사용하고, 인터넷을 통해 이용 가능한 텍스트의 증가된 말뭉치에 접근한다.[17] Signature[18](무료인 피터 Millican 옥스포드 대학의에 의해 생산된), JGAAP[19](는 자바 그래픽 Authorship 저작자 표시 Program—freeware 패트릭 바이트 박사 Juola 듀케인 대학교의에 의해 생산된),stylometric 분석 다양한 저자 귀인을 포함한 stylo[20][21](오픈 소스 R패키지와 같은 소프트웨어 시스템. 개발했다에스파냐 Maciej과 에델과, 얀 리비키와 마이크 케스테몬트)와 네덜란드어용 스틸렌[22](앤트워프 대학의 월터 대레만스 교수와 겐트 대학의 베로니크 호스테 박사가 온라인 프리웨어로 사용함)은 비전문가에게도 더욱 실용적으로 사용할 수 있게 한다.
학술 장소 및 행사
기압법은 주로 기계학습, 자연어 처리, 사전편찬과 같이 여러 학문적 주제에 사용된다.
법의학 언어학
국제과학언어학회(IAFL)는 국제과학언어학회 격년회의(2016년 포토 13판)를 조직하고 법의학 전문지 중 하나로 국제언어법학저널을 발행한다.
AAAI
인공지능 선진화협회(AAAI)는 주관적이고 양식적인 텍스트 분석에 관한 여러 행사를 주최했다.[23][24][25]
팬
PAN 워크샵(원래, 표절 분석, 저자식 확인 및 중복에 가까운 검출, 나중에 표절, 저자식 및 소셜 소프트웨어 오용 적발에 관한 보다 일반적인 워크샵)은 주로 ACM SIGIR, Fire, CLEF와 같은 정보 액세스 컨퍼런스와 관련하여 2007년부터 조직되었다. PAN은 표절 탐지,[26] 저자식별,[27] 저자식별,[28] 저자 프로파일링,[29] 반달리즘 탐지 및 [30]기타 관련 텍스트 분석 작업에 대한 공유 도전 과제를 작성하는데, 이러한 과제들 중 많은 부분이 스타일리시에 달려 있다.
관심 사례 연구
- 1439년 로렌초 발라는 콘스탄티누스의 기부가 위조품이라는 것을 보여주었는데, 이 주장은 부분적으로 라틴어와 4세기 정통 문서에 사용된 것을 비교한 것에 근거한 것이다.
- 1952년 스웨덴 신부 딕 헬랜더가 스트렝게스의 주교로 선출되었다. 이 캠페인은 경쟁이 치열했고 헬란데르는 스트렝게스의 주교 유권자들에게 다른 후보들에 대한 익명의 명예훼손 편지를 연속적으로 쓴 혐의로 기소되었다. Helander는 처음에 그 편지들을 쓴 것으로 유죄판결을 받았고 주교직을 잃었지만 나중에 부분적으로 무죄를 선고받았다. 이 편지들은 여러 가지 기압계(그리고 타자기의 특성도 포함)를 사용하여 연구되었으며, 1978년 헬랜더 자신이 사망할 때까지 수년간 계약한 다양한 법정 사례와 추가 검사들은 기압법과 증거로서의 가치를 상세히 논했다.[31][32]
- 1975년, 로널드 레이건이 캘리포니아 주지사로 근무한 후, 그는 수백 개의 방송국에 매주 라디오 논평 신디케이트를 주기 시작했다. 2001년 그의 90번째 생일에 그의 개인적인 노트가 공개된 후, 한 연구는 어떤 이야기가 그가 썼는지 그리고 어떤 것이 다양한 보좌관들이 썼는지 결정하기 위해 스타일리스트적인 방법을 사용했다.[33]
- 1996년 도날드 포스터[34] 바사르 칼리지 교수가 행한 '원색'이라는 논란의 여지가 있는 필적 분석은 저자를 조 클라인으로 정확하게 파악한 후 더 많은 청중에게 화제를 불러일으켰다.(이 사건은 필적 분석으로 필적 분석으로 저자가 확인된 후에야 해결되었다.)
- 1996년에는 유나섬버 선언문을 용의자 중 한 명인 테오도르 카친스키가 쓴 글자와 비교하기 위해 기압법을 사용하였고, 이로 인해 테오도르의 불안감이 생기고 나중에 유죄판결을 받게 되었다.[35]
- 2015년 4월, 스타일리시 기법을 사용한 연구원들은 연극 '더블 허위'를 윌리엄 셰익스피어의 작품으로 확인했다.[36] 연구원들은 셰익스피어와 존 플레처의 54개의 희곡을 분석하고, 평균 문장 길이를 비교하고, 특이한 단어의 사용을 연구했으며, 언어의 복잡성과 심리적 용기를 계량화했다.
- 2016년 맥도날드 P. 뉴질랜드 오클랜드 대학의 영어 명예교수 겸 뉴질랜드 왕립학회의 펠로우인 잭슨은 "크리스마스 전날 밤"이라는 책을 썼다. Clement Clarke Moore Vs 분석. Henry Livingston 질문(Henry Livingston 질문[20])은 반대되는 주장을 평가하고, 처음으로, 오랜 논쟁을 검토하기 위해 현대 계산 스타일리틱스의 저자-주의 기법을 사용한다. Jackson은 다양한 시험들을 채택하고 새로운 시험인 음운에 대한 통계 분석을 소개한다; 그는 Livingston이 고전 작품의 진정한 작가라고 결론짓는다.
- 사이먼 풀러와 제임스 오설리반은 2017년 베스트셀러 작가 제임스 패터슨이 명백한 공저 소설에서 글을 쓰지 않는다는 연구결과를 발표했다.[37][38][39] 오설리반에 따르면 빌 클린턴 전 미국 대통령과의 공동작업인 '대통령이 실종됐다'는 것은 이 규칙의 예외다.[40]
- 2017년에는 언어학자, 컴퓨터 과학자, 학자들이 엘레나 페란트의 저자를 분석했다. 이들은 파두아 대학에서 40명의 작가가 쓴 150편의 소설을 수록한 말뭉치를 바탕으로 페란테의 소설 7편을 토대로 페란테의 스타일을 분석했다. 그들은 예를 들어 스타일로를 사용하는 39명의 다른 소설가들과 그녀의 작문 스타일을 비교할 수 있었다.[20] 결론은 모두 같았다. 도메니코 스타노네는 엘레나 페란테의 비밀 작가다.[41]
- In 2018, Mark Glickman, a senior lecturer in statistics at Harvard University, worked with Ryan Song, a former statistics student at Harvard, and Jason Brown, a professor at Dalhousie University in Nova Scotia, applying stylometry to find that, most likely, The Beatles' song "In My Life" was composed by John Lennon, but with a 50% chance that Paul 매카트니는 중간 8개를 썼다.[42]
- 2019년 ETSO 프로젝트: 알바로 쿠엘라르 곤살레스 감독이 연출한 스페인 골든에이지 극장에 적용된 스타일로메트리는 스페인 골든에이지 1200여 편의 연극을 간신히 모았다. stylometrical 분석 바른 후에, Mujeres의 귀인 로페 드 Vega[43][44]에 criados고 저자 문제 라 monja에 alférez, 이러한 분석과 언어학 역사적 연구를 통해, 덕분에 결국 후안 루이스 데 알라르콘에 기인한 연극 페레스 드 몬탈반에서 기인한 것이 발견된 비준되었다 y.[45][46][47][48]
- 2020년에 레이첼 매카시와 제임스 오설리반은 에밀리 브론테가 우더링 하이츠의 진정한 작가라고 주장하면서, 이 소설이 특히 브랜웰이나 샬롯 중 한 형제에 의해 쓰여졌을 것이라는 일부 비평가들의 추측을 종식시켰다.[49]
- 2020년 하르트무트 일세만은 R 스티로 프로그램 스위트에서 롤링 델타(Rolling Delta)와 롤링 분류(Rolling Classification)를 사용하여 말로우스가 스타일리시하게 비균형이며, 두 탐버라이인의 작가가 말로우의[50] 나머지 공식 말뭉치에는 거의 존재하지 않는다는 것을 보여주었다.[51]
데이터 및 방법
양식법은 서술적 사용 사례와 식별적 사용 사례(예: 저자나 텍스트의 범주 식별)를 모두 포함하므로, 항목을 세트로 분류하거나 형상 변동의 공간에서 항목을 배포하기 위해 구축된 데이터 및 형상을 분석하는 데 사용되는 방법. 대부분의 방법은 클러스터 분석, 판별 분석과 같이 본질적으로 통계적이며, 전형적으로 언어학적 데이터와 특징을 기반으로 하며, 현대 기계 학습 방법에 대한 유익한 응용 영역이다.
과거에는 문자에서 가장 희귀하거나 가장 현저한 요소를 강조했던 반면에, 현대 기법은 심지어 언어의 공통적인 부분에서도 패턴을 식별하는 것을 분리할 수 있다. 대부분의 시스템은 어휘 통계에 기초한다. 즉, 텍스트의 단어와 용어의 빈도를 사용하여 텍스트(또는 그 작성자)의 특성을 나타낸다. 이러한 맥락에서 정보 검색과 달리 가장 흔한 단어의 관찰된 발생 패턴은 빈도가 적은 주제 용어보다 더 흥미롭다.[52][53]
일차적 기압법은 필자의 불변성, 즉 주어진 저자에 의해 통계적으로 유의미한 결과를 산출하는 분석을 인정할 수 있을 정도로 긴 모든 본문에 의해 공통적으로 보유되는 재산이다. 작가 불변성의 예로는 작가가 사용하는 함수어의 빈도가 있다.
그러한 방법 중 하나로, 본문은 가장 흔한 50개의 단어를 찾기 위해 분석된다. 그 다음 본문은 5,000단어 덩어리로 나뉘고 각각의 덩어리를 분석하여 그 덩어리 안에 있는 50단어의 빈도를 찾아낸다. 이렇게 하면 각 청크에 대해 고유한 50자리 식별자가 생성된다. 이 숫자들은 각 텍스트 덩어리를 50차원 공간의 한 점에 배치한다. 이 50차원 공간은 주성분 분석(PCA)을 사용하여 평면으로 납작하게 만든다. 이것은 작가의 문체에 해당하는 점들을 표시하는 결과를 낳는다. 만약 두 문학작품이 같은 평면에 놓여진다면, 두 작품 모두 같은 작가인지 다른 작가인지에 의한 것인지에 대한 결과적 패턴이 나타날 수 있다.
1. 가우스 통계
기압 데이터는 Zipf-Mandelbrot 법에 따라 배포된다. 이 분포는 극도로 뾰족하고 렙토쿠르틱하며, 이는 연구자들이 통계를 사용하여 예를 들어, 저자 귀속 문제를 해결할 수 없었던 이유였다. 그럼에도 불구하고 가우스 통계 활용은 데이터 변환을 적용함으로써 완벽하게 가능하다.[54]
2. 신경망
통계적 기계학습법의 특수한 사례인 신경망은 지문의 저자를 분석하는 데 이용되어 왔다. 교육 오차를 계산해 이를 갱신해 정확도를 높이는 데 사용하는 등 백프로파그먼트 등의 공정에 의해 신경망을 양성하는 데 미지의 저자의 지문이 사용된다. 비선형 회귀 분석과 유사한 과정을 통해, 네트워크는 인식 능력을 아직 노출되지 않은 새로운 지문에 일반화할 수 있는 능력을 얻으며, 이를 명시한 신뢰도로 분류한다. 이러한 기술은 셰익스피어가 동시대인 플레처, 크리스토퍼 말로와 오랫동안 함께 작업했다는 주장에 적용되었고,[55][56] 더 많은 전통적인 학문에 근거하여 그러한 협력이 실제로 일어났다는 의견을 확인했다.
1999년의 한 연구는 신경망 프로그램이 아직 분석하지 않은 시의 저자를 결정하는 데 있어 70%의 정확도에 도달했다는 것을 보여주었다. Vrije Universityit의 이 연구는 "den"[57]과 같은 문자 순서만을 사용하여 세 명의 네덜란드 작가들의 시를 식별하는 것을 검토했다.
지속적인 인증(CA)에 적용 가능한 저자확인 모델에 심층신뢰망(DBN)을 이용한 연구결과가 나왔다.[58]
이러한 분석 방법의 한 가지 문제는 네트워크가 그것의 훈련 세트에 따라 편향될 수 있다는 것이며, 아마도 네트워크가 더 자주 분석했던 저자를 선정할 가능성이 있다.[57]
3. 유전 알고리즘
유전알고리즘은 스타일측정법에 사용되는 또 다른 기계학습 기법이다. 이것은 일련의 규칙으로 시작하는 방법을 포함한다. 예를 들어, "만약 1,000 단어마다 1.7배 이상 나타난다면, 그 텍스트는 저자 X"가 될 수 있다. 그 프로그램은 텍스트로 제시되고 그 규칙을 사용하여 작가를 결정한다. 이 규칙들은 알려진 일련의 텍스트에 대해 테스트되고 각 규칙에는 피트니스 점수가 주어진다. 점수가 가장 낮은 50개의 규칙은 사용되지 않는다. 나머지 50개 규칙에는 작은 변화가 주어지고 50개의 새로운 규칙이 도입된다. 이것은 진화된 규칙이 본문을 정확하게 귀속시킬 때까지 반복된다.
4. 희귀한 쌍
스타일을 식별하는 한 가지 방법은 "레이어 페어"라고 불리며, 개별적인 정렬 습관에 의존한다. 특정 작가의 경우 특정 단어의 사용은 예측 가능한 다른 단어의 사용과 특이하게 연관될 수 있다.
인스턴트 메시징의 작성 권한 부여
인터넷의 보급은 저작자 귀속 주의를 온라인 텍스트(웹 페이지, 블로그 등) 전자 메시지(이메일, 트윗, 게시물 등)와 다른 유형의 서면 정보로 이동시켰으며, 일반적인 책보다 훨씬 짧고, 색상, 레이아웃, f와 같은 표현적 요소 측면에서 훨씬 더 다양하다.온트, 그래픽, 이모티콘 등 구조와 구문 모두의 수준에서 그러한 측면을 고려하려는 노력이 보고되었다.[59] 또한, 의도적인 양식적 선택을 공개하기 위해 내용별 및 특유한 단서(예: 주제 모델 및 문법 검사 도구)가 도입되었다.[60]
채팅 내용을 인스턴트 메시징이나 [61]참가자의 행동에 의해 분류하기 위해 표준적인 기압적 기능이 채택되었지만,[62] 채팅 참여자를 식별하려는 시도는 여전히 드물고 시기상조다. 게다가, 대화와 채팅 상호작용의 유사성은 채팅 데이터와 다른 유형의 서면 정보 사이의 주요한 차이점이 되면서도 무시되어 왔다.
참고 항목
메모들
- ^ Westcott, Richard (15 June 2006). "Making hit music into a science". BBC News.
- ^ "Internet Archive Wayback Machine". 2006-06-30. Archived from the original on June 30, 2006. Retrieved 2012-10-15. Cite는 일반 제목(도움말)을 사용한다.
- ^ 아르가몬, 슐로모, 케빈 번즈, 슐로모 두브노프, 에드스. 스타일의 구조: 알고리즘은 매너와 의미를 이해하는데 접근한다. 스프링거 사이언스 & 비즈니스 미디어, 2010.
- ^ Yang, Christopher C.; Chen, Hsinchun; Chau, Michael; Chang, Kuiyu; Lang, Sheau-Dong; Chen, Patrick; Carley, Kathleen M.; Hsieh, Raymond; Zeng, Daniel (2008). Intelligence and Security Informatics: IEEE ISI 2008 International Workshops: PAISI, PACCF and SOCO 2008, Taipei, Taiwan, June 17, 2008, Proceedings. Berlin: Springer Science & Business Media. p. 252. ISBN 9783540691365.
- ^ Chen, Hsinchun; Yang, Christopher C.; Chau, Michael; Li, Shu-Hsing (2009). Intelligence and Security Informatics: Pacific Asia Workshop, PAISI 2009, Bangkok, Thailand, April 27, 2009. Proceedings. Berlin: Springer Science & Business Media. p. 15. ISBN 9783642013928.
- ^ 새뮤얼 쇤바움, 내적 증거와 엘리자베스시대의 극작 저자; 문학사와 방법에 관한 에세이, 페이지 171.
- ^ Lutoslawski, W. (1898). "Principes de stylométrie appliqués à la chronologie des œuvres de Platon". Revue des Études Grecques. 11 (41): 61–81. doi:10.3406/reg.1898.5847. ISSN 0035-2039.
- ^ 새뮤얼 쇤바움, 내적 증거와 엘리자베스시대의 극작 저자; 문학사와 방법에 관한 에세이 196쪽.
- ^ F. Mosteller & D. Wallace (1964). Inference and Disputed Authorship: The Federalist. Reading, MA: Addison-Wesley.
- ^ Chaski, Carole (2012). Solan, Lawrence M; Tiersma, Peter M (eds.). Author Identification in the Forensic Setting. The Oxford Handbook of Language and Law. Oxford University Press. doi:10.1093/oxfordhb/9780199572120.001.0001. ISBN 9780199572120.
- ^ Chaski, Carole (22 December 2005). Wecht, Cyril H.; Rago, John T. (eds.). Forensic Science and Law: Investigative Applications in Criminal, Civil and Family Justice. CRC Press. ISBN 978-1-4200-5811-6.
- ^ Claburn, Thomas (March 16, 2018). "FYI: AI tools can unmask anonymous coders from their binary executables". The Register. Retrieved August 2, 2018.
- ^ Bensalem, Imene; Rosso, Paolo; Chikhi, Salim (2019). "On the use of character n-grams as the only intrinsic evidence of plagiarism". Language Resources and Evaluation. 53 (3): 363–396. doi:10.1007/s10579-019-09444-w. hdl:10251/159151. S2CID 86630897.
- ^ Brizan, David (October 2015). "Utilizing linguistically enhanced keystroke dynamics to predict typist cognition and demographics". International Journal of Human-Computer Studies. 82: 57–68. doi:10.1016/j.ijhcs.2015.04.005.
- ^ Alican, Necip Fikri (2012). Rethinking Plato: A Cartesian Quest for the Real Plato. Amsterdam: Rodopi. p. 183. ISBN 9789042035379.
- ^ Rowe, Christopher (2000). The Cambridge History of Greek and Roman Political Thought. Cambridge, UK: Cambridge University Press. p. 160. ISBN 0521481368.
- ^ 아르가몬, 슐로모, 주스시 칼그렌, 제임스 G. 섀너핸. 정보 액세스를 위한 텍스트 스타일 분석. 2005년 8월 13~19일 브라질 살바도르 바이아에서 열린 제28회 정보 검색 연구 및 개발에 관한 국제 ACM 컨퍼런스와 연계한 워크숍의 논문. 스웨덴 컴퓨터 과학 연구소, 2005.
- ^ "The Signature Stylometric System". PhiloComp. Retrieved 2014-01-03.
- ^ "JGAAP". JGAAP. 2012-09-04. Retrieved 2012-10-15.
- ^ a b "The stylo for R package". Computational Stylistics Group. 2014-10-24. Retrieved 2014-10-24.
- ^ Eder, Maciej; Rybicki, Jan; Kestemont, Mike (2016). "Stylometry with R: a package for computational text analysis" (PDF). R Journal. 8 (1): 107–121. doi:10.32614/RJ-2016-007.
- ^ Daelemans, Walter & Hoste, Véronique (2013). STYLENE: an Environment for Stylometry and Readability Research for Dutch (Technical report). CLiPS Technical Report Series. ISSN 2033-3544.
- ^ 옌취, 제임스 섀너핸, 재니스 위베. "문자로 탐구하는 태도와 영향: 이론과 응용." AAAI 봄 심포지엄 기술 보고서 SS-04-07 2004년 캘리포니아 멘로파크 AAAI 프레스.
- ^ Jussi Karlgren, Björn Gambeck, Pentti Kanerva. "정보 액세스를 위한 언어(및 세계) 지식 획득(및 사용)"(2002년). AAAI 봄 심포지엄. 기술 보고서 SS-02-09 2002년 캘리포니아 멘로파크 AAAI 프레스.
- ^ 슐로모 아르가몬, 슐로모 더블노브, 줄리 쥬프. 「언어·예술·음악·디자인에 있어서의 스타일과 의미」(2004). AAAI 가을 심포지엄. 기술 보고서 FS-04-07
- ^ 포타스트, 마틴, 벤노 스타인, 알베르토 바론-세데뇨, 파올로 로소. "표절 검출에 대한 평가 틀" 제23회 컴퓨터언어학 국제회의의 절차서: 포스터, 페이지 997–1005. 컴퓨터 언어학 협회, 2010.
- ^ 스타마토스, 에프스타디오스, 월터 대레만스, 벤 베르호벤, 패트릭 쥬올라, 오렐리오 로페스 로페스 로페스, 마틴 포타스트, 벤노 스타인. "PAN 2014의 저자식별 과제 개요" CLEF (Working Note)에서 2014 페이지 877–897.
- ^ 랑젤, 프란시스코, 파올로 로소, 마틴 포타스트, 벤노 스타인. "팬 2017년 제5기 저자 프로파일링 과제 개요 : 트위터에서 성별과 언어의 다양성 식별" CLEF의 작업 노트(2017).
- ^ 랑젤 파르도, 프란시스코 마누엘리, 파비오 셀리, 파올로 로소, 마틴 포타스트, 벤노 스타인, 월터 대일먼스. "PAN 2015에서 제3차 저자 프로파일링 작업 개요" CLEF 2015 평가 실험실 및 작업장 작업 노트 논문, 페이지 1-8.
- ^ 포타스트, 마틴, 벤노 스타인, 테레사 홀펠드. "제1회 위키백과 반달리즘 탐지에 관한 국제대회 개요." CLEF(Notebook Paper/LABs/Workshops). 2010.
- ^ 텍스트 처리 텍스트 분석 및 생성 – 텍스트 유형 및 속성 Sture Allén 스톡홀름의 노벨 심포지엄 51 / Ed. 의 진행 : Almqvist & Wiksell international 1982 653 ppp. 데이터 언어학, 16개의 노벨 심포지엄, 51개의 ISBN 91-22-00594-3
- ^ Karlgren, Jussi (2003). "Helander: An Authorship Attribution Case". Retrieved 4 October 2017.
- ^ Edoardo M. Airoldi; Stephen E. Fienberg; Kiron K. Skinner (July 2007). "Whose Ideas? Whose Words? Authorship of Ronald Reagan's Radio Addresses" (PDF). PS: Political Science & Politics. 40 (3): 501–506. CiteSeerX 10.1.1.190.5798. doi:10.1017/S1049096507070874.
- ^ 2000년 11월 2일 개빈 맥넷 살롱의 작가 무명
- ^ Belluck, Pam (April 10, 1996). "In Unabom Case, Pain for Suspect's Family". The New York Times. Archived from the original on August 10, 2017. Retrieved July 5, 2008.
- ^ "Study finds a disputed Shakespeare play bears the master's mark". LATimes.com. 2015-04-10. Retrieved 2015-04-13.
- ^ Fuller, Simon; O'Sullivan, James (2017). "Structure over Style: Collaborative Authorship and the Revival of Literary Capitalism". Digital Humanities Quarterly. 011 (1). Retrieved April 20, 2017.
- ^ Lane, Anthony (June 18, 2018). "Bill Clinton and James Patterson's Concussive Collaboration". The New Yorker. Retrieved 2018-06-07.
- ^ "Why you don't need to write much to be the world's bestselling author". The Conversation. April 3, 2017. Retrieved April 20, 2017.
- ^ O'Sullivan, James (2018-06-07). "Bill Clinton and James Patterson are co-authors – but who did the writing?". The Guardian. Retrieved 2018-06-07.
- ^ 자크 사보이 엘레나 페란테가 마스킹을 풀었다. https://www.researchgate.net/publication/320131096_Elena_Ferrante_Unmasked
- ^ 피터 루엘 "네가 존이라고 하면, 내가 폴이라고 말한다. 그런데 스타일로메트리가 뭐라고 하지?" https://news.harvard.edu/gazette/story/2018/09/harvard-statistician-examines-beatles-mystery/
- ^ "Un monstruo de la naturaleza llamado Lope". abc (in Spanish). 2018-11-28. Retrieved 2019-08-11.
- ^ "Rastreadores digitales en el Siglo de Oro". El Norte de Castilla (in Spanish). 2018-12-23. Retrieved 2019-08-11.
- ^ Real, La Tribuna de Ciudad (2019-07-09). "Juan Ruiz de Alarcón aumenta su obra cinco siglos después". La Tribuna de Ciudad Real (in Spanish). Retrieved 2019-08-11.
- ^ Chamberí, PSOE. "PSOE PSOE Chamberí chamberí suplemento cultural domingo, 28 de julio 2019 número 06 Daniel Migueláñez Pág nº 08 El Holmes de la filología". Retrieved 2019-08-11.
- ^ "Sor Juana Inés centró las 42 Jornadas de Teatro Clásico". Lanza Digital (in Spanish). 2019-07-14. Retrieved 2019-08-11.
- ^ "'La monja alférez' ya no es de Pérez de Montalbán, sino de Ruiz de Alarcón". El Norte de Castilla (in Spanish). 2019-07-10. Retrieved 2019-08-11.
- ^ McCarthy, Rachel; O'Sullivan, James (2020). "Who wrote Wuthering Heights?". Digital Scholarship in the Humanities. doi:10.1093/llc/fqaa031.
- ^ Phantom Marlowe: Paradigmenwechel in Autorschaftsvestimungen des Englischen Renaissiasedramas, Düren:쉐이커,2020 ISBN 978-3-8440-7412-3
- ^ "The Marlowe Corpus 재방문", 인문학 디지털 장학금, 어드밴스 출판물 26.04.2020,1-28
- ^ 비버, 더글라스 말하기와 쓰기에 걸친 변화. 케임브리지 대학 출판부, 1991.
- ^ Karlgren, Jussi; Cutting, Douglass (1994). "Recognizing Text Genres with Simple Metrics Using Discriminant Analysis". Proceedings of the International Conference on Computational Linguistics. 2: 1071. arXiv:cmp-lg/9410008. Bibcode:1994cmp.lg...10008K. doi:10.3115/991250.991324. S2CID 1297432.
- ^ Van Droogenbroeck F.J, '가우스 통계에 의한 저자 귀속 적용을 해결하기 위한 Zipf-Mandelbrot 법률의 필수적 대체' (2019) [1]
- ^ [2] Stylometry I: 셰익스피어와 플레처 매튜스 RAJ & 메리암 tvN Little Languageist Computing (1993) 8 (4): 203–209.doi: 10.1093/llc/8.4.203
- ^ [3]스타일로메트리 II: 셰익스피어와 말로우 메리암 tvN & Matthews RAJ Little Languageist Computing(1994) 9(1) : 1–6
- ^ a b JF HoornZ; SL Frank; W Kowalczyk; F van der Ham (2012-09-03). "Neural network identification of poets using letter sequences". Literary and Linguistic Computing. 14 (3): 311–338. doi:10.1093/llc/14.3.311.
- ^ Brocardo, ML; Traore, I; Woungang, I; Obaidat, MS (2017). "Authorship verification using deep belief network systems". Int J Commun Syst. 30 (12): e3259. doi:10.1002/dac.3259.
- ^ de Vel, O.; Anderson, A.; Corney, M.; Mohay, G. (2001-12-01). "Mining e-Mail Content for Author Identification Forensics". SIGMOD Rec. 30 (4): 55–64. CiteSeerX 10.1.1.408.4231. doi:10.1145/604264.604272. ISSN 0163-5808. S2CID 1623521.
- ^ Argamon, Shlomo; Koppel, Moshe; Pennebaker, James W.; Schler, Jonathan (2009-02-01). "Automatically Profiling the Author of an Anonymous Text". Commun. ACM. 52 (2): 119–123. CiteSeerX 10.1.1.136.9952. doi:10.1145/1461928.1461959. ISSN 0001-0782. S2CID 5413411.
- ^ "Classification of Instant Messaging Communications for Forensics Analysis – TechRepublic". TechRepublic. Retrieved 2016-01-26.
- ^ Zhou, L.; Zhang, Dongsong (2004-01-01). Can online behavior unveil deceivers? – an exploratory investigation of deception in instant messaging. Proceedings of the 37th Annual Hawaii International Conference on System Sciences, 2004. pp. 9 pp.–. doi:10.1109/HICSS.2004.1265079. ISBN 978-0-7695-2056-8. S2CID 7154702.
참조
- Brocardo, Marcelo Luiz; Issa Traore; Sherif Saad; Isaac Woungang (2013). Authorship Verification for Short Messages Using Stylometry. IEEE Intl. Conference on Computer, Information and Telecommunication Systems (CITS). doi:10.1109/CITS.2013.6705711.
- Can F, Patton JM (2004). "Change of writing style with time". Computers and the Humanities. 38 (1): 61–82. CiteSeerX 10.1.1.1.8850. doi:10.1023/b:chum.0000009225.28847.77. S2CID 38242388.
- Brennan, Michael Robert; Greenstadt, Rachel. "Practical Attacks Against Authorship Recognition Techniques". Innovative Applications of Artificial Intelligence.
- Hope, Jonathan (1994). The Authorship of Shakespeare's Plays. Cambridge: Cambridge University Press.
- Hoy C (1956–62). "The Shares of Fletcher and His Collaborators in the Beaumont and Fletcher Canon". Studies in Bibliography. 7–15.
- Juola, Patrick (2006). "Authorship Attribution" (PDF). Foundations and Trends in Information Retrieval. 1 (3): 3. CiteSeerX 10.1.1.219.1605. doi:10.1561/1500000005.
- Kenny, Anthony (1982). The Computation of Style: An Introduction to Statistics for Students of Literature and Humanities. Oxford: Pergamon Press.
- Romaine, Suzanne (1982). Socio-Historical Linguistics. Cambridge: Cambridge University Press.
- Samuels, M. L. (1972). Linguistic Evolution: With Special Reference to English. Cambridge: Cambridge University Press.
- Schoenbaum, Samuel (1966). Internal Evidence and Elizabethan Dramatic Authorship: An Essay in Literary History and Method. Evanston, IL, USA: Northwestern University Press.
- 반 드로겐브룩, 프란스 J. (2016) "전산화된 Authority 귀속에서 Zipf 배포 처리"
- 반 드로겐브룩, 프란스 J(2019) "가우스 통계에 의한 저자 귀속 적용을 해결하기 위한 Zipf-Mandelbrot 법률의 필수적 대체"
- Zenkov A.V. (2017) "숫자 통계에 기초한 문자 귀속 방법", 정량언어학 저널
추가 읽기
학술지 문어 및 언어 컴퓨팅(옥스퍼드 대학교에서 발행)과 언어 자원 및 평가 저널을 참조하십시오.