작성자 프로파일링

Author profiling
PSM V37 D594 토마스 코윈 멘덴홀

저자 프로파일링은 문체적, 내용적 특징을 바탕으로 저자의 다양한 특성을 파악하거나 저자를 가려내기 위해 주어진 텍스트 세트를 분석하는 것이다. 분석된 특성은 일반적으로 나이성별을 포함하지만, 보다 최근의 연구에서는 성격 특성이나 직업과 같은 다른 특성을 살펴보았다.

저자 프로파일링은 AAI(Automatic Authority Identification)의 3대 분야 중 하나로, 나머지 두 분야는 Authority 귀속과 Authority Identification이다. AI의 과정은 19세기 말에 나타났다. 미국의 오토다이드 물리학자 겸 기상학자 토머스 코윈 멘덴홀프랜시스 베이컨, 윌리엄 셰익스피어, 크리스토퍼 말로우의 작품에 이 과정을 처음으로 적용했다. 이 세 역사적 인물 중에서 멘덴홀은 단어 길이를 조사함으로써 그들의 양적 양식적 차이를 밝혀내려고 했다.[2]

비록 21세기에 많은 진전이 있었지만, 작가 프로파일링의 과제는 그 어려움 때문에 해결되지 않은 문제로 남아 있다.

기술

텍스트 분석을 통해 다양한 저자 프로파일링 기법을 적용해 저자에 대한 정보를 예측할 수 있다. 예를 들어, 기능 단어와 언어의 부분 분석을 참조할 수 있어 저자의 성별과 텍스트의 진리를 결정할 수 있다.[3]

작성자 프로파일링 과정에는 대개 다음 단계가 포함된다.[4]

  1. 텍스트에서 추출할 특정 기능 식별
  2. 대상 프로파일에 대해 채택된 표준 표현(예: Bag-of-Words 모델) 구축
  3. 대상 프로필에 대한 표준 분류자(예: 지원 벡터 머신)를 사용하여 분류 모델 구축

저자 프로파일링을 위한 머신러닝 알고리즘은 시간이 지나면서 점점 더 복잡해졌다. 작성자 프로파일링에 사용되는 알고리즘은 다음과 같다.

과거에 작가 프로파일링은 종종 이나 신문 기사의 형태로 물리적 문서에 한정되었다. 저자에 속하는 텍스트 속성의 다른 조합을 어휘적 특징과 구문학적 특징을 포함하여 저자의 프로파일링을 사용하여 식별하고 분석하였다.[4] 작가 프로파일링의 선구적인 연구는 소셜 미디어인터넷 상에서 작가 프로파일링으로 전환되기 전까지 대부분 단일 장르에 초점을 맞췄다.[9] 콘텐츠 워드POS 태그와 같은 속성은 물리적 문서에 대한 작성자 프로파일 예측에 효과적이지만, 디지털 텍스트에 대한 작성자 프로파일 예측의 효과는 주관적이고 분석되는 온라인 콘텐츠의 유형에 따라 달라진다.[4]

기술의 진보로, 인터넷에서 작가 프로파일링은 점점 더 흔해졌다. 소셜 미디어 포스트, 블로그 포스트, 이메일 등 디지털 텍스트가 현재 사용되고 있다.[4] 이것은 디지털 텍스트를 분석하는 것이 마케팅사업과 같은 분야에 가져올 수 있는 이점 때문에 더 많은 연구 노력을 촉발시켰다.[8] 디지털 텍스트에 대한 저자 프로파일링은 또한 성격,[8] 소득, 직업과 같은 광범위한 작가 특성에 대한 예측을 가능하게 했다.[10]

디지털 텍스트에 대한 작성자 프로파일링을 위한 가장 효과적인 속성은 양식적 특성과 내용적 특성의 결합을 포함한다.[4] 디지털 텍스트에 대한 작성자 프로파일링은 좋은 결과를 위해 상대적으로 유사해야 하지만, 한 장르를 교육 데이터에 사용하고 다른 장르를 데이터 테스트에 사용하는 교차 제네릭 작성자 프로파일링에 초점을 맞추고 있다.[9]

온라인 텍스트에서 작성자 프로파일링 기법을 수행할 때 몇 가지 문제가[4] 있다. 이러한 문제에는 다음이 포함된다.

  • 사용된 텍스트의 길이 차이가 큼
  • 데이터의 클래스 불균형

작성자 프로파일링 및 인터넷

소셜 미디어 플랫폼, 이메일, 블로그 등 웹에서 데이터를 채굴할 수 있기 때문에 20~21세기 인터넷의 상승은 작가 프로파일링 연구의 증가를 가속화시켰다. 웹의 내용은 웹 사용자의 연령, 성별, 지리적 기원, 국적 및 심리학적 특성을 식별하기 위한 저자 프로파일링 작업에서 분석되었다. 입수한 정보는 마케팅포렌식 등 다양한 어플리케이션에 이용되어 왔다.

소셜 미디어

사람들의 일상 생활에서 소셜 미디어의 통합이 증가함에 따라, 그들은 작가 프로파일링을 위한 텍스트 데이터의 풍부한 원천이 되었다. 주로 사용자들이 자기표현, 사회화, 개인사업 등 다양한 목적으로 콘텐츠를 업로드하고 공유하기 때문이다. 소셜 봇은 소셜 미디어 플랫폼, 특히 트위터의 빈번한 기능으로, 작가 프로파일링을 위해 분석될 수 있는 콘텐츠를 생성한다.[11] 플랫폼마다 유사한 데이터를 포함하지만, 특정 플랫폼의 형식과 구조에 따라 다른 특징을 포함할 수도 있다.

획득한 데이터가 항상 신뢰할 수 있거나 정확하지 않을 수 있기 때문에 소셜 미디어를 작성자 프로파일링을 위한 데이터 소스로 사용하는 데는 여전히 한계가 있다. 사용자들은 때때로 자신에 대한 잘못된 정보를 제공하거나 정보를 보류한다.[12] 결과적으로, 작성자 프로파일링을 위한 알고리즘의 훈련은 정확도가 떨어지는 데이터에 의해 방해될 수 있다. 또 다른 한계는 소셜 미디어에서의 텍스트의 불규칙성이다. 불규칙성의 특징으로는 철자 오류, 숫자로 된 문자의 대체와 같은 표준화되지 않은 번역, 속기, 문구의 사용자 생성 약어 및 기타 세테라 등과 같은 정상적인 언어 표준으로부터의 편차를 들 수 있는데, 이는 작성자 프로파일링에 어려움을 줄 수 있다.[13] 연구자들은 저자 프로파일링을 위한 알고리즘을 훈련하는데 있어 이러한 한계를 극복하기 위한 방법을 채택했다.[13]

페이스북

페이스북소셜 네트워킹 서비스로서 저자 프로파일링 연구에 유용하다. 이는 소셜 네트워크가 어떻게 구축되고 확장되며, 현장에서의 사회적 행동을 위해 사용될 수 있기 때문이다.[14] 이러한 프로세스에서 사용자는 작성자 프로파일링 연구에 사용될 수 있는 개인 콘텐츠를 공유한다. 텍스트 데이터는 페이스북에서 '상태 업데이트'와 같은 사용자의 개인 게시물에서 작성자 프로파일링을 위해 얻는다.[15] 이들은 작성자 프로파일링을 위해 선택된 언어로 말뭉치를 제작하고, 내용 단어의 2개 국어나 다국어 데이터베이스를 작성하며,[15][16] 작성자 프로파일링에 사용될 수 있다.

페이스북의 맥락에서, 저자 프로파일링은 주로 영어 텍스트 데이터를 포함하지만, 또한 다음을 포함하는 비 영어 언어를 사용한다. 로만 우르두, 아랍어, 브라질 포르투갈어, 스페인어.[16][11] 페이스북에서 저자의 프로파일링 연구는 주로 성별과 연령층 식별을 위한 것이었지만, 종교성, 사용자의 IT 배경, 심지어 기본적인 감정(폴 에크만 정의)을 예측하기 위한 속성을 도출하려는 시도가 있었다.[15][17]

웨이보

시나 웨이보는 저자 프로파일링을 위해 분석된 아시아 언어로 된 텍스트가 포함된 몇 안 되는 아시아 소셜 미디어 플랫폼 중 하나이다. 웨이보 콘텐츠에 대한 저자 프로파일링의 주요 내용은 고전 한자, 해시태그, 이모티콘, 카오모지, 동질 구두점, 라틴어 순서(문자의 다국어성으로 인한 것), 심지어 시적 형식까지 포함한다. 특히 인기 있는 중국어 표현, POS 태그, 단어 유형도 저자 프로파일링을 위해 추적된다.[18]

웨이보 콘텐츠에 대한 저자 프로파일링은 주로 중국어와 서양 언어의 차이 때문에 다른 소셜 미디어 플랫폼에 사용되는 것과 다른 알고리즘을 요구한다. 예를 들어, 중국의 감정은 다음과 같이 괄호 안에 그 몸짓이나 표정을 기술하는 한자를 포함한다. 예를 들면, [ [哈] '웃음', [泪] '눈물', [giggig] '기가글', [爱爱] '사랑', [心] '심장'[18] 등. 이것은 서양 언어에서 이모티콘에 구두점 기호를 사용하거나 페이스북, 인스타그램, 기타 플랫폼에서 유니코드 이모티콘을 공통으로 사용하는 것과는 다르다. 또한 서양 이모티콘은 161개 정도 있지만 웨이보처럼 웹 콘텐츠를 위해 중국 본토에서 정기적으로 사용되는 이모티콘은 2900여 개에 이른다.[19] 이러한 차이점에 대처하기 위해 저자 프로파일링 알고리즘을 중국어 이모티콘과 언어적 특징에 대해 교육해 왔다. 예를 들어 저자 프로파일링 알고리즘은 대문자 등 영어 언어적 특징을 탐지하는 알고리즘 대신 형식과 정서를 표현하는 중국식 표현 방식을 탐지하도록 설계됐다.[19]

다른 인기 있고 세계화된 플랫폼과 비교해 볼 때, 웨이보의 텍스트는 저자 프로파일링 작업에서 흔히 사용되지 않는다. 이는 중국 본토 중국 인구에서 웨이보가 중앙집중화되면서 웨이보가 주로 중국 국민으로 이용이 제한됐기 때문으로 보인다. 이 플랫폼을 위해 수행된 연구는 , 머신러닝 알고리즘을 활용하여 저자의 나이와 성별을 식별했다. 데이터는 분석하고자 하는 참여자들의 웨이보 마이크로블로그 게시물로부터 획득되어 사용자의 개념 기반 프로파일을 일정한 정확도로 구축하는 알고리즘을 훈련하는 데 사용된다.[18]

채팅 로그

채팅 로그는 많은 텍스트 담론을 포함하기 때문에 작성자 프로파일링을 위해 연구되어 왔는데, 그 분석은 사회 추세와 법의학을 포함한 적용 연구에 기여했다. 채팅 로그에서 작성자 프로파일링을 위한 데이터 출처에는 야후!, AIM(소프트웨어), 왓츠앱(WhatsApp) 등의 플랫폼이 포함된다.[20] 컴퓨터 시스템은 단일 채팅 룸에서 또는 독립적인 사용자에 의해 논의되는 채팅 주제를 나열하는 개념 기반 프로필을 생산하기 위해 고안되었다.[21]

블로그

저자 프로파일링은 각기 다른 글쓰기 스타일을 바탕으로 나이, 성별, 지리적 위치 등 블로그 작성자의 특성을 파악하는 데 활용할 수 있는데,[22] 이는 익명 블로그에 있어서는 특히 유용하다. 콘텐츠 단어 선택, 스타일 기반 기능, 주제 기반 기능 등을 분석해 저자의 특성을 찾아낸다.[23]

일반적으로 블로그에서 자주 발생하는 특징은 글당 동사의 분포가 높고, 대명사의 활용도가 비교적 높은 것이 특징이다. 동사, 대명사, 기타 단어 수업의 빈도는 작가들의 글에서 감정을 프로파일링하고 분류하는 데 사용되며, 그 성별과 연령도 포함된다.[24] 지원 벡터 머신 등 과거 물리적 문서에 사용됐던 분류 모델을 활용한 저자 프로파일링도 블로그에서 테스트됐다. 하지만 실적이 저조해 후자에 부적합하다는 것이 입증됐다.[22]

블로그의[22] 작성자 프로파일링에 적합한 머신러닝 알고리즘은 다음과 같다.

이메일

이메일은 일반적인 이메일 전송 플랫폼의 다양한 섹션에서 찾을 수 있는 풍부한 텍스트 데이터로 인해 작성자 프로파일링에 일관적으로 초점이 맞춰져 왔다. 이 섹션에는 보낸 편지함, 받은 편지함, 스팸, 휴지통 및 보관된 폴더가 포함된다.[25] 이메일에 대한 작성자 프로파일링에 대한 다국어 접근 방식에는 영어, 스페인어 및 아랍어 전자 메일이 데이터 소스로 포함되었다.[25][12] 저자 프로파일링을 통해 이메일 사용자의 연령, 성별, 지리적 기원, 교육 수준, 국적, 심지어 심리측정학적 성격 등 신경증, 상냥함, 양심성, 외향성 빅5 성격 특성으로부터의 내향성 등을 확인할 수 있다.[citation needed]

이메일에 대한 작성자 프로파일링에서 중요한 텍스트 데이터에 대한 내용은 처리되는 반면 메타데이터 및 기타 하이퍼 텍스트 마크업 언어(HTML) 중복성 등 중요하지 않은 기능은 제외된다. 전자 메일의 내용을 포함하는 다목적 인터넷 메일 확장(MIME)의 중요한 부분도 분석에 포함된다. 수집된 데이터는 작성자 텍스트, 서명 텍스트, 광고, 인용된 텍스트, 회신 줄 등 콘텐츠의 다양한 섹션으로 구문 분석되는 경우가 많다.[25] 작성자 프로파일링 작업에서 이메일 텍스트 내용을 추가로 분석하려면 음성, 감성, 의미론 및 기타 언어적 특징을 추출해야 한다.

적용들

저자 프로파일링은 글 작성자의 특정 특성을 파악할 필요가 있는 다양한 분야의 응용프로그램을 보유하고 있으며, 포렌식이나 마케팅과 같은 분야에서 중요성이 커지고 있다.[26] 그 적용에 따라, 저자 프로파일링의 과제는 식별해야 할 특성, 연구된 저자의 수, 분석이 가능한 텍스트의 수에 따라 달라질 수 있다.

전통적으로 문예 작품과 같은 문예에 그 적용이 제한되어 왔지만, 이는 컴퓨터와 인터넷의 발달과 함께 온라인 텍스트로 확장되었다.

법의학 언어학

법의학 언어학의 맥락에서, 저자 프로파일링은 저자의 언어 사용에 기초하여 익명, 가명 또는 위조된 텍스트의 작성자의 특징을 식별하기 위해 사용된다. 언어학적 분석을 통해, 법의학자들은 용의자의 민족성이나 직업과 같은 다른 계급적 특징과 함께 용의자의 동기와 이념을 파악하려고 한다. 이것이 항상 결정적인 저자 확인으로 이어지는 것은 아니지만, 그러한 정보는 법 집행 기관이 용의자들의 집단을 좁히는 데 도움이 될 수 있다.[27]

대부분의 경우 법의학 언어학의 맥락에서 저자의 프로파일링은 하나의 텍스트 문제를 수반하는데, 이 문제에서 비교 가능한 텍스트가 없거나 거의 없으며 저자를 가리키는 외부 증거가 없다.[28] 법의학자들이 분석한 텍스트의 예로는 협박 편지, 자백서, 시험지, 자살 편지, 표절된 글 등이 있다.[29] 이것은 또한 온라인 텍스트로 확대되었는데,[28] 인터넷에서 사이버 범죄의 수가 증가하면서, 중년 남성과 미성년 소녀들 사이의 성적으로 노골적인 온라인 채팅 로그가 증가하고 있다.[30]

작가 프로파일링을 사용한 가장 초기 사례 중 하나는 로저 슈이에 의해 1979년 악명 높은 납치 사건과 관련된 몸값 노트를 조사하라는 요청을 받은 것이다. 슈이는 유괴범의 특이점을 분석한 결과, 자신의 오자와 방언 항목, 즉 유괴범은 교육을 잘 받았고 오하이오주 애크론 출신이라는 점에서 유괴범 정체성의 결정적인 요소를 파악할 수 있었다.[31] 이는 결국 용의자의 체포와 자백을 성공적으로 이끌어냈다.

그러나 작가 프로파일링 방식은 법의학자가 사회언어학적으로 중요한 표지를 주관적으로 식별하는 데 의존하고 있기 때문에 객관성이 떨어진다는 비판도 있다. 문학평론가 도널드 웨인 포스터가 채택한 것과 같은 이러한 방법들은 추측성적이며 전적으로 주관적인 경험에 근거하고 있기 때문에 경험적으로 시험할 수 없다고 한다.[32]

봇탐지

작가 프로파일링은 소셜봇의 식별에 채택되는데, 가장 흔한 것이 트위터봇이다. 소셜봇은 2016년 미국 대통령 선거와 같이 정치적 대화를 양극화하고 오보와 검증되지 않은 정보를 퍼뜨리는 등 상업적, 정치적, 이념적 영향력을 감안할 때 위협으로 여겨져 왔다. 마케팅의 맥락에서 소셜봇은 호평을 올려 제품의 인기를 인위적으로 부풀릴 수 있고, 불리한 리뷰로 경쟁력 있는 제품의 평판을 떨어뜨릴 수 있다.[33] 따라서 저자 프로파일링 관점에서 봇 탐지는 매우 중요한 과제다.[33][34]

인간 계정으로 나타나도록 만들어진 봇은 사용자 이름, 프로필 사진, 게시 시간 등 프로필 정보를 통해 대부분 식별될 수 있다.[34] 그러나 텍스트 데이터(즉, 메타 데이터가 없는 경우)로만 봇을 식별하는 작업은 훨씬 더 어려우며, 작성자 프로파일링 기법이 필요하다.[34] 여기에는 일반적으로 의미적 및 통사적 특성에 기초한 분류 작업이 포함된다.[35][36]

봇과 젠더 프로파일링의 과제는 2019년 판에서 일련의 과학적 사건과 디지털 텍스트 포렌식 및 스타일로메트릭의 공유 작업을 조직하는 PAN이 주관하는 4가지 공유 작업 중 하나였다.[33] 참가팀들은 영어와 스페인어 트윗의 봇 탐지율이 각각 95.95%, 93.33%로 가장 좋은 성적을 거두며 큰 성공을 거뒀다.[35]

마케팅

저자 프로파일링은 블로그, 온라인 제품 리뷰, 소셜 미디어 콘텐츠의 분석을 바탕으로 기업이 자신의 제품을 좋아하거나 싫어하는 사람들의 인구통계를 파악할 수 있기 때문에 마케팅 측면에서도 유용하다.[26] 대부분의 개인이 익명으로 제품에 후기를 게시하기 때문에 이것은 중요하다. 작성자 프로파일링 기법은 대상 그룹의 인구 통계에 기초하여 보다 정보에 입각한 전략적 의사결정을 내릴 때 비즈니스 전문가에게 도움이 된다.[37] 또한 기업은 현재 고객의 인구 통계와 프로필에 맞는 소비자 그룹을 대상으로 마케팅 캠페인을 실시할 수 있다.[38]

작성자 식별 및 영향력 추적

아포크리파 NRSV가 새겨진 십자가, 묵주, 성서

작가 프로파일링 기법은 다양한 작가들의 글쓰기 스타일은 물론 그들의 글쓰기 주제까지 파악하기 위해 전통적 매체와 문헌을 연구하는 데 사용된다. 문학에 대한 저자 프로파일링도 공동저술에 대한 서지학 기록을 바탕으로 작가의 사회적 네트워크와 그 문학적 영향력을 추론하기 위해 이루어진다. 익명작이나 가명작품의 경우, 때로는 그 기법을 이용해 저자나 저자를 가려내거나, 동일인이 어떤 작품을 썼는지를 가려내기도 했다.

문학 및 전통 매체에 대한 저자 프로파일링 연구의 일부 예에는 다음과 같은 연구가 포함된다.[39][40]

라이브러리 카탈로그 작성

작성자 프로파일링의 또 다른 적용은 표준 속성에 기반한 라이브러리 자원을 분류하는 전략을 고안하는 데 있다.[42] 이 접근방식에서, 저자 프로파일링 기법은 저자의 참고 문헌 기록에 기초하여 도서관 자원을 자동으로 분류하는 도서관 카탈로그 작성의 효율성을 향상시킬 수 있다. 이것은 21세기 초 도서관 목록 작성의 많은 부분이 수작업으로 이루어졌을 때 중요한 문제였다.

라이브러리 카탈로그 작성에 저자 프로파일링을 사용할 때, 연구자들은 SVM(지원 벡터 머신 알고리즘)과 같은 라이브러리의 자동 프로세스에 머신러닝을 활용했다. 작성자 프로파일링을 위해 SVM을 사용하는 경우, 기존 데이터베이스 내 작성자의 서지학적 기록을 식별, 추적 및 업데이트하여 자신의 서지학적 기록에 나타난 문학적 내용과 전문지식에 대한 주제를 바탕으로 작성자를 식별할 수 있다. 이 경우, 저자 프로파일링은 출판된 매체의 물리적 복사본에서 라이브러리 자원을 분류하기 위해 파생될 수 있는 저자의 사회 구조를 활용한다.[42]

대중문화에서

작가 프로파일링은 대중문화에 등장해왔다. 2017년 Discovery Channel 미니 시리즈 Manhunt: UnabomberUnabomber를 둘러싼 FBI 수사에 대한 허구적인 이야기 입니다. 공개된 매니페스토와 편지에서 유나봄버의 특이점을 분석한 결과를 토대로 유나봄버의 정체성의 결정적인 특징을 파악하는 범죄 프로파일러가 등장한다. 이 쇼는 범죄 과학 수사에서 작가 프로파일링의 중요성을 강조했는데, 그것은 1996년 진짜 유나봄버 범인을 잡는 데 있어서 중요했기 때문이다.[43]

참고 항목

관련 과목

참조

  1. ^ Wiegmann, M, Stein, B. & Potthast, M. (2019)PAN 2019의 연예인 프로파일링 과제 개요」 CLEF.
  2. ^ G.K. & Perifanos, K. (2013) "저자의 다단계 n그램 프로필을 이용한 그리스 트윗의 저자 귀속." 2013 AAAI심포지엄 시리즈
  3. ^ 코펠, M, 아르가몬, S, & 시모니, A.R. (2013년) "저자 성별에 따라 작성된 텍스트를 자동으로 분류함." 문학과 언어 컴퓨팅, 17, 페이지 401–412.
  4. ^ a b c d e f 로페즈-몬로이, A. P. 몬테스-이-고메즈, M., 에스칼란테, H.J. 빌라세뇨르-피네다, L. & 스타마토스, E. (2015년) "소셜 미디어에서 작성자 프로파일링을 위한 차별적인 하위 프로파일별 표현" In: 지식 기반 시스템, 89, 134 - 147.
  5. ^ a b Lundeqvist, E. & Svensson, M.(2017). "저작자 프로파일링: 소셜 미디어에서 사용자의 성별, 연령 및 모국어를 탐지하는 머신러닝 접근 방식" 인: 정보 기술 부서.
  6. ^ 프랑코살바도르, M, 플로트니코바, N, 파와르, 앤 베나지바, Y. (2017년) "소셜 미디어에서 작성자 프로파일링을 위한 하위 단어 기반 심층 평균 네트워크." CLEF
  7. ^ K. K. 쿠리타(2018). "종이 해부했다: 텍스트 분류를 위한 통사적 방법에 맞서는 주문되지 않은 심층 구성. 기계 학습 설명.
  8. ^ a b c Bsi, B. & Zrigui, M. (2018) "소셜 미디어 콘텐츠의 저자 프로파일링을 위한 심층 학습 기법" 인: 제31회 IBIMA 컨퍼런스.
  9. ^ a b 빌란, 아이앤제코바, 디(2016년) "CAPS: 교차 창조의 저자 프로파일링 시스템." CLEF
  10. ^ Schler, J, Koppel, M, Argamon, S, & Pennebaker, J.W. (2005) "블로그에 대한 연령과 성별의 영향" AAAI 봄 심포지엄: 웹로그를 분석하기 위한 컴퓨터 접근법적 접근법
  11. ^ a b 레인지, F, & 루소, P.(2019년). "PAN 2019 제7기 저자 프로파일링 과제 개요: 트위터에서 봇과 젠더 프로파일링" CLEF.
  12. ^ a b 로소, P, 레인지, F, 파리아스, I. H, 카니나, L, 자구아니, W, & 샤르피, A. (2018년) "아랍어를 위한 저자 프로파일링, 속임수, 아이러니한 탐지에 관한 조사" 언어 및 언어학 나침반, 12(4)
  13. ^ a b 고메즈-아도르노, H, 마르코프, I, 시도로프, G, 포사다스-두란, J-P, 산체스-페레스, M. A, & Chanona-Hernandez, L. (2016) "SNS 텍스트의 작성자 프로파일링을 위한 신경망 기반 특성 표현 개선" In: Computing Intelligence and Neuro Science, 페이지 1-13.
  14. ^ 댐, J. W. V. & Velden, M. V. D. (2015) "Facebook 사용자의 온라인 프로파일링클러스터링" In: 의사결정 지원 시스템, 70, 60–72.
  15. ^ a b c 쉬, FC, 산드로니, R.F., & 파라보니, I. (2018) "Facebook Corporation의 Author Profiling". LREC.
  16. ^ a b 파티마, M, 하산, K, 안와르, S, & Nawab, R. M. A. (2017) "Facebook에서 다국어 작성자 프로파일링". In: 정보 처리 관리, 53(4), 886–904.
  17. ^ 레인지, F, & Rosso, P.(2013). "언어작성자 프로파일링 사용: 성별과 연령의 파악."
  18. ^ a b c 장, W, 카인즈, A, 알리카니오티스, D, & 버터리, P. (2015) "웨이보 마이크로블로그 게시물에서 저자 나이 예측" LREC
  19. ^ a b 첸, L, 첸, T, 왕, F, You, Z, 펑, Q, & 중, M. (2015) WAIM 2015, LNCS 9098, 83–95.
  20. ^ 린, J. (2007) "온라인 채팅 로그의 자동 작성자 프로파일링"
  21. ^ Bengel J, Gauch S, Mittur E, Vijayarahavan R. (2004) ChatTrack: "분류법을 이용한 채팅방 주제 탐지" 인: Chen H, Moore R, Zeng D.D., Levitt J. (eds) Intelligence and Security Informatics. ISI 2004. 컴퓨터 과학 강의 노트, 3073. 베를린 하이델베르크 스프링거
  22. ^ a b c Pham, D.D., Tran, G.B., & Pham, S.B. (2009년) 베트남 블로그의 저자 프로파일링. 2009년 아시아 언어 처리 국제 회의, 190-194.
  23. ^ 산토쉬, K, 밴살, R, 셰카르, M. & 바르마, V. (2013년) 저자 프로파일링: 2013년 CLEF에서 PAN용 블로그 노트의 나이와 성별 예측 CLEF.
  24. ^ 레인지, F, & Rosso, P.(2013). 언어 및 작성자 프로파일링 사용: 성별 및 연령 식별. 자연 언어 처리 및 인지 과학 2013.
  25. ^ a b c Estival, D, Gaustad, T, Pham, S. B, Radford, W, & Hutchinson, B. (2007) 영문 이메일에 대한 작성자 프로파일링.
  26. ^ a b 작가 프로파일링 2018 (n.d.)
  27. ^ 포스터, D. (2000년) 작가 알 수 없음: 익명추적에서. 헨리 홀트와 컴퍼니
  28. ^ a b 그랜트, T. D. (2008) "과학수사 저자 분석에서 의문점 승인" 기븐스, J. & Turell, M. T. (에드)에서. 법의학 언어학의 치수. 존 벤자민
  29. ^ 코제, E. F. (2010) "과학 언어학에서 반대되는 관점의 저자식" 남아프리카 언어학과 응용 언어 연구. 28(2) 185-197
  30. ^ 양, 엠앤차우, 케이피(2014년) "수천명의 저자와 함께 법의학 조사에 대한 저자 귀속" In: Cuppens-Boulahia N, Cuppens F, Jajodia S, Abou El Kalam A, Sans T. (eds) ICT 시스템 보안 및 개인 정보 보호 SEC 2014. IFIP는 정보통신기술의 진보, 제428권. 베를린 하이델베르크 스프링거
  31. ^ 레너드, R. A. (2005) "언어 분석의 과학적 원리를 법의 쟁점에 적용" 국제학술지 3. 1-9
  32. ^ 차스키, C. E. (2001) "언어 기반 저자식별 기법에 대한 해적적 평가" 법의학 언어학 8, 1-65
  33. ^ a b c "봇과 성별 프로파일링 2019" (n.d.)
  34. ^ a b c 구빈, 레기스 & 레페우브레, 도리안 & 알함제, 알라 & 미트로비치, 젤리나 & 에기드 지그몬드, 엘] & 포시 & 레오폴드. (2019). "CLEF 2019에서 PAN용 다층 아키텍처 노트북을 이용한 로봇성별 프로파일링"
  35. ^ a b Dalemans W. 외 (2019) "2019 PAN 2019 개요: Bots and Gender Profiling, Crivate Profiling, Cross-Domain Authority Accounting, Style Change Detection" In: Crestani F. et al. (eds) 실험 IR 다국어, 다국어, 다국어 및 상호작용 충족 CLEF 2019. 컴퓨터 과학 강의 노트, 11696. 스프링거, 참.
  36. ^ 코박스, G, 발로, V, 메타, P, 슈리다르, K, 알론소, P, & 리위키, M. (2019) "시맨틱통사적 특징을 사용한 작성자 프로파일링: CLEF 2019에서 PAN용 노트북."
  37. ^ 라후나다 레디 T, 락슈미나라야나 M, 비슈누 바르단 B, 사이 프라사드 K, 아마나트 레디 E. (2019) "저자 프로파일을 이용한 성별 예측을 위한 새로운 문서 표현 접근법" 인: Bapi R, Rao K, Prasad M. (eds) 제1차 인공지능 및 인지컴퓨팅 국제회의 인텔리전트 시스템 컴퓨팅 분야의 발전, Vol 815. 싱가포르 스프링거
  38. ^ 마하르잔, 수라즈 & 슈레스타, 프라샤 & 솔로리오, 타마르 & 하산, 라기브. (2014). "맵리듀스의 솔직한 저자 프로파일링 접근법." LNCS(LNAI)
  39. ^ 회사, J. S. & Wanner, L.(2017). "저자 프로파일링 식별을 위한 통사적담화적 특징의 관련성에 대하여" 제15차 유럽 컴퓨터언어학협회 회의, 2,681–687.
  40. ^ a b 디지키엔. J. K, Utka, A, & 샤르쿠트, L.(2015). "리투아니아 문학의 저자 귀속저자 프로파일링", 96–105.
  41. ^ 레저, G. (1994) "셰익스피어, 플레처, 그리고노블킨스맨." 문학과 언어 컴퓨팅, 9(3), 235–247.
  42. ^ a b 노모토, T. (2009) "저자 프로파일링에 의한 도서관 카탈로그 분류" 인: 제32차 정보검색 연구개발 국제 ACM SIGIR 회의의 진행 - SIGIR 09.
  43. ^ 데이비스, D. (2017년 8월 22일) "FBI 프로파일러는 언어 작업이 Unabomber를 사로잡는데 중추적이었다고 말한다."