베이지안 중독
Bayesian poisoning베이지안 포이즈닝은 전자 메일 스팸 발송자가 베이지안 스팸 필터링에 의존하는 스팸 필터의 효과를 저하시키기 위해 사용하는 기술입니다.베이지안 필터링은 베이지안 확률에 따라 착신 메일이 스팸인지 스팸이 아닌지 판단합니다.스팸 발송자는 스팸 메시지에 표시될 가능성이 낮은 랜덤(또는 신중하게 선택된) 단어를 추가하면 스팸 필터가 메시지가 정당하다고 믿게 됩니다(통계 유형 II 오류).
스팸 발송자는 또한 베이지안 데이터베이스 내의 스팸 워드로 이전 무고한 워드를 변환함으로써 스팸 필터가 더 높은 폴스 포지티브 비율을 갖도록 할 수 있습니다(통계 유형 I 오류). 이는 스팸 필터가 스팸 발송자에 의해 추가된 워드가 S의 좋은 표시임을 필터에 표시하기 때문입니다.팸
경험적 결과
그레이엄 커밍
2004년 MIT에서 열린 스팸 회의에서 John Graham-Cumming은 POPFile의 베이지안 [1]엔진에 대한 두 가지 공격 가능성을 제시했습니다.하나는 실패했고 다른 하나는 성공했지만, 실용적이지 못했다.이를 통해 패시브(스팸머에 대한 피드백 없이 단어를 추가하는 경우)와 액티브(스팸머가 스팸을 수신한 후 피드백을 받는 경우)의 두 가지 유형의 포이즈닝 공격을 식별했습니다.
작은 스팸에 임의의 단어를 추가하는 수동적인 방식은 공격 방법으로는 효과가 없었습니다. 수정된 스팸 메시지의 0.04%만 전달되었습니다.활성 공격에는 작은 스팸에 임의의 단어를 추가하고 웹 버그를 사용하여 스팸이 수신되었는지 여부를 확인하는 작업이 포함됩니다.만약 그렇다면, 또 다른 베이지안 시스템은 같은 독단어를 사용하여 훈련되었다.한 명의 사용자에게 10,000개의 스팸을 보낸 후, 그는 스팸을 통과시키기 위해 사용할 수 있는 작은 단어 세트를 결정했다.
전자 메일의 리모트이미지(Web 버그)를 무효로 하는 간단한 대책으로, 이 문제를 해소할 수 있습니다.
위텔과 우
2004년 이메일 및 스팸 대책 회의에서 Wittel과 Wu는 스팸에 임의의 단어를 수동적으로 추가하는 것은 CRM114에 대해서는 효과가 없지만 스팸 1개당 100개의 단어가 추가된 스팸 베이에는 효과가 있다는 논문을[2] 발표했습니다.
그들은 또한 일반적인 영어 단어를 추가한 지능적인 수동 공격이 CRM114에 대해서는 여전히 효과가 없지만 SpamBayes에 대해서는 훨씬 더 효과적이라는 것을 보여주었다.그들은 스팸베이를 통과하기 위해 스팸에 50개의 단어만 추가하면 되었다.
그러나 Witel과 Wu의 테스트는 사용 중인 이메일에 최소한의 헤더 정보가 포함되어 있기 때문에 비판을 받고 있습니다.대부분의 베이지안 스팸 필터는 메시지가 스팸일 가능성을 판별할 때 헤더 정보 및 기타 메시지 메타데이터를 광범위하게 사용하고 있습니다.SpamBayes 결과와 일부 반증거에 대한 논의는 SpamBayes 메일링 목록 [3]아카이브에서 찾을 수 있습니다.
이러한 공격은 모두 타입 II 공격입니다.스팸 전송을 시도하는 공격입니다.타입 I 공격은 베이지안 데이터베이스의 스팸 워드로 변환함으로써 폴스 포지티브를 발생시키려 합니다.
스턴, 메이슨, 셰퍼드
또한 2004년 스턴, 메이슨, 셰퍼드는 Dalhousie [4]대학에서 수동형 II 공격을 상세히 기술 보고서를 작성했습니다.그들은 스팸 필터의 훈련과 테스트에 사용되는 스팸 메시지에 일반적인 영어 단어를 추가했다.
두 번의 테스트에서 이러한 일반적인 단어가 스팸 필터의 정밀도(스팸으로 분류되는 메시지의 비율)를 84%에서 67%로, 94%에서 84%로 낮춘 것으로 나타났습니다.데이터를 조사하면, 독이 든 필터가 「햄」(좋은 전자 메일)보다 스팸 메시지라고 생각하는 것에 치우쳐 있기 때문에, 잘못된 긍정의 비율이 증가하고 있는 것을 알 수 있습니다.
그들은 두 가지 대책을 제시했다: 분류할 때 일반적인 단어를 무시하는 것과 단어의 신뢰성에 기초한 확률을 부드럽게 하는 것이다.공격자가 개인 어휘의 일부인지 아닌지를 추측할 수 없을 경우 단어는 신뢰할 수 있는 확률을 가집니다.따라서 일반적인 단어는 신뢰할 수 없으며 확률은 0.5로 평활됩니다(중립).
로우드와 미크
이메일과 Anti-Spam Lowd와 믹에 관한 2005년 회의에서. 존 Graham-Cumming 지난 2004년에 시위를 벌였다(사실, 그들은, 임의의 단어를 추가하는 것은 스팸 필터링 accurac을 개선을 보여 주는에서 그들은 그들이 수동적인 공격 spam에 무작위 또는 평범한 단어를 추가하는 방법은 순진한 베이 시안 필터에 대해 비효과적인. 있음을 보여 준 paper[5]을 제시했다.y.)
스팸보다 햄(비스팸 이메일 내용)에 더 많이 나타나는 단어인 해미 워드를 추가하는 것이 순진한 베이지안 필터에 효과적이며 스팸이 슬립할 수 있음을 입증했습니다.또한 스팸 필터에 대해 매우 효과적인 두 가지 활성 공격(스팸머에 대한 피드백이 필요한 공격)에 대해 자세히 설명했습니다.물론 스팸 발송자에 대한 피드백(미전달 보고서, SMTP 수준 오류 또는 웹 버그 등)을 방지하면 활성 공격이 3회마다 실패합니다.
또, 필터의 재트레이닝이, 재트레이닝 데이터가 포이즈닝 되어 있는 경우에서도, 모든 공격 타입을 막는 데 효과적이라는 것도 알 수 있었습니다.
공개된 연구에 따르면 스팸 메시지에 임의의 단어를 추가하는 것은 공격 형태로는 효과적이지 않지만 활성 공격은 매우 효과적이며 경우에 따라 신중하게 선택된 단어를 추가하는 것이 효과적일 수 있습니다.이러한 공격으로부터 보호하려면 스팸 발송자가 피드백을 수신하지 않고 통계 필터를 정기적으로 재교육하는 것이 중요합니다.
이 연구는 또한 통계 필터에 대한 공격을 계속 조사하는 것이 가치 있다는 것을 보여준다.실제 공격이 입증되었으며 통계 필터가 정확함을 유지하기 위한 대책이 필요합니다.
「 」를 참조해 주세요.
레퍼런스
- ^ "Archived copy". Archived from the original on 2006-10-12. Retrieved 2006-11-24.
{{cite web}}: CS1 maint: 제목으로 아카이브된 복사(링크) - ^ "Archived copy" (PDF). Archived from the original (PDF) on 2013-04-29. Retrieved 2012-02-13.
{{cite web}}: CS1 maint: 제목으로 아카이브된 복사(링크) - ^ "The spambayes-dev September 2004 Archive by thread".
- ^ "Technical Reports - Faculty of Computer Science".
- ^ https://web.archive.org/web/20220320045633/https://www.ceas.cc/2005/125.pdf[베어 URL PDF]
외부 링크
- 베이지안 포이즈닝이 존재합니까?(등록 필요)