CRM114(프로그램)
CRM114 (program)CRM114(전체 이름: "CRM114 판별자")는 데이터를 분류하기 위한 통계적 접근방식에 기반한 프로그램으로, 특히 이메일 스팸 필터링에 사용된다.
이름의 유래
그 이름은 스탠리 큐브릭 영화 '닥터 스트레인지러브'에 나오는 CRM-114 판별기에서 따온 것인데, 이 라디오 장비는 특정한 코드 프리픽스가 없는 메시지를 걸러내기 위해 고안된 것이다.
작전
다른 사람들은 이메일에서 단어의 발생 빈도를 기준으로 베이시안 스팸을 통계적으로 필터링한 반면, CRM114는 최대 5개의 단어에 기반한 히트를 만들어 더 높은 스팸 인식률을 달성했다. 이 구절들은 들어오는 텍스트를 나타내는 마르코프 무작위 필드를 형성하는 데 사용된다. 이 추가적인 문맥 인식으로, 그것은 이용 가능한 더 정확한 스팸 필터 중 하나이다. 2002년 빌 예라주니스의[1] 초기 실험은 99.87%의 정확도를 보였으며,[2] [4][5]홀든과 TREC 2005와 2006년에는 특정 말뭉치에 따라 99% 이상의 높은 정확도를 보였으며 상당한 변동성을 보였다.
또한 CRM114의 분류자는 Littlstone의 Winnow 알고리즘, 문자별 상관관계, KNN(K-가장 가까운 이웃 알고리즘) 분류의 변종인 하이퍼스페이스(Experspace)를 사용하도록 전환할 수 있으며, 수정된 LZ77 알고리즘에 의해 계산된 상호 압축성에 의해 엔트로피 인코딩을 사용하여 유사성, SVM을 결정하는 비트형성 분류기이다.m과 다른 실험 분류자. 일치하는 실제 기능은 스킵그램의 일반화를 기반으로 한다.
CRM114 알고리즘은 다국어(UTF-8 인코딩과 호환)와 null-safe이다. CRM114 분류자 투표세트가 일본어로 작성된 기밀문서 대 비기밀문서를 99.9% 검출률과 5.3% 허위 경보율 이상으로 검출하는 것으로 나타났다.[6]
CRM114는 패턴인식 소프트웨어의 좋은 예로서, 기계학습이 합리적으로 간단한 알고리즘으로 이루어질 수 있는 방법을 보여준다. 프로그램의 C 소스 코드는 GPL로 이용할 수 있다.
더 깊은 수준에서, CRM114는 또한 grep이나 심지어 Perl과 유사한 문자열 패턴 매칭 언어로서, Turing 완료지만 일치하는 텍스트에 대해 고도로 조정되어 있고, 심지어 요인 정의에 대한 단순한 (재귀적) 정의도 거의 10줄이 걸린다. 그 중 일부는 crm114 언어 구문이 위치적인 것이 아니라 선언적인 것이기 때문이다. 프로그래밍 언어로서, 그것은 스팸 탐지 외에도 많은 다른 어플리케이션에 사용될 수 있다. CRM114는 TRE 근사 일치 regex 엔진을 사용하므로, 정확히 기능하기 위해 절대적으로 동일한 문자열 매칭에 의존하지 않는 프로그램을 작성할 수 있다.
CRM114는 KMail 클라이언트에서의[7][8] 이메일 필터링과 트위터와 야후에서의 봇 탐지를 포함한 많은 다른 어플리케이션,[9][10] 그리고 미국 교통국의 차량 결함 탐지 시스템의 1급 필터에 적용되었다.[11] 고장 가능성이 높은 소프트웨어 모듈을 분류하는 예측 방법으로도 활용됐다.[12]
참고 항목
참조
- ^ 2007년 3월 19일, 네트워크 월드 캐라 개럿슨 "안티스팸맨"
- ^ "빌 예라주니스: Better Than Human", 폴 그레이엄의 웹사이트
- ^ 스팸 필터링 II
- ^ 스팸 트랙 개요(2005) - TEC 2005
- ^ 스팸 트랙 개요(2006) - TEC 2005
- ^ https://media.blackhat.com/bh-us-10/whitepapers/Yerazunis/BlackHat-USA-2010-Yerazunis-Confidential-Mail-Filtering-wp.pdf[bare URL]
- ^ "Removing spam mail with CRM114 and KMail". Archived from the original on 2019-10-01. Retrieved 2019-10-01.
- ^ "kmail.antispamrc at KDE/kdepim-addons". GitHub.
- ^ Twitter 계정의 자동화 탐지: 당신은 인간인가, 봇인가, 사이보그인가?", Zi Chu, Steven Gianvecio, Haining Wang, Sushil Jaodia, IEEE Transactions on Selfable and Secure Computing, 2012 vol 9, 페이지 811-824, doi:10.1109/TDSC 2012.75
- ^ 인터넷 채팅에서 인간과 봇의 측정과 분류
- ^ https://www.oig.dot.gov/sites/default/files/NHTSA%20Safety-Related%20Vehicle%20Defects%20-%20Final%20Report%5E6-18-15.pdf[bare URL]
- ^ https://www.st.cs.uni-saarland.de/edu/softmine2007/Projects/28300004.pdf[bare URL]