링크 분석

Link analysis

네트워크 이론에서 링크 분석은 노드 간의 관계(접속)를 평가하기 위해 사용되는 데이터 분석 기법입니다.조직, 사람, 트랜잭션 등 다양한 유형의 노드(개체) 간에 관계를 식별할 수 있습니다.연계 분석은 범죄 활동(사기 탐지, 대테러, 지능) 수사, 컴퓨터 보안 분석, 검색 엔진 최적화, 시장 조사, 의학 연구, 예술 등에 사용되어 왔다.

지식 발견

지식 검색은 데이터의 [1]패턴을 식별, 분석 및 시각화하는 데 사용되는 반복적이고 대화형 프로세스입니다.네트워크 분석, 링크 분석 및 소셜 네트워크 분석은 모두 지식 발견 방법이며, 각각 이전 방법의 하위 집합입니다.대부분의 지식 검출 방법은 (최고 수준에서) 다음 단계를 따릅니다.[2]

  1. 데이터 처리
  2. 변혁
  3. 분석.
  4. 시각화

데이터 수집 및 처리에는 데이터에 대한 액세스가 필요하며 정보 과부하 및 데이터 오류 등 몇 가지 고유한 문제가 있습니다.일단 데이터가 수집되면 인간과 컴퓨터 분석가 모두 효과적으로 사용할 수 있는 형식으로 변환해야 합니다.수동 또는 컴퓨터 생성 시각화 도구는 네트워크 차트를 포함한 데이터에서 매핑할 수 있습니다.데이터 분석에는 Dijkstra 알고리즘, 폭 우선 검색, 깊이 우선 검색 등 여러 알고리즘이 있습니다.

링크 분석은 시각화 방법(네트워크 차트, 연관 매트릭스)을 통한 노드 간 관계 분석에 초점을 맞춥니다.다음은 범죄 [3]수사를 위해 매핑될 수 있는 관계의 예입니다.

관계/네트워크 데이터 소스
1. 신뢰 가족, 이웃, 학교, 군대, 클럽 또는 조직의 이전 연락처.공적인 기록과 법정 기록데이터는 용의자의 모국에서만 입수할 수 있습니다.
2. 태스크 전화, 전자 메일, 채팅 룸, 인스턴트 메시지, 웹 사이트 방문의 기록과 기록.여행 기록.인간의 지능: 회의의 관찰과 일반적인 행사 참석.
3. 자금과 자원 은행 계좌와 송금 기록입니다.신용카드 사용 패턴 및 위치.이전 법원 기록.인적 정보: Hawala와 같은 대체 은행 자원에 대한 방문 관찰.
4. 전략과 목표 웹 사이트비디오와 암호화된 디스크는 택배로 배달됩니다.여행 기록.인간의 지능: 회의의 관찰과 일반적인 행사 참석.

링크 분석은 주로 다음 3가지 [4]목적으로 사용됩니다.

  1. 이미 알고 있는 관심 패턴에 대해 데이터에서 일치하는 항목을 찾습니다.
  2. 알려진 패턴이 위반되는 이상 징후를 찾습니다.
  3. 새로운 관심 패턴(소셜 네트워크 분석, 데이터 마이닝)을 발견합니다.

역사

Klerks는 링크 분석 도구를 3세대로 [5]분류했습니다.첫 번째 세대는 1975년에 하퍼 [6]앤 해리스의 아나크파파 차트로 소개되었습니다.이 방법에서는 도메인 전문가가 데이터 파일을 검토하고, 관련 매트릭스를 구축하여 관련성을 식별하고, 시각화를 위한 링크 차트를 작성하고, 마지막으로 네트워크 차트를 분석하여 관심 패턴을 식별해야 합니다.이 방법에는 광범위한 도메인 지식이 필요하며 방대한 양의 데이터를 검토할 때 시간이 매우 많이 소요됩니다.

어소시에이션 매트릭스

관련 매트릭스 외에 활동 매트릭스를 사용하여 실용적인 가치와 법 집행에 사용할 수 있는 실행 가능한 정보를 생성할 수 있습니다.활동 매트릭스는 이 용어가 암시하는 바와 같이 장소에 관한 사람들의 행동과 활동을 중심으로 한다.반면 연관 매트릭스는 사람, 조직 및/또는 속성 간의 관계에 초점을 맞춥니다.이 두 가지 유형의 매트릭스 간의 차이는 미미하지만 완료되거나 [7][8][9][10]렌더링된 분석의 결과 측면에서 유의하다.

2세대 도구는 IBM i2 Analyst's Notebook, Netmap, ClleMaker 및 Watson과 같은 자동 그래픽 기반 분석 도구로 구성됩니다.이러한 툴은 링크 차트의 구축과 갱신을 수동으로 작성한 후 자동화하는 기능을 제공하지만, 결과 차트 및 그래프를 분석하려면 여전히 광범위한 도메인 지식을 갖춘 전문가가 필요합니다.

DataWalk와 같은 3세대 링크 분석 도구를 사용하면 데이터 세트의 요소 간 링크를 자동으로 시각화할 수 있으며, 이후 탐색 또는 수동 업데이트를 위한 캔버스 역할을 할 수 있습니다.

적용들

  • FBI 강력범죄 체포 프로그램(ViCAP)
  • 아이오와 주 성범죄 분석 시스템
  • 미네소타 주 성범죄 분석 시스템(MIN/SCAP)
  • 워싱턴 주 살인 수사 추적 시스템(HITS)[11]
  • 뉴욕주 살인사건 수사 및 리드 트래킹(HALT)
  • 뉴저지 살인사건 평가 및 평가 추적(HEAT)[12]
  • 펜실베니아 주 ATAC 프로그램.
  • 강력범죄연계분석시스템(ViCLAS)[13]

링크 분석에 관한 문제

정보의 과부하

전자적으로 저장되는 방대한 양의 데이터와 정보로 인해 사용자는 분석에 사용할 수 있는 관련 없는 여러 정보 출처에 직면하게 됩니다.데이터를 효과적이고 효율적으로 사용하기 위해서는 데이터 분석 기술이 필요합니다.Palshikar는 데이터 분석 기술을 두 가지 범주(통계 모델, 시계열 분석, 클러스터링분류, 이상을 감지하는 매칭 알고리즘)와 인공지능(AI) 기술(데이터 마이닝, 전문가 시스템, 패턴 인식, 기계 학습 기술, 뉴럴 네트워크)[14]로 분류합니다.

Bolton & Hand는 통계 데이터 분석을 감독 [15]또는 비감독 방법으로 정의한다.지도학습방법에서는예상된동작과예상하지않은동작을설정하기위해시스템내에서규칙을정의해야합니다.비지도 학습 방법은 표준과 비교하여 데이터를 검토하고 통계적 특이치를 탐지한다.지도 학습 방법은 이전 패턴을 기반으로 훈련 규칙을 수립해야 하므로 다룰 수 있는 시나리오에 제한이 있습니다.그러나 비지도 학습 방법은 행동 규범이 잘 확립되지 않았거나 이해되지 않은 경우 더 높은 거짓-양성 비율을 초래할 수 있다.

데이터 자체에는 무결성(또는 무결성 결여) 및 지속적인 변경 등 본질적인 문제가 있습니다.데이터에는 "잘못된 수집 또는 취급으로 인한 누락 및 커미션 오류, 그리고 기업이 적극적으로 자신의 행동을 [4]속이거나 숨기려 할 때"가 포함될 수 있다.Sparrow는 데이터[16] [3]분석의 세 가지 주요 문제로 불완전성(누락 데이터 또는 링크의 불가역성), 애매한 경계(포함할 것을 결정하는 주관성), 동적 변경(데이터가 항상 변경된다는 인식)을 강조합니다.

데이터가 사용 가능한 형식으로 변환되면 개방형 텍스처 및 상호 참조 문제가 발생할 수 있습니다.개방 텍스처는 와이즈만에 의해 경험적 용어가 다른 [17]맥락에서 사용될 때 의미의 피할 수 없는 불확실성으로 정의되었다.용어의 의미가 불확실하면 여러 [18]소스에서 데이터를 검색하고 상호 참조하려고 할 때 문제가 발생합니다.

데이터 분석 문제를 해결하기 위한 주요 방법은 전문가의 도메인 지식에 의존하는 것입니다.이는 링크 분석을 수행하는 데 매우 시간이 많이 걸리고 비용이 많이 드는 방법이며 고유한 문제가 있습니다.McGrath 등은 네트워크 다이어그램의 레이아웃과 프레젠테이션이 사용자의 "[19]네트워크 내 그룹 존재에 대한 인식"에 큰 영향을 미친다고 결론지었다.도메인 전문가를 사용하는 경우에도 분석이 주관적일 수 있기 때문에 다른 결론이 나올 수 있습니다.

기소 대 범죄 예방

링크 분석 기법은 주로 기소에 사용되어 왔습니다.이는 향후 조치를 예측하는 것보다 패턴에 대한 이력 데이터를 검토하는 것이 훨씬 쉽기 때문입니다.

크렙스는 9월 11일 공격에 책임이 있는 19명의 납치범과 연관된 테러조직의 연계표와 연계표 사용을 공격 [3]후 공개된 세부사항을 지도화함으로써 보여주었다.사람, 장소, 거래에 대한 사후 판단과 공개적으로 이용할 수 있는 정보의 이점에도 불구하고, 누락된 데이터가 있는 것은 분명하다.

대신에, Picarelli는 링크 분석 기술을 사용하여 옴 진리교 네트워크 [20]내의 불법 활동을 식별하고 잠재적으로 예방할 수 있었다고 주장했다.결탁죄를 조심해야 한다.테러리스트와 연계되어 있다는 것이 유죄를 증명하는 것은 아니지만,[3] 수사를 유도하는 것은 사실입니다."아직 발생하지 않은 범죄나 불법 행위를 방지하기 위해 잠재적으로 민감한 데이터를 검토할 때 가능한 원인, 프라이버시 권리 및 결사의 자유대한 법적 개념의 균형을 맞추는 것이 어려워집니다.

제안 솔루션

제안된 링크 분석 [21]솔루션에는 다음 4가지 카테고리가 있습니다.

  1. 휴리스틱 기반의
  2. 템플릿 기반
  3. 유사성 기반
  4. 통계

휴리스틱 기반 도구는 구조화된 데이터를 사용하여 전문 지식을 추출한 의사결정 규칙을 활용합니다.템플릿 기반 도구는 NLP(자연 언어 처리)사용하여 미리 정의된 템플릿과 일치하는 구조화되지 않은 데이터에서 세부 정보를 추출합니다.유사성 기반 접근법에서는 가중 스코어링을 사용하여 속성을 비교하고 잠재적인 링크를 식별합니다.통계적 접근법은 어휘 통계를 기반으로 잠재적 연결을 식별한다.

CrimeNet 탐색기

제이제이 쉬와 에이치Chen은 자동화된 네트워크 분석 및 시각화를 위한 프레임워크인 CrimeNet Explorer를 [22]제안합니다.이 프레임워크에는 다음 요소가 포함됩니다.

  • 같은 문서에 2개의 단어 또는 구가 표시되는 빈도를 측정하기 위해 공존 가중치를 사용하는 개념 공간 접근법에 의한 네트워크 작성.두 단어 또는 구문이 자주 함께 나타날수록, 두 단어가 관련이 있을 가능성이 높아집니다."[22]
  • "계층형 클러스터링을 사용하여 관계 강도에 따라 네트워크를 하위 그룹으로 분할"을 사용합니다.[22]
  • "세 가지 중심성 측정(도, 간극성, 근접성)을 통한 구조 분석"을 통해 주어진 [22]부분군의 중심 구성원을 식별할 수 있습니다.CrimeNet Explorer는 Dijkstra의 최단 경로 알고리즘을 사용하여 하위 그룹 내의 단일 노드에서 다른 모든 노드까지의 간극성 및 근접성을 계산했습니다.
  • Torgerson의 메트릭 다차원 스케일링(MDS) 알고리즘을 사용한 네트워크 시각화.

레퍼런스

  1. ^ Inc., The Tor Project. "Tor Project: Overview".
  2. ^ Ahonen, H., Knowledge Discovery Systems의 특징
  3. ^ a b c d Krebs, V. E. 2001, 테러 조직 지도 작성 2011-07-20 Wayback Machine, Connections 24, 43-52에 보관.
  4. ^ Klerks, P. (2001). "The network paradigm applied to criminal organizations: Theoretical nitpicking or a relevant doctrine for investigators? Recent developments in the Netherlands". Connections. 24: 53–65. CiteSeerX 10.1.1.129.4720.
  5. ^ Harper and Harris, The Analysis of Crimal Intelligence, Human Factors and Heronomenics Society, 19(2), 1975, 페이지 232-238).
  6. ^ Pike, John. "FMI 3-07.22 Appendix F Intelligence Analysis Tools and Indicators".
  7. ^ 2014-03-08년 Wayback Machine에 보관된 소셜 네트워크 분석기타 분석 도구
  8. ^ MSFC, Rebecca Whitaker (10 July 2009). "Aeronautics Educator Guide - Activity Matrices". Archived from the original on 17 January 2008.
  9. ^ 2014-03-08 Wayback Machine에 보관된 성격/활동 매트릭스
  10. ^ "Archived copy". Archived from the original on 2010-10-21. Retrieved 2010-10-31.{{cite web}}: CS1 maint: 제목으로 아카이브된 복사(링크)
  11. ^ "Archived copy". Archived from the original on 2009-03-25. Retrieved 2010-10-31.{{cite web}}: CS1 maint: 제목으로 아카이브된 복사(링크)
  12. ^ "Archived copy". Archived from the original on 2010-12-02. Retrieved 2010-10-31.{{cite web}}: CS1 maint: 제목으로 아카이브된 복사(링크)
  13. ^ Palshikar, G.K., The Hidden Truth, Intelligent Enterprise, 2002년 5월
  14. ^ Bolton, R. J. & Hand, D. J., 통계 사기 탐지: A Review, Statistical Science, 2002, 17(3), 페이지 235-255.
  15. ^ 스패로우 M.K. 1991년'법 집행에서의 네트워크 취약성과 전략 정보', 국제 정보반정보 저널 제5권 제3호.
  16. ^ Friedrich Waismann, 검증 가능성(1945), 페이지 2.
  17. ^ Lyons, D., Open Texture법적 해석 가능성(2000).
  18. ^ McGrath, C., Blythe, J., Krackhardt, D. 그래프 레이아웃에서 그룹 보기.
  19. ^ Picarelli, J. T., 다국적 위협 표시경고: 2016-03-11 웨이백 머신에 보관된 네트워크 분석, 군사정보 분석 그룹 유틸리티.
  20. ^ Schroeder et al., 도메인 지식을 기반으로 한 범죄 관련 자동 분석, 미국정보과학기술학회 저널, 58:6(842), 2007.
  21. ^ a b c d Xu, J.J. & Chen, H., CrimeNet Explorer: 범죄 네트워크 지식 발견을 위한 프레임워크, ACM Transactions on Information Systems, 2005년 4월 23일 (2), 페이지 201-226.

외부 링크