적대적 기계 학습
Adversarial machine learning시리즈의 일부 |
기계 학습 및 데이터 마이닝 |
---|
![]() |
적대적 기계 학습은 기계 학습 알고리즘에 대한 공격과 그러한 [1]공격에 대한 방어에 대한 연구이다.최근 조사에 따르면 실무자들은 산업용 [2]애플리케이션에서 기계 학습 시스템을 더 잘 보호해야 할 필요성이 절실하다고 보고했습니다.
이해하기 위해 대부분의 기계 학습 기법은 훈련 데이터와 테스트 데이터가 동일한 통계 분포(IID)에서 생성된다는 가정 하에 특정 문제 세트에 대해 작동하도록 설계되어 있습니다.그러나 사용자가 통계적 가정을 위반하는 조작된 데이터를 의도적으로 제공할 수 있는 실제 고위험 애플리케이션에서는 이러한 가정이 위험하게 위반되는 경우가 많다.
적대적 기계 학습에서 가장 일반적인 위협 모델에는 회피 공격,[3] 데이터 중독 공격,[4] 비잔틴 공격[5] 및 모델 [6]추출이 포함됩니다.
역사
2004년에 Nilesh Dalvi와 다른 사람들은 스팸 필터에 사용되는 선형 분류기가 스팸 이메일에 "좋은 단어"를 삽입함으로써 단순한 "회피 공격"에 의해 물리칠 수 있다고 지적했습니다.(2007년경 일부 스팸 발송자는 OCR 기반 필터를 제거하기 위해 "이미지 스팸" 내의 흐릿한 단어에 랜덤 노이즈를 추가했습니다.)2006년에 Marco Barmono와 다른 사람들은 공격에 대한 광범위한 분류법을 요약한 "Can Machine Learning Be Secure?"를 발표했습니다.Battista Biggio와 다른 연구자들이 이러한 기계 학습 모델에 대한 첫 번째 그라데이션 기반 공격을 시연하기 전까지 2013년까지 많은 연구자들은 비선형 분류기(지원 벡터 기계 및 신경 네트워크 등)가 적에게 강력할 수 있기를 계속 희망했다[7][8](2012-2013).2012년에는 심층 신경 네트워크가 컴퓨터 비전 문제를 지배하기 시작했습니다. 2014년부터 Christian Szegedy와 다른 연구진은 심층 신경 네트워크가 적에게 속아 넘어갈 수 있다는 것을 증명했으며, 다시 구배 기반 공격을 사용하여 적대적 [9][10]교란을 조성했습니다.
최근에는 [11][12]소음의 영향을 상쇄하는 환경적 제약이 다르기 때문에 현실 세계에서 적대적 공격이 더 발생하기 어렵다는 것이 관찰되었다.예를 들어, 적대적 이미지에 작은 회전이나 약간의 조명을 비추면 적대적 이미지가 파괴될 수 있습니다.게다가, 구글 브레인사의 니콜라스 프로스트와 같은 연구원들은 자가운전 자동차가[13] 적대적인 [14]예를 만드는 것보다 물리적으로 표지판 자체를 제거함으로써 정지 신호를 놓치게 만드는 것이 훨씬 더 쉽다고 지적한다.또한 Frosst는 적대적 기계 학습 커뮤니티가 특정 데이터 분포에 대해 훈련된 모델이 완전히 다른 데이터 분포에서도 잘 수행될 것이라고 잘못 가정한다고 믿는다.그는 기계학습에 대한 새로운 접근법을 모색해야 한다고 제안하고, 현재 최첨단 [14]접근 방식보다는 인간의 인식과 유사한 특성을 가진 독특한 신경망을 연구하고 있다.
적대적 기계 학습이 학계에 뿌리를 두고 있는 가운데 Google, Microsoft 및 IBM과 같은 대형 기술 기업은 문서와 오픈 소스 코드 기반을 조정하여 다른 기업이 기계 학습 모델의 견고성을 구체적으로 평가하고 적대적 [15][16][17]공격의 위험을 최소화할 수 있도록 했습니다.
예
예로는 스팸 필터링에서 스팸 메시지" 나쁜"단어의 철자 바꾸기 또는" 좋은"단어의 삽입을 통해 난독화 되어 있어 공격, 컴퓨터 보안에서 그러한 네트워크 패킷 내에서 생성되거나를 호도하다 침입 탐지는 네트워크 흐름의 특성을 수식하는 악성 코드 코드들을 흐리게 하고로[18][19]공격, bi에서[20][21]공격을 포함한다.ometric recognit가짜 생체 특성을 악용하여 합법적인 사용자를 [22]가장하거나 시간이 지남에 따라 업데이트된 특성에 적응하는 사용자의 템플릿 갤러리를 손상시킬 수 있습니다.
연구자들은 단 한 화소만 바꾸면 딥 러닝 알고리즘을 [23]속일 수 있다는 것을 보여주었다.다른 사람들은 구글의 물체 감지 인공지능이 거북이를 보는 [24]각도에 상관없이 소총으로 분류하도록 만들어진 질감을 가진 거북이를 3D 프린팅했다.거북이를 만들기 위해서는 상업적으로 구할 수 있는 저렴한 3-D 프린팅 [25]기술만 필요했습니다.
기계로 문질러진 개 이미지는 컴퓨터와 [26]인간 모두에게 고양이처럼 보이는 것으로 나타났다.2019년 한 연구는 인간이 기계가 적대적 [27]이미지를 어떻게 분류할 것인지 추측할 수 있다고 보고했다.연구진은 무인자동차가 정지 표지판을 병합 표지판 [13][28][29]또는 속도 제한 표지판으로 분류할 정도로 정지 표지판의 외관을 교란시키는 방법을 발견했다.
McAfee는 테슬라의 이전 모빌아이 시스템을 공격하여 속도 제한 [30][31]표지판에 2인치 검은색 테이프를 추가하는 것만으로 제한 속도를 50mph 초과하도록 속였다.
얼굴 인식 시스템이나 번호판 판독기를 속이기 위해 고안된 안경이나 의복의 적대적 패턴은 "스텔스 스트리트 웨어"[32]라는 틈새 산업을 이끌었다.
신경망에 대한 적대적 공격은 공격자가 대상 [33]시스템에 알고리즘을 주입할 수 있게 합니다.연구자들은 또한 양성처럼 보이는 [34]오디오에서 지능형 보조자에게 명령을 위장하기 위해 적대적인 오디오 입력을 생성할 수 있다. 병렬 문헌은 그러한 [35][36]자극에 대한 인간의 인식을 탐구한다.
클러스터링 알고리즘은 보안 애플리케이션에서 사용됩니다.멀웨어 및 컴퓨터 바이러스 분석은 멀웨어 패밀리를 식별하고 특정 탐지 [37][38]시그니처를 생성하는 것을 목적으로 합니다.
공격 양식
분류법
(감독되는) 머신러닝 알고리즘에 대한 공격은 분류자에 대한 영향, 보안 위반 및 그 특수성의 세 가지 주요 [39]축에 따라 분류되었습니다.
- 분류자의 영향:공격은 분류 단계를 중단함으로써 분류자에 영향을 줄 수 있습니다.여기에는 취약성을 식별하기 위한 탐색 단계가 선행될 수 있습니다.공격자의 기능은 데이터 조작 [40]제약 조건의 존재로 인해 제한될 수 있습니다.
- 보안 위반:공격은 합법적인 것으로 분류되는 악의적인 데이터를 제공할 수 있습니다.훈련 중에 제공된 악성 데이터는 훈련 후 정당한 데이터가 거부될 수 있습니다.
- 사양:표적 공격은 특정 침입/정지를 허용하려고 시도합니다.또는, 무차별적인 공격이 일반적인 대혼란을 일으킨다.
이 분류법은 적의 목표, 공격 시스템에 대한 지식, 입력 데이터/시스템 컴포넌트 조작 능력 및 공격 [41][42]전략에 대한 명확한 가정을 가능하게 하는 보다 포괄적인 위협 모델로 확장되었습니다.이 분류법은 적대적 [43]공격에 대한 방어 전략의 차원으로 더욱 확장되었다.
전략들
다음으로 가장 일반적인 공격 시나리오를 몇 가지 나타냅니다.
데이터 중독
중독은 교육 데이터 세트를 오염시키는 것으로 구성됩니다.학습 알고리즘이 교육 데이터셋에 의해 형성되는 것을 고려하면, 중독은 알고리즘을 효과적으로 재프로그래밍할 수 있다.특히 가짜 계정이 흔하다는 점을 감안할 때 콘텐츠 추천이나 자연어 모델과 같은 사용자 생성 교육 데이터에 대한 심각한 우려가 제기되었습니다.리스크의 규모를 측정하기 위해 페이스북은 [44][45]연간 약 70억 개의 가짜 계정을 삭제한다고 알려졌습니다.실제로 데이터 중독은 산업용 [2]애플리케이션의 주요 우려 사항으로 보고되고 있습니다.
소셜 미디어에서, 허위 정보 캠페인은 특정 컨텐츠를 다른 컨텐츠보다 우선시하기 위해 추천과 조정 알고리즘을 편향시키기 위해 방대한 양의 조작된 활동을 생성하는 것으로 알려져 있습니다.
데이터 중독의 특정 경우를 백도어 [46]공격이라고 하는데, 이는 이미지, 소리, 비디오 또는 텍스트의 작은 결함 등 특정 트리거가 있는 입력에 대한 특정 동작을 가르치는 것을 목적으로 한다.
예를 들어, IDS(침입 탐지 시스템)는 수집된 데이터를 사용하여 재교육되는 경우가 많습니다.공격자는 조작 중에 악의적인 샘플을 주입하여 이 데이터를 포이즈닝할 수 있습니다.이 경우 이후 재트레이닝이 [41][42][39][47][48][49]중단됩니다.
비잔틴의 공격
머신러닝이 확장됨에 따라 많은 경우 복수의 컴퓨팅 머신에 의존하게 됩니다.예를 들어 연합학습에서는 엣지 디바이스는 중앙 서버와 연계하여 일반적으로 그라데이션 또는 모델 파라미터를 송신합니다.그러나 이러한 장치 중 일부는 예상된 동작에서 벗어날 수 있습니다. 예를 들어 중앙 서버의[50] 모델을 손상시키거나 특정 동작에 알고리즘을 편향시키는 것(예: 허위 정보 내용의 권장 증폭)입니다.한편, 트레이닝을 1대의 머신으로 실시하는 경우, 모델은 머신의 고장이나 머신의 공격에 매우 취약합니다.머신은 단일의 [51]장해 지점입니다.실제로 기계 소유자는 검출할 수 없는 백도어를 [52]삽입할 수 있습니다.
소수의 악의적(예: 비잔틴) 참가자들에게 (분산된) 학습 알고리즘을 입증할 수 있는 탄력적으로 만드는 현재의 선도 솔루션은 강력한 경사 집계 [53][54][55][56][57][58]규칙을 기반으로 한다.그럼에도 불구하고, 추천 알고리즘이나 언어 모델의 쓰기 스타일을 위한 다른 소비 습관을 가진 사용자들과 같은 이질적인 정직한 참여자들의 맥락에서, 어떤 강력한 학습 알고리즘이 보증할 [5][59]수 있는 것에 대한 입증 가능한 불가능 이론이 존재한다.
회피.
회피[8][41][42][60] 공격은 훈련된 모델의 불완전성을 이용하는 것으로 구성됩니다.예를 들어 스팸 메일 및 악성 프로그램의 내용을 난독화하여 스팸 발송자나 해커가 탐지를 회피하는 경우가 많습니다.샘플은 탐지를 회피하기 위해, 즉 합법으로 분류되도록 수정됩니다.이것은 교육 데이터에 영향을 미치지 않습니다.회피의 명확한 예는 스팸 콘텐츠를 첨부 이미지 내에 삽입하여 안티스팸 필터에 의한 텍스트 분석을 회피하는 이미지 기반 스팸입니다.바이오메트릭 검증 [22]시스템에 대한 스푸핑 공격을 통해 회피의 또 다른 예를 들 수 있다.
회피 공격은 일반적으로 블랙박스 공격과 화이트박스 [16]공격의 두 가지 범주로 나눌 수 있습니다.
모델 추출
모델 추출에는 블랙박스 기계 학습 시스템이 훈련받은 [61][62]데이터를 추출하기 위해 상대방이 탐색하는 작업이 포함됩니다.따라서 교육 데이터 또는 모델 자체가 기밀성이 높고 기밀성이 높은 경우 문제가 발생할 수 있습니다.예를 들어, 모델 추출은 상대방이 재무적 효익을 위해 사용할 수 있는 독점적 주식거래모형을 추출하는 데 사용될 수 있다.
극단적인 경우, 모델 추출은 모델 도용으로 이어질 수 있으며, 이는 모델의 완전한 재구성을 가능하게 하는 충분한 양의 데이터를 모델에서 추출하는 것에 해당합니다.
한편, 멤버십 추론은 데이터 포인트의 소유자를 유추하는 표적 모델 추출 공격이며, 종종 잘못된 기계 학습 [63]관행에서 비롯되는 과적합성을 활용한다.이와 관련하여, 이것은 때때로 대상 모델의 매개변수에 대한 지식이나 접근 없이도 달성될 수 있으며, 의료 기록 및/또는 개인 식별 가능 정보를 포함하지만 이에 국한되지 않는 민감한 데이터에 대해 교육을 받은 모델에 대한 보안 문제가 제기됩니다.많은 최첨단 기계 학습 모델의 이전 학습과 공개 접근성이 등장함에 따라, 기술 기업들은 공개 학습 모델을 기반으로 한 모델을 제작하는 데 점점 더 끌리고 있으며,[63] 공격자가 사용하는 모델의 구조와 유형에 자유롭게 접근할 수 있는 정보를 제공합니다.
특정 공격 유형
기계 학습 시스템에 대해 사용될 수 있는 다양한 적대적 공격이 있습니다.이들 대부분은 딥 러닝 시스템과 SVM[7] 및 선형 [64]회귀와 같은 기존 머신 러닝 모델 모두에서 작동합니다.이러한 공격 유형의 대략적인 예는 다음과 같습니다.
적대적 예
적대적 예시는 인간에게 "정상"으로 보이도록 설계되었지만 기계 학습 모델로 잘못 분류되는 특수하게 조작된 입력을 참조합니다.종종 오분류를 유도하기 위해 특별히 설계된 "소음"의 형태가 사용된다.다음은 문헌에서 적대적 예를 생성하는 몇 가지 최신 기법이다(절대 포괄적인 목록은 아니다).
- 구배 기반 회피[8] 공격
- Fast Gradient Sign Method(FGSM)[69]
- 예상 경사 강하(PGD)[70]
- 칼리니와 바그너(C&W) 공격[71]
- 적대적 패치[72] 공격
블랙박스 공격
적대적 기계 학습의 블랙박스 공격은 상대방이 제공된 입력에 대해서만 출력을 얻을 수 있고 모델 구조나 [16][73]매개변수에 대한 지식이 없다고 가정한다.이 경우, 적대적 예는 처음부터 생성된 모델을 사용하거나 모델이 전혀 없이 생성됩니다(원래 모델을 쿼리하는 기능은 제외).어느 경우든, 이러한 공격의 목적은 문제의 [74]블랙박스 모델로 이전할 수 있는 적대적 사례를 만드는 것입니다.
스퀘어 어택
스퀘어 공격은 구배 [75]정보 없이 분류 점수를 조회하는 블랙박스 회피 적대적 공격으로서 2020년에 도입되었다.점수 기반 블랙박스 공격으로서, 이 적대적 접근법은 모델 출력 클래스에 걸친 확률 분포를 쿼리할 수 있지만 모델 자체에 대한 다른 접근은 없다.이 논문의 저자에 따르면 제안된 스퀘어 공격은 당시 [75]아트 스코어 기반 블랙박스 공격에 비해 필요한 쿼리가 적다고 한다.
함수 목표를 설명하기 위해 공격은 분류자를 f:[ , ] \ f : [ , ]^{}\ \{R}K 로 합니다.\ d}는 입력의 치수를 K \ K는 출력 클래스의 합계수를 나타냅니다. k( 는 입력x(\x)가 k(\ k에 속하는 점수(또는 확률)를 반환합니다.이것에 의해, 의 x(\x)에 대한 분류자의 클래스 출력을 g k ,K )로 정의할 수 있습니다 ..., 이 공격의 목적은 다음과 같습니다.[75]
즉, x{와 x{가 유사하다는 제약 에 분류자가 이를 다른 클래스로 잘못 분류할 수 있도록 교란된 예x(\x})를 찾는 것입니다.다음으로 손실 L을 L), y ) - k k ( )、 y ) _ { y } ( { \ { } ) - { k \ y f { } { k } { } { k } } } 로 정의합니다.다음 제한 최적화 문제:[75]
이론의 결과는 잘못된 클래스에 대해 매우 자신만만하지만 원본 이미지와 매우 유사한 적대적 사례입니다.이러한 예를 찾기 위해, 사각 공격은 반복 랜덤 검색 기술을 사용하여 목적 함수를 개선하고자 이미지를 무작위로 교란합니다.각 단계에서 알고리즘은 픽셀의 작은 정사각형 부분만 교란하기 때문에 쿼리 효율을 개선하기 위해 적대적인 예가 발견되는 즉시 종료되는 Square Attack이라는 이름을 사용한다.마지막으로, 공격 알고리즘은 구배 정보가 아닌 점수를 사용하기 때문에, 본 논문의 저자들은 이 접근법이 [75]회피 공격을 방지하기 위해 이전에 사용되었던 일반적인 기술인 구배 마스킹의 영향을 받지 않음을 나타낸다.
Hop Skip Jump 공격
이 블랙박스 공격은 쿼리 효율적인 공격으로도 제안되었지만 입력의 예측 출력 클래스에 대한 액세스에만 의존하는 공격입니다.즉, HopSkipJump 공격은 구배를 계산하거나 Square Attack과 같은 점수 값에 액세스할 필요가 없으며 모델의 클래스 예측 출력만 필요합니다.제안된 공격은 타겟팅과 타겟팅되지 않은 두 가지 다른 설정으로 나뉘지만, 둘 다 다른 모델 출력으로 이어지는 최소한의 섭동을 추가하는 일반적인 아이디어에서 구축된다.대상 설정에서 목표는 모델이 교란된 이미지를 특정 대상 라벨(원래 라벨이 아님)로 잘못 분류하는 것입니다.대상화되지 않은 설정에서는 모델이 원래 라벨이 아닌 라벨로 섭동된 이미지를 잘못 분류하는 것이 목표입니다.두 가지 공격 목표는 다음과 같습니다 서 x {\ x는 원본 이미지, x {\prime는 적대 d {\d}는 이미지 간의 거리 , c {\ c는 타깃 라벨, {\ C는 모델의 분류 클래스입니다.ss 라벨 함수:
이 문제를 해결하기 위해 공격은 대상 설정 및 대상 설정 모두에 대해 다음 경계 S S를 제안합니다.
이를 더욱 단순화하여 서로 다른 잠재적 적대적 사례 간의 경계를 더 잘 시각화할 수 있습니다.
이 경계 함수를 사용하면 공격은 반복 알고리즘을 사용하여 공격 목표를 충족하는 특정 x(\x^{\ })에 대한 예 x xprime})를 찾습니다.
- x를 S 0 S 0으로 초기화합니다.
- 아래에서 반복하다
- 경계 검색
- 그라데이션 업데이트
- 그라데이션 계산
- 스텝 사이즈 검색
경계 검색에서는 수정된 이진 검색을 사용하여 경계(S{\ S에서 정의된가 x(\ x x x 의 선과 교차하는 지점을 찾습니다.다음 단계에서는 x x의 구배를 계산하고 이 구배와 선택 전 단계 크기를 사용하여 x(\ x를 업데이트합니다.HopSkipJump 작성자는 이 반복 알고리즘이 수렴되어 x x가 원래 [76]이미지와 매우 가까운 경계선을 따라 점으로 을 증명합니다.
그러나 HopSkipJump는 제안된 블랙박스 공격이며 위의 반복 알고리즘은 (블랙박스 공격에 접근할 수 없는) 두 번째 반복 단계에서 그라데이션 계산을 필요로 하기 때문에 저자들은 모델의 출력 예측만을 [76]필요로 하는 그라데이션 계산에 대한 솔루션을 제안한다. 으로의 랜덤 벡터를 생성함으로써 구배 근사치는 경계함수 부호에 의해 가중된 이들 랜덤 벡터의 평균을 사용하여 계산할 수 있습니다여기서 구배는 이미지상의 경계함수 부호에 의해 가중됩니다.x + b { \ x^ { \ } + \ _ { u _ { } _ { b }} 。{{는) 랜덤 벡터 섭동의 크기:
위의 방정식의 결과는 반복 알고리즘의 스텝2에서 요구되는 구배 근사치를 나타내며 블랙박스 [77][78][76]공격으로서 HopSkipJump를 완성합니다.
화이트 박스 공격
화이트 박스 공격은 상대방이 제공된 [74]입력의 라벨을 얻을 수 있을 뿐만 아니라 모델 파라미터에 액세스할 수 있다고 가정합니다.
Fast Gradient Sign Method(FGSM)
구글의 연구원인 Ian J. Goodfellow, Jonathon Shlens,[79] Christian Szegedy에 의해 적대적 사례를 생성하기 위해 가장 먼저 제안된 공격 중 하나가 제안되었다.이 공격은 고속 구배 부호법이라고 불리며, 이미지에 허용 가능한 노이즈의 선형 양을 추가하고 모델이 이를 잘못 분류하도록 하는 것으로 구성됩니다.이 노이즈는 교란하려는 이미지에 대한 구배 부호에 작은 상수 엡실론을 곱하여 계산됩니다.엡실론이 증가할수록 모델은 속아넘어갈 가능성이 높아지지만 섭동도 식별하기 쉬워집니다.아래는 x x가 원본 이미지이고, \는 매우 작은 숫자이고, \_{는 그라데이션 이며, J J는 손실 함수이고,(\는 모델 가중치 및 모델 가중치입니다.y는 진정한 [80]라벨입니다.
이 방정식의 한 가지 중요한 특성은 입력 이미지에 대해 구배가 계산된다는 것이다. 왜냐하면 목표는 실제 원본 이미지에 대한 손실을 최대화하는 이미지를 생성하는 것이기 때문이다. ( 훈련의 경우 전통적인 구배 강하에서는 구배는 t 이후 모델의 가중치를 업데이트하기 위해 사용된다.그의 목표는 실제 날짜에서 모델의 손실을 최소화하는 것이다.고속 경사 부호 방법은 신경망이 [80][81][79]입력에 대한 선형적인 양의 섭동을 거부할 수 없다는 가설을 바탕으로 모델을 회피하기 위해 적대적 예를 생성하는 빠른 방법으로 제안되었다.
Carlini & Wagner (C&W)
기존의 적대적 공격과 방어를 분석하기 위해 2016년 캘리포니아 대학교 버클리, Nicholas Carlini 및 David Wagner의 연구원들은 적대적 사례를 생성하는 [82]더 빠르고 강력한 방법을 제안합니다.
Carlini와 Wagner가 제안한 공격은 어려운 비선형 최적화 방정식을 푸는 것으로 시작됩니다.
여기서의 목적은 기계학습 알고리즘 C이 dire가 아닌 delta +\x+\delta를 사용하여 원래 입력x(\ x )를 예측하도록 원래 x(\x에 추가된 노이즈를 최소화하는 것입니다.위의 방정식에 따르면 Carlini와 Wagner는 다음과 같은 새로운 ff를 사용할 것을 제안한다.
이것에 의해, 다음의 문제에 대한 첫 번째 방정식이 정리됩니다.
더 많은 정보를 얻을 수 있습니다.
Carlini와 Wagner는 주어진 x(\ x에 대한 클래스 확률을 결정하는 함수인(\ Z를 하여f(\ f 아래 함수를 사용할 것을 제안한다. 이 방정식을 대입하면 가장 clas와 같은 다음 클래스보다 신뢰도가 높은 타깃 클래스를 찾는 것으로 생각할 수 있다.s는 일정한 양만큼:
구배 강하를 사용하여 해결할 때, 이 방정식은 한 때 적대적 [83][84][82][62]예에 대해 효과적이라고 제안된 방어인 방어 증류도 우회할 수 있는 빠른 구배 부호 방법과 비교할 때 더 강력한 적대적 예를 생성할 수 있다.
방어.
연구자들은 기계 [10]학습을 보호하기 위한 다단계 접근법을 제안했습니다.
- 위협 모델링 – 대상 시스템에 대한 공격자의 목표와 능력을 공식화합니다.
- 공격 시뮬레이션 – 공격자가 해결하려는 최적화 문제를 가능한 공격 전략에 따라 공식화합니다.
- 공격 영향 평가
- 대책 설계
- 노이즈 검출(회피 기반 [85]공격의 경우)
- 정보 세탁 – 공격 대상자가 받은 정보 변경(모델 도용 [62]공격용)
메커니즘
회피, 포이즈닝 및 프라이버시 공격에 대한 방어 메커니즘은 다음과 같이 제안되고 있습니다.
- GAN으로부터의 데이터 증강으로 강화된 DNN(Deep Neural Network) 분류기.[86]
- 안전한 학습 알고리즘[19][87][88]
- 비잔틴 복원 알고리즘[53][5]
- 다중 분류기[18][89] 시스템
- 인공지능에 의해 작성된 알고리즘.[33]
- 교육 환경을 탐색하는 AI. 예를 들어, 이미지 인식에서는 고정된 2D [33]이미지 세트를 수동적으로 스캔하는 대신 3D 환경을 능동적으로 탐색합니다.
- 프라이버시 보호[42][90] 학습
- 카글식 경기용 사다리 알고리즘
- 게임 이론[91][92][93] 모델
- 교육 데이터 삭제
- 적대적[69][21] 훈련
- 백도어 검출 알고리즘[94]
「 」를 참조해 주세요.
레퍼런스
- ^ Kianpour, Mazaher; Wen, Shao-Fang (2020). "Timing Attacks on Machine Learning: State of the Art". Intelligent Systems and Applications. Advances in Intelligent Systems and Computing. Vol. 1037. pp. 111–125. doi:10.1007/978-3-030-29516-5_10. ISBN 978-3-030-29515-8. S2CID 201705926.
- ^ a b Siva Kumar, Ram Shankar; Nyström, Magnus; Lambert, John; Marshall, Andrew; Goertzel, Mario; Comissoneru, Andi; Swann, Matt; Xia, Sharon (May 2020). "Adversarial Machine Learning-Industry Perspectives". 2020 IEEE Security and Privacy Workshops (SPW): 69–75. doi:10.1109/SPW50608.2020.00028. S2CID 229357721.
- ^ Goodfellow, Ian; McDaniel, Patrick; Papernot, Nicolas (25 June 2018). "Making machine learning robust against adversarial inputs". Communications of the ACM. 61 (7): 56–66. doi:10.1145/3134599. ISSN 0001-0782. Retrieved 2018-12-13.[영구 데드링크]
- ^ Geiping, Jonas; Fowl, Liam H.; Huang, W. Ronny; Czaja, Wojciech; Taylor, Gavin; Moeller, Michael; Goldstein, Tom (2020-09-28). Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching. International Conference on Learning Representations 2021 (Poster).
- ^ a b c El-Mhamdi, El Mahdi; Farhadkhani, Sadegh; Guerraoui, Rachid; Guirguis, Arsany; Hoang, Lê-Nguyên; Rouault, Sébastien (2021-12-06). "Collaborative Learning in the Jungle (Decentralized, Byzantine, Heterogeneous, Asynchronous and Nonconvex Learning)". Advances in Neural Information Processing Systems. 34. arXiv:2008.00742.
- ^ Tramèr, Florian; Zhang, Fan; Juels, Ari; Reiter, Michael K.; Ristenpart, Thomas (2016). Stealing Machine Learning Models via Prediction {APIs}. 25th USENIX Security Symposium. pp. 601–618. ISBN 978-1-931971-32-4.
- ^ a b Biggio, Battista; Nelson, Blaine; Laskov, Pavel (2013-03-25). "Poisoning Attacks against Support Vector Machines". arXiv:1206.6389 [cs.LG].
- ^ a b c Biggio, Battista; Corona, Igino; Maiorca, Davide; Nelson, Blaine; Srndic, Nedim; Laskov, Pavel; Giacinto, Giorgio; Roli, Fabio (2013). "Evasion attacks against machine learning at test time". ECML PKDD. Lecture Notes in Computer Science. Vol. 7908. Springer. pp. 387–402. arXiv:1708.06131. doi:10.1007/978-3-642-40994-3_25. ISBN 978-3-642-38708-1. S2CID 18716873.
- ^ Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2014-02-19). "Intriguing properties of neural networks". arXiv:1312.6199 [cs.CV].
- ^ a b Biggio, Battista; Roli, Fabio (December 2018). "Wild patterns: Ten years after the rise of adversarial machine learning". Pattern Recognition. 84: 317–331. arXiv:1712.03141. Bibcode:2018PatRe..84..317B. doi:10.1016/j.patcog.2018.07.023. S2CID 207324435.
- ^ Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (2016). "Adversarial examples in the physical world". arXiv:1607.02533 [cs.CV].
- ^ 굽타, 키쇼르 다타, 디판카 다스굽타, 자히드 아크타르."회피 기반 적대적 공격 및 완화 기법의 적용 가능성 문제" 2020년 계산 지능(SSCI)에 관한 IEEE 심포지엄 시리즈. 2020년.
- ^ a b Lim, Hazel Si Min; Taeihagh, Araz (2019). "Algorithmic Decision-Making in AVs: Understanding Ethical and Technical Concerns for Smart Cities". Sustainability. 11 (20): 5791. arXiv:1910.13122. Bibcode:2019arXiv191013122L. doi:10.3390/su11205791. S2CID 204951009.
- ^ a b Synced (2019-11-21). "Google Brain's Nicholas Frosst on Adversarial Examples and Emotional Responses Synced". syncedreview.com. Retrieved 2021-10-23.
- ^ "Responsible AI practices". Google AI. Retrieved 2021-10-23.
- ^ a b c Adversarial Robustness Toolbox (ART) v1.8, Trusted-AI, 2021-10-23, retrieved 2021-10-23
- ^ amarshal. "Failure Modes in Machine Learning - Security documentation". docs.microsoft.com. Retrieved 2021-10-23.
- ^ a b Biggio, Battista; Fumera, Giorgio; Roli, Fabio (2010). "Multiple classifier systems for robust classifier design in adversarial environments". International Journal of Machine Learning and Cybernetics. 1 (1–4): 27–41. doi:10.1007/s13042-010-0007-7. ISSN 1868-8071. S2CID 8729381.
- ^ a b Brückner, Michael; Kanzow, Christian; Scheffer, Tobias (2012). "Static Prediction Games for Adversarial Learning Problems" (PDF). Journal of Machine Learning Research. 13 (Sep): 2617–2654. ISSN 1533-7928.
- ^ Apruzzese, Giovanni; Andreolini, Mauro; Ferretti, Luca; Marchetti, Mirco; Colajanni, Michele (2021-06-03). "Modeling Realistic Adversarial Attacks against Network Intrusion Detection Systems". Digital Threats: Research and Practice. doi:10.1145/3469659. ISSN 2692-1626. S2CID 235458519.
- ^ a b Vitorino, João; Oliveira, Nuno; Praça, Isabel (March 2022). "Adaptative Perturbation Patterns: Realistic Adversarial Learning for Robust Intrusion Detection". Future Internet. 14 (4): 108. doi:10.3390/fi14040108. ISSN 1999-5903.
- ^ a b Rodrigues, Ricardo N.; Ling, Lee Luan; Govindaraju, Venu (1 June 2009). "Robustness of multimodal biometric fusion methods against spoof attacks" (PDF). Journal of Visual Languages & Computing. 20 (3): 169–179. doi:10.1016/j.jvlc.2009.01.010. ISSN 1045-926X.
- ^ Su, Jiawei; Vargas, Danilo Vasconcellos; Sakurai, Kouichi (October 2019). "One Pixel Attack for Fooling Deep Neural Networks". IEEE Transactions on Evolutionary Computation. 23 (5): 828–841. arXiv:1710.08864. doi:10.1109/TEVC.2019.2890858. ISSN 1941-0026. S2CID 2698863.
- ^ "Single pixel change fools AI programs". BBC News. 3 November 2017. Retrieved 12 February 2018.
- ^ Athalye, Anish; Engstrom, Logan; Ilyas, Andrew; Kwok, Kevin (2017). "Synthesizing Robust Adversarial Examples". arXiv:1707.07397 [cs.CV].
- ^ "AI Has a Hallucination Problem That's Proving Tough to Fix". WIRED. 2018. Retrieved 10 March 2018.
- ^ Zhou, Zhenglong; Firestone, Chaz (2019). "Humans can decipher adversarial images". Nature Communications. 10 (1): 1334. arXiv:1809.04120. Bibcode:2019NatCo..10.1334Z. doi:10.1038/s41467-019-08931-6. PMC 6430776. PMID 30902973.
- ^ Jain, Anant (2019-02-09). "Breaking neural networks with adversarial attacks – Towards Data Science". Medium. Retrieved 2019-07-15.
- ^ Ackerman, Evan (2017-08-04). "Slight Street Sign Modifications Can Completely Fool Machine Learning Algorithms". IEEE Spectrum: Technology, Engineering, and Science News. Retrieved 2019-07-15.
- ^ "A Tiny Piece of Tape Tricked Teslas Into Speeding Up 50 MPH". Wired. 2020. Retrieved 11 March 2020.
- ^ "Model Hacking ADAS to Pave Safer Roads for Autonomous Vehicles". McAfee Blogs. 2020-02-19. Retrieved 2020-03-11.
- ^ Seabrook, John (2020). "Dressing for the Surveillance Age". The New Yorker. Retrieved 5 April 2020.
- ^ a b c Heaven, Douglas (October 2019). "Why deep-learning AIs are so easy to fool". Nature. 574 (7777): 163–166. Bibcode:2019Natur.574..163H. doi:10.1038/d41586-019-03013-5. PMID 31597977.
- ^ Hutson, Matthew (10 May 2019). "AI can now defend itself against malicious messages hidden in speech". Nature. doi:10.1038/d41586-019-01510-1. PMID 32385365. S2CID 189666088.
- ^ Lepori, Michael A; Firestone, Chaz (2020-03-27). "Can you hear me now? Sensitive comparisons of human and machine perception". arXiv:2003.12362 [eess.AS].
- ^ Vadillo, Jon; Santana, Roberto (2020-01-23). "On the human evaluation of audio adversarial examples". arXiv:2001.08444 [eess.AS].
- ^ D. B. 스킬리콘"애드버서리 지식 발견"IEEE Intelligent Systems, 24:54~61, 2009.
- ^ a b B. Bigio, G. Fumera, F.Roli. "패턴 인식 시스템이 공격을 받고 있습니다. 설계상의 과제와 연구상의 과제.국제 J. 패트인식하다.인공, 인텔, 28:1460002, 2014.
- ^ a b Barreno, Marco; Nelson, Blaine; Joseph, Anthony D.; Tygar, J. D. (2010). "The security of machine learning" (PDF). Machine Learning. 81 (2): 121–148. doi:10.1007/s10994-010-5188-5. S2CID 2304759.
- ^ Sikos, Leslie F. (2019). AI in Cybersecurity. Intelligent Systems Reference Library. Vol. 151. Cham: Springer. p. 50. doi:10.1007/978-3-319-98842-9. ISBN 978-3-319-98841-2.
- ^ a b c B. Bigio, G. Fumera, F.Roli. "Wayback Machine에서 2018-05-18 공격 중인 패턴 분류기 보안 평가"IEEE Transactions on Knowledge and Data Engineering, 26(4): 984–996, 2014.
- ^ a b c d e Biggio, Battista; Corona, Igino; Nelson, Blaine; Rubinstein, Benjamin I. P.; Maiorca, Davide; Fumera, Giorgio; Giacinto, Giorgio; Roli, Fabio (2014). "Security Evaluation of Support Vector Machines in Adversarial Environments". Support Vector Machines Applications. Springer International Publishing. pp. 105–153. arXiv:1401.7727. doi:10.1007/978-3-319-02300-7_4. ISBN 978-3-319-02300-7. S2CID 18666561.
- ^ Heinrich, Kai; Graf, Johannes; Chen, Ji; Laurisch, Jakob; Zschech, Patrick (2020-06-15). "FOOL ME ONCE, SHAME ON YOU, FOOL ME TWICE, SHAME ON ME: A TAXONOMY OF ATTACK AND DE-FENSE PATTERNS FOR AI SECURITY". ECIS 2020 Research Papers.
- ^ "Facebook removes 15 Billion fake accounts in two years". Tech Digest. 2021-09-27. Retrieved 2022-06-08.
- ^ "Facebook removed 3 billion fake accounts in just 6 months". New York Post. Associated Press. 2019-05-23. Retrieved 2022-06-08.
- ^ Schwarzschild, Avi; Goldblum, Micah; Gupta, Arjun; Dickerson, John P.; Goldstein, Tom (2021-07-01). "Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and Data Poisoning Attacks". International Conference on Machine Learning. PMLR: 9389–9398.
- ^ B. 비지오, B.넬슨, 그리고 P.라스코프."적대적 라벨 노이즈 하에서 벡터 머신을 지원합니다."「기계 학습 연구 저널」– Proc. 제3회 아시아 회의.기계학습, 제20권, 97-112페이지, 2011.
- ^ M. Kloft와 P.라스코프."온라인 중심 이상 검출 보안 분석"기계학습연구저널, 2012년 13:3647–3690.
- ^ Moisejevs, Ilja (2019-07-15). "Poisoning attacks on Machine Learning – Towards Data Science". Medium. Retrieved 2019-07-15.
- ^ Baruch, Gilad; Baruch, Moran; Goldberg, Yoav (2019). "A Little Is Enough: Circumventing Defenses For Distributed Learning". Advances in Neural Information Processing Systems. Curran Associates, Inc. 32. arXiv:1902.06156.
- ^ El-Mhamdi, El-Mahdi; Guerraoui, Rachid; Guirguis, Arsany; Hoang, Lê-Nguyên; Rouault, Sébastien (2022-05-26). "Genuinely distributed Byzantine machine learning". Distributed Computing. doi:10.1007/s00446-022-00427-9. ISSN 1432-0452. S2CID 249111966.
- ^ Goldwasser, S.; Kim, Michael P.; Vaikuntanathan, V.; Zamir, Or (2022). "Planting Undetectable Backdoors in Machine Learning Models". arXiv:2204.06974 [cs.LG].
- ^ a b Blanchard, Peva; El Mhamdi, El Mahdi; Guerraoui, Rachid; Stainer, Julien (2017). "Machine Learning with Adversaries: Byzantine Tolerant Gradient Descent". Advances in Neural Information Processing Systems. Curran Associates, Inc. 30.
- ^ Chen, Lingjiao; Wang, Hongyi; Charles, Zachary; Papailiopoulos, Dimitris (2018-07-03). "DRACO: Byzantine-resilient Distributed Training via Redundant Gradients". International Conference on Machine Learning. PMLR: 903–912. arXiv:1803.09877.
- ^ Mhamdi, El Mahdi El; Guerraoui, Rachid; Rouault, Sébastien (2018-07-03). "The Hidden Vulnerability of Distributed Learning in Byzantium". International Conference on Machine Learning. PMLR: 3521–3530. arXiv:1802.07927.
- ^ Allen-Zhu, Zeyuan; Ebrahimianghazani, Faeze; Li, Jerry; Alistarh, Dan (2020-09-28). "Byzantine-Resilient Non-Convex Stochastic Gradient Descent". arXiv:2012.14368.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ Mhamdi, El Mahdi El; Guerraoui, Rachid; Rouault, Sébastien (2020-09-28). "Distributed Momentum for Byzantine-resilient Stochastic Gradient Descent".
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ Data, Deepesh; Diggavi, Suhas (2021-07-01). "Byzantine-Resilient High-Dimensional SGD with Local Iterations on Heterogeneous Data". International Conference on Machine Learning. PMLR: 2478–2488.
- ^ Karimireddy, Sai Praneeth; He, Lie; Jaggi, Martin (2021-09-29). "Byzantine-Robust Learning on Heterogeneous Datasets via Bucketing". arXiv:2006.09365.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ B. Nelson, B. I. Rubinstein, L. Huang, A. D. Joseph, S. J. Lee, S. Rao, J. D.티가르. "볼록 유도 분류기를 피하는 쿼리 전략"J. 마하Learn. Res., 2012년 13:1293~1332
- ^ "How to steal modern NLP systems with gibberish?". cleverhans-blog. 2020-04-06. Retrieved 2020-10-15.
- ^ a b c d e f g h Wang, Xinran; Xiang, Yu; Gao, Jun; Ding, Jie (2020-09-13). "Information Laundering for Model Privacy". arXiv:2009.06112 [cs.CR].
- ^ a b Dickson, Ben (2021-04-23). "Machine learning: What are membership inference attacks?". TechTalks. Retrieved 2021-11-07.
- ^ Jagielski, Matthew; Oprea, Alina; Biggio, Battista; Liu, Chang; Nita-Rotaru, Cristina; Li, Bo (May 2018). "Manipulating Machine Learning: Poisoning Attacks and Countermeasures for Regression Learning". 2018 IEEE Symposium on Security and Privacy (SP). IEEE: 19–35. arXiv:1804.00308. doi:10.1109/sp.2018.00057. ISBN 978-1-5386-4353-2. S2CID 4551073.
- ^ "Attacking Machine Learning with Adversarial Examples". OpenAI. 2017-02-24. Retrieved 2020-10-15.
- ^ Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (2019-03-11). "BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain". arXiv:1708.06733 [cs.CR].
- ^ Veale, Michael; Binns, Reuben; Edwards, Lilian (2018-11-28). "Algorithms that remember: model inversion attacks and data protection law". Philosophical Transactions. Series A, Mathematical, Physical, and Engineering Sciences. 376 (2133). arXiv:1807.04644. Bibcode:2018RSPTA.37680083V. doi:10.1098/rsta.2018.0083. ISSN 1364-503X. PMC 6191664. PMID 30322998.
- ^ Shokri, Reza; Stronati, Marco; Song, Congzheng; Shmatikov, Vitaly (2017-03-31). "Membership Inference Attacks against Machine Learning Models". arXiv:1610.05820 [cs.CR].
- ^ a b Goodfellow, Ian J.; Shlens, Jonathon; Szegedy, Christian (2015-03-20). "Explaining and Harnessing Adversarial Examples". arXiv:1412.6572 [stat.ML].
- ^ Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (2019-09-04). "Towards Deep Learning Models Resistant to Adversarial Attacks". arXiv:1706.06083 [stat.ML].
- ^ Carlini, Nicholas; Wagner, David (2017-03-22). "Towards Evaluating the Robustness of Neural Networks". arXiv:1608.04644 [cs.CR].
- ^ Brown, Tom B.; Mané, Dandelion; Roy, Aurko; Abadi, Martín; Gilmer, Justin (2018-05-16). "Adversarial Patch". arXiv:1712.09665 [cs.CV].
- ^ Guo, Sensen; Zhao, Jinxiong; Li, Xiaoyu; Duan, Junhong; Mu, Dejun; Jing, Xiao (2021-04-24). "A Black-Box Attack Method against Machine-Learning-Based Anomaly Network Flow Detection Models". Security and Communication Networks. 2021: e5578335. doi:10.1155/2021/5578335. ISSN 1939-0114.
- ^ a b Gomes, Joao (2018-01-17). "Adversarial Attacks and Defences for Convolutional Neural Networks". Onfido Tech. Retrieved 2021-10-23.
- ^ a b c d e f g Andriushchenko, Maksym; Croce, Francesco; Flammarion, Nicolas; Hein, Matthias (2020). Vedaldi, Andrea; Bischof, Horst; Brox, Thomas; Frahm, Jan-Michael (eds.). "Square Attack: A Query-Efficient Black-Box Adversarial Attack via Random Search". Computer Vision – ECCV 2020. Lecture Notes in Computer Science. Cham: Springer International Publishing. 12368: 484–501. arXiv:1912.00049. doi:10.1007/978-3-030-58592-1_29. ISBN 978-3-030-58592-1. S2CID 208527215.
- ^ a b c d e f g h Chen, Jianbo; Jordan, Michael I.; Wainwright, Martin J. (2019), HopSkipJumpAttack: A Query-Efficient Decision-Based Attack, arXiv:1904.02144, retrieved 2021-10-25
- ^ Andriushchenko, Maksym; Croce, Francesco; Flammarion, Nicolas; Hein, Matthias (2020-07-29). "Square Attack: a query-efficient black-box adversarial attack via random search". arXiv:1912.00049 [cs.LG].
- ^ "Black-box decision-based attacks on images". KejiTech. 2020-06-21. Retrieved 2021-10-25.
- ^ a b Goodfellow, Ian J.; Shlens, Jonathon; Szegedy, Christian (2015-03-20). "Explaining and Harnessing Adversarial Examples". arXiv:1412.6572 [stat.ML].
- ^ a b Tsui, Ken (2018-08-22). "Perhaps the Simplest Introduction of Adversarial Examples Ever". Medium. Retrieved 2021-10-24.
- ^ a b "Adversarial example using FGSM TensorFlow Core". TensorFlow. Retrieved 2021-10-24.
- ^ a b Carlini, Nicholas; Wagner, David (2017-03-22). "Towards Evaluating the Robustness of Neural Networks". arXiv:1608.04644 [cs.CR].
- ^ "carlini wagner attack". richardjordan.com. Retrieved 2021-10-23.
- ^ Plotz, Mike (2018-11-26). "Paper Summary: Adversarial Examples Are Not Easily Detected: Bypassing Ten Detection Methods". Medium. Retrieved 2021-10-23.
- ^ Kishor Datta Gupta; Akhtar, Zahid; Dasgupta, Dipankar (2021). "Determining Sequence of Image Processing Technique (IPT) to Detect Adversarial Attacks". SN Computer Science. 2 (5): 383. arXiv:2007.00337. doi:10.1007/s42979-021-00773-8. ISSN 2662-995X. S2CID 220281087.
- ^ Feltus, Christophe (December 2021). "LogicGAN–based Data Augmentation Approach to Improve Adversarial Attack DNN Classifiers". Proceedings of the 2021 International Conference on Computational Science and Computational Intelligence (CSCI): 180–185. doi:10.1109/CSCI54926.2021.00011. ISBN 978-1-6654-5841-2. S2CID 249929238.
- ^ O. 데켈, O.샤미르, 엘샤오."기능이 없거나 손상된 경우 분류 방법 학습"머신러닝, 81:149~178, 2010.
- ^ Liu, Wei; Chawla, Sanjay (2010). "Mining adversarial patterns via regularized loss minimization" (PDF). Machine Learning. 81: 69–83. doi:10.1007/s10994-010-5199-2. S2CID 17497168.
- ^ B. Bigio, G. Fumera, F.롤리. "다중분류기 하드 시스템 제거"O. Okun과 G. Valentini, 편집자, 감독 및 비감독 앙상블 방법과 그들의 응용, 계산 지능에 관한 연구 제245권, 15-38페이지.Springer Berlin / 하이델베르크, 2009.
- ^ B. I. P. 루빈스타인, P. L. 바틀렛, L. 황, N.태프트. "대기능 공간에서 학습: svm 학습을 위한 프라이버시 보호 메커니즘"프라이버시 및 기밀성 저널, 4(1):65~100, 2012.
- ^ 칸타르시오글루, B. Xi, C. 클리프톤"액티브 적대자에 대한 분류자 평가 및 속성 선택"데이터 최소값Knowl. Discov., 2011년 1월 22:291~335.
- ^ Chivukula, Aneesh; Yang, Xinghao; Liu, Wei; Zhu, Tianqing; Zhou, Wanlei (2020). "Game Theoretical Adversarial Deep Learning with Variational Adversaries". IEEE Transactions on Knowledge and Data Engineering. 33 (11): 3568–3581. doi:10.1109/TKDE.2020.2972320. ISSN 1558-2191. S2CID 213845560.
- ^ Chivukula, Aneesh Sreevallabh; Liu, Wei (2019). "Adversarial Deep Learning Models with Multiple Adversaries". IEEE Transactions on Knowledge and Data Engineering. 31 (6): 1066–1079. doi:10.1109/TKDE.2018.2851247. hdl:10453/136227. ISSN 1558-2191. S2CID 67024195.
- ^ "TrojAI". www.iarpa.gov. Retrieved 2020-10-14.
외부 링크
- MITRE ATLAS: 인공지능 시스템의 적대적 위협 상황
- NIST 8269 초안: 적대적 기계 학습 분류 및 용어
- NIPS 2007 컴퓨터 보안을 위한 적대적 환경에서의 머신러닝 워크숍
- AlfaSVMLib – Support Vector[1] Machine에 대한 적대적 라벨 플립 공격
- Laskov, Pavel; Lippmann, Richard (2010). "Machine learning in adversarial environments". Machine Learning. 81 (2): 115–119. doi:10.1007/s10994-010-5207-6. S2CID 12567278.
- Dagstuhl 전망 워크숍 "컴퓨터 보안을 위한 기계 학습 방법"
- 인공지능과 보안(AISec) 시리즈 워크숍
- ^ H. Xiao, B. Biggio, B. Nelson, H. Xiao, C. Eckert, and F. Roli. "Support vector machines under adversarial label contamination". Neurocomputing, Special Issue on Advances in Learning with Label Noise, In Press.