
153
6
장
적대적 섭동을 생성하는 방법
경계 공격은 적대적 입력을 효과적으로 생성하는 매우 강력한 공격입니다. 그러나 수천 번의
반복이 발생하며 각 반복에는
DNN
의 여러 쿼리가 포함될 것입니다.
6.3
점수 기반 블랙박스 방법
점수 기반 방법은 화이트 박스와 제한된 블랙박스 범주의 사이에 있습니다. 때로는 연구 문헌
에서 ‘점수 기반 모델’을 블랙박스라고 부르지만, 이 책에서는 점수 기반이라는 용어를 사용해
두 모델을 명확하게 구분합니다.
점수 기반 방법은 모델의 출력 클래스 확률에 접근해야 합니다. 즉, 공격자는 입력을 제출하고
DNN
이 최종 결정(예: 분류 )할 예측 점수를 받을 수 있습니다. 공격자가 사용할 수 있는 점수
가 제한적일 (예: 상위
5
개 확률) 수 있음에 유의해야 합니다.
점수 기반 방법은 제한된 블랙박스 방법에 더 가깝게 보일 수 있습니다. 결국 공격자가 적대적
입력과 출력에만 접근할 수 있기 때문입니다. 그러나 일반적으로 공격자가 원시
DNN
출력에
접근할 수 없으므로 점수에 대한 접근은 ‘권한’으로 간주할 수 있습니다. 따라서 특징을 보면 점
수 기반 방법은 화이트 박스 방식에 더 가깝습니다. 우선, 예측 점수로 모델의 알고리즘을 근사
한 후 다음 지능적인 검색을 수행해 적대적 목표를 달성하는 데 필요한 섭동을 설정합니다. 그
러나 화이트 ...