
166
3
부
실제 위협 이해하기
모델이 잘못된 결과를 반환하는 입력 공간을 ‘적대적 하위공간’이라고 합니다. 이 하위공간은
제대로 일반화되지 않은 훈련 단계에 있습니다. 따라서 훈련 데이터를 공유하는 모델에서 유사
한 위치에 있을 가능성이 높습니다. 그러므로 대체 모델이 훈련 데이터를 대상과 공유하는 경
우 적대적 사례가 성공적으로 전송될 가능성은 있지만 보장할 수는 없습니다.
[그림
7
-
3
]은 [그림
7
-
2
]에 표시된 두 모델의 예측 지도를 사용해 여러 모델에서 유사한 적대
적 하위공간 개념을 보여줍니다. 모델은 동일한 훈련 데이터를 기반으로 하는 유사한 적대적
하위공간을 가집니다. 따라서 적대적 사례가 이러한 모델을 거쳐 전송될 가능성이 높습니다.
그림
7-3
적대적 하위공간이 흰색으로 표시된 대상과 대체 모델의 입력 공간
훈련 데이터 지식을 기반으로
DNN
모델을 근사화하는 기능은 정보 보안에 중요한 영향을 미
칩니다 (
10
장에서 자세히 다룹니다 ). 훈련 데이터는 훈련하는 데 사용하는 머신러닝 모델의 동
작을 간접적으로 암시하므로 민감한 아티팩트로 간주해야 합니다.
7.1.4
범용 전송 공격
범용 전송 공격은 공격자가 대상
DNN
이나 훈련 데이터에 대한 정보가 없을 때 사용하는 방법
입니다. 이 방법에서는 공격자가 대체 모델의 앙상블을 사용해 적대적 입력을 만듭니다. ...