一种基于进化策略和注意力机制的黑盒对抗攻击算法-黄立峰，庄文梓，廖泳贤，刘宁.pdf

上善若水

666

18页

0次

2022-05-26

免费下载

软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn

Journal of Software,2021,32(11):3512−3529 [doi: 10.13328/j.cnki.jos.006084] http://www.jos.org.cn

一种基于进化策略和注意力机制的黑盒对抗攻击算法

∗

黄立峰

1,2

庄文梓

廖泳贤

刘

宁

1,2

(中山大学计算机学院(软件学院),广东广州 510006)

(广东省信息安全技术重点实验室,广东广州 510006)

通讯作者: 刘宁, E-mail: liuning2@mail.sysu.edu.cn

摘要: 深度神经网络在许多计算机视觉任务中都取得了优异的结果,并在不同领域中得到了广泛应用.然而研

究发现,在面临对抗样本攻击时,深度神经网络表现得较为脆弱,严重威胁着各类系统的安全性.在现有的对抗样本

攻击中,由于黑盒攻击具有模型不可知性质和查询限制等约束,更接近实际的攻击场景.但现有的黑盒攻击方法存在

攻击效率较低与隐蔽性弱的缺陷,因此提出了一种基于进化策略的黑盒对抗攻击方法.该方法充分考虑了攻击过程

中梯度更新方向的分布关系,自适应学习较优的搜索路径,提升攻击的效率.在成功攻击的基础上,结合注意力机制,

基于类间激活热力图将扰动向量分组和压缩优化,减少在黑盒攻击过程中积累的冗余扰动,增强优化后的对抗样本

的不可感知性.通过与其他 4 种最新的黑盒对抗攻击方法(AutoZOOM、QL-attack、FD-attak、D-based attack)在 7

种深度神经网络上进行对比,验证了该方法的有效性与鲁棒性.

关键词: 对抗样本;黑盒攻击;进化策略;注意力机制;压缩优化

中图法分类号: TP18

中文引用格式: 黄立峰,庄文梓,廖泳贤,刘宁.一种基于进化策略和注意力机制的黑盒对抗攻击算法.软件学报,2021,32(11):

3512−3529. http://www.jos.org.cn/1000-9825/6084.htm

英文引用格式: Huang LF, Zhuang WZ, Liao YX, Liu N. Black-box adversarial attack method based on evolution strategy and

attention mechanism. Ruan Jian Xue Bao/Journal of Software, 2021,32(11):3512−3529 (in Chinese). http://www.jos.org.cn/1000-

9825/6084.htm

Black-box Adversarial Attack Method Based on Evolution Strategy and Attention Mechanism

HUANG Li-Feng

1,2

, ZHUANG Wen-Zi

, LIAO Yong-Xian

, LIU Ning

1,2

(School of Computer Science and Engineering, Sun Yat-Sen University, Guangzhou 510006, China)

(Guangdong Key Laboratory of Information Security Technology, Guangzhou 510006, China)

Abstra ct : Since deep neural networks (DNNs) have provided state-of-the-art results for different computer vision tasks, they are utilized

as the basic backbones to be employed in many domains. Nevertheless, DNNs have been demonstrated to be vulnerable to adversarial

attacks in recent researches, which will threaten the security of different DNN-based systems. Compared with white-box adversarial

attacks, black-box attacks are more similar to the realistic scenarios under the constraints like lacking knowledge of model and limited

queries. However, existing methods under black-box scenarios not only require a large amount of model queries, but also are perceptible

from human vision system. To address these issues, this study proposes a novel method based on evolution strategy, which improves the

attack performance by considering the inherent distribution of updated gradient direction. It helps the proposed method in sampling

effective solutions with higher probabilities as well as learning better searching paths. In order to make generated adversarial example less

perceptible and reduce the redundant perturbations after a successful attacking, the proposed method utilizes class activation mapping to

group the perturbations by introducing the attention mechanism, and then compresses the noise group by group while ensure that the

∗ 基金项目: 国家自然科学基金(61772567); 中央高校基本科研业务费专项资金(19lgjc11)

Foundation item: National Natural Science Foundation of China (61772567); Fundamental Research Funds for the Central

Universities (19lgjc11)

收稿时间: 2019-09-29; 修改时间: 2020-01-30, 2020-04-02; 采用时间: 2020-05-09

黄立峰等:一种基于进化策略和注意力机制的黑盒对抗攻击算法

3513

generated images can still fool the target model. Extensive experiments on seven DNNs with different structures suggest the superiority of

the proposed method compared with the state-of-the-art black-box adversarial attack approaches (i.e., AutoZOOM, QL-attack, FD-attack,

and D-based attack).

Key words: adversarial example; black-box attack; evolution strategy; attention mechanism; optimization of compression

随着深度学习技术的不断发展,深度神经网络(deep neural network,简称 DNN)在包括图像分类、物体识别、

场景分割等多种计算机视觉任务中都获取了出色的表现

[1−4]

.随着结构更复杂、层级数量更多的神经网络模型

的出现(如 AlexNet

[5]

、VggNet

[6]

、InceptionNet

[7]

、ResNet

[8]

等),深度神经网络不仅在预测的准确度上获得了进

一步的突破,也在不断拓广其实际的应用范围

[9,10]

然而,深度神经网络在达到高性能的同时,也展现出面临对抗样本攻击的脆弱性,即恶意地对输入数据添加

微小但难以察觉的扰动,将导致深度神经网络输出错误的结果.这种被恶意篡改的数据定义为对抗样本

[11]

.在这

种情况下,包括医学

[12]

、安防

[13]

、智能分析

[14]

等不同领域中,基于深度神经网络的应用系统都将面对这种潜在

的威胁:Sharif 等人

[15]

通过将对抗样本图案打印至眼镜边框上来欺骗人脸识别系统;Athalye 等人

[16]

利用对抗攻

击算法制造出在不同的光照和角度下欺骗分类器的 3D 打印物体;以涂鸦的方法对路牌上的图案进行简单的修

改

[17]

,就会导致无人驾驶系统无法正确识别路牌的类别;Lee 等人

[18]

利用对抗样本图案隐藏人体,这将对行人识

别与跟踪系统产生威胁.因此,研究对抗样本的生成原理和算法实现,有助于分析基于深度学习的系统存在的安

全漏洞,并建立相应的防范机制.

根据对抗样本的攻击场景设定,可以将对抗样本攻击方法分类为:(1) 白盒攻击,即攻击者可以获知被攻击

目标模型的所有信息,包括训练集数据、神经网络结构、模型参数以及训练方式等

[19−22]

;(2) 黑盒攻击,即神经

网络相关的信息对攻击者来说是透明不可知的,攻击者只能通过提交输入数据并观察输出结果来进行交互,以

此为基础生成对抗样本

[23−29]

目前,大多数的攻击方法都是基于白盒场景下进行研究的.由于可以对目标模型的信息进行分析,因此这类

方法大多是基于神经网络的反向传播与梯度下降算法来反向最大化模型的损失函数,生成可以误导神经网络

的对抗样本.该类方法包括 FGSM

[19]

、BIM

[20]

、JSMA

[21]

与 C&W

[22]

等.

尽管白盒攻击理论上存在可行性,但在现实场景中,应用系统的网络结构和相关数据都是严格保密的,因此

黑盒攻击比白盒攻击更接近实际的应用场景.攻击者只能观察到网络模型的预测结果,而且需要对交互查询的

次数进行约束,面临更大的挑战.目前,黑盒攻击主要包含两类方法,其中,

• 一类黑盒攻击方法是基于迁移性的对抗攻击

[23−25]

,通过在已知的替代网络模型上生成对抗样本,再迁

移至目标模型,观察能否攻击成功.这种方法仅需要进行一次查询,但由于不同的神经网络模型结构

千差万别,因此迁移攻击的成功率通常较低.

• 另一类是基于梯度拟合的黑盒攻击方法

[26−30]

,即通过对目标模型多次交互查询来观察输出结果的变

化,以此为基础近似估计网络模型的损失函数梯度方向.但是这类方法需要与模型往复查询多次,耗

费大量的计算资源,效率较低;且拟合的梯度与真实的梯度存在差异,导致生成的对抗样本扰动幅度

较大,难以应用在实际场景中.

对此,本文提出了一种基于进化策略和注意力机制的黑盒对抗攻击方法(如图 1 所示),主要由两部分构成.

(1) 基于协方差矩阵自适应进化策略的攻击方法.与传统方法从高斯分布或伯努利分布中采样向量的思

路不同,本文方法充分考虑到攻击过程中损失函数梯度方向的分布关系,基于协方差矩阵迭代学习每

次拟合的梯度方向信息,自适应更新较优的搜索路径,使采样的扰动向量主要在损失函数下降的窄谷

方向上生成,以高几率采样到有效的扰动,减少与攻击模型交互查询的次数,提高黑盒攻击的计算效

率与成功率(如图 1 中阶段 1 所示).

(2) 基于注意力机制的对抗样本压缩优化方法.由于黑盒攻击生成的对抗样本冗余信息较多,容易被人眼

视觉系统所察觉,因此本文结合类间激活热力图方法对生成的扰动进行分组,并依次压缩优化,降低

扰动幅度的大小.该方法主要考虑了神经网络的注意力机制与冗余扰动数据的内在联系,提升优化的

of 18

免费下载

软件学报计算机技术

关注

评论