深度学习的对抗攻击与防御方法综述

您所在的位置：网站首页 › 网络攻击的三个阶段分为 › 深度学习的对抗攻击与防御方法综述

深度学习的对抗攻击与防御方法综述

2024-07-17 19:27:14| 来源: 网络整理| 查看: 265

一、概述

由于深度学习广泛的应用，深度学习模型的安全问题也受到普遍关注，模型算法的安全隐患更是加剧了被对抗样本欺骗以及隐私泄露等安全风险。

现有的对抗攻击方法主要面向对抗样本的生成方法以及最终达到对模型攻击的成功率。而对抗防御主要分为基于对抗样本的检测与提高模型鲁棒性两个方面。本文主要介绍对抗样本的概念以及产生原因、对抗样本的可迁移性；详细分析现阶段经典的生成对抗样本的方法以及检测手段，并论述针对上述手段的防御策略。通过梳理分析较为先进的对抗应用方法，预测该领域未来的研究方向。二、对抗攻击

以下介绍几个基本概念：

深度学习：深度学习是一种深层模型，利用多层非线性变换进行特征提取；由低层特性抽取出高层更抽象的表示。主要类型：循环神经网络、深度置信网络、卷积神经网络等。

对抗攻击：通过设计一种有针对性的数值型向量从而让机器学习模型做出误判，这便被称为对抗性攻击。

对抗样本：人为构造的样本。通过对正常样本x添加难以察觉的扰动ŋ，使得分类模型f对新生成的样本x’产生错误的分类判断。新生成的对抗样本为：x’=x+ŋ。同时：

可迁移性：类型:在同一数据集训练的不同模型之间的可迁移性、在不同机器学习技术之间的可迁移性、执行不同任务的模型之间的可迁移性。影响因素：模型类型、对抗样本的攻击力、非目标攻击比目标攻击更容易迁移、数据统计规律。

鲁棒性：（健壮性）控制系统在一定(结构，大小)的参数摄动下，维持其它某些性能的特性。

对抗样本产生的原因其出现的原因一直是研究者争议的热点，但其出现的原因目前并没有达成共识。深度学习模型易受对抗样本攻击的原因仍然是一个开放的研究领域，缺乏完备的理论体系。现阶段，针对对抗样本出现的原因主要有以下几种原因：

①2014 年，Szegedy 等人[11]提出对抗样本位于数据流形的低概率区域由于分类器在训练阶段只学习局部子区域，而对抗样本的存在超出学习的子集，导致深度神经网络分类错误。如图，A类和B类分别表示不同的样本空间，由于模型训练所得的分类边界（曲线）与真实决策边界（直线）并不重合，在曲线与直线相交的区域出现的样本，会导致模型判断失误，曲线和直线包围的区域即为对抗区域。

②2015 年，Goodfellow 等人[12]反驳了上述的观点，认为深度神经网络的脆弱性是由于模型的局部线型特性所导致。

③2017 年， Arpit 等人[31]通过分析神经网络对训练数据的记忆能力，发现记忆程度高的模型更容易受到对抗样本的影响。

④2018 年，Gilmer 等人[42-44]认为对抗样本的产生原因为数据流形高维几何结构产生，并在合成数据集的基础上对对抗样本与数据流形高维几何结构的关系进行分析论证。

三、对抗样本的攻击方式及目标

分类：

根据所获模型信息：白盒攻击：攻击者了解攻击模型的详细信息,如数据预处理方法、模型结构、模型参数，某些情况下攻击者还能够掌握部分或全部的训练数据信息。黑盒攻击：攻击者不了解攻击模型的关键细节，攻击者仅能够接触输入和输出环节，不能实质性地接触到任何内部操作和数据。根据攻击目标：目标攻击：攻击者指定攻击范围和攻击效果,使被攻击模型不但把样本分类错误，并且把样本错误分类成指定的类别。无目标/无差别攻击：攻击者的攻击目标更为宽泛,攻击目的只需要让被攻击模型对样本进行分类错误，但并不指定分类成特定类别。普遍攻击：攻击者设计一个单一的转换（例如图像扰动），会对所有或者大多数输入值造成模型混乱的攻击。四、对抗样本的生成方法

（一）快速梯度攻击（FGSM）

原文地址：https://arxiv.org/abs/1412.6572

原理：计算关于输入的损失函数的梯度，将一个选定的小的常数与梯度的符号向量相乘来产生一个小的扰动。

①在白盒环境下，通过求模型对输入的导数

②用符号函数得其梯度方向

③乘以一个步长，得到“扰动”

④攻击样本为原输入加“扰动”

公示如下：

ε表示调节系数，为相对于输入x损失函数的一阶导数。

其中x是输入，x’是扰动后的输入，y是输出，L是损失函数，θ是模型参数，sgn是符号函数，ε为调节系数（步长）。

目的：使模型分类错误。增加“扰动”使模型的loss增大，利用loss对输入求导而“更新”输入。

注：神经网络通用模型学习方式基于反向传播的梯度调整权重来最小化损失loss；梯度攻击是通过调整输入数据以基于相同的方向传播梯度来最大化损失loss。

符号函数：限制扰动程度，使得扰动处在某个阈值（输入梯度方向已定）。

大于阈值的部分减短到阈值小于阈值的部分提升到阈值

神经网络的可攻击性：

扰动造成的影响在神经网络中会不断积累变大，尤其是线性模型（这里的神经网络倾向于使用Relu这种类线性的激活函数）。输入的维度越大，模型越容易受到攻击。

例：加入了扰动的样本使得左图的熊猫被错误的分类为长臂猿。这种方法在各个维度上移动相同大小的一步，虽然一步很小，但每一个维数的效果加在一起，通常也足以对分类器的判别结果产生很大的影响。

（二）基本迭代方法（BIM，I-FGSM）

原文地址：

原理：在快速梯度攻击中，若目标损失函数J（x，y）与x之间是近似线性的，要使目标损失函数J（x+ŋ，y）- J（x，y）最大，直接使ŋ=ϵ∗sign(∇x J(x,y))最大；若线性假设不成立，则J和x不是线性的，在( 0 ，ϵ∗sign(∇x J(x,y))) 之间存在一个使得J增大时，x的修改量较小的扰动。于是采用迭代的方式寻找每个像素点的扰动，每次在上一步的对抗样本基础上，各个像素点增长（或减少）α，然后再进行裁剪（为保证每个新样本的个像素在x和ϵ领域内，溢出的值用0或1代替），使得可能在各个像素点变化小于ϵ的情况下找到对抗样本（若找不到则效果退回FGSM）。

公式如下：