首页 / 一种深度神经网络对抗样本评分方法

一种深度神经网络对抗样本评分方法有效专利 发明

技术领域

[0001] 本发明涉及深度神经网络领域,具体涉及一种深度神经网络对抗样本评分方法。

相关背景技术

[0002] 全球范围内越来越多的政府和企业组织逐渐认识到人工智能在经济和战略上的重要性。深度神经网络是人工智能的核心研究领域之一。深度学习的应用已遍及人工智能的各个分支,如专家系统、认知模拟、规划和问题求解、数据挖掘、网络信息服务、图像识别、故障诊断、自然语言理解、机器人和博弈等方面。深度神经网络技术已经渗透到人们日常生活的各个领域,同时也逐渐融入国家基础设施建设,因此,深度神经网络模型的安全关乎民生安全和国家安全。
[0003] 深度神经网络技术在解决复杂任务方面取得了重大突破,然而,深度神经网络技术(尤其是人工神经网络和数据驱动人工智能)在训练或测试时极易受到对抗样本攻击,这些样本很容易颠覆机器学习技术的原定输出。例如,对于图像分类深度神经网络模型,可以通过在给定图像中添加一些扰动来生成对抗样本,这些对抗性图像从人眼中看不出与原图像的差异,但会被已知性能良好的深度神经网络模型错误分类,随着对抗性机器学习技术日趋先进复杂,且更新速度极快,深度神经网络模型面对对抗性攻击表现出极强的脆弱性。因此,有必要针对对抗样本的对抗效果、深度神经网络模型的模型性能、防御能力等方面进行评估,发现对抗样本对深度神经网络模型可能造成的安全隐患。根据对对抗样本的评估结果推荐提高模型安全性的防御策略,从而对提升深度神经网络模型的安全性。
[0004] 现有的工作需要根据给定的神经网络是否能够正确分类对抗样本,以白盒方式评估对抗样本对目标神经网络的攻击效果。这种方法不稳定,随机性高。在许多机密性场景中,评估变得不切实际,因为评估者很难掌握深度学习模型的内部结构。
[0005] 因此,需要一种评估对抗样本攻击效果的新方法。目前,还没有一个系统的、直观的指标来反映对抗样本对深度神经网络的攻击效果,也没有标准的体系来以黑盒的方式远程评估对抗样本的危害性。因此,本发明提出了一种深度神经网络对抗样本评分方法来评估和量化对抗样本的攻击效果。

具体实施方式

[0022] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
[0023] 本发明解决上述技术问题的技术方案是:
[0024] 参照图1‑图4,本发明具体实施例中包含对抗样本可迁移性计算模块、对抗样本不可察觉性计算模块、对抗样本攻击成功率计算模块、对抗样本标签偏移度计算模块、对抗样本评分计算模块。其中对抗样本可迁移性计算模块、对抗样本不可察觉性计算模块、对抗样本攻击成功率计算模块、对抗样本标签偏移度计算模块分别计算对抗样本的可迁移性、不可察觉性、攻击成功率、标签偏移度,对抗样本评分计算模块计算最后对抗样本的破坏能力总得分以评估和量化深度神经网络的脆弱性和对抗样本的危害性。
[0025] 1、计算可迁移性
[0026] 如图2所示可迁移性代表了一种方法所生成的对抗样本在不同的深度学习模型下保持一定对抗性的能力,它代表着对抗样本的适用范围。对抗样本存在一定的可迁移性主要是由于深度学习模型分类器具有以下特征,称为判别模型。当使用判别模型来解决分类问题时,其目标是更好地分类数据。因此,该模型将最大限度地扩大样本与决策边界之间的距离,并扩展每个类的空间。优点是使分类变得更容易,但缺点是每个区域都有不属于这个类的冗余空间,在这些冗余空间中存在对抗样本。可迁移性即为一个模型计算的对抗扰动可以迁移到另一个独立训练的模型。由于任意两个模型有可能学习类似的非稳健特征,因此操控此类特征的扰动可以应用于二者。对抗样本可迁移性的计算过程为:
[0027] 步骤1:MN是一组用于评价的神经网络模型,基于待评价的对抗样本生成算法a对目标神经网络模型M1生成对抗样本ac;例如M1为BidLSTM模型,M2为Fasttext模型、M3为Bert模型,对抗样本生成算法a为WordHandling算法,使用WordHandling算法生成对抗样本ac。
[0028] 步骤2:重新训练目标神经网络模型M1,使用对抗样本ac对其进行测试,得到识别准确率AR1;
[0029] 步骤3:训练神经网络模型Mi(i=2,3,…N),使用对抗样本ac对其进行测试,得到ARi,直到i>N,N表示测试神经网络模型的数量,本实施例中为N=3;
[0030] 步骤4:计算对抗样本的可迁移性Tf,计算公式为
[0031] 2、计算不可察觉性
[0032] 参照图1,对抗样本对原始样本进行一些细微的、让人难以肉眼察觉的扰动,就能以很高的置信度造成深度学习模型分类错误,如果对抗样本生成后,人能察觉到样本中的扰动,就能避免对抗样本的攻击,所以对抗样本的不可察觉性也能代表它的攻击能力,对抗样本的不可察觉性是指仅通过人类的感官难以察觉一个样本是经过对抗训练后的样本,这样可以对对抗攻击进行一些伪装。对抗攻击的攻击方式就是对输入样本故意添加一些人无法察觉的细微的干扰,导致模型以高置信度给出一个错误的输出。所以对抗样本的不可察觉性也是衡量对抗样本的重要指标。
[0033] 在图像样本方面,考虑到很难定义一个度量人类视觉能力的度量标准,p范数最常用于测量添加到图像中的扰动的大小和数量。p范数Lp计算干净图像x与产生的对抗样本x′之间的输入空间的距离||x‑x′||p,其中p∈{0,1,2,∞},具体距离计算公式如下所示(当p=1的时候,p范数表示的是曼哈顿距离;当p=2的时候表示的是欧几里德距离):
[0034]
[0035] 在文本样本方面,本发明采取语言模型困惑度(perplexity)的得分来评价句子的流利程度,以此判断语句扰动大小和语义真实性。困惑度(perplexity)的基本思想是:给测试集的句子赋予较高概率值的语言模型较好,当语言模型训练完之后,测试集中的句子都是正常的句子,那么训练好的模型就是在测试集上的概率越高越好,其计算公式如下:
[0036]
[0037] 其中,wi表示词语序列w1,w2,…,wi‑1中的第i个词,N表示词的总数量,p(wi|w1,w2,…,wi‑1)表示在给定一句话的前i‑1个词,语言模型可以预测第i个词可能出现的概率分布,句子概率越大,语言模型越好,困惑度越小,文本对抗样本的不可察觉性越高。
[0038] 3、计算攻击成功率
[0039] 攻击成功率是指攻击后使得目标模型错误分类的样本的百分比。受到对抗攻击后,模型可能会输出错误的结果。如果攻击效果好,会使受到攻击后目标模型的分类准确率大大下降。攻击成功率是衡量攻击效果的一个重要方面。对于定向攻击,攻击成功率的计算公式如下:
[0040]
[0041] 其中,A表示对抗样本生成算法,f表示目标模型的分类算法, 是定向攻击的目标类型。而对于非定向攻击,只需要计算分类结果与原始样本yi不同的情况,其公式如下:
[0042]
[0043] 4、计算标签偏移度
[0044] 标签偏移度是指模型将对抗样本分类为正确标签的偏移程度,具体来说,就是模型将对抗样本分类为正确标签的概率与原始样本分类正确的概率的差值,也就是正确标签的置信度偏移值。回想一下,深度学习模型的输出层根据分配给每个类别的概率决定最终类别。因此,每个类别的预测概率信息提供了有关模型如何分类对抗样本的依据。对于稳健的深度学习模型,它应该将最大概率分配给正确的类别。对于给定的原始样本及其对抗样本,该模型可能会生成每个类别的两种不同概率。将对抗样本预测为正确类别的概率与原始样本预测为正确类别的概率的差值反映了它们与预测结果之间的距离。原始样本预测为正确类别的概率在所有类别空间中肯定是最大的,模型预测对抗样本为正确类别的概率可能会取决于对抗样本攻击效果而产生不同程度的降低,但要是它还是最大概率的话那么最终分类结果还是正确的。对抗样本的预测结果越偏离正确的类别,对抗样本的破坏性就越大。如图3所示,计算标签偏移度的详细过程如下:
[0045] 步骤1:输入目标神经网络模型M、原始样本集xc、对抗样本生成算法a。
[0046] 步骤2:计算目标神经网络模型M对原始样本 的预测类别 模型M对原始样本 预测的每个类别的概率集 模型M对原始样本 预测类别结果为 的概率 其中 如果 返回步骤2,进行下一个样本的计算。
[0047] 步骤3:根据对抗样本生成算法a生成原始样本 的对抗样本 计算出模型M对对抗样本 预测的每个类别的概率集 模型M对原始样本 预测类别结果为 的概率[0048] 步骤4:计算出在模型M对对抗样本 预测类别为 的偏移程度,令i=i+1,直到i>n。
[0049] 步骤5:计算LO指数,
[0050] 该算法的输入是目标神经网络模型M、原始样本图像集xc、对抗样本生成算法a。输出是对抗样本的标签偏移度。
[0051] 5、计算对抗样本评分(AES指数)
[0052] 如图4所示,AES指数通过模糊综合评价法计算得出,AES指数旨在提供评估给定对抗样本对目标深度学习模型破坏能力的度量。计算AES指数的步骤如下:
[0053] 步骤1:确定对抗样本的可迁移性、不可察觉性、攻击成功率、标签偏移度的隶属度子集表,进一步确定隶属度矩阵。
[0054] 步骤2:构建成对比较矩阵,确定对抗样本的可迁移性、不可察觉性、攻击成功率、标签偏移度的权重和最大特征根。
[0055] 步骤3:进行一致性检验。
[0056] 步骤4:通过公式 计算得到评价结果矩阵,其中A是四个指标的权重大小,R是隶属度矩阵,然后对其进行反模糊化得到AES指数。
[0057] 对对抗样本的可迁移性、不可察觉性、攻击成功率、标签偏移度分别有隶属度子集表如下:
[0058] 表1 可迁移性隶属度子集表
[0059]
[0060] 表2 文本对抗样本不可察觉性隶属度子集表
[0061]
[0062] 表3 图像对抗样本不可察觉性隶属度子集表
[0063]
[0064] 表4 攻击成功率隶属度子集表
[0065]
[0066] 表5 标签偏移度隶属度子集表
[0067]
[0068] 创建如下成对比较矩阵,计算权向量并做一致性检验。各指标权重计算方法如下:
[0069] 对判断矩阵每一列规范化
[0070] 求规范列的平均值
[0071] 则 即为所求的特征向量。
[0072] 计算判断矩阵的最大特征根λmax: 其中Wi表示规范化后的第i个特征向量,(BW)i表示向量BW的第i个元素。
[0073] 对本发明的四种指标进行权重计算,得到如下结果:
[0074] 表6 指标权重计算
[0075]
[0076] 根据上述公式计算得出λmax=4.048,从而求出一致性指标CI=0.01598,查表随机一致性指标值得RI=0.90,故CR=0.01796<0.1。满足一致性要求。
[0077] 利用本发明构建的不可迁移性、可察觉性、样本构造成本的隶属度子集表,可以获得各指标的如下隶属度矩阵。矩阵中的元素rij,当i=1时表示可迁移性的隶属度向量,当+=2时表示不可察觉性的隶属度向量,当+=3时表示攻击成功率的隶属度向量,当i=4时表示标签偏移度的隶属度向量。
[0078]
[0079] 四项指标可迁移性、不可察觉性、攻击成功率、标签偏移度的权重为A=(A1,A2,A3,A4),其模糊综合评价公式如下:
[0080]
[0081] 其中A是可迁移性、不可察觉性、攻击成功率、标签偏移度四个指标的权重大小,R是根据指标计算结果求得的隶属度矩阵,B是最终得到的被利用性的评价结果矩阵。由于上述计算结果求出的只是一个模糊向量,无法直观看出对抗样本的危害性,需要这个隶属度向量进行反模糊化处理,以得到最终的AES指数来对对抗样本进行评分。
[0082] 把以bj为权数,对评价集vj进行加权平均得到的值取为评判结果,得到反模糊化后*的结果b如下公式所示,其中m表示评价结果矩阵B的元素数量:
[0083]
[0084] 若评判指标bj已归一化,即如以下公式:
[0085]
[0086]
[0087] 本发明评价集vj=(1,2,3,4),故最终计算AES指数的公式如下:
[0088]
[0089] 以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

当前第1页 第1页 第2页 第3页