CloudLeak:通过对抗性示例窃取的大规模深度学习模型

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

摘要

基于云的机器学习服务(MLaaS)作为各种现实场景的可靠解决方案正逐渐被接受。这些服务通常利用深度神经网络(DNN)执行分类和检测任务,并通过应用程序编程接口(API)访问。不幸的是,对手有可能通过使用恶意输入重复查询公共预测 API,从基于云的平台窃取模型,即使存在黑盒约束。在本文中,我们介绍了一种有效的黑盒攻击方法,该方法可以从性能近乎完美的云平台中提取大规模 DNN 模型。与现有的攻击方法相比,我们通过结合几种新算法,显著减少了窃取目标模型所需的查询数量。在我们的实验评估中,我们验证了我们提出的模型,该模型用于对由 Microsoft、Face++、IBM、Google 和 Clarifai 托管的各种商业化 MLaaS 平台进行盗窃攻击。我们的结果表明,该方法可以很容易地从这些云平台中发现/窃取大规模 DNN 模型。所提出的攻击方法还可用于准确评估基于 DNN 的 MLaaS 分类器对盗窃攻击的鲁棒性。

一、引言

深度神经网络(DNN)已经成为机器学习中最常见的体系结构,在许多学科的各种任务中实现。为了满足可能没有足够资源的用户使用 DNN,基于云的深度学习服务作为一种经济高效且灵活的解决方案应运而生。

尽管 DNN 模型和预测 API 背后的训练数据没有直接向公众公开,但最近的研究表明,通过查询操作仍有可能发生信息泄漏。

在本文中,我们介绍了一种针对流行的 MLaaS 平台的新型模型窃取攻击,这些平台由 Microsoft、Face++、IBM、Google 和 Clarifai 托管。其关键思想是使用通过查询带有恶意样例的黑盒 API 获得的输入输出对,来重新训练候选模型库中的替代模型(见图 1)。

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

我们的贡献包括:提出了一种新的针对局部替代模型的对抗性攻击方法 FeatureFool,从而显著减少提取受害者模型所需的查询数量;设计了一个针对大规模 DNN 模型的黑盒模型盗窃攻击,并且在流行商业平台上评估了攻击框架。

二、背景

A.问题表述

给定黑盒受害者模型 fv,对手的任务是使用尽可能少的查询来提取性能几乎相同的替代模型 fs。

B.威胁模型

我们假设对手的目标是现收现付的商业机器学习服务(MLaaS),该服务基于云平台,帮助用户解决常见的深度学习问题。对手将对付费 MLaaS 发起模型盗窃攻击,以构建与黑匣子环境中的受害者模型 fv 紧密匹配的 fs,对手的唯一能力是查询具有特定输入的 API,并接收结果预测或置信度分数。然后,可以任意使用对手提取的替代模型 fs。

C.转移结构

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

图 2 显示了我们提出的模型盗窃攻击的传输框架。深度神经网络由一系列计算层组成,用于学习自动特征提取和转换。这些模型提高了计算机视觉任务的分类精度,同时增加了计算复杂度。在 DNN 的实际应用中,许多技术被用来实现图像分类目标。这些预先训练好的模型可用于迁移学习,将从源域学到的知识应用于其他不同但相关的目标域。

三、模型窃取攻击

A.对抗式主动学习

1)问题分析:通过选择未标记数据 Du(x)的信息子集以供人类专家标记,主动学习(AL)旨在最小化监督学习中的标记成本,同时最大化分类器的性能。主动学习 4 的关键思想是用户如何量化活动池中每个示例的重要性,例如,“有用”或“不可用”。在此之上我们提出了一种新的学习方法,称为基于边缘的对抗性学习,用于收集一组信息实例,以训练性能类似于受害者模型 fv 的替代模型。我们将这种基于边际的对抗性 AL 的不确定性转为一个查询函数 Q,它在 Du(x)中选择了一组有用的示例 Dt(x),称为活动学习池。这种基于边缘的主动学习的关键思想是,只有来自未标记数据池的少数示例对确定受害者分类器的有用,而所有其他示例对分类器来说都是多余的。我们还提供了不确定性抽样理论的几何图示,如图三所示。

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

现在,我们将基于边际的对抗式主动学习算法扩展到多分类情况。我们通过设计 FeaturePool 来解决这一挑战。基于边际的对抗性主动学习方法可制定如下:

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

该方法从给定的未标记数据集 Du(x)中选择具有最小置信度示例,从而最大化实例的不确定性。然而,这样的大规模查询代价高昂,并且使得 MLaaS 提供商很容易检测到攻击。为了解决这些问题,我们通过以下两个关键目标来尝试相关查询:(1)采用 FeaturPool 来构建一个基本的信息数据集 Du(x),其中每个示例具有不同的分类置信度;(2)通过不确定性抽样策略最大化示例效率,从而得到训练示例的子集。我们的实验结果表明,这种对抗性的例子将有大幅减少查询数量。

2)数据集生成:我们定义了查找由多分类激活函数选择信息的问题,如下所示:

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

对于 x’,有以下五种选择策略

随机样本(RS):攻击随机地从相关域中采样,并将受害者模型作为黑盒查询,以便生成合成数据集。在这种情况下,对手可以使用所有可用图像来获得最佳合成数据集和生成的替代模型。然而,许多查询操作使得 MLaaS 提供者更容易检测到它。

投影梯度下降(PGD):该方法通过多次迭代,利用受害者模型的一阶对手信息,并使用以下等式计算对手样例:

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

其中 ▽ 表示梯度,F()表示网络输出,J()表示损失函数

Carlini and Wagner Attack(CW):Carlini 等人利用三种不同的距离度量提出了新的基于梯度的攻击算法。在 L2 攻击中,他们通过解决以下优化问题生成对抗性示例:

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

其中 D(x)表示 L2 距离,目标函数 g(x)定义为:

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

其中 Z(x)表示 softmax 函数。

FeatureAdversary(FA):通过最小化分类器内部特征之间的 Lp 距离,从而引入一种新的攻击模型,描述如下:

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

其中 θ(x)表示输入图像 x 在第 K 层的特征,Xs 表示输入图像,η 为约束参数,D()表示向量间距。经证明,FA 可以有效生成对抗性样例。

FeatureFool(FF):在本文中,我们提出了一种新的对抗性攻击方法 FeatureFool 来提高样本的查询效率。它使用基于特征的优化算法生成自然对抗性示例,诱导大规模深度学习模型输出错误的分类结果。给定图像 x、目标分类器和目标类,目标是解决以下框约束优化问题:

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

其中 d()是损失函数,Xs’是生成的样例。为了应对非线性约束,我们将三重态损失作为一种新的惩罚方法,并将优化重写如下:

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

这里 d()为向量范数距离,损失函数的定义为:

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

整个 FeatureFool 的管道如图 4 所示。

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

3)评估矩阵:我们使用测试集上的平均测试错误(ATE)来评估所提出的模型盗窃攻击的有效性。在我们的实验中,ATE 是指测试集下的提取精度。

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

B.DNN训练

我们的模型窃取攻击的目的是在目标域中重新训练一个替代模型,使其具有受害者模型近乎完美的性能。我们采用了五种数据集生成策略,包括 RS、PGD、CW、FA 和 FF。对于 RS 策略,我们随机抽取一组样例作为训练数据集来重新训练替代模型。与 RS 策略不同,算法 1 中描述了使用这些方法生成的对抗性示例的训练过程。

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

四、实验

在本节中,我们将讨论在五个流行的 MLaaS 平台上进行大规模评估的实验结果,包括由 Microsoft、Face++、IBM、Google 和 Clarifai 托管的平台。通过上传贴有良好标签的训练集,我们自己创建了三个受害者模型。这些是 Microsoft 云视觉服务、IBM Watson 视觉识别和 Google AutoML 识别,它们分别进行交通标志识别 TSR、花卉识别 FT 和人脸识别 FER 的训练。此外,我们还考虑了两个包括情绪识别 API 和 CalayiFi 安全工作(NSFW)API 的黑盒。

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

图 6、7、8 和 9 总结了不同数据集和/或结构选择对攻击有效性的影响。当我们将训练示例的数量从预算 A(0.43k)增加到预算 B(2.15k)时,我们发现替代模型的性能通常优于不同网络架构下的随机示例。同样的趋势出现在图 7、图 8 和图 9 中。

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

如图 10 所示,我们比较了现有的最先进的攻击方法。实验结果表明,我们的攻击框架可以同时窃取高精度、少查询和低成本的大规模深度学习模型。

CloudLeak:通过对抗性示例窃取的大规模深度学习模型

五、结论

由基于云的平台(包括 Microsoft、Google、Face++和 Clarifai)提供的机器学习服务(MLaaS)已广泛应用于实际应用中。然而,这些服务往往会受到对手发起的模型牵引攻击的影响。尽管之前关于模型窃取攻击的研究显示了良好的性能,但它们的有效性通常受到大量预测查询和高成本的限制。为了应对这些挑战,我们研究了针对在商业 MLaaS 平台上训练的 DNN 模型的模型窃取攻击的实用性。通过本地实验和在商业化 MLaaS 平台上的在线测试,我们证明了我们的模型窃取攻击可以充分训练本地替代模型,其性能与目标模型接近。与以前的模型窃取攻击相比,我们的攻击方法可以对目标模型进行更少的查询。用于查询目标模型的对抗性样例有助于我们了解目标模型和局部模型的决策边界之间的距离,从而加速训练中的收敛。今后,我们将主要致力于设计有效的防御机制来抵御模型窃取攻击,从而增强基于 DNN 的 MLaaS 图像分类器的鲁棒性。

鸣谢

这项工作通过早期职业奖得到了能源部的部分支持。本材料中表达的任何观点、调查结果、结论和建议均为作者的观点、调查结果、结论和建议,不一定反映美国能源部的观点。

本文由南京大学软件学院 2021 级硕士周宣策翻译转述。

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/134758.html

(1)

相关推荐