Trustworthy Machine Learning with Differential Privacy and Certified Robustness

写在前面的话
研究现状
作者的思考
DPSGD的优化
数据隐私方面的攻击
相关工作
性能提升工作
未来展望
其他

写在前面的话

《2021网络空间安全西湖学术论坛》第二天关于差分隐私的汇报，由Li Xiong教授汇报。汇报的主要内容是《Trustworthy Machine Learning with Differential Privacy and Certified Robustness》。大家想看视频可以去我的b站看原视频。作者团队这次报告主要有两个工作，分别是机器学习对抗攻击的防御，另一个是性能相关的工作。

研究现状

目前我们身在大数据时代，数据驱动机器学习的发展，在各个领域都有了长足的进步。

在计算机视觉，语音识别和自然语言处理中，机器学习都遵循下面的逻辑。通过输入的训练数据，做分类或者识别。训练好模型后，通过输入测试数据进行查询得到反馈。

这其中就存在漏洞，攻击者可以从不同的阶段下手，得到敏感数据。

通过毒害训练数据，使得模型训练得不好甚至失效。

或者可以考虑从测试阶段考虑，比如对抗样本攻击。在计算机视觉中，通过在测试图像上加扰动，导致模型输出错误的结果。

在语音识别方面，用机器模拟人的声音去唤醒手机等设备，这也属于对抗样本攻击。在之前物联网的一篇博客里面也有相关工作。

作者的思考

作者团队主要从计算机视觉场景来思考，关于认证的鲁棒性以及差分隐私的保护角度。在差分隐私应用在深度学习方面也有很多相关工作，下图左边的论文。在对抗样本攻击对于深度学习相关的工作也有很多。这方面的论文我看过一些，比如PixelDp。在DNN模型中加入噪声层，对最后的输出取平均实现认证鲁棒性。显然作者也是往这方面去考虑的，来看看他们是怎么做的吧。

DPSGD的优化

差分隐私这里就不过多介绍了。

DPSGD相信大家应该比较熟悉，不熟悉可以去看看《Deep Learning with Differential Privacy》。简单来说就是在梯度剪裁后加噪，再更新优化器，其中的组合定理用的是MA，梯度从一定层面会反映训练的数据集，这方面的知识大家可以去查一查。这里的加入的噪声是高斯噪声，为什么不加拉普拉斯有两点原因。其一是高斯可导，其二是允许一定概率泄露隐私。（如有错误请指正）。这里为什么不在输入阶段或者目标函数用差分隐私呢，因为深度学习是非凸的，很难去分析其中隐私保护性，不像一般的机器学习（SVM）。

当然上述的考虑不可能尽善尽美，其中存在的缺陷作者总结了以下几点。首先是理论分析DPSGD和实际环境部署的差异。其次是SGD算法针对隐私和非隐私情况下的算法设计有所不同，简单来说就是用DP和不用DP有什么性能有什么不同。最后是隐私算法可能会存在潜在的风险。总结就是作者团队不会直接去用DPSGD，需要先对其进行分析甚至优化，提高其性能与现有工作进行比较。

以下两种不同的DPSGD是作者团队设计的，后续会给出比较结果。

从理论上来说，作者团队的方法与用非隐私对策的普通方法能达到差不多的utility rate。
群体风险(population risk)
经验风险(empirical risk)

实证结果显示在层数较小的模型中，作者团队的效果和正常模型效果基本一致，但是在层数多的模型中离正常情况还是有提升的空间的。

数据隐私方面的攻击

作者团队总结了两种，分别是成员推理攻击和模型窃取攻击。第一个成员推理攻击用差分隐私做防御已经有相关工作证明有效，但是最近也有论文表面用差分攻击还是可以破坏差分隐私的防御，主要依据就是训练集和非训练集数据之间还是存在较大差异性。对于模型窃取攻击差分隐私是无法防御的，这方面我没看过相关的论文，这种判断我也不知道准不准确。模型窃取攻击是窃取模型参数去重构训练集中的数据。

在这方面作者团队考虑的点在于，在数据集的类别上做差分隐私。简单来说就是最后的效果要变成有这一类数据做训练和没有这一类数据做训练，给出的结果差不多，叫做class-dp。将最初去掉一条数据变成去掉一类别的数据。做法就是基于类别采样加DPSGD。

实证结果表示，基于class-dp的效果比record-dp更好，从图的效果就可以看出。我的理解是虽然机器的正确率是一致，但是人眼看不出图片重构的效果。下面右图明显看不出来重构之后是个啥？

并且从实验结果表示，class-dp的鲁棒性更好，当模型的效用相同的情况下。但是随着参数的设置不同，两者会不断接近。

性能提升工作

这里的动机是从硬件考虑的，我认为是作者团队对于昂贵的设备不具有一般性，并且大家都是用的手机，所以就需要在模型上提升的角度去做这份work。

FP32（Full Precise Float 32，单精度）占用4个字节，共32位，其中1位为符号位，8为指数位，23为尾数位。

FP16（float，半精度）占用2个字节，共16位，其中1位为符号位，5位指数位，十位有效数字位。与FP32相比，FP16的访存消耗仅为1/2，也因此FP16是更适合在移动终端侧进行AI计算的数据格式。

INT8，八位整型占用1个字节，INT8是一种定点计算方式，代表整数运算，一般是由浮点运算量化而来。在二进制中一个“0”或者“1”为一bit，INT8则意味着用8bit来表示一个数字。因此，虽然INT8比FP16精度低，但是数据量小、能耗低，计算速度相对更快，更符合端侧运算的特点。

在training阶段，梯度的更新往往是很微小的，需要相对较高的精度，一般要用到FP32以上。在inference的时候，精度要求没有那么高，一般F16（半精度）就可以，甚至可以用INT8（8位整型），精度影响不会很大。同时低精度的模型占用空间更小了，有利于部署在嵌入式模型里面。

所以作者团队的目标在于用量化社交网络的做法，只对于认证鲁棒性而言，通过牺牲一些精度去保证鲁棒性。

接着作者团队给出了在攻击影响下两者的效果，分类的准确性明显是INT8更好。

这里作者团队提出了一个问题，我们能直接把当前的认证鲁棒性防御套用在量化神经网络上吗？最直接的办法就是持续性随机平滑加不断迭代。这里存在的问题就在于需要浮点数操作，不再完全依赖支持整型运算的设备。还有就是多次迭代会导致过度随机化，很难保证鲁棒性。

由此作者团队给出的应对策略就是用检测认证鲁棒性的方法套用在量化神经网络上。通过两个分支去走，再聚合。

最后的结果表明认证的准确性还不错。

在CPU占用上也不高，对于普通的硬件设备也可以运行。

未来展望

将DP和认证鲁棒性结合起来，基于作者团队之前的工作存在两个新的研究方向。

其他

下面是LI Xiong老师的研究方向。

机器学习与差分隐私（认证鲁棒性和隐私保护）相关推荐

【机器学习与差分隐私代码实现】差分隐私代码实现系列（十二）
差分隐私代码实现系列(十二) 写在前面的话回顾机器学习与差分隐私使用 Scikit-Learn 进行逻辑回归什么是模型? 使用梯度下降训练模型梯度下降的单一步骤梯度下降算法梯度下降与差分 ...
可信图神经网络综述：隐私，鲁棒性，公平和可解释性
©作者 | 戴恩炎,赵天翔,王苏杭单位 | 宾夕法尼亚州立大学对于可信图神经网络(Trustworthy Graph Neural Networks)在隐私(privacy),鲁棒性(robust ...
【隐私合规】隐私保护和数据保护合规大合集
CPO(首席隐私官) | IT战略和运营分享.IT高管和企业高管的百宝箱. (cioctocdo.com) [隐私保护合规]Data Mapping 数据映射 [ADPPA]ADPPA对美国数据监管的 ...
mac安全性与隐私不允许_隐私不仅仅是安全
mac安全性与隐私不允许 Information security began as more of a concern for businesses and governments. These ...
什么是浏览器隐私模式？浏览器隐私模式是否安全？
对于浏览器隐私模式有过相应的调查,65%的参与者认为浏览器隐私模式可以保护用户的隐私安全,77%的用户认为浏览器隐私模式可以在浏览器受到恶意攻击时及时提醒用户.那浏览器隐私模式是否安全呢? 什么是浏览 ...
传统隐私权及网络隐私权的界定
[网络隐私权]传统隐私权及网络隐私权的界定隐私权是指自然人享有的私人生活安宁与私人信息秘密依法受到保护,不被他人非法侵扰.知悉.收集.利用和公开的一种人格权. 而网络隐私权,根据我国法学界的研究成果 ...
【Google Play】Android 应用隐私政策 ( 生成隐私政策 | HTML 隐私政策模板 | Markdown 隐私政策模板 )
文章目录一.生成隐私政策二.HTML 隐私政策模板三.Markdown 隐私政策模板一.生成隐私政策推荐使用 https://toolbox.yolo.blue/#/privacy-poli ...
讨物联网的隐私解决方案_2017年数据隐私日：日常隐私解决方案
讨物联网的隐私解决方案隐私,尤其是在线隐私,很难定义. 这个词的含义与每个人略有不同,每个人对可接受和不可接受的容忍度有所不同. 但是,通常可以说一件事:在自由社会中,人们应该控制自己的隐私. 如果 ...
cn域名保护隐私_为什么域名隐私保护如此重要
为什么域名隐私保护如此重要如今,维护个人隐私已变得越来越艰难. 保证个人信息不受陌生人侵犯是一种永恒的挑战,您应该对这一点保持警惕. 如果您拥有自己的博客,那么您的信息可能正暴露在大众的视野里--除 ...

机器学习与差分隐私（认证鲁棒性和隐私保护）