Trustworthy Machine Learning with Differential Privacy and Certified Robustness

  • 写在前面的话
  • 研究现状
  • 作者的思考
  • DPSGD的优化
  • 数据隐私方面的攻击
  • 相关工作
  • 性能提升工作
  • 未来展望
  • 其他

写在前面的话

《2021网络空间安全西湖学术论坛》第二天关于差分隐私的汇报,由Li Xiong教授汇报。汇报的主要内容是《Trustworthy Machine Learning with Differential Privacy and Certified Robustness》。大家想看视频可以去我的b站看原视频。作者团队这次报告主要有两个工作,分别是机器学习对抗攻击的防御,另一个是性能相关的工作。

研究现状

目前我们身在大数据时代,数据驱动机器学习的发展,在各个领域都有了长足的进步。

在计算机视觉,语音识别和自然语言处理中,机器学习都遵循下面的逻辑。通过输入的训练数据,做分类或者识别。训练好模型后,通过输入测试数据进行查询得到反馈。

这其中就存在漏洞,攻击者可以从不同的阶段下手,得到敏感数据。

通过毒害训练数据,使得模型训练得不好甚至失效。

或者可以考虑从测试阶段考虑,比如对抗样本攻击。在计算机视觉中,通过在测试图像上加扰动,导致模型输出错误的结果。

在语音识别方面,用机器模拟人的声音去唤醒手机等设备,这也属于对抗样本攻击。在之前物联网的一篇博客里面也有相关工作。

作者的思考

作者团队主要从计算机视觉场景来思考,关于认证的鲁棒性以及差分隐私的保护角度。在差分隐私应用在深度学习方面也有很多相关工作,下图左边的论文。在对抗样本攻击对于深度学习相关的工作也有很多。这方面的论文我看过一些,比如PixelDp。在DNN模型中加入噪声层,对最后的输出取平均实现认证鲁棒性。显然作者也是往这方面去考虑的,来看看他们是怎么做的吧。

DPSGD的优化

差分隐私这里就不过多介绍了。

DPSGD相信大家应该比较熟悉,不熟悉可以去看看《Deep Learning with Differential Privacy》。简单来说就是在梯度剪裁后加噪,再更新优化器,其中的组合定理用的是MA,梯度从一定层面会反映训练的数据集,这方面的知识大家可以去查一查。这里的加入的噪声是高斯噪声,为什么不加拉普拉斯有两点原因。其一是高斯可导,其二是允许一定概率泄露隐私。(如有错误请指正)。这里为什么不在输入阶段或者目标函数用差分隐私呢,因为深度学习是非凸的,很难去分析其中隐私保护性,不像一般的机器学习(SVM)。

当然上述的考虑不可能尽善尽美,其中存在的缺陷作者总结了以下几点。首先是理论分析DPSGD和实际环境部署的差异。其次是SGD算法针对隐私和非隐私情况下的算法设计有所不同,简单来说就是用DP和不用DP有什么性能有什么不同。最后是隐私算法可能会存在潜在的风险。总结就是作者团队不会直接去用DPSGD,需要先对其进行分析甚至优化,提高其性能与现有工作进行比较。

以下两种不同的DPSGD是作者团队设计的,后续会给出比较结果。

从理论上来说,作者团队的方法与用非隐私对策的普通方法能达到差不多的utility rate。
群体风险(population risk)
经验风险(empirical risk)

实证结果显示在层数较小的模型中,作者团队的效果和正常模型效果基本一致,但是在层数多的模型中离正常情况还是有提升的空间的。

数据隐私方面的攻击

作者团队总结了两种,分别是成员推理攻击和模型窃取攻击。第一个成员推理攻击用差分隐私做防御已经有相关工作证明有效,但是最近也有论文表面用差分攻击还是可以破坏差分隐私的防御,主要依据就是训练集和非训练集数据之间还是存在较大差异性。对于模型窃取攻击差分隐私是无法防御的,这方面我没看过相关的论文,这种判断我也不知道准不准确。模型窃取攻击是窃取模型参数去重构训练集中的数据。

在这方面作者团队考虑的点在于,在数据集的类别上做差分隐私。简单来说就是最后的效果要变成有这一类数据做训练和没有这一类数据做训练,给出的结果差不多,叫做class-dp。将最初去掉一条数据变成去掉一类别的数据。做法就是基于类别采样加DPSGD。

实证结果表示,基于class-dp的效果比record-dp更好,从图的效果就可以看出。我的理解是虽然机器的正确率是一致,但是人眼看不出图片重构的效果。下面右图明显看不出来重构之后是个啥?

并且从实验结果表示,class-dp的鲁棒性更好,当模型的效用相同的情况下。但是随着参数的设置不同,两者会不断接近。

相关工作

现有对于对抗样本攻击的防御有以下这些,传统的防御是进行对抗训练或者通过异常检测等方法。这些方法的主要问题是对于攻击者的假设太弱了,一旦攻击强度提升,传统防御就失效了。对于认证鲁棒性的防御是目前的主流,就像我前面提到的PixelDP,还有随机平滑的方法。这里认证鲁棒性就是给数据差异划定界限,界限之内的变化都可以原谅,即识别的正确度是不会改变的。

性能提升工作

这里的动机是从硬件考虑的,我认为是作者团队对于昂贵的设备不具有一般性,并且大家都是用的手机,所以就需要在模型上提升的角度去做这份work。

FP32(Full Precise Float 32,单精度)占用4个字节,共32位,其中1位为符号位,8为指数位,23为尾数位。

FP16(float,半精度)占用2个字节,共16位,其中1位为符号位,5位指数位,十位有效数字位。与FP32相比,FP16的访存消耗仅为1/2,也因此FP16是更适合在移动终端侧进行AI计算的数据格式。

INT8,八位整型占用1个字节,INT8是一种定点计算方式,代表整数运算,一般是由浮点运算量化而来。在二进制中一个“0”或者“1”为一bit,INT8则意味着用8bit来表示一个数字。因此,虽然INT8比FP16精度低,但是数据量小、能耗低,计算速度相对更快,更符合端侧运算的特点。

在training阶段,梯度的更新往往是很微小的,需要相对较高的精度,一般要用到FP32以上。在inference的时候,精度要求没有那么高,一般F16(半精度)就可以,甚至可以用INT8(8位整型),精度影响不会很大。同时低精度的模型占用空间更小了,有利于部署在嵌入式模型里面。

所以作者团队的目标在于用量化社交网络的做法,只对于认证鲁棒性而言,通过牺牲一些精度去保证鲁棒性。

接着作者团队给出了在攻击影响下两者的效果,分类的准确性明显是INT8更好。

这里作者团队提出了一个问题,我们能直接把当前的认证鲁棒性防御套用在量化神经网络上吗?最直接的办法就是持续性随机平滑加不断迭代。这里存在的问题就在于需要浮点数操作,不再完全依赖支持整型运算的设备。还有就是多次迭代会导致过度随机化,很难保证鲁棒性。


由此作者团队给出的应对策略就是用检测认证鲁棒性的方法套用在量化神经网络上。通过两个分支去走,再聚合。

最后的结果表明认证的准确性还不错。

在CPU占用上也不高,对于普通的硬件设备也可以运行。

未来展望

将DP和认证鲁棒性结合起来,基于作者团队之前的工作存在两个新的研究方向。

其他

下面是LI Xiong老师的研究方向。

机器学习与差分隐私(认证鲁棒性和隐私保护)相关推荐

  1. 【机器学习与差分隐私代码实现】差分隐私代码实现系列(十二)

    差分隐私代码实现系列(十二) 写在前面的话 回顾 机器学习与差分隐私 使用 Scikit-Learn 进行逻辑回归 什么是模型? 使用梯度下降训练模型 梯度下降的单一步骤 梯度下降算法 梯度下降与差分 ...

  2. 可信图神经网络综述:隐私,鲁棒性,公平和可解释性

    ©作者 | 戴恩炎,赵天翔,王苏杭 单位 | 宾夕法尼亚州立大学 对于可信图神经网络(Trustworthy Graph Neural Networks)在隐私(privacy),鲁棒性(robust ...

  3. 【隐私合规】隐私保护和数据保护合规大合集

    CPO(首席隐私官) | IT战略和运营分享.IT高管和企业高管的百宝箱. (cioctocdo.com) [隐私保护合规]Data Mapping 数据映射 [ADPPA]ADPPA对美国数据监管的 ...

  4. mac安全性与隐私 不允许_隐私不仅仅是安全

    mac安全性与隐私 不允许 Information security began as more of a concern for businesses and governments. These ...

  5. 什么是浏览器隐私模式?浏览器隐私模式是否安全?

    对于浏览器隐私模式有过相应的调查,65%的参与者认为浏览器隐私模式可以保护用户的隐私安全,77%的用户认为浏览器隐私模式可以在浏览器受到恶意攻击时及时提醒用户.那浏览器隐私模式是否安全呢? 什么是浏览 ...

  6. 传统隐私权及网络隐私权的界定

    [网络隐私权]传统隐私权及网络隐私权的界定 隐私权是指自然人享有的私人生活安宁与私人信息秘密依法受到保护,不被他人非法侵扰.知悉.收集.利用和公开的一种人格权. 而网络隐私权,根据我国法学界的研究成果 ...

  7. 【Google Play】Android 应用隐私政策 ( 生成隐私政策 | HTML 隐私政策模板 | Markdown 隐私政策模板 )

    文章目录 一.生成隐私政策 二.HTML 隐私政策模板 三.Markdown 隐私政策模板 一.生成隐私政策 推荐使用 https://toolbox.yolo.blue/#/privacy-poli ...

  8. 讨物联网的隐私解决方案_2017年数据隐私日:日常隐私解决方案

    讨物联网的隐私解决方案 隐私,尤其是在线隐私,很难定义. 这个词的含义与每个人略有不同,每个人对可接受和不可接受的容忍度有所不同. 但是,通常可以说一件事:在自由社会中,人们应该控制自己的隐私. 如果 ...

  9. cn域名保护隐私_为什么域名隐私保护如此重要

    为什么域名隐私保护如此重要 如今,维护个人隐私已变得越来越艰难. 保证个人信息不受陌生人侵犯是一种永恒的挑战,您应该对这一点保持警惕. 如果您拥有自己的博客,那么您的信息可能正暴露在大众的视野里--除 ...

最新文章

  1. 【Python】Radiobutton组件 LabelFrame组件 Entry组件
  2. 比特币现金可以指数级扩大并支持全球经济
  3. datatables
  4. 生成和验证注册码的基本思路
  5. sql server2005用户权限如何设置
  6. 深度学习核心技术精讲100篇(四十八)-TB级的日志监控系统很难?带你使用ELK轻松搭建日志监控系统
  7. Python的操作符重载
  8. linux c嵌入汇编语言,Linux 下的C和Intel 汇编语言混用
  9. struts2加入自定义的actionValidatorManager实现类
  10. async await实例
  11. 话里话外:装备制造业企业迫切需要实现信息化综合集成
  12. ssdp协议_Cotopaxi:使用指定IoT网络协议对IoT设备进行安全测试
  13. 《人工智能:计算Agent基础》——1.5 复杂性维度
  14. UVALive 2659+HUST 1017+ZOJ 3209+FZU 1686 (DLX
  15. php下载视频文件怎么打开,php是什么格式视频文件(php文件打开教程)
  16. 遥感数据下载——土地利用(覆盖)数据下载
  17. 啦啦外卖独立版41.4+全插件+可运营版本+开源(亲测100%可用)
  18. 汉字转拼音(支持多音字)
  19. 任务1:WS2812B彩灯控制和按键控制(arduino程序)
  20. 通俗理解TIM定时器并简单使用

热门文章

  1. 容器编排技术 -- Kubernetes 为 Namespace 配置Pod配额
  2. 容器编排技术 -- 使用Minikube集群
  3. ORA-39070:无法打开日志文件
  4. Redis面试 - 哨兵集群实现高可用
  5. svg 让文字沿着指定的曲线运动
  6. 日常电脑小工具编程_如何使编程成为日常习惯
  7. 崇高文本_崇高文本片段指南
  8. 为什么Redux需要reducer成为“纯函数”
  9. 尚学堂java 参考答案 第七章
  10. brew报错:in `initialize‘: Version value must be a string; got a NilClass () (TypeError)