差分隐私:原理,应用与展望
隐私保护的挑战
例子一
- 一个简单的做法:将数据匿名化
- 这样的做法看似合理,但其实并不能真的保护隐私
- 原因:匿名化之后的数据往往还保留着许多可能泄漏隐私的信息
- 可能在别的地方得到一些数据以后,数据进行匹配以后,会反推出用户信息,从而破坏用户隐私
比如:
- 九十年代中期,美国马萨诸塞州一政府部门就曾遭受这样的攻击
- 他们发布了匿名化的员工医疗记录用于研究
- 后果:当时的州长的医疗记录被泄漏
- 后续研究表明,63%的美国人口有着唯一的{出生日期、性别、邮编}组合,这说明有着63%的人可能面临着暴露身份
既然匿名化容易被攻击,我们是否可以考虑不发布详细的元组,转而发布粗粒度的统计数据?
答案:统计数据也有可能泄漏隐私
数据重构攻击
这种重构结果有多准确呢?
数据重构攻击的实际效果
- 美国普查局用他们2010年所发布的一组统 计数据试验了数据重构攻击
- 结果表明,他们能重构17%美国人口的数 据
- 为此,他们宣布将于2020年的统计数据发 布中使用差分隐私
机器学习模型发布
机器学习模型也可能泄露隐私 原因?
- 机器学习模型往往会不经意地“记住”源数据中的元组
- 因此,模型在那些元组上的表现可能跟在其他元组上的 表现会不一样
- 类比与:学生考试时,碰上之前做过的题和碰上没做过的题,反应是不一样的
对机器学习模型的隐私攻击
小总结:
- 总而言之,攻击者可以有很多种不同方式 来对隐私数据进行攻击
- 为防范这些可能的攻击,我们需要有一个 严谨的框架来对数据隐私进行保护
- 差分隐私正是这样的一个理论框架
差分隐私:定义及原理
差分隐私的直观原理
- 差分隐私要求任何被发布的信息都应当与上图中的信息0类似: 应当避免让攻击者分辨出任何具体的个人数据
- 为此,差分隐私要求被发布的信息需经一个随机算法所处理, 且该随机算法会对信息做一些扰动
差分隐私的定义
差分隐私定义的图示
- 攻击者并不能观察到,某一个元素对结果输出的影响,从而保证了用户的隐私
差分隐私算法
如何设计满足差分隐私的算法
拉普拉斯机制
- 因为对个体依赖程度变为3了
敏感度
其他噪声机制
随机化回答
采用这一类随机方式进行估算的话,不会对原来真实的结果的估算产生重大影响吗?
从随机化回答获得统计信息
随机化回答:总结
只能推出有多少个是yes,有多少个是no,只能知道yes和no的比例,而不是知道具体谁投了yes,谁投了no
- 拉普拉斯机制和随机化回答是两个经典的差分隐私算法,还有许多其他不同的算法,一般而言,不同的应用场景、不同的数据集、不同的输出往往需要不同的算法设计,如何根据应用来设计差分隐私方法是不少领域的学者都感兴趣的问题
差分隐私:应用
差分隐私数据库
技术难点
差分隐私机器学习
TensorFlow Privacy 的基本原理
差分隐私数据采集
技术难点
差分隐私数据合成
技术难点
前景展望
差分隐私的新方向
- 联邦学习
- 与多方安全计算的结合
总结
- 差分隐私是近年来受到较多关注的一个隐 私保护模型
- 有着较强的理论保证,并在不少场景中得 到了应用
- 但仍有许多有待解决的问题
差分隐私:原理,应用与展望相关推荐
- 技术干货 | 一文弄懂差分隐私原理!
随着互联网的迅猛发展,网络早已融进人们日常生活的方方面面,我们的个人隐私在互联网时代几乎已经不是秘密.在数据时代,如何保护自己的隐私呢?差分隐私又是什么?小编用一篇文章带领大家了解什么是差分隐私,背后 ...
- 秘密共享差分隐私原理解析
1. 隐私计算全貌  可以看到,隐私计算技术从1979年就开始了,历经四代从安全多方计算(MPC).到差分隐私(DP).到集中加密技术(TEE),再到联邦学习(FL). 2. 秘密共享 secre ...
- 隐私保护联邦学习之差分隐私原理
背景 什么是隐私 讲差分隐私前,说一下什么是隐私 其实隐私这个定义,各家有各家的说法,而且各人有各人不同的考量.目前普遍比较接受的是:"单个用户的某一些属性" 可以被看做是隐私.这 ...
- 差分隐私:原理、应用与展望(新加坡国立大学 萧小奎)
讲座原视频链接:(差分隐私:原理.应用与展望) https://www.bilibili.com/video/BV1Tk4y117uA?from=search&seid=10380937147 ...
- 一文读懂苹果的差分隐私技术原理
在 2016 年 6 月份的苹果 WWDC 大会上提到了一项差分隐私技术(Differential Privacy),其作用是对用户的数据进行扰动,然后上传到苹果服务器.苹果能通过这些扰动过的数据计算 ...
- 机器学习与差分隐私(认证鲁棒性和隐私保护)
Trustworthy Machine Learning with Differential Privacy and Certified Robustness 写在前面的话 研究现状 作者的思考 DP ...
- 差分隐私与可穿戴式设备调查【笔记】
A Systematic Literature Review on Wearable Health Data Publishing under Differential Privacy 论文笔记 概述 ...
- 隐私计算:数据脱敏、匿名化、假名化、差分隐私和同态加密
随着数据挖掘技术的普遍应用,一些厂商通过发布用户数据集的方式鼓励研究人员进一步深入挖掘数据的内在价值,在数据集发布的过程中,就存在安全隐患,可能导致用户隐私的泄露.2016年欧盟通过< ...
- 隐私保护与生成模型: 差分隐私GAN的梯度脱敏方法
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 大规模数据的收集和利用大幅提升了机器学习算法的性能,但同时也令个人隐私保护面临更大的风险与挑战.为此,我们提出一种满足差分隐私(Diff ...
最新文章
- 2021年大数据常用语言Scala(三):Scala解释器
- 程序员该有的职业素养
- performance metrics
- Emscripten-mac安装与升级
- Java编程学习中必须掌握的13个核心技术
- 如何使用BOOTSTRAP 栅格系统?
- 【原创】PSP开机只是绿灯亮,黑屏
- Windows服务工程创建、部署
- Solution Explorer 和 Source Control Explorer 的 View History 异同
- 常用html元素的取值和赋值方法总结
- 【生信进阶练习1000days】day7-RSQLite的使用
- 美国的知名的人工智能研究机构或者实验室
- 计算机房面积设置气消条件,机房消防设计方案
- SpingMVC文件下载,ie浏览器提示无法打开该Internet站点.请求的站点不可用,或找不到.请以后再试.
- python青少年趣味编程-青少年趣味编程Python系列课程--2018-07-17
- 【Web技术】网站留言系统开发,及留言信息实时发送至指定邮箱
- Mars 模拟器编写 mips32 汇编 的入门教程
- 编程题:7-2 复数类的操作
- 计算机二级题 张东明论文修改,计算机二级第十四套word题目要求
- Nginx 启动报错 directive is not allowed here in