差分隐私(Differential privacy)浅析
通过几天对差分隐私的左思右想,总算是摸到了点门道,顺着学习思路,就一些比较关键性概念说一下自己的看法:
一、关键性概念
1、查询
对数据集的各种映射函数被定义为查询(Query),用 ={, , ......}来表示一组查询。
2、邻近数据集(兄弟数据集)
设数据集与,具有相同的属性结构,两者对称差记作,||表示对称差的数量。若||=1,则称和为邻近数据集(又称兄弟数据集 )。
For example:设集合 = {1,2,3,4,5,6}, = {1,2,4,6},则 = {3,5},|| = 2。
3、敏感度
(1)全局敏感度:
对于一个查询函数 ,其中为一个数据集,为维实数向量,是查询的返回结果。在任意一对邻近数据集和上的全局敏感度为:
() = () - ()
注意:a. () - () 是()和()之间的曼哈顿距离;
b. 全局敏感度与数据集无关,只与查询结果有关。
(2)局部敏感度:
对于一个查询函数 ,其中为一个数据集,为维实数向量,是查询的返回结果。对于给定的数据集和它的任意邻近数据集,有在上的局部敏感度为:
() = () - ()
全局敏感度和局部敏感度的关系为:
() = (())
二、差分隐私
设有随机算法,为所有可能输出构成的集合的概率,对于任意两个邻近数据集与以及的任意子集,若算法满足:
[ () ] [ () ]
则称算法提供-差分隐私保护。
注意:a. 越小,隐私保密度越高;
b. 越大,数据可用性越高(保密度越低);
c. = 0时,针对与的输出概率完全相同。
通常情况下,值取很小,接近于1,即对于只有一条记录差别的两个数据集,如果查询它们的概率非常非常的接近,那么它们满足差分隐私保护(通俗的说法,不太严谨)。
For example:医院发布信息有10个人患AIDS,现在攻击者知道其中9个人的信息,通过和医院发布的信息进行比对就可以知道最后一个人是否患AIDS,这就是差分隐私攻击。如果查询9个人的信息和查询10个人的信息结果一致,那么攻击者就没有办法确定第10个人的信息,这就是差分隐私保护。
三、实现机制
1、拉普拉斯机制(常用于数值输出的函数)
(1)Laplace机制的敏感度:
给定一个函数集,和为邻近数据集,其敏感度定义如下:
=
(2)期望为0,方差为2的Laplace分布,其概率密度函数为:
=
其中 = ,为敏感度。
(3)Laplace机制-差分隐私:
给定一个函数 ,若隐私保护算法满足-差分隐私,当且仅当下述表达式成立:
= +
具体公式推导证明可参考:
差分隐私若干基本知识点介绍(一)_MathThinker的博客-CSDN博客_差分隐私
2、指数机制(常用于非数值输出的函数/添加数值噪声后无意义的函数)
(1)可用性函数:
设查询函数的输出域为,域中的每个值为一实体对象,为给定数据集。在指数机制下,函数称为输出值的可用性函数。
(2)指数机制的敏感度:
给定可用性函数,和为任意一对邻近数据集,为任意合法输出,其敏感度定义如下:
=
(3)指数机制-差分隐私:
给定数据集及可用性函数,隐私保护机制满足-差分隐私,当且仅当下述表达式成立:
(为正比于)
四、组合原理
1、串行组合原理(同一数据集、不同算法):
给定数据集以及一组关于的差分隐私算法:,算法分别满足-差分隐私且任意两个算法的随机过程独立,则这些算法组合起来满足。
2、并行组合原理(不同数据集、不同算法):
记分别表示输入数据集为的一系列满足-差分隐私算法且任意两个算法的随机过程相互独立,则这些算法组合起来满足-差分隐私。
3、推论(不同数据集、不同算法):
记为一系列相互独立的差分隐私,且算法分别满足-差分隐私,则这些算法组合起来满足。(不同数据集、不同算法,整体小于等于最大-差分隐私)
五、心得体会
遇到一个全新的知识体系时,先不要纠结于某一个概念或者定理,要先有一个整体的知识结构,就拿差分隐私来说:
1、为了搞懂定义,我们需要一些前提知识点;
2、搞懂定义后,就去了解它的实现机制;
3、如果必要,可以再去研究它的推导证明;
4、最后,是一些延伸定理。
然后就一点一点磨,总会明白的。
That's all, good luck.
差分隐私(Differential privacy)浅析相关推荐
- 差分隐私Differential Privacy介绍
差分隐私,英文名为differential privacy,顾名思义,保护的是数据源中一点微小的改动导致的隐私泄露问题.比如有一群人出去聚餐,那么其中某人是否是单身狗就属于差分隐私. 为了更形式化地描 ...
- 差分隐私 python_主要开发语言为 Python/Rust:微软与哈佛大学合作开源差分隐私平台...
微软与哈佛大学OpenDP Initiative 合作研发并开源了首个用于差分隐私的平台.这项工作已持续了将近一年,去年九月,微软首席数据分析管 John Kahan 曾宣布项目的开展:"我 ...
- 差分隐私 机器学习_微软发布多个建置可信AI的问责机器学习工具
为了提高人工智能解决方案的透明度,微软发布多个工具,在Azure上提供负责任机器学习服务(Responsible ML),微软提到,由于机器学习开始被深入整合进日常业务流程,因此透明度显得特别重要,A ...
- 隐私保护联邦学习之差分隐私原理
背景 什么是隐私 讲差分隐私前,说一下什么是隐私 其实隐私这个定义,各家有各家的说法,而且各人有各人不同的考量.目前普遍比较接受的是:"单个用户的某一些属性" 可以被看做是隐私.这 ...
- 隐私计算:数据脱敏、匿名化、假名化、差分隐私和同态加密
随着数据挖掘技术的普遍应用,一些厂商通过发布用户数据集的方式鼓励研究人员进一步深入挖掘数据的内在价值,在数据集发布的过程中,就存在安全隐患,可能导致用户隐私的泄露.2016年欧盟通过< ...
- 转载-联邦学习 - 基础知识+白皮书+杨强教授讲座总结+同态加密+ 差分隐私
原文链接:https://blog.csdn.net/qq_41409438/article/details/102213895 联邦学习 兴起原因 概念 分类 横向联邦学习 纵向联邦学习 联邦迁移学 ...
- MindArmour差分隐私
MindArmour差分隐私 总体设计 MindArmour的Differential-Privacy模块,实现了差分隐私训练的能力.模型的训练主要由构建训练数据集.计算损失.计算梯度以及更新模型参数 ...
- 差分隐私(Differential Privacy)
差分隐私(Differential privacy)最早于2008年由Dwork 提出,通过严格的数学证明,使用随机应答(Randomized Response)方法确保数据集在输出信息时受单条记录的 ...
- 差分隐私相关论文(2) —— Deep Learning with Differential Privacy, Abadi 2016
本文向大家介绍一下一篇CCS 2016的工作,文章的名字叫Deep Learning with Differential Privacy,在网上应该很容易就能找到,如果有朋友找不到还有兴趣的话可以私信 ...
最新文章
- MATLAB从入门到精通系列之MATLAB常见问题集锦-(二)
- oracle pl/sql 函数
- 利用等积变换巧解三角形面积问题
- oracle虚拟用户是什么意思,lr脚本中oracle 2tier虚拟用户相关内容
- iOS网络编程-ASIHTTPRequest框架同步请求
- HNU 实验五 小女孩与楼梯
- flume流程之SpoolDir-memory-hdfs
- IOS 改变导航栏返回按钮的标题
- 怎么用EasyRecovery恢复sd卡中的数据
- 计算机病毒与恶意代码期末总结
- mac 如何安装hp laserjet m1136驱动
- 我写了个微信抽奖程序
- 学籍管理系统设计 mysql_学生学籍管理系统数据库设计及查询.pdf
- c语言编程百分比,c – 计算百分比
- DIY手动定制一个属于自己的软件安装管理器工具盘[二]
- 普通定时器输出互补PWM带死区
- CSS样式-网页响应式设计
- Flex自定义鼠标右键
- Unity3d Camera FOV
- 安卓web开发!你还在把Java当成Android官方开发语言吗?建议收藏