Differential privacy—

Q: 首先我们要明白什么是隐私？

在百度百科上是这样解释的 “ 隐私，顾名思义，隐蔽、不公开的私事”，即指个人的不愿公开的私事或秘密。那么在互联网信息泛滥的情况下，我们希望我们的数据能为我们的生活提供便利的同时，也不会泄露个人的敏感信息招致自身利益受损，所以这个时候就需要保护隐私。

由此出现了最早两个隐私度量作为隐私保护的衡量标准：

披露风险

攻击者通过发布的数据集所获取的信息进而披露隐私的概率。即通过攻击者披露隐
私的多少，来侧面反映隐私保护的效果。如果所有敏感数据的披露风险均小于阈值
α (0≤ α ≤1)，则称该数据集的披露风险为 α。

信息缺损 （多适用于单个属性进行度量）

经过隐私保护技术处理后数据的丢失，是针对发布数据集质量的一种度量。值得注意
的是要求先计算出每条准标准态中每个属性的取值泛化带来的信息缺损，进而计算出
每条记录泛化后的信息缺损，再根据这个来计算整个数据集的信息缺损。

Q: 由此一来我们知道了什么是隐私，那么什么是隐私保护呢？

隐私保护整体分成9个部分，包括隐私信息产生、隐私感知、隐私保护、隐私发布、私信息存储, 隐私交换, 隐私分析, 隐私销毁, 隐私接收者。主要研究方向在在隐私保护, 隐私发布/存储/交换, 隐私分析这 3 个部分。

Q: 那么保护隐私的方法又是什么呢？

隐私保护的方式主要分成以下三种包括，数据失真，数据加密，以及限制发布，目前的很多隐私保护技术往往结合了其中的多种技术。比如有k-匿名（K-Anonymous）、l-多样性(L-Diversity）、t-紧密性（T-Closeness）等等。

1）数据失真

通过扰动原始数据来实现保护隐私，数据扰动的基本思想是隐藏真实的原始数据，
只呈现出数据的统计学特征。

2）数据加密

通过密码机制实现对原始数据的不可见性以及数据的无损失性，以实现隐私保护。

3）限制发布

通过选择性发布原始数据，确保披露风险在一定的阈值内。

在了解了K-Anonymous，L-Diversity和T-Closeness的基础上，我们发现现有的这些模型并不能提供足够的安全保障，它们总是因新型攻击的出现而需要不断完善。所以我们进一步提出了差分隐私模型，进一步确保我们隐私的安全性。

Q: 那么差分隐私又是什么呢？

差分隐私保护是通过采用添加噪声的技术使敏感数据失真，是基于数据失真的隐私保
护技术。而且所需加入的噪声量与数据集的大小无关，即大的数据集只需加入小的噪声量即有
很高的安全性。

差分隐私的一般性方法

用户提交查询结果——>从数据库中提炼出一个中间件——>中间件用特别设计的随机算法加入噪音——>由此中间件推导出一个带噪的结果返回给用户

Q: 差分隐私差分在哪？什么又是差分呢？

差分隐私主要是为了应对每个数据集差为1的情况下，对那个差为1的数据的保护。

举个例子：

比如医院记录了所有人是否患有该疾病的记录，那么我们可以通过一下差分的方法来
获取某个人的具体信息。（1）先查询整个数据库内患有该病的人数Num1；
（2）查询除某个人以外患有该病的人数Num2；
（3）如果两者相差为1的话，再不考虑重名的情况下，极大可能知道某个人真实的
患病情况；

这样我们的隐私就泄露了，这并不是我们想看到的。

Q: 差分隐私是如何运行的？

基本定义

1）ε（Privacy budget）：隐私预算（或隐私代价），用户衡量隐私保护的程度。当参数ε 越小时, 作用
在一对相邻数据集上的差分隐私算法返回的查询结果的概率分布越相似, 攻击者就
越难以区分这一对相邻数据集, 保护程度就越高。当ε = 0时, 攻击者无法区分这
一对相邻数据集保护程度最高。（但相对的是数据集保护程度越高，有用的信息就越少，ε趋向于0的时候，信息的
可用性也随之减少。）目前分配隐私预算的方法有：均分，自适应（多用于动态数组），数据结构等。2）敏感度（Sensitivity）：指删除数据集中任一记录对查询结果照成的改变，
是决定加入噪声量大小的关键。分成全局敏感度，局部敏感度，平滑敏感度和弹
性敏感度。它是控制噪声大小的参数，敏感度越大，为了维持输出结果相识所需添加的噪声
也就越大

差分隐私依据数据收集分析发放中保护的对象不一样可以分为两种差分隐私类型：中心化差分隐私和本地化差分隐私。

数据收集分析的一般流程如下：

数据收集——>（上传）——>第三方——>（分析）——>信息发布

1）中心化差分隐私（centralized differential privacy）简称CDP

原理：认为第三方是可信的，因此主要保护的是数据收集分析后的结果发放过程，
差分隐私保护机制运行在可信第三方上。

公式：

其中D和D‘为邻近数据集（二者互相之间至多相差一条记录，即增加或者加减一项数据得到的数据集）

所具有的性质：
（1）序列组合性。
（2）并行性。
（3）后期处理（post-processing）。

2）本地化差分隐私（Local Differential Privacy）简称LDP

原理：认为第三方是不可信的，所以本地差分隐私保护的是用户上传数据到第三方的
过程，差分隐私机制运行在各个用户的本地。

公式：

其中V和V’为任意的两个输出（values）。

所具有的性质：
（1）序列组合性。
（2）后期处理（post-processing）。

Q: 那么两者的异同是什么呢？

1）首先就是定义不同，CDP和LDP区别就是是否存在可行第三方。2）其次就是操作的对象不同，CDP操作的对象是D和D'两个邻近数据集，而LDP操
作的对象是任意两个输出values；3）再者就是操作的方法不同，CDP主要采用噪声机制【比如拉普拉斯机制（适用
于连续型数据的查询），指数机制（适用于离散型数据的查询），几何分布以及高
斯分布】，而LDP主要采用随机响应技术。**注意！！！**：CDP不对统计数据数量做要求，就是说无论多少个数据数量都可
以用CDP进行差分隐私，而LDP需要**海量**的数据集，原因是LDP对个体数据进
行正向和负向的扰动，最终通过聚合大量的扰动结果来抵消添加在其中的正负向噪
声，从而得到有效的统计结果．然而，由于噪声的随机性，要保证统计结果的无偏
性，必然需要海量的数据集来实现满足数据可用性的统计精度。4）最后就是两者所需要添加的噪音也不一样，比如有n个数据集，CDP所需添加的
噪音是（1），因为CDP只需对最终结果加个噪音即可。而LDP所需添加的噪音是
（√n），因为LDP每个结果都要加噪音。

Differential privacy——差分隐私相关推荐

外国教授在B站当UP主上课，网友直呼好家伙：滑铁卢大学《差分隐私》课程上线...
视学算法报道作者:泽南.蛋酱 Gautam Kamath 的课程,让网友们直呼好家伙. 一位加拿大高校的教授,不远万里来到 B 站,一言不合就扔下了 24 个小时的课程视频,这是一种什么样的精神?1 ...
关于差分隐私的一些基本概念的整理
引言在过去的二十年中,随着数据挖掘技术的普遍应用,一些厂商,组织和政府所收集的数字信息形成了大量的数据集,并且这种数据收集的速度在最近几年中得到了极大的提高. 通常,数据收集者负责发布数据用以进行进 ...
本地差分隐私随机响应_大数据时代下的隐私保护
本文作者程越强.孙茗珅.韦韬 1 引言在大数据的时代,越来越多的服务和产品是围绕用户数据(隐私)建立的.这样虽然带来了个性化的服务,提高了服务质量和精度,但是在数据收集.使用以及公布的过程中,用户隐 ...
Deep Learning with Differential Privacy翻译
正在读CCS上的"Deep Learning with Differential Privacy",人工翻译了一下: Abstract 基于神经网络的机器学习技术已经在多个领域取得 ...
Functional Mechanism: Regression Analysis under Differential Privacy
Functional Mechanism: Regression Analysis under Differential Privacy 1. 摘要差分隐私是一种能在保护隐私的同时发布敏感数据的方法 ...
外国教授在 B 站当 UP 主上课，网友直呼好家伙：滑铁卢大学《差分隐私》课程上线
Gautam Kamath 的课程,让网友们直呼好家伙. 一位加拿大高校的教授,不远万里来到 B 站,一言不合就扔下了 24 个小时的课程视频,这是一种什么样的精神?1 月 3 日,滑铁卢大学助理教授 ...
外国教授在 B 站当 UP 主上课，网友直呼好家伙：滑铁卢大学《差分隐私》课程上线...
点击上方"Github爱好者社区",选择星标回复"资料",获取小编整理的一份资料转自机器之心 Gautam Kamath 的课程,让网友们直呼好家伙. 一位 ...
差分隐私从白斩鸡到菜鸡（一）
今天的我是一只刚刚决定投身差分隐私的白斩鸡.所以我第一步是要弄明白什么叫"差分隐私",Differential到底Differential在哪里了. 我首先在知乎搜索到这个问题:苹 ...
差分隐私走过的坑
差分隐私小记:学了隐私保护相关匿名模型后,初看差分隐私感觉真,一时好难理解,像是个大坑.书上的内容就给一对兄弟数据表,一个ε-差分隐私公式,然后两个实现机制.真的很难结合起来看懂,到底如何差分?如何 ...

Differential privacy——差分隐私

Differential privacy——差分隐私相关推荐

最新文章

热门文章