差分隐私（Differential privacy）浅析

通过几天对差分隐私的左思右想，总算是摸到了点门道，顺着学习思路，就一些比较关键性概念说一下自己的看法：

一、关键性概念

1、查询

对数据集 $D$ 的各种映射函数被定义为查询（Query），用 $F$ ={ $f_{1}$ , $f_{2}$ , ......}来表示一组查询。

2、邻近数据集（兄弟数据集）

设数据集 $D$ 与 $D^{'}$ ，具有相同的属性结构，两者对称差记作 $D$ $\Delta$ $D^{'}$ ，| $D$ $\Delta$ $D^{'}$ |表示对称差的数量。若| $D$ $\Delta$ $D^{'}$ |=1，则称 $D$ 和 $D^{'}$ 为邻近数据集（又称兄弟数据集 ）。

For example：设集合 $D$ = {1,2,3,4,5,6}， $D^{'}$ = {1,2,4,6}，则 $D$ $\Delta$ $D^{'}$ = {3,5}，| $D$ $\Delta$ $D^{'}$ | = 2。

3、敏感度

（1）全局敏感度：

对于一个查询函数 $f$ $:$ $D$ $\rightarrow$ $R^{d}$ ，其中 $D$ 为一个数据集， $R^{d}$ 为 $d$ 维实数向量，是查询的返回结果。在任意一对邻近数据集 $D$ 和 $D^{'}$ 上的全局敏感度为：

$GS_{f}$ ( $D$ ) = $max$ $||$ $f$ ( $D$ ) - $f$ ( $D^{'}$ ) $||$

注意：a. $||$ $f$ ( $D$ ) - $f$ ( $D^{'}$ ) $||$ 是 $f$ ( $D$ )和 $f$ ( $D^{'}$ )之间的曼哈顿距离；

b. 全局敏感度与数据集无关，只与查询结果有关。

（2）局部敏感度：

对于一个查询函数 $f$ $:$ $D$ $\rightarrow$ $R^{d}$ ，其中 $D$ 为一个数据集， $R^{d}$ 为 $d$ 维实数向量，是查询的返回结果。对于给定的数据集 $D$ 和它的任意邻近数据集 $D^{'}$ ，有 $f$ 在 $D$ 上的局部敏感度为：

$LS_{f}$ ( $D$ ) = $max$ $||$ $f$ ( $D$ ) - $f$ ( $D^{'}$ ) $||$

全局敏感度和局部敏感度的关系为：

$GS_{f}$ ( $D$ ) = $max$ ( $LS_{f}$ ( $D$ ))

二、差分隐私

设有随机算法 $M$ ， $P_{M}$ 为 $M$ 所有可能输出构成的集合的概率，对于任意两个邻近数据集 $D$ 与 $D^{'}$ 以及 $P_{M}$ 的任意子集 $S_{M}$ ，若算法 $M$ 满足：

$P$ [ $M$ ( $D$ ) $\in$ $S_{M}$ ] $\leq$ $e^{\varepsilon }$ $\times$ $P$ [ $M$ ( $D^{'}$ ) $\in$ $S_{M}$ ]

则称算法 $M$ 提供 $\varepsilon$ -差分隐私保护。

注意：a. $\varepsilon$ 越小，隐私保密度越高；

b. $\varepsilon$ 越大，数据可用性越高（保密度越低）；

c. $\varepsilon$ = 0时， $M$ 针对 $D$ 与 $D^{'}$ 的输出概率完全相同。

通常情况下， $\varepsilon$ 值取很小， $e^{\varepsilon }$ 接近于1，即对于只有一条记录差别的两个数据集，如果查询它们的概率非常非常的接近，那么它们满足差分隐私保护（通俗的说法，不太严谨）。

For example：医院发布信息有10个人患AIDS，现在攻击者知道其中9个人的信息，通过和医院发布的信息进行比对就可以知道最后一个人是否患AIDS，这就是差分隐私攻击。如果查询9个人的信息和查询10个人的信息结果一致，那么攻击者就没有办法确定第10个人的信息，这就是差分隐私保护。

三、实现机制

1、拉普拉斯机制（常用于数值输出的函数）

（1）Laplace机制的敏感度：

给定一个函数集 $F$ ， $D_{1}$ 和 $D_{2}$ 为邻近数据集，其敏感度定义如下：

$S(F)$ =

（2）期望为0，方差为2 $b^{2}$ 的Laplace分布，其概率密度函数为：

$P(x)$ =

其中 $b$ = $\frac{\Delta f}{\varepsilon }$ ， $\Delta f$ 为敏感度。

（3）Laplace机制 $\varepsilon$ -差分隐私：

给定一个函数 $f$ $:$ $D$ $\rightarrow$ $R^{d}$ ，若隐私保护算法 $A$ 满足 $\varepsilon$ -差分隐私，当且仅当下述表达式成立：

$A$ = $f(D)$ +

具体公式推导证明可参考：

差分隐私若干基本知识点介绍（一）_MathThinker的博客-CSDN博客_差分隐私

2、指数机制（常用于非数值输出的函数/添加数值噪声后无意义的函数）

（1）可用性函数：

设查询函数的输出域为 $R$ ，域中的每个值 $r\in R$ 为一实体对象， $D$ 为给定数据集。在指数机制下，函数 $q(D,r)\rightarrow R$ 称为输出值 $r$ 的可用性函数。

（2）指数机制的敏感度：

给定可用性函数 $q$ ， $D_{1}$ 和 $D_{2}$ 为任意一对邻近数据集， $r$ 为任意合法输出，其敏感度定义如下：

$S(q)$ =

（3）指数机制 $\varepsilon$ -差分隐私：

给定数据集 $D$ 及可用性函数 $q(D,r)\rightarrow R$ ，隐私保护机制 $A$ 满足 $\varepsilon$ -差分隐私，当且仅当下述表达式成立：

$A(D,q)$ $\propto$ （ $\propto$ 为正比于）

四、组合原理

1、串行组合原理（同一数据集、不同算法）：

给定数据集 $D$ 以及一组关于 $D$ 的差分隐私算法： $A_{1}(D),A_{2}(D),A_{3}(D),....,A_{m}(D)$ ，算法 $A_{i}(D)$ 分别满足 $\varepsilon _{i}$ -差分隐私且任意两个算法的随机过程独立，则这些算法组合起来满足。

2、并行组合原理（不同数据集、不同算法）：

记 $A_{1}(D_{1}),A_{2}(D_{2}),A_{3}(D_{3}),...,A_{m}(D_{m})$ 分别表示输入数据集为 $D_{1},D_{2},D_{3},...,D_{m}$ 的一系列满足 $\varepsilon$ -差分隐私算法且任意两个算法的随机过程相互独立，则这些算法组合起来满足 $\varepsilon$ -差分隐私。

3、推论（不同数据集、不同算法）：

记 $A_{1}(D_{1}),A_{2}(D_{2}),A_{3}(D_{3}),...,A_{m}(D_{m})$ 为一系列相互独立的差分隐私，且算法 $A_{i}(D)$ 分别满足 $\varepsilon _{i}$ -差分隐私，则这些算法组合起来满足。（不同数据集、不同算法，整体小于等于最大 $\varepsilon$ -差分隐私）

五、心得体会

遇到一个全新的知识体系时，先不要纠结于某一个概念或者定理，要先有一个整体的知识结构，就拿差分隐私来说：

1、为了搞懂定义，我们需要一些前提知识点；

2、搞懂定义后，就去了解它的实现机制；

3、如果必要，可以再去研究它的推导证明；

4、最后，是一些延伸定理。

然后就一点一点磨，总会明白的。

That's all, good luck.

差分隐私（Differential privacy）浅析相关推荐

差分隐私Differential Privacy介绍
差分隐私,英文名为differential privacy,顾名思义,保护的是数据源中一点微小的改动导致的隐私泄露问题.比如有一群人出去聚餐,那么其中某人是否是单身狗就属于差分隐私. 为了更形式化地描 ...
差分隐私 python_主要开发语言为 Python/Rust：微软与哈佛大学合作开源差分隐私平台...
微软与哈佛大学OpenDP Initiative 合作研发并开源了首个用于差分隐私的平台.这项工作已持续了将近一年,去年九月,微软首席数据分析管 John Kahan 曾宣布项目的开展:"我 ...
差分隐私机器学习_微软发布多个建置可信AI的问责机器学习工具
为了提高人工智能解决方案的透明度,微软发布多个工具,在Azure上提供负责任机器学习服务(Responsible ML),微软提到,由于机器学习开始被深入整合进日常业务流程,因此透明度显得特别重要,A ...
隐私保护联邦学习之差分隐私原理
背景什么是隐私讲差分隐私前,说一下什么是隐私其实隐私这个定义,各家有各家的说法,而且各人有各人不同的考量.目前普遍比较接受的是:"单个用户的某一些属性" 可以被看做是隐私.这 ...
隐私计算：数据脱敏、匿名化、假名化、差分隐私和同态加密
随着数据挖掘技术的普遍应用,一些厂商通过发布用户数据集的方式鼓励研究人员进一步深入挖掘数据的内在价值,在数据集发布的过程中,就存在安全隐患,可能导致用户隐私的泄露.2016年欧盟通过< ...
转载-联邦学习 - 基础知识+白皮书+杨强教授讲座总结+同态加密+ 差分隐私
原文链接:https://blog.csdn.net/qq_41409438/article/details/102213895 联邦学习兴起原因概念分类横向联邦学习纵向联邦学习联邦迁移学 ...
MindArmour差分隐私
MindArmour差分隐私总体设计 MindArmour的Differential-Privacy模块,实现了差分隐私训练的能力.模型的训练主要由构建训练数据集.计算损失.计算梯度以及更新模型参数 ...
差分隐私（Differential Privacy）
差分隐私(Differential privacy)最早于2008年由Dwork 提出,通过严格的数学证明,使用随机应答(Randomized Response)方法确保数据集在输出信息时受单条记录的 ...
差分隐私相关论文(2) —— Deep Learning with Differential Privacy, Abadi 2016
本文向大家介绍一下一篇CCS 2016的工作,文章的名字叫Deep Learning with Differential Privacy,在网上应该很容易就能找到,如果有朋友找不到还有兴趣的话可以私信 ...

差分隐私（Differential privacy）浅析

差分隐私（Differential privacy）浅析相关推荐

最新文章

热门文章