本地化差分隐私（Local Differential Privacy）浅析

书接上文，这次来谈谈本地化差分隐私：

一、背景

传统的差分隐私是将原始数据集中到一个数据中心，然后在此对数据施加差分隐私算法，并对外发布，称之为中心化差分隐私（Centralized Differential Privacy）。因此，中心化差分隐私有一个前提：可信的第三方数据收集者，即保证所收集的数据不会被窃取和泄露。然而，在实际生活中想找到一个真正可信的第三方数据收集平台十分困难，这极大地限制了中心化差分隐私的应用。

鉴此，本地化差分隐私应运而生，基于不可信第三方的前提下，其将数据隐私化的工作转移到每个用户，用户自己来处理和保护个人数据，极大地降低了隐私泄露的可能性。

中心化差分隐私与本地化差分隐私数据处理框架，如下图所示：

中心化差分隐私数据处理框架图本地化差分隐私数据处理框架图

二、定义

任意本地化差分隐私函数 $f$ ，定义域为 $Dom(f)$ ，值域为 $Ran(f)$ ，对任意输入 $t$ ， $t^{'}$ $\in$ $Dom(f)$ ，输出 $t^{*}$ $\in$ $Ran(f)$ ，都有：

[ $f(t)$ = $t^{*}$ ] [ $f(t^{'})$ = $t^{*}$ ]

注意：a. 本地化差分隐私技术通过控制任意两条记录的输出结果的相似性，从而确保算法 $f$ 满足本地化差分隐私，即输出同为 $t^{*}$ ，窃密者无法确认输入为 $t$ 还是 $t^{'}$ ；

b. 越小，任意两条记录输出结果相似性越高；反之，亦然。

三、扰动机制

目前，随机响应(randomized response) 技术是本地化差分隐私保护技术的主流扰动机制，如下：

1、扰动性统计

引入一个现实场景：有 $n$ 个用户，假设AIDS患者的真实比例为 $\pi$ 。我们希望对其比例进行统计，于是发起一个敏感的问题：“你是否为AIDS患者? ”，每个用户对此进行响应，第 $i$ 个用户的答案为 $X_{i}$ 是或否，但出于隐私性考虑，用户不会直接响应真实答案．假设其借助于一枚非均匀的硬币来给出答案，其正面向上的概率为 $p$ ，反面向上的概率为 $1-p$ 。抛出该硬币，若正面向上，则回答真实答案，反面向上，则回答相反的答案。

首先，进行扰动性统计。利用上述扰动方法对 $n$ 个用户的回答进行统计，可以得到艾滋病患者人数的统计值．假设统计结果中，回答“ 是”的人数为 $n_{1}$ ，则回答“ 否”的人数为 $n-n_{1}$ 。显然，按照上述统计，回答“是”和“否”的用户比例如下：

$P(X_{i}="yes")$ = $\pi p$ + $(1-\pi )$ $(1-p)$

$P(X_{i}="no")$ = $(1-\pi )$ p + $\pi$ $(1-p)$

2、校正

显然，上述统计比例并非真实比例的无偏估计，因此需要对统计结果进行校正。

因此，构建以下似然函数：

$L$ = $[ \pi p + (1-p)(1-\pi )]^{n_{1}}$ $[(1-\pi )p+\pi (1-p)]^{n-n_{1}}$

并得到 $\pi$ 的极大似然估计：

$\widehat{\pi }=\frac{p-1}{2p-1}+\frac{n_{1}}{(2p-1)n}$

求导过程：a. 对 $L$ 取对数，得：

$ln(L)$ = $n_{1}ln[\pi (2p-1)+(1-p)]$ + $(n-n_{1})ln[p-\pi (2p-1)]$

b. 对上式关于 $\pi$ 求导，得：

$0=\frac{n_{1}(2p-1)}{\pi (2p-1)(1-p)}+\frac{(n_{1}-n)(2p-1)}{p-\pi (2p-1)}$

c. 化简上式，可得：

$\widehat{\pi }=\frac{p-1}{2p-1}+\frac{n_{1}}{(2p-1)n}$

$\widehat{\pi }$ 的数学期望证明 $\widehat{\pi }$ 是真实 $\pi$ 的无偏估计：

$E(\widehat{\pi })=\frac{1}{2p-1}[p-1+\frac{1}{n}\sum_{i=1}^{n}X_{i}]=\frac{1}{2p-1}[p-1+\frac{1}{n}nPr(X_{i}="yes")]$

即 $E(\widehat{\pi })=\frac{1}{2p-1}[p-1+\pi p+(1-\pi )(1-p)]=\pi$

由此可以得到校正的统计值，其中 $N$ 表示统计得到的AIDS人数估计值：

$N=\widehat{\pi }\times n=\frac{p-1}{2p-1}n+\frac{n_{1}}{2p-1}$

综上，根据总人数 $n$ ，回答“是”的人数 $n_{1}$ 和扰动概率 $p$ ，即可得到真实患病人数的统计值。为保证其满足 $\varepsilon$ -本地化差分隐私，根据定义，隐私预算 $\varepsilon$ 设定为：

$\varepsilon =ln\frac{p}{1-p}$

注意： $p$ 的取值为 $(0,1)$ ，即 $ln\frac{p}{1-p}$ 的值可正可负，但恒大于 $0$ 。

四、本地化与中心化差分隐私的异同点

1、组合特性

本地化差分隐私继承中心化差分隐私的串行和并行组合特性。（详见上篇文章）

2、数据处理

中心化差分隐私的数据处理依靠可信第三方；本地化差分隐私的数据处理依靠的是用户本身。

3、噪声机制

中心化差分隐私的噪声机制主要以拉普拉斯机制和指数机制为主；本地化差分隐私的噪声机制主要以随机响应为主。

暂定初稿，以后会慢慢补充

That's all, good luck.

本地化差分隐私（Local Differential Privacy）浅析相关推荐

差分隐私（Differential Privacy）
差分隐私(Differential privacy)最早于2008年由Dwork 提出,通过严格的数学证明,使用随机应答(Randomized Response)方法确保数据集在输出信息时受单条记录的 ...
密码学小知识(9)：差分隐私（Differential Privacy）
首先要明白什么是隐私?若单个用户的某个属性可以是隐私,而一群用户的某个属性就可以不看做隐私了.例如,张三喜欢抽烟,所以得了肺癌.这个"张三得了肺癌"这条信息就是隐私.而医院里,抽烟 ...
差分隐私（Differential privacy）浅析
通过几天对差分隐私的左思右想,总算是摸到了点门道,顺着学习思路,就一些比较关键性概念说一下自己的看法: 一.关键性概念 1.查询对数据集的各种映射函数被定义为查询(Query),用 ={, , .. ...
差分隐私（Differential Privacy）定义及其理解
中心化、本地化差分隐私基础知识
差分隐私的背景和概念由于互联网的发展,包括智能手机在内的各种终端数量剧烈的增长,使得各种公司和组织,以及政府需要收集和分析巨量的数据.在这个过程中,关于个人信息的隐私保护成为了一个大的问题.一些在大 ...
Frequency Estimation Heavy Hitter under Local Differential Privacy的一些重要组件
Frequency Estimation under Local Differential Privacy 该论文是一个综述类(survey)文章,主要介绍了一个公共框架--将各种不同的LDP协议放 ...
Local Differential Privacy for Deep Learning
motivation:众包数据进行训练过程中,容易造成隐私泄漏. methods: 提出的新算法(LATENT)应用了随机响应的属性--LDP设置和算法的层结构可以使得在不同层级进行隐私 ...
本地化差分隐私的简单入门内容
看了这篇文章,感觉把一些内容都讲的还蛮好的,可以结合着一些论文进行入门的了解. https://www.sogou.com/link?url=DSOYnZeCC_odi3934YApWQ0zW81vU ...
隐私计算：数据脱敏、匿名化、假名化、差分隐私和同态加密
随着数据挖掘技术的普遍应用,一些厂商通过发布用户数据集的方式鼓励研究人员进一步深入挖掘数据的内在价值,在数据集发布的过程中,就存在安全隐患,可能导致用户隐私的泄露.2016年欧盟通过< ...
差分隐私相关论文(2) —— Deep Learning with Differential Privacy, Abadi 2016
本文向大家介绍一下一篇CCS 2016的工作,文章的名字叫Deep Learning with Differential Privacy,在网上应该很容易就能找到,如果有朋友找不到还有兴趣的话可以私信 ...

本地化差分隐私（Local Differential Privacy）浅析

本地化差分隐私（Local Differential Privacy）浅析相关推荐

最新文章

热门文章