本地化差分隐私保护的实现机制（一）

最近看了一篇论文《Collecting and Analyzing Multidimensional Data with Local Differential Privacy》，其中最关键的就是本地化差分隐私技术（以下简称LDP）在收集分析数据时的各种实现机制：

一、拉普拉斯机制

1、假设每个用户 $u_{i}$ 的数据记录 $t_{i}$ 包含一个数值属性，其值位于范围 $[-1,1]$ 内；

2、定义一个输出扰动记录的随机函数： $t_{i}^{*}=t_{i}+Lap(\frac{2}{\epsilon })$ ，其中 $Lap(\lambda )$ 表示遵循尺度 $\lambda$ 的拉普拉斯分布的随机变量，其具有以下概率密度函数： $pdf(x)=\frac{1}{2\lambda }exp(-\frac{|x|}{\lambda })$ （期望为0、方差为 $2\lambda ^{2}$ 的Laplace分布的概率密度函数）；

3、显然，该估计 $t_{i}^{*}$ 是无偏的，因为在每个 $t_{i}^{*}$ 中注入的拉普拉斯噪声 $Lap(\frac{2}{\epsilon })$ 具有零均值（即期望为0）且 $t_{i}^{*}$ 的方差是 $\frac{8}{\epsilon ^{2}}$ （即方差为 $2\lambda ^{2}$ ）；

4、一旦数据采集者接收到所有被扰动的元组，它就只计算它们的平均值 $\frac{1}{n}\sum_{i=1}^{n}t_{i}^{*}$ 作为误差等级为 $O(\frac{1}{\epsilon \sqrt{n}})$ （不知道怎么得出来的~）的均值估计值。

简而言之，用户将数据添加一个拉普拉斯噪声 $Lap(\frac{2}{\epsilon })$ 后发送给数据收集者，数据收集者对得到的数据元组先求平均值后再对外发布。

二、拉普拉斯机制变体

SCDF由Soria-Comas和Domingo-Ferrer提出，可以获得多维数据的改进结果精度；Stairease mechanism由Geng 等人提出，实现了无界输入值的最佳性能。具体而言，对于单个数值 $t_{i}$ ，两种方法都注入随机噪声 $n_{i}$ ，该随机噪声 $n_{i}$ 来自以下分段恒定概率分布：

在SCDF中，和；在Stairease mechanism中， $m=\frac{2}{1+e^{\epsilon /2}}$ 和。

注意：Stairease mechanism中的最优性结果不适用于有界输入的情况（有界输入是指输入集合数据分布是有上界或者下界的，即均大于或者均小于某个值）。

这两种方法就是改变了噪声的注入方式。

三、Duchi等人的解决方法

杜奇等人提出了一种在LDP下扰动多维数据元组的方法。以下算法说明了Duchi等人对于一维案例的解决方案：

特别的是，给定一个元组 $t_{i}$ $\in$ [-1,1]，算法返回一个扰动的元组 $t_{i}^{*}$ ，它等于 $\frac{e^{\epsilon }+1}{e^{\epsilon }-1}$ 或 $-\frac{e^{\epsilon }+1}{e^{\epsilon }-1}$ ，具有以下概率：

注意：a.以上两概率之和为1；

b.当 $\epsilon$ 趋近于0时，两概率趋近于相等，为 $\frac{1}{2}$ ；

c.当 $\epsilon$ 不趋近0时， $x=\frac{e^{\epsilon }+1}{e^{\epsilon }-1}$ 的概率大于 $x=-\frac{e^{\epsilon }+1}{e^{\epsilon }-1}$ 的概率。

杜奇等人证明 $t_{i}^{*}$ 是输入值 $t_{i}$ 的无偏估计。另外， $t_{i}^{*}$ 的方差是：

因此，当 $t_{i}$ = 0时， $t_{i}^{*}$ 取最坏（最大）方差，等于 $(\frac{e^{\epsilon }+1}{e^{\epsilon }-1})^{2}$ 。在接收到该算法输出的扰动元组时，收集者简单地计算所有用户的属性的平均值以获得估计的平均值。

以上解决方案的缺点：下图说明了拉普拉斯机制和Duchi等人的解决方案在变化时返回的噪声值最坏（最大）方差。当 $\epsilon \leq 2$ 时，Duchi等人的解决方案比拉普拉斯机制提供的方差小得多，但是当 $\epsilon > 2$ 时，后者明显优于后者。

回想一下，Duchi等人的解决方案总返回 $t_{i}^{*}=\frac{e^{\epsilon }+1}{e^{\epsilon }-1}$ 或 $t_{i}^{*}=-\frac{e^{\epsilon }+1}{e^{\epsilon }-1}$ 。因此，该解决方案输出的噪声值 $t_{i}^{*}$ 总是具有绝对值 $|\frac{e^{\epsilon }+1}{e^{\epsilon }-1}|> 1$ ，因此无论隐私预算有多大， $t_{i}$ = 0时 $t_{i}^{*}$ 的方差总是大于1。相反，拉普拉斯机制产生 $\frac{8}{\epsilon ^{2}}$ 的噪声方差，其随着增加而呈二次方减小，由此在 $\epsilon$ 大的时候是优选的。然而，当 $\epsilon$ 小时，分母 $\epsilon ^{2}$ 会导致很大的噪声方差，而Duchi等人的解决方案不会遇到这个问题，因为它的方差被确定在相对较小的范围内 $[-\frac{e^{\epsilon }+1}{e^{\epsilon }-1},\frac{e^{\epsilon }+1}{e^{\epsilon }-1}]$ 。

噪声方差的大小会直接影响扰动数据的方差大小，扰动数据方差越小说明数据之间的相似度越高，即差分隐私保护越成功，所以各种实现机制以方差趋小为目的。

下一篇讲一下改进后的实现机制。

本地化差分隐私保护的实现机制（一）相关推荐

中心化、本地化差分隐私基础知识
差分隐私的背景和概念由于互联网的发展,包括智能手机在内的各种终端数量剧烈的增长,使得各种公司和组织,以及政府需要收集和分析巨量的数据.在这个过程中,关于个人信息的隐私保护成为了一个大的问题.一些在大 ...
面向医疗数据的差分隐私保护
第一章差分隐私保护 1.1 差分隐私概述差分隐私是Dwork在2006年提出的一种针对敏感数据集发布导致的隐私泄露问题的隐私保护模型.基于这一模型,处理后的数据集对任意一个记录的变化是不敏感的,因 ...
面向数据发布和分析的差分隐私保护 -- 张啸剑
面向数据发布和分析的差分隐私保护读这篇综述的随记基于k-匿名或者划分的隐私保护方法,只适应特定背景知识下的攻击而存在严重的局限性．差分隐私作为一种新出现的隐私保护框架,能够防止攻击者拥有任意背景知 ...
师兄毕业论文 -- 交通轨迹数据发布差分隐私保护算法研究（2020）
交通轨迹数据发布差分隐私保护算法研究(2020) 记录一些比较关键重要的点 1.论文摘要,几个重要观点: 用户大量的轨迹数据,如果未经任何处理,数据管理员就直接发布,用户的个人隐私就会被泄露针对智能 ...
差分隐私 matlab,一种基于差分隐私保护的谱聚类方法与流程
本发明属于隐私保护技术领域,提供了一种基于差分隐私保护的谱聚类方法. 背景技术: 近年来,随着互联网与信息技术的蓬勃发展,海量数据的产生可以为研究者们提供许多有效的信息资源,对这些海量数据进行挖掘分析 ...
ε-差分隐私之拉普拉斯噪声机制（定义 + 证明 + 代码）
ε-差分隐私之拉普拉斯噪声机制差分隐私的描述 1-范式的定义:使用matlab调用函数norm(x, 1) 更多范式见范式差分隐私的定义应该满足拉普拉斯噪声的证明全过程如下: DP方向差分隐私 ...
本地化差分隐私的简单入门内容
看了这篇文章,感觉把一些内容都讲的还蛮好的,可以结合着一些论文进行入门的了解. https://www.sogou.com/link?url=DSOYnZeCC_odi3934YApWQ0zW81vU ...
隐私计算之差分隐私-Laplace机制
1 背景在这个信息膨胀的大数据智能时代,如何安全获取与使用个人的相关数据,渐渐成为迫切需要解决的问题.基于大数据的人工智能应用层出不穷,每个人都感觉自己在被时刻的跟踪,感觉在整个网络面前没有丝毫的隐 ...
本地差分隐私随机响应_大数据时代下的隐私保护
本文作者程越强.孙茗珅.韦韬 1 引言在大数据的时代,越来越多的服务和产品是围绕用户数据(隐私)建立的.这样虽然带来了个性化的服务,提高了服务质量和精度,但是在数据收集.使用以及公布的过程中,用户隐 ...
差分隐私理论入门科普
在基于隐私保护的数据发布研究中,主要考虑两个因素:1)隐私的保护性,即确保数据不会造成隐私泄漏:2)数据的有效性,即数据隐私保护后数据仍具有效用,在后续数据挖掘等工作中仍然具有较高的精确度差分隐私主 ...

本地化差分隐私保护的实现机制（一）

本地化差分隐私保护的实现机制（一）相关推荐

最新文章

热门文章