关于差分隐私的一些基本概念的整理

引言

在过去的二十年中，随着数据挖掘技术的普遍应用，一些厂商，组织和政府所收集的数字信息形成了大量的数据集，并且这种数据收集的速度在最近几年中得到了极大的提高。通常，数据收集者负责发布数据用以进行进一步分析。然而，大部分收集的数据集都包含隐私或者敏感的信息。即使数据收集者可以应用几种简单的匿名化技术，敏感的个人信息仍然很有可能被公开。因此，隐私保护已成为迫切需要解决的问题。

研究人员提出了各种保护个人隐私的方法,并将这些方法及其隐私标准定义为一个隐私模型。如图1所示，隐私模型位于受信任的数据收集者（Curator）和不受信任的公众用户（User）之间。差分隐私就是这样一种新兴的、有前途的隐私模型。它可以保证对手(敌手)在数据集中对任何个体造成伤害的能力基本上是相同的，与任何个体选择进入或退出数据集无关。与以往的隐私模型相比，差分隐私模型能够成功抵御大多数隐私攻击，并提供了可证明的隐私保障。

差分隐私在数据发布中的应用

差分隐私数据发布的目的是在不披露任何个人记录（或者说具体个人信息）的情况下向公众输出聚合信息。这个问题可以表述为：如果一个数据收集者有一个数据集DDD，并且收到一个查询集合F={f1，…，fm}F=\{f_1，…，f_m\}F={f1，…，fm}，那么他们需要在满足差分隐私约束的前提下回答每个查询fi∈Ff_i∈Ffi∈F。

此发布方案涉及交互式和非交互式两个场景（interactive and non-interactive）。在交互式场景中，只有收到了前一个查询fi−1f_{i-1}fi−1的响应后才能申请下一个查询fif_ifi。在非交互式场景中，所有查询都一次提供给数据收集者，数据收集者可以在充分了解查询集合FFF的情况下响应请求。

下面给出了交互式和非交互式两个场景之间差异的示例。对数据收集者的查询可能如下所示：

查询1(f1f_1f1): 40至79岁之间有多少患者患有糖尿病?
查询2(f2f_2f2): 40至59岁之间有多少患者患有糖尿病?

假设每次查询的隐私预算ϵϵϵ是固定的。在交互式场景中，数据收集者将首先收到查询f1f_1f1，然后计算40至79岁之间患有糖尿病的患者人数，f1f_1f1的灵敏度为1，并将独立的拉普拉斯噪声Lap(1/ϵ)Lap(1 / ϵ)Lap(1/ϵ)加上。然后将f2f_2f2提交给数据收集者时，此时f2f_2f2的灵敏度将等于2，因为更改表中的任意一个人可能会更改两个查询的结果。添加到查询集的总噪声为Lap(1/ϵ)+Lap(2/ϵ)Lap(1 / ϵ)+ Lap(2 / ϵ)Lap(1/ϵ)+Lap(2/ϵ)。

在非交互式场景中，两个查询都同时提交给数据收集者。两个查询的敏感度均为2，添加到查询集中的总噪声为2∗Lap(2/ϵ)2 * Lap(2 / ϵ)2∗Lap(2/ϵ)，大于交互式场景的总噪声Lap(1/ϵ)+Lap(2/ϵ)Lap(1 / ϵ)+ Lap(2 / ϵ)Lap(1/ϵ)+Lap(2/ϵ)。查询之间的相关性也会导致更高的敏感性。因此，非交互式场景通常会比交互式场景产生更多的噪音。

上面的示例显示了交互式和非交互式两个场景之间的差异，并说明当查询彼此相关时，噪声量会急剧增加。此外，对于大小为n的数据集，拉普拉斯机制最多只能在n个查询中以一定程度的准确性回答次线性问题。这些缺点使得拉普拉斯机制在需要回答大量查询的场景中效果不理想。

差分隐私在数据分析中的应用

差分隐私数据分析的基本任务是将现有的非隐私算法扩展到差分隐私算法。这种扩展可以通过几个框架来实现，大致分为拉普拉斯/指数框架和隐私学习框架。其中拉普拉斯/指数框架直接将拉普拉斯或指数机制整合到非隐私分析算法中。例如，在算法的计数步骤中加入拉普拉斯噪声，或者在进行选择时执行指数机制。

参考和推荐

本文主要主要翻译并整理了论文的一部分内容Differentially Private Data Publishing and Analysis: A Survey
同时推荐一下几篇关于差分隐私的入门资料：

某乎用户“Nemo”对问题《苹果的 Differential Privacy 差分隐私技术是什么原理？》的回答
DP-Differential Privacy概念介绍
DP-Laplace Mechanism
DP-指数机制
差分隐私保护：从入门到脱坑