写在前面的话

这篇论文是下面这篇论文的引文

有一个地方没有弄明白

之前看的是投两次硬币，这里写的是一次性的概率，如果p小于0.5那不就为负数了，得到的值还比原来的小。单是这一点我就很困惑，再者这个概率p和1-p不都是对于总体而言吗？可以单独放在一个yes的数量上吗？所以就看了这篇论文。但是泛读了两遍发现没有与上面内容相关的方面，只是提到了抛硬币实验，也是两次。但是这篇文章里面提到了攻击，我比较感兴趣，所以和大家分享一下。

摘要

随机聚合隐私-保留有序响应，或RAPPOR，是一种从最终用户客户端软件众包统计的技术，具有强大的隐私保证。简而言之，rappor允许研究客户端数据的森林，而不允许查看单个树的可能性。通过以一种新的方式应用随机响应，RAPPOR提供了这些收集和对收集数据的高效、高效用的分析的机制。特别是，RAPPOR允许收集客户端字符串种群的统计数据，这对每个客户端都有很强的隐私保证，并且没有它们的报告的可链接性。本文对RAPPOR进行了描述和激励，详细介绍了其差异隐私和效用保证，讨论了其在面对不同攻击模型时的实际部署和特性，最后给出了其在合成数据和真实数据中的应用结果。

RAPPOR和（纵向）攻击

1）攻击者可以访问单个报告
2）攻击者可以访问一个用户的多个报告
3）攻击者能够完全访问客户端所有报告
保护一次性和多个集合的隐私需要考虑几种不同的攻击模型。假设基本攻击者可以访问单个报告，并且可以通过单个一轮随机响应来停止。窗口攻击者可以随时间访问来自同一用户的多个报告。如果不仔细修改传统的随机反应技术，几乎可以肯定的是，就会发生私人信息的全面披露。如果观察窗口很大，且底层值变化不大，情况尤其如此。能够完全访问所有客户端报告的攻击者（例如，具有无限访问权限的内部人士）是最难阻止的，但这种攻击在实践中也是最难执行的。RAPPOR为所有三种类型的攻击者提供了关于可调隐私保护的不同攻击模型之间的明确权衡。
RAPPOR建立在记忆的基本理念之上，通过玩两次随机反应游戏，提供了一个一次性和纵向隐私保护的框架，中间有一个记忆步骤。第一步，称为永久随机响应，被用来创建一个“嘈杂”的答案，由客户回忆，并永久重用以代替真实的答案。第二步，被称为瞬时随机响应，随着时间的推移，报告了“嘈杂”的答案，最终完全揭示了它。长期的、纵向的隐私是通过使用永久的随机响应来确保的，而使用一个实例中性随机反应提供了对可能的跟踪外部性的保护。
在随着时间的推移，从同一参与者那里收集到多个回复的情况下，底层记忆的想法对隐私保护至关重要。例如，在论文一开始就关于共产党的问题中，记忆可以允许我们提供ln(3)-DP，即使有无数的回答，只要潜在的记忆回答有如此程度的差异隐私。
另一方面，如果没有回忆或其他限制的反应，随机化并不足以在面对多个集合时保持合理的否认性。例如，如果在本文开头的随机响应方案中，100个回答中有75个对单个客户是“是”的，那么在1.39×10−24部分的病例中，真正的答案将是“不”。
只有在潜在的真实价值没有以不相关的方式变化的情况下，情绪化在提供纵向隐私方面是绝对有效的。当用户的连续报告在时间上是相关时，差异隐私保证偏离了他们的名义水平，并随着相关性的增加而变得逐渐变弱。极端的是，当要求用户在几天内每天报告他们的年龄时，需要采取额外的措施来防止随着时间的推移完全披露，如在一定数量的报告后停止收集或以指数级增加噪音水平，如第6节中进一步讨论。
对于报告严格在两个真实值(a、b、a、a、a、a、b、…)之间交替的属性的客户端，a和b的两个记忆永久随机响应将被一次又一次地重复，以生成RAPPOR报告数据。因此，获得足够多报告的攻击者，可以任意确定地学习那些记忆的“噪声”值——例如，通过分别分析偶数和奇数子序列。但是，即使在这种情况下，由于记忆，攻击者也不能确定a和b的值。也就是说，如果a和b是相关的，攻击者可能仍然比他们本来会学到的更多；面对任何此类相关性，保持隐私将在第3节和第6节中进一步讨论（参见[19]）
在下一节中，我们将详细描述RAPPOR算法。然后，针对该算法满足差异隐私的严格隐私保证，我们提供了直觉和形式的证明。然后，我们将投入几个部分来讨论RAPPOR的其他技术方面，这些方面对其在实践中的潜在用途至关重要，如参数选择，通过高级统计解码解释结果，以及说明在实践中可以学习到的实验。其余的部分讨论了我们的实验评估，我们所考虑的攻击模型，RAPPOR技术的局限性，以及相关的工作。

结论

我会想起了一个LDP图

感觉和我的问题很像，有回答正确答案的概率3/4，也就是p。回答相反答案的概率1/4，也就是1-p。将这些数值带入c/2p-1，即4/((6/4)-1)=8。原来的答案也就4个，这个差别比较大。但是这篇论文是TIFS上的，不可能犯这样低级的错误。肯定是我理解的问题。只看上面这个图好理解，真实的答案占了3/4，错误的答案占1/4。

直接看这里吧！！！！

我们不一定要抛两次硬币。比如我问一个问题，你是否在实验室里摸鱼？这是一个很敏感的问题，我们采取抛一次硬币解决，你如果抛到正面，就回答真实答案，如果抛到反面就回答假的答案。抛到正面的概率为p，反面为1-p。假设采访了N个人，有c个人回答了yes，那么就有N-c个人回答了no。
首先我们假设在真实情况中，摸鱼的人占比为x。

注意这里的统计比例并不一定准确，此时x我们不知道，并且计算的值是对每个人而言的概率。简单来说，用已知结果去推未知的参数x。这里你会不会想到似然这个概念，有了实验结果，需要推测参数具体值的可能性。这里需要用到似然函数。

问题解决啦，只要有回答yes的人数和p扰动概率即可得到真实的情况。

差分隐私中随机响应的抛硬币问题（LDP）相关推荐

【本地差分隐私与随机响应代码实现】差分隐私代码实现系列（十三）
差分隐私代码实现系列(十三) 写在前面的话回顾本地差分隐私随机响应一元编码总结写在前面的话书上学来终觉浅,绝知此事要躬行. 回顾 1.梯度下降是一种通过根据损失的梯度更新模型来使损失变小 ...
本地差分隐私随机响应_局部差分隐私的新型实现方法
董涛刘芸菲摘要:有效的隐私保护数据发布解决方案之一是局部差分隐私,随机响应是实现这种隐私保护模型的有效方式.对基于二次扰动的局部差分隐私实现方法进行了研究.为衡量D和D'的离散程度,在计算原始数据 ...
本地差分隐私随机响应_大数据时代下的隐私保护
本文作者程越强.孙茗珅.韦韬 1 引言在大数据的时代,越来越多的服务和产品是围绕用户数据(隐私)建立的.这样虽然带来了个性化的服务,提高了服务质量和精度,但是在数据收集.使用以及公布的过程中,用户隐 ...
【Rényi差分隐私和零集中差分隐私（差分隐私变体）代码实现】差分隐私代码实现系列（九）
差分隐私代码实现系列(九) 写在前面的话回顾差分隐私的变体发明变体的动机最大散度和Rényi散度 Rényi差分隐私零集中差分隐私差分隐私变体的组合情况总结写在前面的话书上学来终觉浅 ...
【差分隐私入门】差分隐私系统学习记录（一）
The Algorithmic Foundations of Differential Privacy (一) 写在前面的话 The Promise of Differential Privacy B ...
差分隐私理论入门科普
在基于隐私保护的数据发布研究中,主要考虑两个因素:1)隐私的保护性,即确保数据不会造成隐私泄漏:2)数据的有效性,即数据隐私保护后数据仍具有效用,在后续数据挖掘等工作中仍然具有较高的精确度差分隐私主 ...
【差分隐私发论文朝哪个方向走？】差分隐私的过去，现在和将来
The Past,Present,and Future of Differential Privacy 写在前面的话概述现状什么是隐私? Past 总结 Now 相关性数据非结构化数据 LDP ...
面向医疗数据的差分隐私保护
第一章差分隐私保护 1.1 差分隐私概述差分隐私是Dwork在2006年提出的一种针对敏感数据集发布导致的隐私泄露问题的隐私保护模型.基于这一模型,处理后的数据集对任意一个记录的变化是不敏感的,因 ...
中心化、本地化差分隐私基础知识
差分隐私的背景和概念由于互联网的发展,包括智能手机在内的各种终端数量剧烈的增长,使得各种公司和组织,以及政府需要收集和分析巨量的数据.在这个过程中,关于个人信息的隐私保护成为了一个大的问题.一些在大 ...

差分隐私中随机响应的抛硬币问题（LDP）

[关于随机响应的抛硬币问题和LDP的思考] RAPPOR: Randomized Aggregatable Privacy-Preserving Ordinal Response 【论文笔记】

写在前面的话

摘要

RAPPOR和（纵向）攻击

结论

直接看这里吧！！！！

差分隐私中随机响应的抛硬币问题（LDP）相关推荐

最新文章

热门文章