论文学习记录20200306：时序数据聚合[NDSS2011]

这篇论文讲的是对时间序列数据的聚合，时间序列数据（time series data）指的是在不同时间上收集到的数据，这类数据反映了某一事物、现象等随时间的变化状态或程度，比如说是，你每天的支出，月初和月末可能就不一样，可能随时间变化它是一个下降趋势，假如有人要调查学生的支出情况，就会对这些数据进行一个聚合然后来看整体的特征。

在许多实际应用中，数据聚合器会挖掘来自多个组织或个人的数据，以研究群体的模式或统计数据。所以论文主要讲的就是当数据聚合器不受信任时，如何保护参与者的隐私。
论文提出了PSA算法，该结构允许一组参与者将加密的数据定期上传到数据聚合器，以使聚合器能够计算每个时间段内所有参与者的数据之和，但无法学习其他任何信息。
更具体地说，论文中提出两个隐私保证和对应的两种技术。一个就是要保证数据聚合器只能学习预期的统计信息，而不能学习其他信息。这一点对应的密码技术，就是让数据聚合器能够从在不同用户密钥下加密的多个密文中解密总和。另一个它能够保证，即使在部分参与者可能受到损害或者和聚合器共谋的情况下，仍可保护每个参与者的隐私，也就是需要聚合器最后显示的统计信息不会因特定个体是否参与而受到太大的影响。一种分布式数据随机化程序。

传感器网络聚集；智能计量；公共卫生和临床研究；人口监测和传感；云服务

在每个时间段，每个参与者在加密之前都将噪声RI添加到她的数据xi中。聚合器使用SK0来解密一个带噪声的总和，但是学不到其他信息。
这种分布式机制输出的噪声和保证了每个参与者的差异隐私

为了简单起见，我们定义了聚合器不经意的安全概念，仅用于和统计。直观地说，我们希望捕获以下安全概念：
•聚合器只能学习每个时间段的噪声和，学习不到其他的东西。例如，聚合器无法从所有参与者密文的适当子集学习任何部分信息。
•在不知道聚合器的sk0情况下，即使几个参与者合谋对抗其余用户，从加密数据中也得不到任何信息。
•如果聚合器与部分参与者串通，或者如果一个加密数据的子集泄漏，则聚合器不可避免地可以学习其余参与者的总和。在这种情况下，我们要求聚合器得不到有关其余的那些诚实的参与者的数据信息。

为分布式差分隐私（DD privacy）反映发布的统计数据中的噪声是从所有参与者收集的。
在以前的差分隐私文献中假设所有用户都将其数据明文发送到聚合器。在那种情况下，如果用户希望针对不受信任的聚合器保证其隐私，则每个参与者必须为其值添加足够的噪声，以确保其差分隐私。因此，总的噪声统计可能会积累过多的噪声，而得到的f（̂x）可能会有很大的误差。
而在在这个方案中，前面已经保证聚合器只学习带噪声的统计结果，而不学习每个个体的值。这样，每个人都可以在数据中添加较少的噪声。只要最终的统计f（̂x）具有足够的随机性，每个人的隐私都是有保证的。
我们还考虑了当一定比例的参与者与数据聚合器串通，向聚合器揭示他们的数据或随机性。在这种情况下，我们希望确保剩余的诚实的参与者的随机性足以保护他们的隐私。

为了实现刚刚所讲的这个不经意聚合安全，就建构了这样的一个构造。

在这里其实都是对x冒进行操作，x冒就是加了噪声的数据，在这个构造中，把数据和噪声看成一个整体。
G表示一个循环群，H是一个哈希函数
在初始化阶段，由一个可信的经销商从G中选择一个随机生成元g，从模p的整数集中选择n+1个随机秘密s0到sn，并且要满足s0+s1一直到sn对总和为0.
将s0赋值给数据聚合器的sk0 对于每一个参与方i，它的密钥ski就等于相对应对si
接下来就是带噪声的加密阶段，传入参数公共参数就是生成元g，密钥ski，时间t，还有带有噪声的数据x冒，每一个参与者由这个式子（。。。）去计算密文c，得到的应该有c1c2到cn。这里就是加密过程，接下来就是数据聚合器对解密过程。
同样传入公共参数 g，sk0可以看做是他的解密秘钥，时间t，还有各个参与方生成的密钥c1c2到cn，通过这个式子去计算V，他这里是对密文c进行了一个连乘的操作，因为底数都是g还有ht，t相同ht也相同，所以底数相同，指数相加，我们想得到的这个聚合结果就出现在指数上面，因为s0+s1一直到sn的总和为0，所以说这个就是1
V就等于g的这么多次方，所以就相当于是计算以g为底，V对离散对数。

当明文空间很小的时候可以通过穷举法来得到，或者用lambda法，这样解密时间大约为明文空间的平方根。

这个加密结构确保聚合器除了它已经知道的内容和每个时间段中带噪声的统计结果以外，学习不到任何信息。因此，聚合器无法直接访问每个人的数据。然而，个人隐私可能会受到间接侵犯，因为披露的统计数据可能会导致对个人数据的推断。所以需要差分隐私的保证
接下来就要考虑每个参与者如何选择噪声以添加到她的数据中。选择适当的噪声分布，以保证差分私密性，同时确保高概率解密的能力。

在以前的差分隐私文献中，他们的聚合器可信，可以访问所有数据。所以确保差分隐私的标准过程是聚合器在发布所需统计数据之前添加适当大小的噪声。

但是在我们的例子中，参与者不信任聚合器。因此，聚合器不可以知道真实的数据，参与方必须在聚合器能够解密得到统计数据之前添加噪声。方法是让参与者负责确保自己数据的差异隐私。每个参与者在加密数据之前都会在数据中添加噪声。

在设计差分隐私机制时，我们需要解决以下两个挑战：

为了保证参与个体的差异隐私，所揭示的统计数据必须包含适当大小的随机噪声r。一个简单的解决方案是，在提交数据之前，依赖一个，那么多人中对一个参与者向其数据中添加适当大小的噪声r。因为我只是不想让数据聚合器知道真实聚合结果，所以只要一个参与者来加这个噪声就可以保证这一点。但是，这个解决方案是有问题的，因为这个指定的用户知道噪声，因此可以从输出中推断出真正的聚合值。在现实世界中，参与者可能不信任对方。特别是，参与者的一个子集可能会受到损害，并与数据聚合器串通。在最坏的情况下，如果每个参与者都认为其他n-1参与者可能受到损害并与聚合器串通，则每个参与者都需要添加足够的噪声以确保自己数据的隐私。由此得出的统计数字会累积一个大的误差。
如果参与者中至少有γ部分是诚实的并且没有被破坏，那么我们就可以在这些参与者中分配噪声产生任务，每个参与者可以添加更少的噪声，并且只要最终统计中的噪声足够大，个人隐私就得到保护。这个方案假设参与者对γ的下界有先验估计。然而，他们不需要确切知道哪些参与者受到了损害。每个参与者都应该从依赖于γ的分布中产生噪声。诚实的参与者将遵循此协议，但受损的参与者可能会向数据聚合器显示其噪声或选择不添加噪声。我们的结构保证，在保证最终统计误差很小的情况下，所揭示的统计数据很可能会从诚实的参与者那里积累足够的噪声
另一个挑战是在由密码构造引起的代数约束内工作。
大多数加密方案要求从由离散元素组成的组中提取明文。因此，我们需要能够编码我们的数据和噪声值在一个离散的组。此外，先前提出的那个加密结构还有一个约束，是明文空间必须很小。
所以为了处理离散群，我们选择使用对称的几何分布，而不是更常用的拉普拉斯分布。

如果至少γn参与者是诚实的，我们将积累类似大小的噪声。这样，既保证了差分隐私，又保证了在最终输出中，累积噪声是有界的，误差很小。非正式地，我们的机制保证了（伊普西龙，德尔塔δ）分布式差分隐私，同时保证了大约O（√1γ）量级的小误差

下面就是分布式差分隐私算法：

这个geom是一个对称几何分布对定义，对称几何分布Geom（α）可视为拉普拉斯分布Lap（b）的离散形式。我们在这里用它来生成噪声r。
右边这个式子是伊普西龙差分隐私对一个形式化的定义，也就是说，u和v可以看做是相邻数据集，那么它们加上由对称几何分布得到的噪声r之后，得到一个特定输出的概率应差不多，也就是说这个加噪声r的操作能达到差分隐私的效果。也就是说，观察者通过观察输出结果很难察觉出数据集一点微小的变化，从而达到保护隐私的目的。

定理3是一个度量集中的结果，我们通过分析每个ri的矩母函数来证明它。观察到，只要未妥协参与者的分数γ不变，误差界就与n无关。因为Geom（α）分布的方差为2α（α-1）2，在高概率情况下，误差至多是一个常数因子，比在最终答案中加入一个Geom（α）的副本差，也就是说，在所描述的意义上在[9]中，为确保xxx差异隐私所需的最小噪声量。
x轴是参与者的数量，y轴是误差的平均值和标准差（绝对值）。每个参与者的数据都来自{0,1}。naive方案是每个参与者在输入中加入独立的几何噪声，并将扰动数据上传到聚合器中。天真的方案确保了差异隐私，而不是聚合器的遗忘。
仿真结果表明，该方案的误差与参与人数n无关，从而验证了理论分析的正确性。

密文空间较小，考虑其他代数原语，双线性群、派乐群格
更丰富的统计，也就是除了现在的聚合是加法，其他的统计方法，考虑使用同态
目前的方案适合在一段时间内参与者集合相对静止的，没有考虑参与者动态地加入或者离开。
一个或多个参与者可能无法在特定时间段内上传其加密值。恶意参与者也可能无法以拒绝服务攻击的形式做出响应。这就引起了节点故障，这涉及到安全问题，作者没有给出解决的方向。

论文学习记录20200306：时序数据聚合[NDSS2011]相关推荐

小样本学习记录————利用所有数据的元学习Few-shot Text Classification with Distributional Signatures
小样本学习记录----利用所有数据的元学习Few-shot Text Classification with Distributional Signatures 在计算机视觉中,低水平的模式是可以跨学 ...
MySQL学习记录 (三) ----- SQL数据定义语句(DDL)
相关文章: <MySQL学习记录 (一) ----- 有关数据库的基本概念和MySQL常用命令> <MySQL学习记录 (二) ----- SQL数据查询语句(DQL)> &l ...
MySQL学习记录 (二) ----- SQL数据查询语句(DQL)
相关文章: <MySQL学习记录 (一) ----- 有关数据库的基本概念和MySQL常用命令> <MySQL学习记录 (二) ----- SQL数据查询语句(DQL)> &l ...
CVPR2019| 百度17篇CVPR论文学习记录（包含：无人驾驶、神经网络、GAN、无监督学习、目标检测）
首先感谢现在网上资源丰富,能够获得很多人的总结,结合自身实际进行了学习记录. 并着重标注了其中关键核心目录 1)Taking A Closer Look at Domain Shift: Categ ...
VQA任务学习记录1(附数据使用代码记录)
0.前言最近需要学习处理VQA任务特此记录,这个主要是对论文bottom-up and top-down()和bilinear attention network()中的代码部分的学习记录,目前也并 ...
语义分割论文学习记录上
文章目录论文学习 AlexNet 2012 Inception v1 2014 VGG 2015 FCN 2015 ResNet 2015 U-Net 2015 Inception v3 2015 ...
采用 ALSTM 模型的温度和降雨关联预测研究论文学习记录
为了准确和及时预测局部区域的降雨及温度,提出了一种基于 Attention 和 LSTM 组合模型( ALSTM) 的关联多值预测算法.该算法利用天气时间序列中的前期数据,对下一小时的降雨量和温度进 ...
RPLIDAR思岚雷达学习记录--4--雷达数据实时保存
数据持续输出测试第三节中最后虽然可以读取到雷达的角度和距离数据,但是每次后面读取的数据都会覆盖之前的数据,因此尝试使用动态的文件名,这样每次保存数据都会使用不同的文件名,数据就不会被覆盖.决定使用当 ...
【学习经典】python 数据聚合与分组运算（part 2）
本文的前半部分:python 数据聚合与分组运算(part 1) 4. 透视表和交叉表透视表(pivot table)是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具.它根据一个或多个键 ...

论文学习记录20200306：时序数据聚合[NDSS2011]

论文学习记录20200306：时序数据聚合[NDSS2011]相关推荐

最新文章

热门文章