董涛 刘芸菲

摘要:有效的隐私保护数据发布解决方案之一是局部差分隐私,随机响应是实现这种隐私保护模型的有效方式。对基于二次扰动的局部差分隐私实现方法进行了研究。为衡量D和D'的离散程度,在计算原始数据集和扰动数据集的分布均值和方差的基础上实验验证了D和D'间的KL-散度。实验结果表明本文所采用的二次扰动方法可以带来较小的效用损失。

关键词:局部差分隐私;随机响应;二次扰动

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)30-0234-02

Abstract: One of the effective privacy protection data publishing solutions is local differential privacy, which is an effective way to implement this privacy protection model. This paper proposes a local differential privacy implementation method based on secondary perturbation. In order to measure the degree of dispersion of D and D', the KL-divergence between D and D' is experimentally verified on the basis of calculating the mean and variance of the distribution of the original dataset and the perturbed dataset. The experimental results show that the secondary perturbation method used in this paper can bring less utility loss.

Key words: local differential privacy; random response; secondary perturbation

1 引言

对于企业来说,在数据收集、使用以及公布的过程中,用户隐私不可避免地暴露在外。2006年,Netflix举办了一个名为Netflix Prize的预测算法的比赛,结果导致了用户身份的泄露[1-2]。

k-anonymity、l-diversity、t-closeness[3]方法常被用于隐私数据的保护,这些方法的提出在一定程度上抵御了隐私攻击,但这种基于分组数据产生的隐私保护模型会随着攻击方法的不同而做出相应的改变。基于以上的原因,人们需要一种鲁棒性比较好的隐私保护模型。2006年,微软研究院的Dwork[4]提出了差分隐私的概念,从而使这种隐私保护模型成为可能。

2 局部差分隐私实现

局部差分隐私:给定n个用户,每个用户对应一条记录。给定一个隐私算法M及其定义域 Dom(M)和值域Ran(M),若算法M在任意两条记录t和t'(t,[t'∈dom(M)])上得到相同输出结果t*([t*∈Ran(M)])满足下列不等式,则M满足ε-局部差分隐私。

局部差分隐私的定义从理论的角度保证了算法满足ε-本地化差分隐私,而实现ε-本地化差分隐私保护需要数据扰动机制的介入。随机响应技术[5]的基本思想是以一定的概率将另一个值cj替换原始数据集中的每个ci。我们使用θj,i来表示类别ci被随机化为cj的概率,其中i, j=1, , n。我们用P*(ci), P(ci)分别表示扰动数据,原始数据中ci的概率。

在上面的等式中,原始数据集分布[P]是我们试图找出的。而扰动数据集分布[P*]可用每个类别的频率来估计。

实现局部差分隐私的关键在于随机响应矩阵M的构造。二次扰动具体实现要在多值属性的基础上进行构造,设属性Ak具有m个属性值,分别用v1, v2, …, vm表示。若Ak=vi (i=1, 2, …, m)在原数据集中所占的比例为,则采用均匀扰动得扰动矩阵MB为:

3 实验

为了实验的准确性,采取的是美国1994年人口普查数据库抽取而来的Adult数据集。本文进行四组隐私预算ε的实验,分别为组1(ε1 =0.2,ε2 = 0.8)、组2(ε1 =0.3,ε2 = 0.7)、组3(ε1 =0.4,ε2 = 0.6)和组4(ε1 =0.5,ε2 = 0.5),为达到度量这方面的目的,利用平均KL-散度度量原始数据集D和扰动数据集D'之间的距离,数据集分别划分为L=(1K、2K、4K、8K、16、30K),由此得到如图1所示的对比图。

图1(a)是对数据集D分别进行四组隐私预算限制下的数据集扰动,在得到D'后,根据数据集L的分片数据进行一次平均KL–散度的计算结果。由图可看出四组实验均有一定的扰动误差,为了减少随机扰动的偏差,本文又做了十组实验得到图1(b),由图1(a)和图1(b)的对比得到两个结论:(1)表明扰动误差得到了较好的减少;(2)组3(ε1 =0.4,ε2 = 0.6)时D和D'间的平均KL–散度值最少,这表明本文的方法在保证了局部差分隐私的同时有着较好的数据效用。

4 结束语

实验结果表明本文所采用的二次扰动方法能更好地保持原始数据集的分布特性,在数据效用和披露风险方面具有较好的效果。然而,文中还有不完美的地方,主要是关于数据集仅限在单表数据库的处理,下一步我们将对多表数据库时如何扰动进行研究,以更好的维持数据效用,保护用户的隐私信息。

参考文献:

[1] Zhang J, Cormode G, Procopiuc C M, et al. Privbayes: Private data release via bayesian networks[J]. ACM Transactions on Database Systems (TODS), 2017, 42(4): 25.

[2] Zhu, T., et al., Differentially Private Data Publishing and Analysis: A Survey. IEEE Transactions on Knowledge & Data Engineering, 2017. 29(8): p. 1619-1638.

[3] Mancuhan, K. and C. Clifton, Statistical Learning Theory Approach for Data Classification with l-diversity[C]//. Proceedings of the 2017 SIAM International Conference on Data Ming. Society for industrial and Applied Mathematics, 2017: p. 651-659.

[4] Dwork C. Differential Privacy[C]// International Colloquium on Automata, Languages, and Programming. Springer, Berlin, Heidelberg, 2006:1-12.

[5] Huang Z, Du W. OptRR: Optimizing Randomized Response Schemes for Privacy-Preserving Data Mining[C]// IEEE, International Conference on Data Engineering. IEEE, 2008:705-714.

【通聯编辑:梁书】

本地差分隐私 随机响应_局部差分隐私的新型实现方法相关推荐

  1. 本地差分隐私 随机响应_局部差分隐私实现的广义随机响应

    我的任务是实现本地(非交互式)差异隐私机制.我正在处理一个庞大的人口普查数据数据库.唯一敏感的属性是"子女数",它是一个从0到13的数值.在 我决定采用广义随机响应机制,因为它似乎 ...

  2. 本地差分隐私 随机响应_大数据时代下的隐私保护

    本文作者程越强.孙茗珅.韦韬 1 引言 在大数据的时代,越来越多的服务和产品是围绕用户数据(隐私)建立的.这样虽然带来了个性化的服务,提高了服务质量和精度,但是在数据收集.使用以及公布的过程中,用户隐 ...

  3. 【数学工具?拉普拉斯机制?随机响应?】差分隐私系统学习记录(二)

    The Algorithmic Foundations of Differential Privacy (二) 写在前面的话 Basic Techniques and Composition Theo ...

  4. excel随机抽取_简单随机抽样及其进阶分层随机抽样方法展示

    一.分享简单随机抽样的几种方法 1.抽样分析工具抽样 2.INDIRECT+RANDBETWEEN函数抽样 3.RAND+排序抽样 4.SAS抽样 二.分层抽样方法 1.Python分层抽样 2.SA ...

  5. 差分阻抗为多少_谈谈差分信号

    更多经验分享,关注 加油射频工程师 习惯了单端信号,对差分信号的使用还是会有点发怵.所以有的器件厂商,虽然输入接口是差分,但是会注明一下,单端输入时的具体接法. 差分信号的抗扰以及EMI特性 但其实, ...

  6. 隐私保护 举例_完美保护隐私

    隐私保护 举例 Data privacy has been called "the most important issue in the next decade," and ha ...

  7. 【本地差分隐私与随机响应代码实现】差分隐私代码实现系列(十三)

    差分隐私代码实现系列(十三) 写在前面的话 回顾 本地差分隐私 随机响应 一元编码 总结 写在前面的话 书上学来终觉浅,绝知此事要躬行. 回顾 1.梯度下降是一种通过根据损失的梯度更新模型来使损失变小 ...

  8. 基于随机响应机制的本地差分隐私【谷歌】论文笔记

    RAPPOR: Randomized Aggregatable Privacy-Preserving Ordinal Response 论文阅读 写在前面的话 自己的理解(整理) 攻击模型 注意事项 ...

  9. 差分隐私中随机响应的抛硬币问题(LDP)

    [关于随机响应的抛硬币问题和LDP的思考] RAPPOR: Randomized Aggregatable Privacy-Preserving Ordinal Response [论文笔记] 写在前 ...

最新文章

  1. Qt 如何发送和接收UDP数据报
  2. Kafka 入门 and kafka+logstash 实战应用
  3. 115个Java面试题和答案——终极列表(下)
  4. 思维构造——cf1090D
  5. kafka zookeeper java_简单搭建kafka + zookeeper,附简单Java生产和消费客户端
  6. CMake笔记3构建复杂项目
  7. 用ASP.NET MVC自己管理自己的View:ASP.NET MVC File Management 【转】
  8. git gc 的使用
  9. 201506170744_《JavaScript权威指南(第六版)——函数调用变长实参和可选形参、》(P171-175)...
  10. 每天半小时,成功通过PMP!!!
  11. 迎来智能数据分析的新时代
  12. 计算机控制实验比例环节,自动控制原理实验一典型环节的电路模拟与软件仿真...
  13. 【本站公告】近期Picasa图片没法查看的解决方案
  14. 王小波:资本主义居然用代码行发工资,真虚伪!
  15. ftp上传软件,五款ftp优秀的ftp上传软件
  16. 分享100个精美的作品集网站设计案例
  17. Kubernetes原生api部署微服务5-监听Pod
  18. vue中的for循环如何循环到到一定次数换行(歪门邪道)
  19. 【开箱即用】VMware Win7虚拟机下载
  20. 贵阳骑龙村:一根小香葱闯出大市场

热门文章

  1. AIX 网卡绑定聚合具体操作步骤
  2. 表格法轻松理解扩展欧几里得算法以及利用其求乘法逆元
  3. Java 二叉树后序遍历(递归/非递归)
  4. 大数据技术(林子雨版)——期末复习知识点
  5. 使用全加器实现补码的加减运算
  6. 压力测试TPS上不去,但是系统资源又很清闲
  7. FreeBSD12.1软件包管理工具ports常见用法
  8. linux下如何创建txt文件
  9. Win7下安装Docker(虚拟机win7)
  10. 详解SYN Flood攻击原理与防范