差分隐私的由来

想要在一个统计数据库里面保护用户的隐私,那么理想的隐私定义是这样的:访问一个统计数据库而不能够泄露在这个数据库中关于个人的信息。也就是说统计数据库应该提供一个统计值,但是对于个人的信息不应该被查询到。

但是,这个理想的定义是不可行的,它并没有考虑到辅助信息。比如这么一个例子:一个关于某个地区女性的身高的数据库。可以从数据库当中查询到平均值,另外你根据辅助信息知道Alice的身高比平均身高高2cm,那么你就可以得到Alice的身高,即Alice身高信息被泄露了。

我们退而求其次,用一种隐私保护比较弱,但是很实用的方法来定义隐私:一个人隐私泄露的风险不应该因为这个人的信息加入统计数据库而增加。这个定义就是差分隐私。

差分隐私的定义

给定一个随机算法K,若对于任意的兄弟表$T_1$和$T_2$,以及任意的输出$S\subseteq Range(K)$ 满足:

$Pr[K(T_1) \in S] \leq  e^{\epsilon} \times Pr[K(T_2) \in S]  $

即:$\frac{Pr[K(T_1)\in \ S]}{Pr[K(T_1)\in \ S]} \leq e^{\epsilon}$

则算法K满足$\epsilon$差分隐私。下面我来解释这个定义:

首先是算法K,这是一个随机算法,随机算法意味着算法的输出是随机的,那么描述它就用概率里面的知识,比如概率密度函数,算法的输出概率等。

$T_1$和$T_2$是兄弟数据表,意味着数据表里面只相差一个记录,即一个数据表里面存在用户的信息,另外一个表里面不存在用户的信息。这是为了和上面的隐私定义相对应的,一个人的隐私泄露风险不应该因为这个人的信息在数据库中而增加。

$S\subseteq Range(K)$ 而不是$S = Range(K)$,是因为在概率密度函数为了确定一个事件的概率,应该用一个范围,而不是用一个点,在一点的概率总是0,这里表示的是输出在一个范围。

所以上面函数用概率的方法来进行度量,保证了在K在兄弟表上面,所有范围内的输出都很接近。

比如下面的Laplace分布,那么必须保证在整个算法的分布上面,两个数据表的输出都十分的接近,

敏感度

敏感度是衡量一个函数的指标。对于一个函数$f: D \rightarrow R^d$,其中D是数据库,函数在数据库上面进行查询,返回一个d维矢量,L1敏感度定义如下:

$S(f) = \max \limits_{D_1, D_2} {\Vert f(D_1) – f(D_2) \Vert }_1$

当函数f返回的结果是一个数字的时候,即$f: D \rightarrow R$,那么L1敏感度为:

$S(f) = \max \limits_{D_1, D_2} \vert f(D_1) – f(D_2) \vert $

比如查询函数:满足特定条件下的记录有多少条。那么这个函数返回的结果是一个数字,它的敏感度$S(f) \leq 1$,即:当查询结果当中没有一条满足的时候,查询的敏感度为0,当有一条或者多条满足的时候,敏感度为1。

拉普拉斯噪声当中$\lambda 、\epsilon  和S(f) $的关系

让我们再来解释一遍这三个参数 $\lambda$是拉普拉斯分布里面的重要参数,决定和分布的方差

$\epsilon$ 是差分隐私定义中用来控制隐私度的一个度量

$S(f) $是我们定义的函数的敏感度

我们知道函数f在数据库D上面的输出为f(D),加上拉普拉斯噪声以后的概率密度为 $\frac{1}{2\lambda} exp(- \frac{\vert x-f(D)\vert}{\lambda})$.

那么它在一点a,取得的概率和该点的概率密度成正比,$Pr[K_f(D) =a] \propto exp(- \frac{\vert f(D)-a\vert}{\lambda})$

其中$K_f(D)$表示的是,函数f在数据D上面的输出经过随机函数K处理以后的值。

那么对于兄弟数据库D和D’,有$\frac{Pr[K_f(D_1) =a] }{Pr[K_f(D_2) =a] } = \frac{ exp(- \vert f(D_1)-a\vert / \lambda) }{exp(- \vert f(D_2)-a\vert / \lambda)} = exp( \frac{ \vert f(D_2)-a\vert - \vert f(D_1)-a\vert  }{\lambda} )$

那么根据绝对值不等式(三角不等式?)$\lvert a \rvert – \lvert b \rvert \leq \lvert a – b \rvert$,可以得到

$exp( \frac{ \vert f(D_2)-a\vert - \vert f(D_1)-a\vert  }{\lambda} ) \leq  exp( \frac{\lvert  f(D_1) – f(D_2) \rvert  }{\lambda} )  = exp( \frac{S(f)  }{\lambda} )$

可以看出来,若函数f加上参数为$\lambda$的拉普拉斯噪声,可以满足$\frac{S(f)}{\lambda}$的差分隐私,

同理,若函数f加上参数为$\frac {S(f)}{\epsilon}$的拉普拉斯噪声,可以满足$\epsilon$的差分隐私,

直方图差分隐私

直方图的特点是这样的:所有的数据划分为等宽的方格,修改数据库里面的一条记录只会影响到一个方格内部的数据,所以直方图的查询敏感度为1。因此在直方图发布的时候直接加上$1/\epsilon$的拉普拉斯噪声就可以满足$\epsilon$的差分隐私。

差分隐私 python_差分隐私相关推荐

  1. 隐私计算--差分隐私

    目录 差分隐私 差分隐私的提出 差分隐私的两种实现机制 差分隐私模型 差分隐私的特点 差分隐私应用 参考推荐: https://blog.csdn.net/Ano_onA/article/detail ...

  2. 差分电荷密度 matlab,差分电荷密度

    电荷密度图是以图的形式出现在文章中,非常直观,因此对于一般的入 门级研究人员来讲不会有任何的疑问.唯一需要注意的就是这种分析的种种衍生 形式 ,比如差分电荷...... 比如差分电荷密图 (def-o ...

  3. 信号完整性(SI)电源完整性(PI)学习笔记(二十一)差分对与差分阻抗(一)

    差分对与差分阻抗(一) 1.差分对是指存在耦合的一对传输线. 差分信令是用两个输出驱动器去驱动两条独立的传输线,所测量的信号是两条线之间的差.差分信令与单端信令相比有许多优点: (1)双驱动器产生的d ...

  4. 差分函数(差分运算)

    差分(difference)又名差分函数或差分运算,差分的结果反映了离散量之间的一种变化,是研究离散数学的一种工具.它将原函数f(x) 映射到f(x+a)-f(x+b) .差分运算,相应于微分运算,是 ...

  5. python 双重差分_双重差分的理论与实践

    1. 理论 1.1 标准表述(定义) 双重差分模型(difference-in-differences)主要被用于社会学中的政策效果评估.其原理是基于一个反事实的框架来评估政策发生和不发生这两种情况下 ...

  6. 隐私保护与隐私计算研讨会 | 余维仁:大数据时代下需要各界更新对个人隐私保护的固有认识

    8月13日下午,由深圳市信息服务业区块链协会.陀螺研究院.矩阵元主办,中国生物识别与计算机视觉科技创新产业联盟.金砖国家未来网络研究院中国分院.中国船舶综合技术经济研究院.深圳市人工智能产业协会.深圳 ...

  7. 差分信号,差分对和耦合(三)——奇模偶模、差分阻抗奇模阻抗、共模阻抗偶模阻抗

    奇模和偶模(ODD AND EVEN MODES) 对于一个差分对,如果在一条线中加0V-1V的变化信号,在另一条线加0V的持续信号,随着信号的传输,两条线之间会出现远端串扰,在第二条线上会出现噪声, ...

  8. Android底层隐私数据,100%安卓APP都在获取用户隐私,网络隐私进入深入区

    原标题:100%安卓APP都在获取用户隐私,网络隐私进入深入区 (图片来源:全景视觉) 经济观察网 记者 任晓宁"很多时候用户对自己的隐私是麻木的,"腾讯社会研究中心总监王晓冰去年 ...

  9. 差分信号,差分对和耦合(四)——差分共模信号和奇模偶模电压分量,远端噪声的产生

    对于差分信号,两条信号线之间的电压差就是其差分分量,对于共模信号,两条信号线的电压平均值就是其共模分量. 对于一个对称的差分对而言,差分信号在差分线上以奇模方式传输,共模信号以偶模方式传输.也可以用奇 ...

最新文章

  1. 利用双向循环链表实现长整数的存储_链表看这一篇真的就够了!
  2. 运维开发笔记整理-前后端分离
  3. CSS sprites
  4. 如何维持整洁的 Git 提交记录?送你三个锦囊!
  5. java中c/s模式传送数据
  6. WatchDog工作原理
  7. 因为在此系统上禁止运行脚本。有关详细信息_在弃用11年后微软终于允许IT管理员禁用IE中的JScript脚本引擎...
  8. Merge Sorted Array 合并两个有序数组
  9. 为什么2 *(i * i)比Java中的2 * i * i更快?
  10. Android下OpenSLES播放PCM音频文件
  11. mysql2000数据库四合一_sql2000四合一版下载|microsoft sql server2000 简体中文4合一版附sql 2000 sp4 补丁_ - 极光下载站...
  12. html弹性布局什么意思,弹性布局display:flex是什么意思
  13. 牛牛的旅游纪念品(背包DP)
  14. 西电机器学习简答题核心考点汇总(期末真题,教材西瓜书)
  15. 混凝土试块送检要求与时间
  16. 关于MD5以及WordPress登录密码的修改(自定义重置)
  17. 如何启动/停止/重启MySQL + 进入MYSQL
  18. 如何将png图片转为heif格式
  19. 【C4D】DNA螺旋
  20. 计算机网络与多媒体试卷,《计算机网络与多媒体技术》试卷

热门文章

  1. 自定义控件 仿微信朋友圈文字展开全文功能
  2. Linux安装jdk报错:package jdk-16.0.2-2000:16.0.2-ga.aarch64 is intended for a different architecture
  3. java jtextarea清空_Java:JTextArea类
  4. 社区的网络舆情信息监测具体实施方案
  5. Python调用Jar包的两种方式
  6. vue3视频播放插件vue3-video-play的具体使用方法
  7. MySQL索引原理和引擎
  8. 以太网交换芯片及PHY处理相关
  9. HTML(一)静态登录注册页面附有完整网页(html+css+js)
  10. 【Java】一文秒懂http请求获取FlexManager平台FBox盒子信息