The Algorithmic Foundations of Differential Privacy (四)

  • 写在前面的话
  • Composition: some technicalities
  • Advanced composition
    • Experiment b for family F and adversary A:
  • Lecture 4:Composition Theorems
  • 回到书上

写在前面的话

纯属个人笔记,如有问题请看原文或者留下评论。

Composition: some technicalities

在本节的其余部分中,我们将证明一个更复杂的组合定理。为此,我们需要一些定义和引理,根据分布之间的距离度量来重新表述差异隐私。在下面的分数中,如果分母为零,那么我们将分数的值定义为无穷大(分子总是正的)。


关于上述的概念比较基础。相对熵和最大熵的主要区别在于,相对熵考虑的是单个的值上分布的差异性,最大熵考虑的是区域上分布的差异性。可以说最大熵包括相对熵,我是这么理解的。这一部分内容我做了相关的笔记,这里就不过多赘述了。笔记如下:


上面的注释就是解释了一下,以及提到了两个随机变量在某一区域上的差异的表示。我们将在精确的最大散度和统计距离方面使用以下近似最大散度的公式:

这个引理不难证明,我的理解是随机变量存在一定的范围,若是两个随机变量之间相差不大,这些已经满足差分隐私的随机变量之间就存在传递性。下面都是证明:






这上面的证明讲起来很繁琐,如果以后要用到的话可以从随机变量相关的其他随机变量去看这个知识点。

关于对数不等式可以看这个链接。


吾妻不等式从霍夫丁不等式推广而来,霍夫丁不等式考虑的是独立的随机变量,而吾妻不等式考虑的随机变量之间有依赖性,其应用范围更加广泛。这上面是吾妻不等式的引理,对于这个引理的理解我也不是很懂。从原来的吾妻不等式出发,这里的Ci我认为是随机变量之间的差异,这里对这个差异进一步约束。大家如果还有上面疑问可以去看看这个视频,可能会有启发。

Advanced composition

除了允许参数降解得更慢之外,我们还希望我们的定理能够处理更复杂的组合形式。然而,在我们开始之前,我们必须讨论我们所说的composition的确切意思。我们希望我们的定义能涵盖以下两个有趣的场景:
1、在同一数据库上重复使用差分隐私算法。这既允许多次重复使用相同的机制,也允许从任意的隐私构建块中模块化地构建差分隐私算法。
2、在不同的数据库上重复使用差分隐私算法,但这些数据库中可能包含与同一个人相关的信息。这使我们能够推断单个个体的累积隐私损失,其数据可能分散在多个数据集上,每个数据集都可能以差分隐私方式独立使用。由于新数据库一直在创建,而且对手实际上可能会影响这些新数据库的组成,因此这与重复查询单一的固定数据库是一个根本不同的问题。
我们希望对组合进行建模,其中对手可以自适应地影响被输入到未来机制的数据库,以及对这些机制的查询。设F是一组数据库访问机制。(例如,F可以是所有ε差异私有机制的集合。)对于概率对手A,我们考虑了两个实验,实验0和实验1,定义如下。

Experiment b for family F and adversary A:


我们允许上面的对手A在整个实验中都有状态(不是很懂),因此它可以根据以前机制的输出自适应地选择数据库、机制和参数。我们将A对实验的视图定义为A的抛硬币和所有的机制输出(y1,……,yk)。

上图没啥好说的,就是分辨不出Bob数据在还是不在。

贴个差分隐私组成原理的链接论文。或者看这个。还有这个。可能看到这里大家啥也没看懂,我们从它的课程出发谈一谈。

Lecture 4:Composition Theorems

我们现在有两种私下访问数据库的基本方法:
1、拉普拉斯机制:用于回答非自适应选择的数字查询。
2、指数机制:用于回答非数字查询。
这两个工具可以放在一起来构建更复杂的私有算法,但为了做到这一点,我们需要了解隐私参数是如何组成的。也就是说,当我们运行多种算法,每种算法本身都有隐私保证时,它们的输出联合的隐私保证是什么?隐私参数如何降低?
在我们开始之前,我们必须讨论我们所说的Composition到底是什么意思。我们希望我们的定义能涵盖以下两个有趣的场景:
1、在同一数据库上重复使用不同的私有算法。这既允许多次重复使用相同的机制,也允许模块化构建来自基本私有构建块的不同私有算法。
2、在不同的数据库上重复使用不同的私有算法,但这些数据库中可能包含与同一个人相关的信息。这使我们能够推断单个个体的累积隐私损失,其数据可能分散在多个数据集上,每个数据集都可能以不同的私有方式独立使用。
为此,我们考虑以下组合实验,作为输入一个任意的自适应算法我们认为“对手”试图打破一些查询集合的数据库访问机制的隐私(例如所有ε-差异私有机制),以及一个参数b可以值0或1。



这个k自适应组合原理其实就是简单组合,搞了半天,这privacybook把我都搞蒙了。就是把这些差分隐私机制累加起来,后面将证明一个更有趣的定理,展示如何用一点δ来交换很多ε.首先建立一些符号,并从概率中引入一个有用的定理将是有帮助的。

如果最大的隐私损失以exp(ε)为界,这个边界是松弛的。实际上的隐私损失是很小的,这样的边界使得隐私损失增大。加上Azuma不等式,这将允许我们证明一个更强的组合定理:除了小概率δ,k倍组合的总隐私损失并不超过该组合的预期隐私损失,它更像√k而不是k。简单来说就是将边界变得更加紧密了。我们现在可以完成这个定理的证明了。其思想是,在k个差分隐私算法运行后的预期隐私损失受上述引理的限制,并且概率高,总隐私损失并不大(通过Azuma不等式)。

这一步证明我认为最为关键,考虑到了随机变量的期望,也就是将隐私损失的期望结合起来考虑。考虑这样一个条件期望,利用吾妻不等式得到最终结果。

回到书上


证明的过程与lecture4一致,从公式看出牺牲的δ换取更多的ε。将边界变得近了。


上图就是当我们确定好整体的差分隐私方案如何计算出每个点的差分隐私方案,从而实现这个强组合定理。

【差分隐私的Advanced composition到底是什么?】差分隐私系统学习记录(四)相关推荐

  1. 【差分隐私入门】差分隐私系统学习记录 (一)

    The Algorithmic Foundations of Differential Privacy (一) 写在前面的话 The Promise of Differential Privacy B ...

  2. 【稀疏向量技术是什么?】差分隐私系统学习记录(六)

    The Algorithmic Foundations of Differential Privacy (六) 写在前面的话 Remarks on composition Weak Quantific ...

  3. 【数学工具?拉普拉斯机制?随机响应?】差分隐私系统学习记录(二)

    The Algorithmic Foundations of Differential Privacy (二) 写在前面的话 Basic Techniques and Composition Theo ...

  4. 【线性查询之间存在相关性误差】差分隐私系统学习记录(七)

    The Algorithmic Foundations of Differential Privacy (七) 写在前面的话 Releasing Linear Queries with Correla ...

  5. 【高斯和拉普拉斯为什么分别对应L2和L1?】差分隐私系统学习记录(五)

    The Algorithmic Foundations of Differential Privacy (五) 写在前面的话 Laplace versus Gauss 什么是先验分布?后验分布?似然估 ...

  6. 【差分隐私的指数机制该怎么理解?】差分隐私系统学习记录(三)

    The Algorithmic Foundations of Differential Privacy (三) 写在前面的话 The exponential mechanism 写在前面的话 纯属个人 ...

  7. 【Rényi差分隐私和零集中差分隐私(差分隐私变体)代码实现】差分隐私代码实现系列(九)

    差分隐私代码实现系列(九) 写在前面的话 回顾 差分隐私的变体 发明变体的动机 最大散度和Rényi散度 Rényi差分隐私 零集中差分隐私 差分隐私变体的组合情况 总结 写在前面的话 书上学来终觉浅 ...

  8. 【本地差分隐私与随机响应代码实现】差分隐私代码实现系列(十三)

    差分隐私代码实现系列(十三) 写在前面的话 回顾 本地差分隐私 随机响应 一元编码 总结 写在前面的话 书上学来终觉浅,绝知此事要躬行. 回顾 1.梯度下降是一种通过根据损失的梯度更新模型来使损失变小 ...

  9. 语音识别到底是怎么一回事?学习门槛真的那么高么?

    说起语音识别,大家的第一反应就是那些看起来眼熟却总也搞不清楚的概念和公式,比如MFCC.HMM.GMM.Viterbi图.解码对齐等等,再往下深入,哪个是哪个,具体用途是什么,就都说不清楚了,总觉得那 ...

最新文章

  1. .Net 2.0 中的发送邮件实现小解(轉)
  2. 五、任意输入10个int类型数据,排序输出,再找出素数
  3. css之文本两端对齐的两种解决方法
  4. IQ01/IQ02 Create/Change Material Serial Number BAPI
  5. MATLAB工具箱介绍
  6. python做接口自动化如何输出测试报告-python生成接口自动化测试报告模版
  7. 电脑解锁后黑屏有鼠标_电脑开机黑屏只有鼠标如何解决
  8. 云安全:这也是需要花大钱去建设的部分
  9. java z+_Java算法练习—— Z 字形变换
  10. 计算机管理中无法格式化,Win7电脑无法格式化SD卡怎么办?
  11. Silverlight中如何获取当前xap文件的地址以及部署了当前xap的页面地址
  12. RDKit | RDKit分子结构图的详细说明
  13. 第三代测序技术的兴起
  14. u盘格式化时提示“系统找不到指定文件”问题解决方法
  15. CSDN和Typora的Markdown插入思维导图
  16. tongweb7启动参数配置配置个人理解
  17. 2022电子科技大学软件工程860考研复试个人分享
  18. Android 百度离线地图下载完后调用下载好的离线包
  19. Elasticsearch浅尝搜索
  20. 程序员被离职赔偿18万,房贷八千,只够还一年半,领导:回来上班

热门文章

  1. Nest入门教程 - 模块
  2. 深入 JavaScript 装饰器
  3. ubuntu14.04修改limits.conf后链接限制仍然不生效
  4. Linux系统 设置 cockpit 自动开机启动时异常问题处理(设置systemctl enable cockpit 异常【解决办法】)
  5. ogg mysql表结构不一致_OGG-01163 Bad column表结构一致、trail文件meta不一致处理
  6. Java 并发编程小册整理好了
  7. CentOS7升级内核kernel5.0
  8. .NetCore+WebUploader实现大文件分片上传
  9. .gitkeep文件的作用
  10. 【Linux】宝塔Linux面板命令大全