Differential Privacy and Machine Learning: a Survey and Review 论文笔记

    • 差分隐私部分:
    • 机器学习部分:
    • 评判标准:
    • 基于差分隐私应用在机器学习的一般思想:
    • 基于差分隐私的监督学习:
    • 基于差分隐私的非监督学习:
    • 基于差分隐私的降维模型:
    • 统计估计:
    • 理论结果:
    • 讨论:

差分隐私部分:

作者在先验知识部分,介绍了查询的概念,这是其他文章没有提到的。
在敏感度方面,按照时间线或者说缺陷的改进来说,从全局敏感度到局部敏感度最后到平滑敏感度框架以及采样聚合框架。
在介绍差分隐私的组成原理时提出质疑(确实有缺陷,但是作者有远见),这提醒我在写的时候也要发出自己的疑问。
定义——查询——机制(拉普拉斯,指数)——敏感度——组成原理(质疑)

机器学习部分:

作者做了简单的介绍,提到了机器学习相关的基本知识,比如训练,数据集等等。然后提到了不同的模型,回归模型,聚类模型,分类模型以及降维模型,为后文介绍大致确定相关的内容方向。

评判标准:

基于差分隐私的机器学习模型的评判标准就是和真实模型进行比较,在这方面有多种比较,分为一个大方向就是和真是模型的距离度量,这个度量方法大致可以分为三种,目标函数的差异,参数的差异以及样本空间某些预测点的差异。这些度量的方法的根本目的是想证明隐私模型和真实模型更加接近,所以在收敛速度大家达成共识,也经过了证明随着训练例子数量的增加,隐私模型输出收敛于真实的模型。用(α,β)来度量收敛速度界限的收敛性。如果f˜(D)的机制输出是数据集D上f的一个(α,β)有用答案,那么概率为1−β,f˜(D)和f(D)之间的差值小于α。这些机制通常提供数据大小、模型设置、α和β之间的关系。一些论文提供了关于距离的最坏情况保证,这相当于(α,0)的有用性。然而,另一篇论文使用了对差异的期望。

基于差分隐私应用在机器学习的一般思想:

这一部分相当于一个总起,对后文做了一个大概描述,比如可以在目标函数进行扰动,输出结果进行加噪等等。并且为后文如何描述进行了一个解释,说不会介绍细节。

基于差分隐私的监督学习:

接下来这个部分先介绍监督学习的模型,再说差分隐私证明应用上去的。
朴素贝叶斯模型
这个部分没有介绍相关的具体方法论,只有一篇文章的理论知识。
该模型基于两个假设,分别是Y的条件独立和正态分布。当X是一个分类特征时,要计算相关的条件概率即可。当X时一个数字时,那就取决于X和相关Y的正态分布,需要计算方差和期望。
但是引入的基于差分隐私的朴素贝叶斯模型依赖另外一个假设,数据集中所有特征的所有值都受到某个已知数字的边界限制。如果边界覆盖了大部分的高斯分布,那么边界假设和高斯假设都近似成立。因此,可以计算出计算模型所需的信息的灵敏度。然后根据拉普拉斯机制向这些信息添加噪声,并计算模型。虽然没有提供关于实用程序的分析,但很容易看到参数上的噪声为O(1/nέ)。
线性回归模型:
由参数决定的线性回归模型,差分隐私在参数和泰勒级数展开项上加噪。
线性SVM
参数加噪,其中有一篇论文还提供了性能分析。
逻辑回归
逻辑回归可以看成二分类模型,在应用正则化时可以对正则化的参数加噪。也是输出加噪和客观扰动机制。
核函数SVM
TTDP:用差分隐私模型g(x)去近似f(x),通过迭代。在第一步中,机制选择一个g(z)和f(z)不一致最大的点z∈Z。该选择是基于指数机制,并使用|g(z)−f(z)|作为分数函数。在第二步中,计算噪声差|g(z)−f(z)|+η,而η为拉普拉斯噪声。在第三步中,该机制测试了噪声差异是否超过了某个阈值。如果没有,机制继续进行下一次迭代;如果超过阈值,机制将g(x)更新为更接近f(x)。经过多次迭代后,g(x)可以近似于f(x)。
决策树
决策树存在构建过程和剪枝过程。如果所选变量是分类的,通常该变量的每个值对应一个分区;如果变量是数值的,则将选择一些阈值,分区基于这些阈值。当所有分区对应的空间都足够小或每个分区中的样本数量太少时,分区过程将结束。构建树后,修剪过程将从树中删除不必要的分区,并将它们的空间和样本合并到父节点中。
1、构造N个决策树,并使用集成来进行分类。计算分区中每个标签y的样本噪声计数。
2、该机制使用指数机制私下选择得分最大(例如,信息增益或基尼指数)的变量。每次分区达到预定深度,或该分区中的样本数量与随机噪声大致相同,或该分区对应的样本空间太小,该机制就停止在该分区上操作。然后,它用每个标签分配一个嘈杂的样本计数给该分区。在分区过程完全完成后,这些噪声计数被用于决定是否删除这些节点。
在线优化算法
优化算法和机器学习相关,那么优化算法是否会泄露隐私数据呢?在线优化算法接受的不是数据样本而是一系列函数。
1、隐式梯度下降(IGD)
2、广义无穷小梯度上升(GIGA)
这两种算法都保证了wt+1的有限灵敏度。私有机制向每个ˆwt添加高斯噪声,然后它被预测为wt以保持隐私,然后使用噪声wt用于未来的计算。

基于差分隐私的非监督学习:

K-means聚类
K-means是聚类中常用的聚类模型。为了训练模型,该算法从随机选择k个代表k个组的点开始,然后迭代地聚类样本到最近的点,并通过聚类到这些点的样本的平均值来更新这些点。
1、利用样本和聚合框架的(έ,δ)差异私有k-means聚类算法。该机制是基于数据分离良好的假设。“分离良好”意味着集群可以用少量的样本很容易地估计出来。这是样本和聚合框架的先决条件。该机制将训练集随机分割成多个子集,在每个子集上运行非私有k-means算法以获得许多输出,然后使用平滑敏感性框架私有地发布来自密集区域的输出。这一步骤保持了隐私,而底层的k-means算法保持不变。

基于差分隐私的降维模型:

在机器学习上下文中,当数据是高维的时,通常需要学习一个低维的表示。低维数据集产生的模型自由度较少,而且往往不太容易发生过拟合。从不同隐私的角度来看,低维表示是可取的,因为它们往往具有较低的灵敏度。特征选择是一种降维技术,其中特征子集远离原始特征空间。另一方面,主成分分析(PCA)是一种矩阵分解技术,其中学习原始数据集到低维空间的线性投影,使新的表示尽可能多地解释原始数据集中的方差。
特征选择
1、PrivateKD:PrivateKD是基于所有特征都是分类的,每个特征都有有限的可能值的假设。
2、提出了一种(έ,δ)在目标函数稳定时的特征选择差异私有算法。与之前的论文不同,本文没有明确说明特征选择的算法。相反,它只需要选择算法保持稳定。我们所说的“稳定”,指的是当输入数据集中的某些样本发生变化时,在输入数据集上计算的函数值不会发生变化,或者函数可以以高概率从输入数据集的随机子集中输出相同的结果。对于第1类功能,该机制使用平滑灵敏度框架来选择特征。
主成分分析
1、根据A的第一个特征向量v是使vTAv最大化的单位长度向量的性质,该机制使用H(X,v)=vTAv作为利用指数机制中的得分函数,从集合{v:vTv=1}中私下选择第一个特征向量。
2、并不是所有的差异私有PCA方法都依赖于迭代算法。提出了一种机制PPCA,同时计算k个最大特征向量。

统计估计:

这一部分似乎和机器学习本身关系不大,但是机器学习需要用到统计估计器相关的知识。统计估计器根据给定数据集中的证据来计算感兴趣的量的近似值。
统计估计的鲁棒性
1、稳健统计估计器。粗略地说,一个统计估计器基于输入数据集产生一个向量的估计(如高斯分布的均值和方差)。估计器T可以看作是一个将数据集D映射到输出向量T(D)的函数。当样本数趋于无穷大且样本为i.i.d.时,大多数统计估计器收敛从某些分布P中得到,当估计量收敛时,极限值为|D|→+∞T(D)记为T§。鲁棒估计器的定义是基于估计器的稳定性。如果对于样本空间中的任何元素x,存在以下极限的limt→0(T((1−t)P+tδx)−T§)/t,则估计器是鲁棒的。
2、如果少量样本发生变化,鲁棒估计器的输出不会发生太大变化。基于该属性,[14]想出了一个预期测试发布框架。该框架基于统计数据是Rp的假设。它将Rp划分为小的立方体,然后从一个数据集D计算统计数据T(D),以及使T(D)落入另一个立方体所需的样本更改的数量。如果数字很大,则统计数据是稳定的,因此该机制可以在统计数据中添加拉普拉斯噪声,使其私有;如果数字很小,则该机制输出⊥,这意味着它会失败。当样本数趋于无穷大时,样本为i.i.d.绘制时,框架输出渐近等价于一个非私有鲁棒估计器。
3、在此基础上,[14]提出了三种四分位数范围估计的机制,分别是修剪均值和中位数,以及线性回归。当将该框架应用于线性回归时,该框架使用一个鲁棒估计器从训练集{(xi,yi)}ˆw=argminwXi|yi−wTxi|kxik学习模型,而不是最小化均方误差。给定n个样本,线性回归估计器可以成功地输出某个常数c的概率为1−O(n−clnn)的模型。此外,当n趋于无穷时,其输出收敛于真正的线性回归参数。
4、以另一种方式探索鲁棒估计器。他们证明了如果一个样本的效果以O(1/n)有界,并且T§的范围有界,那么光滑的灵敏度框架提供了有界误差。然而,如果T§不是有界的,并且对于无限范围内的任何值τ,存在一些P使得T§=τ,那么任何o微分私有机制的误差都不能是上界的。
点估计
M估计器

基于机器学习的数据发布机制的学习:
这部分介绍基于机器学习的数据发布机制,从依赖分区和不依赖分区进行阐述,以及网络结构和图生成结构。

理论结果:

通过一些对于差分隐私和机器学习的研究论文,得出相关的理论。比如文中引用一篇论文提到,如果一个问题可学习就可以用到差分隐私。也就是搜集一些关于理论的总结,别人在某些方面对差分隐私和机器学习的研究过程中发现某些共通之处,或者说怎么用,用什么方法会更好。

讨论:

本调查回顾的论文解决了如何在尽可能少的噪声下训练差分隐私模型的问题。综上所述 ,降低噪声尺度一般有四个指导原则。首先,只添加一次噪声通常比多次添加噪声要好 。这是因为如果我们多次添加噪声,我们必须将隐私预算分成许多更小的部分,并让每 个噪声添加过程使用一部分。由于分配给每个过程的预算很小,噪声规模与隐私预算成负比,因此每个过程中添加的噪声量都很大。此外,当我们聚合输出时,噪声可以变得更大。因此,一次性添加噪声通常更好。例如,当我们训练一个逻辑回归模型时,我们可以在训练过程目标函数或最终模型中添加噪声。向目标函数添加噪声是一个一次性的过程。对于最终的模型也是如此。然而,由于训练过程是迭代的,在训练过程中添加噪声需要多次添加噪声。根据我们的经验,训练过程中增加噪声会导致明显的下降。其次,较低的全局灵敏度(与结果相比)会导致更小的噪声。在一种降低全局灵敏度的策略中,一些查询可以通过结合其他查询的结果来进行近似,每个查询的全局灵敏度都比原始查询要低得多。例如,[52]向生成朴素贝叶斯模型的计数添加噪声,而不是直接生成模型的条件概率。每个条件概率的全局灵敏度为1,这太高,无法有用。每个基础计数的全局敏感度为1,比计数要低得多。通过向这些计数中添加噪声,我们会遇到较低的全局灵敏度。另一种方法是修改模型。例如,[45]将内核SVM转换为线性SVM,[14]使用一个鲁棒的线性回归模型来代替常用的模型。第三,在某些情况下,在使用公共数据时可以降低噪声。对于一个私有数据集,通常会有一个来自类似人群的较小的公共数据集。这个公共数据集可以来自以前的泄露或得到数据所有者的同意。由于不同的私有机制会扭曲私有数据,因此较小的公共数据集有时会提供类似或更好的实用程序。根据[28,29]的说法,这样的公共数据集可以提高差异私有机制的性能。第四,对于某些模型,迭代噪声添加可能是合理的。有时输出模型参数的灵敏度非常大,但该迭代算法的灵敏度较小。这句话似乎违反了直觉,因为所有迭代的灵敏度之和应该与模型参数的灵敏度相似。然而,在某些情况下,每次迭代的灵敏度都是由迭代前的参数决定的。因此,这些迭代的灵敏度之和实际上依赖于训练路径。除了某些极端情况外,该和可以远远小于模型参数的灵敏度。在这种情况下,似乎有必要在迭代中添加噪声。
对于这些模型,我们可以考虑像[48]一样尝试基于MCMC的算法。似然函数或损失函数可以作为分数函数,大都会黑斯廷斯算法确保输出来自与指数机制相同的分布。这个想法仍然没有被广泛使用,但它似乎有可能提高学习性能。除了这四个想法之外,还有其他一些问题值得注意。例如,大多数不同的私有机制使用干净和完整的数据作为输入,这在实践中并不总是可用的。此外,传统的缺失数据或预处理方法可能不满足不同的隐私。因此,需要能够处理不完整数据的机制。这些机制既可以释放数据,也可以与其他不同的私有学习机制相结合。当讨论私有数据时,医疗数据通常作为一个示例应用程序提供。然而,医疗数据集往往不是相关的。它们可能是时间性的,有时也可能是结构性的。虽然我们可以转换这些数据,但转换可能会失去一些重要的信息,提高灵敏度。因此,需要专门为此类数据设计的机制。另一个重要的问题是,隐私是否可以免费,也就是说,在差异私人学习中免费实现隐私。为了使隐私获得自由,保护隐私所需的噪声可能需要小于来自样本随机性的噪声。在这种情况下,考虑到隐私,也不会改变噪音的大小。例如,[50]证明了(o,δ)微分隐私对于满足特定条件的学习模型是自由的。[6]中的机制确保了正则化逻辑回归模型和线性SVM模型的自由o微分隐私,其中来自样本随机性的噪声为O(1/√n),而保持隐私的噪声为O(1/n)。[28]中的机制也证明了差异隐私所带来的噪声的影响为O(1/n),而样本随机性的影响为O(1/√n)。

差分隐私与机器学习的综述【笔记】相关推荐

  1. 基于随机响应机制的本地差分隐私【谷歌】论文笔记

    RAPPOR: Randomized Aggregatable Privacy-Preserving Ordinal Response 论文阅读 写在前面的话 自己的理解(整理) 攻击模型 注意事项 ...

  2. 差分隐私 机器学习_满足差分隐私的经验误差最小化方法

    手上的东西有点进行不下去,滚过来写专栏作下回顾.上次聊了聊差分隐私的定义,那么现在我们要在差分隐私的框架上实现机器学习任务. 关于差分隐私机器学习这个方向,Kamalika Chaudhuri 在ni ...

  3. 差分隐私基础及在机器学习领域的应用与对比实验

    目录 前言 一.差分隐私 二.差分隐私在机器学习领域的应用 三.DP-SGD在手写数字数据集MNIST上的对比实验 四.总结 前言 数据是人工智能学习的基础,一个表现优异的机器学习或深度学习模型离不开 ...

  4. 隐私保护技术之差分隐私

    差分隐私技术一开始是为了解决差分攻击(differential attack)问题.为了保护用户隐私,通常的处理方式是将数据集进行匿名化处理然后发布.但实际上,这种匿名化处理根本无法保护用户的隐私,如 ...

  5. 差分隐私与可穿戴式设备调查【笔记】

    A Systematic Literature Review on Wearable Health Data Publishing under Differential Privacy 论文笔记 概述 ...

  6. 【论文笔记09】Differentially Private Hypothesis Transfer Learning 差分隐私迁移学习模型, ECMLPKDD 2018

    目录导引 系列传送 Differentially Private Hypothesis Transfer Learning 1 Abstract 2 Bg & Rw 3 Setting &am ...

  7. 人工智能的安全问题与差分隐私【笔记】

    人工智能的安全问题与差分隐私 写在前面的话 2021-AI-Index-Report_Master 承上启下 人工智能模型数据泄露的攻击与防御 介绍 概述 启发 Threat of Adversari ...

  8. 图合成与差分隐私(图结构和节点属性)论文笔记

    AsgLDP: Collecting and Generating Decentralized Attributed Graphs With Local Differential Privacy 论文 ...

  9. 差分隐私论文阅读笔记

    目录 前缀基础知识 论文笔记 Deep Learning with Differential Privacy - CCS'16 Differentially Private Distributed O ...

最新文章

  1. TomCat服务器和Web应用
  2. 在学习Python基础中需要知道的知识点:运算符大全,收藏,以后方面查询(算术运算符、赋值运算符、比较运算符、位运算符、逻辑运算符、成员运算符、身份运算符、运算符优先级))
  3. S5PV210开发 -- QT4.8 移植
  4. 【Linux网络编程】TCP编程
  5. android jenkins 配置NDK环境变量
  6. java idisposable_在C#中实现IDisposable [重复]
  7. C#中你想象的Task,很简单?
  8. ZooKeeper启动报错 JAVA_HOME is incorrectly set
  9. plc维修入门与故障处理实例_电气控制基础+PLC编程入门+工程应用实例
  10. 为什么使用 Dubbo ? 微服务概述?传统应用的问题?
  11. 语言程序推箱子课设报告_“延期不延学”第13期 | C++篇 | c++课设建议
  12. 小米全新5G旗舰手机即将登场 售价必将再创新高
  13. mybatis-plus控制台打印SQL
  14. 解决 ImportError: No module named ‘pip._internal‘问题
  15. CAD学习笔记中级课【参数化】
  16. Atlas中间件实现Mysql读写分离
  17. VS2008假死点击无反应解决办法
  18. IE的layout布局
  19. FL studio 20中那些“花里胡哨”的效果器(三)
  20. Android集成阿里百川问题或注意事项

热门文章

  1. 容器编排技术 -- 本地运行Kubrenetes v1.0
  2. Linux系统下搭建BUG管理系统---禅道
  3. Solaris 中的环境变量
  4. matlab 的字符类型转换,数据类型转换 - MATLAB Simulink - MathWorks 中国
  5. Android Picasso最详细的使用指南
  6. 【Linux】在Deepin v20或UOS20下运行MC我的世界
  7. 【C语言】创建一个函数,并调用比较三个数的大小
  8. C#LeetCode刷题之#389-找不同(Find the Difference)
  9. 测试常用——linux 基础命令
  10. js求两圆交点_利用二项式通项公式求系数及综合运用(2)