隐私模型

k-anonymity

要求同一个准标识符至少要有k条记录。因此观察者无法通过准标识符连接记录。

例:

table1:

table2:

table2满足 3−anonymity3-anonymity3−anonymity,准标识符 QI={ZIPCode,Age}QI= \{ZIPCode, Age\}QI={ZIPCode,Age}。Disease是敏感数据.

k-anonymity能保证以下三点:

  • 攻击者无法知道某个人是否在公开的数据中
  • 给定一个人,攻击者无法确认他是否有某项敏感属性
  • 攻击者无法确认某条数据对应的是哪个人(这条假设攻击者除了准标识符信息之外对其他数据一无所知,举个例子,如果所有用户的偏好都是购买电子产品,那么 k-anonymity 也无法保证隐私没有泄露)

k-匿名算法存在着一些攻击方式:

  • 同质化攻击:某个k-匿名组内对应的敏感属性的值也完全相同,这使得攻击者可以轻易获取想要的信息。
  • 背景知识攻击:即使k-匿名组内的敏感属性值并不相同,攻击者也有可能依据其已有的背景知识以高概率获取到其隐私信息。
  • 未排序匹配攻击:当公开的数据记录和原始记录的顺序一样的时候,攻击者可以猜出匿名化的记录是属于谁。例如如果攻击者知道在数据中小明是排在小白前面,那么他就可以确认,小明的购买偏好是电子产品,小白是家用电器。解决方法也很简单,在公开数据之前先打乱原始数据的顺序就可以避免这类的攻击。
  • 补充数据攻击:假如公开的数据有多种类型,如果它们的k-anonymity方法不同,那么攻击者可以通过关联多种数据推测用户信息。

l-diversity

如果一个等价类里的敏感属性至少有1个良表示 (well-represented) 的取值,则称该等价类具有 l−diversityl-diversityl−diversity。如果一个数据表里的所有等价类都具有 l−diversityl-diversityl−diversity,则称该表具有 l−diversityl-diversityl−diversity。

良表示:

  1. 可区分良表示:最简单的 l−diversityl-diversityl−diversity 要求同一等价类中的敏感属性要有至少有 lll 个可区分的取值。但是,如果某一个取值的频率明显高于其他取值,这将使得观察者可以以较高的置信度认为这一等价类中的敏感属性都取这个值。这导致了下面两种良表示定义。

  2. 熵良表示:记S为敏感属性的取值集合,p(E,s)p(E,s)p(E,s) 为等价类EEE中敏感属性取值sss的概率,熵 l−diversityl-diversityl−diversity 要求下式成立:
    Entropy⁡(E)=−∑s∈Sp(E,s)log⁡2p(E,s)≥log⁡2l\operatorname{Entropy}(E)=-\sum_{s \in S} p(E, s) \log_2 p(E, s) \geq \log_2 l Entropy(E)=−s∈S∑​p(E,s)log2​p(E,s)≥log2​l
    若每一等价类都满足熵 l−diversityl-diversityl−diversity,那么整张数据表的熵也必然不小于 log⁡2l\log_2 llog2​l。这个要求太严格了,比如敏感属性的取值集合中某些取值的频率较高,这将导致整张表的熵比较低。

  3. 递归良表示:确保最频繁的值不会出现得太频繁,而频率较低的值不会出现得太少。设 mmm 是等价类 EEE 中的值的数目,和 rir_iri​:1≤i≤m1 \leq i \leq m1≤i≤m 是第 iii 繁的敏感值在等价类 EEE 中出现的次数。若等价类E满足(c,ℓ)−diversity(c, \ell)-diversity(c,ℓ)−diversity 则 r1<c(rl+rl+1+…+rm)r_{1}<c\left(r_{l}+r_{l+1}+\ldots+r_{m}\right)r1​<c(rl​+rl+1​+…+rm​)

例:

t-closeness

t−closenesst-closenesst−closeness 认为,在数据表公开前,观察者有对于客户敏感属性的先验信念 (prior belief),数据表公开后观察者获得了后验信念 (posterior belief)。这二者之间的差别就是观察者获得的信息 (information gain) t−closenesst-closenesst−closeness将信息获得又分为两部分:关于整体的和关于特定个体的。

记观察者的先验信念为B0B_0B0​,我们先发布一个抹去准标识符信息的数据表,这个表中敏感属性的分布记为 QQQ,根据 QQQ,观察者得到了 B1B_1B1​;然后发布含有淮标识符信息的数据表,那么观察者可以由准标识符识别特定个体所在等价类,并可以得到该等价类中敏感属性的分布 PPP,根据 PPP,观察者得到了 B2B_2B2​。

l−diversityl-diversityl−diversity 其实就是限制 B2B_2B2​ 与 B0B_0B0​ 之间的区别。然而,我们发布数据是因为数据有价值,这个价值就是数据整体的分布规律,可以用 B0B_0B0​ 与 B1B_1B1​ 之间的差别表示。二者差别越大,表明数据的价值越大,这一部分不应被限制。也即整体的分布 QQQ 应该被公开。因为这正是数据的价值所在。而 BBB 与 BBB 之间的差别,就是我们需要保护的隐私信息,应该被尽可能限制。

t−closenesst-closenesst−closeness 通过限制 PPP 与 QQQ 的距离来限制 B1B_1B1​ 与 B2B_2B2​ 的区别。其认为如果 P=QP=QP=Q,那么应有 B1=B2B_1= B_2B1​=B2​。PPP、QQQ越近,B1B_1B1​、B2B_2B2​也应越近。

The t-closeness Principle:如果等价类 EEE 中的敏感属性取值分布与整张表中该敏感属性的分布的距离不超过阈值t,则称 EEE 满足 t−closenesst-closenesst−closeness。如果数据表中所有等价类都满足 t−closenesst-closenesst−closeness,则称该表满足 t−closenesst-closenesst−closeness。

例:

隐私模型:k-anonymity l-diversity t-closeness介绍相关推荐

  1. 图隐私论文速递:A graph modification approach for k‑anonymity in social networks using the genetic algorith

    作者:gufe_hfding 文章目录 论文概况 论文主要创新点 论文启示 论文概况 今天要分享的是来自伊朗的论文,标题为:A graph modification approach for k‑an ...

  2. C什么k什么_G、D、C、Z、T、K、L、Y,这些字母和火车级别有什么关系

    "高XXX次列车开始检票-" 当我们乘坐火车出行 车站广播总会提前预告 你知道火车车次前头的字母有什么含义吗? 不同字母代表什么? 它们之间又有什么区别呢? 我国的铁路旅客列车,按 ...

  3. 机器学习:k近邻算法(KNN)介绍

    k近邻算法是一种最简单最经典的机器学习算法之一.该算法的原理为:当对测试样本进行分类时,首先通过扫描训练样本集,找到与该测试样本最相似的k个训练样本,根据这个样本的类别进行投票确定测试样本的类别.也可 ...

  4. zbrush常用笔刷_如何制作精细模型,ZBrush中常用笔刷介绍

    如何制作精细模型,ZBrush中常用笔刷介绍 分享加君羊225+202+939 单击左托盘的笔刷图标,弹出一个笔刷库,其中有许多常用笔刷,这也是许多初学者所头疼的问题,zbrush#174;的笔刷非常 ...

  5. ASPICE v4.0模型标准概述、基础与插件介绍

    本文将针对ASPICE v4.0进行模型标准概述.基础与插件介绍. 标准概述 ASPICE v4.0标准有 3 类过程:主要生命周期过程,组织生命周期过程和支持生命周期过程. 11个过程组: 系统工程 ...

  6. 2021 年第十三届四川省 ACM-ICPC 大学生程序设计竞赛(A/B/D/H/E/K/M/L)

    https://codeforces.com/gym/103117 A. 水题 int main() {IOS;int t;cin >> t;while(t--){int k;cin &g ...

  7. 寻找最优模型---K折交叉验证

    目录 1.概览 2.代码 1.概览 当我们要从多个模型中快速选择一个较为合适的模型时,也可以把数据依次放到每个模型中去测试,找到泛化能力较强的那一个.虽然这是一个「笨」办法,但在实验流程上也有一些取巧 ...

  8. 2021江西省icpc(A,B,D,F,G,H,J,K,L)

    K.Many Littles Make a Mickle(签到题) 任意门 先从最简单的签到题开始吧 #include<iostream> #include<cstdio> # ...

  9. 风控模型中的五大类聚类算法介绍

    关注"金科应用研院",回复"CSDN" 领取"风控资料合集" 聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程. 聚 ...

  10. KNN(K最近邻算法)的详细介绍

    KNN(最近邻算法)的最详细介绍 一.KNN算法的基本介绍 二.KNN算法的基本思想 三.基于sklearn实现KNN(基于iris数据) 四.非基于sklearn实现KNN(基于iris数据) 五. ...

最新文章

  1. hdu 1723 DP/递推
  2. Windows2003无法看到网络连接,修复COM+组件
  3. C+ 轮融资发布会抽奖名单公布,还有 20 万礼物正在路上
  4. GridView合并列下的行单元格的方法
  5. kong 网关日志格式修改
  6. cups源码下载 linux_正点原子Linux第七十章Linux WIFI驱动实验
  7. 在linux下安装gaussian09
  8. 常见Web安全问题及防御策略
  9. java分形_【Java之八】15分钟了解分形之朱利亚集
  10. Windows Azure 解决方案系列: Real World Windows Azure: 与微软杰出工程师, Sean Nolan的访谈
  11. 游戏分类 PRG AVG
  12. iperf和iperf3测速使用
  13. ubuntu18.04 搭建ffmpeg踩坑
  14. django 缓存cache配置注意事项
  15. mysql的sql查询IN里面有重复的值,怎么不去重查询,这是一条思路
  16. 关于坐标系和投影的相关知识探讨
  17. 十二核能让联发科引爆核弹战吗?
  18. 一款针对百某盘的神器
  19. 如何手动搭建企业知识库制作效果远胜语雀、印象笔记
  20. (四)vivado Simulator仿真软件的使用

热门文章

  1. 【TCP/IP 四 IP 网际协议】
  2. 联想启天M415安装esxi6.7
  3. 安装ps提示重新启动计算机,安装Service Pack或执行DCPROMO后,出现错误或服务器重新启动 - Product Support Quick Note (PSQN) - 276184...
  4. ubuntu 换软件源
  5. 计算机组成原理补码位算法,[计算机组成原理] Booth算法 —— 补码一位乘法
  6. HCNE---succeed,HCSE---Learning!!!
  7. 重改破解易支付码支付V5.0源码
  8. 小米升鸿蒙系统,小米11升级鸿蒙系统
  9. 【教程】Tomcat 的catalina.out 日志按照自定义日期格式进行切割
  10. 如何突破四维空间,进入五维空间