案例来源:@关会华 阿里技术

案例地址:https://mp.weixin.qq.com/s/4Eqh4p0j3cDj_0M4VAG-aA

0. 背景:

1)关系数据描述的是实体与实体之间的联系,如人与人之间的交际关系、企业与企业之间的关联交易关系等。通过关系数据可以生成一张大网,也成为网络数据或者图数据

2)关系数据的研究包括子群识别、信息传播、欺诈识别等

3)但关系数据也存在着泄露用户隐私的风险,即使用户的属性数据进行了隐私处理,关系数据也可能让攻击者定位到具体的用户。(如攻击者知道A用户交际广泛,与BCD交集紧密,疏远EF,在网络图中就有机会定位到A用户)

1. 关系数据隐私保护难点

1)关系数据结构特征多,包括各类度数分布、最短路径分布、中心性分布等,都可以成为进攻的切入点

2)关系数据中节点和边都有大量的属性数据,给攻击者更多机会去识别用户在现实生活中的身份

2. 本文目标:

1)对于关系数据中较重要的几个结构特征进行隐私保护

2)选择的结构特征:

a. 点度中心度:和节点关联的边的度数

b. 中心指纹:选择若干个中心节点,普通节点和各中心节点的最小路径组成的向量就是中心指纹(如图中c)

c. 子图:指节点集和边集分别是某一图的节点集的子集和边集的子集的图(如图中b是a的子图)

3)隐私保护目标:k-匿名。即将数据通过一定方式(如“188****0053”)将数据划分成若干个等价类,每个等价类至少包含k条数据

3. 隐私保护方法:

1)保持节点不变,通过增加或减少边的方式进行隐私保护。通过这种方法尽可能保持原有数据的质量。

2)对于具体某个等价类A的保护方法:

a. 为当前等价类A均增加边,整体转移到另一个等价类中。该等价类不存在,就不存在隐私泄露风险

b. 为其它等价类增加边,转移到当前等价类A中,提高了当前等价类A的k匿名程度,降低了隐私泄露风险

对于上述两种方法,以“边增加数量”作为代价函数,选择代价最小的一种方法

4. 实践 - GraphProtector:

1)数据导入

2)优先级判定:

a. 锁定一部分重要节点(如核心人物),不对其进行边的修改

b. 排序节点优先级,优先对高优先级节点进行隐私保护

3)评估指标选择:选择关注的实用性指标,数据处理前后会计算这些指标的变化,以此评估数据质量是否受到影响

4)隐私保护处理:提供多种隐私保护器,每种隐私保护器仅针对一种结构特征进行隐私保护

a. 度数保护器:筛选出度数中样本数小于k的,进行隐私保护

b. 中心指纹保护器:找到中心指纹等价类中样本数小于k的,进行隐私保护

c. 子图保护器:找到子图等价类中样本数小于k的,进行隐私保护

5)数据导出

相关阅读:

1. 隐私保护与PATE方法 https://blog.csdn.net/u013382288/article/details/81979105

【数据应用案例】关系数据的隐私保护相关推荐

  1. 数据自治开放模式下的隐私保护

    数据自治开放模式下的隐私保护 王智慧1,2, 周旭晨1,2, 朱云1,2 1. 复旦大学计算机科学技术学院,上海 201203 2. 上海市数据科学重点实验室,上海 201203 摘要:数据开放对于提 ...

  2. 面向数据发布和分析的差分隐私保护 -- 张啸剑

    面向数据发布和分析的差分隐私保护 读这篇综述的随记 基于k-匿名或者划分的隐私保护方法,只适应特定背景知识下的攻击而存在严重的局限性.差分隐私作为一种新出现的隐私保护框架,能够防止攻击者拥有任意背景知 ...

  3. 数据脱敏:数仓安全隐私保护见真招儿

    本文分享自华为云社区<GaussDB(DWS)安全:隐私保护现真招儿--数据脱敏>,原文作者:wo华哒哒. 引言 大数据时代的到来,颠覆了传统业态的运作模式,激发出新的生产潜能.数据成为重 ...

  4. 利用tabluea分析数据的案例_tableau数据可视化案例

    文中的可视化图均由tableau绘制. 1.1 数据展示 数据是来自美国纽约2016年5月份包括207个地铁站点在不同时间节点以及不同天气下的4.2649万条人流量数据,共包含21个字段. 1.2 数 ...

  5. 面向医疗数据的差分隐私保护

    第一章 差分隐私保护 1.1 差分隐私概述 差分隐私是Dwork在2006年提出的一种针对敏感数据集发布导致的隐私泄露问题的隐私保护模型.基于这一模型,处理后的数据集对任意一个记录的变化是不敏感的,因 ...

  6. 医疗大数据 隐私保护_大数据环境中的医疗数据隐私保护

    本文通过对当前医疗大数据的研讨和应用现状的分析,深入讨论了大数据应用中可能存在的隐私保护问题,在此基础上对现有的防护技能和手段进行梳理,希望可以找到大数据环境下对医疗隐私数据的保护方法. 随着大数据时 ...

  7. DataScience:数据生成之在原始数据上添加小量噪声(可自定义噪声)进而实现构造新数据(dataframe格式数据存储案例)

    DataScience:数据生成之在原始数据上添加小量噪声(可自定义噪声)进而实现构造新数据(dataframe格式数据存储案例) 目录 数据生成之在原始数据上添加小量噪声进而实现构造新数据 代码实现

  8. 在ccs中添加芯片_985博导团队重大成果,涉及隐私保护领域,已在腾讯与京东、快手的业务中应用...

    近日,南开大学网络空间安全学院刘哲理教授带领的数据安全团队的研究成果,正式收到了第三十届USENIX Security国际顶级安全会议的全文录用通知.值得一提的是,被录用的论文"How to ...

  9. 精卫填海——大数据安全与隐私保护

    第一章 绪论 (一)课程内容 1 大数据安全 如何在满足可用性的前提下实现大数据机密性 安全与效率之间的平衡一直信息安全领域关注的重要问题.在大数据场景下,数据的高速流动特性以及操作多样性使得数据的安 ...

最新文章

  1. BZOJ 2288 贪心 +链表
  2. Go 转义字符及风格
  3. 50个最有用的Matplotlib数据分析与可视化图
  4. 怎么测试服务器端口是否对外开放_12个经典性能测试人员面试题
  5. jstack Dump日志文件中的线程状态
  6. win10安装迅雷精简版处理方法---发布者不受信任
  7. 有趣的 Mysql 存储引擎 1
  8. matlab 函数怎么写,MATLAB怎样定义函数(入门) 有一函数 f(x,y)=x^2+sinxy+2y , 写一程序, 输入自变量的值,输出函数值....
  9. 强化学习入门笔记(一)——莫烦Python
  10. 基于python的猜大小游戏
  11. 海南省主要城市商品住宅价格分析
  12. tfidf+embedding
  13. 常用Cocoa框架概览
  14. SQL语句----CASE WHEN 的用法简介
  15. windows 10 git bash 提速方法
  16. 2020高德技术年刊:18万字、750页+,智慧出行最佳技术实践都在这了
  17. 计算机管理home,电脑home键是什么意思
  18. python字典经典例题_Python小白--------基础练习题(列表,元组,字典)
  19. 基于色温估计的白平衡算法
  20. Unity实现众多平台一键社会化分享(ShareSDK)

热门文章

  1. YARN 内存参数终极详解
  2. goahead(嵌入式Web服务器)之openssl证书制作篇
  3. maven中groupId和artifactId的含义
  4. [iOS]PDF格式的矢量图作为图片资源自动适配
  5. 基于Arduino主板的简易反应时间测试小游戏
  6. Spring技术内幕(3)Spring AOP的实现
  7. bitxhub Fbric跨链搭建
  8. 深度学习——残差网络(ResNet)
  9. 校园网跑腿小程序源码开源 后台+前端
  10. 国科大算法概论课后作业