一、去标识化的概念

去标识化就是通过使用匿名、假名等方法,让攻击者无法从处理后的数据记录定位到自然人的过程。

二、匿名化

所谓匿名化,就是通过一定的算法,不可逆地去除数据集中的身份标识信息,使得无法从中定位到任何自然人。也就是说,匿名化是一个目标,匿名化之后,无法定位到任何自然人,也就不会泄露个人数据了,可以不再看成是个人数据。

但是也要意识到,在实践中,往往很难做到真正的匿名化并同时保持数据的可用性,而需要在数据的可用性与隐私保护之间进行权衡。一般而言,匿名化是一个非常难以达成的目标。

这里我们通过一个例子来看看,我们假设原始记录是这样的:

姓名 身份证号 性别 出身年月 邮箱 家庭住址 疾病
赵一 654123199012230987 1990.12 123@163.com 余杭区纬一路12号 高血压
钱二 654123198910129876 1989.10 124@163.com 余杭区纬二路23号 脑血栓
孙三 654123199109121234 1991.09 145@163.com 余杭区经一路34号 皮肤病
李四 654123199206234567 1992.06 156@163.com 余杭区经二路45号 心脏病
周五 654123198805248723 1988.05 167@163.com 余杭区纬三路56号 妇科病

对于匿名化来说,我们在这其中要做的就是替换身份标识信息或删除身份标识信息,从而得到以下数据:

性别 出身年月 邮箱 家庭住址 疾病
1990.12 123@163.com 余杭区纬一路12号 高血压
1989.10 124@163.com 余杭区纬二路23号 脑血栓
1991.09 145@163.com 余杭区经一路34号 皮肤病
1992.06 156@163.com 余杭区经二路45号 心脏病
1988.05 167@163.com 余杭区纬三路56号 妇科病

以上就是将原始数据匿名化之后的数据,但在实际中,匿名化后的数据通过一定的分析后,仍有一定概率定位到个人,可见简单地删除敏感字段或假名化(姓名替换为假名),并不足以保护个人隐私。

三、假名化

假名化就是对可标识的用户身份信息用假名替换。但是需要了解的是,假名化的数据仍是有很大概率找出对应的自然人,难以达到去标识化的目的,所以假名化的数据仍将被视为个人数据,需要跟明文数据一样加以保护。

四、K-匿名算法

K-匿名算法是通过引入等价类的概念,保障每条隐私数据都能找到相似的数据,从而降低了单条数据的识别度。K-匿名算法的使用场景主要是数据集发布或数据集提供给第三方研究机构。

K-匿名算法要求发布的数据中k条记录为一组,其中的每一条记录都要与其他至少k-1条记录不可区分(这k条记录相似,称为一个等价类)。

这里,参数k为一个整数,表示隐私保护的强度:

● k值越大,隐私保护的强度越强(任何一条疑似某人的记录,都可以再找到k-1条相似的记录)。
● k值越大,丢失的信息更多,数据的可用性就越低(一些比较罕见的样本如果无法凑成一个等价类就不能用了)。

我们来看一个最简单的k=2的场景来帮助理解,处理后的数据如下:

性别 出身年月 邮箱 疾病
1986-1990 12* 高血压
1986-1990 12* 脑血栓

这两条信息在可用于定位的三个字段上完全相同(疾病是隐私信息,假设数据集发布前除了医院和自己家人,没有外人知道),无法从这个信息中判断具体的自然人患了何种疾病,从而降低了具体自然人的隐私泄露风险。

如果一条记录由于样本实在太少,无法构成包含k条记录的等价类,则这条记录就不应纳入数据集。当研究者拿到K-匿名处理后的数据时,将至少得到k个不同人的记录,进而无法做出准确的判断;也就是说,任何一条记录,都可以再找到k-1条相似的记录。

但这仍然是存在缺陷的,如果一个等价类中的多个样本都是同一种疾病,则所涉及的几位自然人的隐私就泄露了,可能会被周围认识的人高度怀疑其患了该病,称之为一致性攻击。

性别 出身年月 邮箱 疾病
1986-1990 12* 高血压
1986-1990 12* 高血压

为了防止一致性攻击,隐私保护模型在K-匿名的基础上,要求保证任意一个等价类中的敏感属性都至少有L个不同的值。

放在这个例子中的话,就是说如果在一个等价类中,疾病种类小于L,则这个等价类中的记录就不能使用了。因为只有一个人患该病的话,也会造成该患者的隐私泄露,至少需要在一个等价类中为其找到L-1个病友或疾病,才能降低其中每一患者隐私泄露的风险。

然而在实际上,该方案还可能存在隐私泄露的风险,例如病毒核酸检测,会有阴性和阳性,它虽然达成了2个疾病概念,但这个多样性其实没有意义,无论结果是阴性还是阳性,记录出现在这个数据集本身就造成部分隐私信息泄露。此外,该方案还存在没有考虑敏感字段的总体分布、语义等方面的缺陷。

K-匿名在实践中,总是不断地被发现存在缺陷以及不断地改进,基于当前知识判断不会造成隐私泄露,也不能排除将来有攻击者从中找出真实的自然人的隐私,因此直接提供数据集的方式所面临的风险还是非常高的。

数据安全--15--去标识化技术相关推荐

  1. 样本数据去标识化技术

    国家标准<信息安全技术--个人信息安全规范>中规定,收集个人信息后,个人信息控制者宜立即进行去标识化处理.在金融行业,很多服务场景的对象都是人,用联邦学习建模的样本数据很多都是个人信息.因 ...

  2. 个人信息去标识化框架及标准化

    个人信息去标识化框架及标准化 谢安明1,金涛2,周涛1 1. 北京启明星辰信息安全技术有限公司,北京 100081 2. 清华大学软件学院,北京 100084 摘要:随着大数据的发展,个人信息保护面临 ...

  3. 【链接攻击,差分攻击,去标识化代码实现】差分隐私代码实现系列(二)

    差分隐私代码实现系列(二) 写在前面的话 去识别化(De-identification) 数据处理 去识别化操作 链接攻击 Karrie特别吗? 我们可以重新识别多少人? 聚合(Aggregation ...

  4. 以太坊社区激励金计划:支持开发者利用去中心化技术改变世界

    2019独角兽企业重金招聘Python工程师标准>>> 1 Matt Liston:希望通过奖励金支持更多好项目 来源|金色财经 责任编辑| 姚泓泽 2018年2月19日19:00, ...

  5. 关于去中心化技术实现的意义

    谈起去中心化,我们首先得知晓何谓中心化?所谓中心化就是一切以中央为转移.古代的皇权社会就是典型的中心化组织,天下以皇帝为权力中心,一切经济.文化.政治等天下大事都以皇帝为转移,才算合法合规,不然就是& ...

  6. 个人信息去标识化指南_重磅解读 | APP收集使用个人信息自评估指南2.0版正式出炉...

    2020年3月19日全国信息安全标准化技术委员会秘书处发布了<网络安全标准实践指南--移动互联网应用程序(APP)收集使用个人信息自评估指南(征求意见稿)>(简称征求意见稿).2020年7 ...

  7. 去中心化云存储技术 | CESS 的多层网络架构详解

    区块链以其特有的分布式算法和技术底层,让链上数据也随着区块链的不同实现了分布式存储,CESS(Cumulus Encrypted Storage System)去中心化云储存网络基础设施,让我们看到了 ...

  8. Web3.0介绍与产业赛道(去中心化,金融与数字资产,应用与存储,区块链技术)

    文章目录 1.web3.0时代--区块链技术 2.产业赛道:去中心化金融与数字资产 3.产业赛道:去中心化应用与存储 4.区块链:基础设施与区块链安全和隐私 1.web3.0时代--区块链技术 Web ...

  9. 去中心化数据库:传统IT与区块链的未来融合形式

    前言:区块链从概念诞生到技术发展已经历较长时间,但是随着这两年的火热,才渐渐被市场和许多技术人员了解.作为一个数据库行业的老兵,巨杉数据库联合创始人兼CTO王涛看到传统的IT技术同学们对于在热潮之下的 ...

最新文章

  1. 三次元风景照秒变宫崎骏动画,还能把石原里美吉卜力化,AnimeGAN已开源
  2. OpenAI披露最新研究成果:AI训练如何扩展到更大规模?
  3. 2021下半年软考各省准考证打印时间
  4. SQLServer 2014 本地机房HA+灾备机房DR解决方案
  5. 分别用matlab和python计算物品相似度矩阵(Jaccard系数
  6. POSIX信号量API函数
  7. Java 8————Collectors中的中的joining 方法和mapping方法
  8. 5G套餐最低190元 专家:用不起就别用
  9. hive分桶表join_Hive:JOIN及JOIN优化 2015.10.25
  10. ORACLE 语句关联统计
  11. 树莓派3代b型静态IP设置,和ssh的wlan配置
  12. 拓端tecdat|【视频】R语言实现CNN(卷积神经网络)模型进行回归数据分析
  13. MP3格式音频文件结构解析
  14. 关于Android 微信APP支付开发中遇到的问题
  15. 弯曲时空量子场论的历史与现状 (下)
  16. Proteus 8.6 SP2 Pro 汉化破解版(附破解文件+汉化包+安装教程) 兼容win10
  17. 思维导图的绘制要点及使用GitMind工具快速制作思维导图
  18. PS怎么把模糊的照片,变得更加清晰
  19. 数据全裸时代,公开获取上百万条四六级成绩
  20. 数仓理论知识之什么是度量,什么是粒度,什么是事实,什么是维度

热门文章

  1. 10招有效预防电脑辐射
  2. 网络设备模拟器Packet Tracer教程
  3. 局域网内PC通过笔记本共享上网
  4. 电脑设备管理器在哪里可以找到
  5. 蓝桥杯 ADV-201 我们的征途是星辰大海 java
  6. Beat #39;Em Up Game Starter Kit (横版格斗游戏) cocos2d-x游戏源代码
  7. 前端角度出发做好SEO需要考虑什么?
  8. 红楼梦java_《红楼梦》最经典的12首诗词,读懂了才是人生
  9. 希捷服务器硬盘15k有几代,硬盘巨头推最后一代15k机械硬盘:再见,机械硬盘
  10. 人生永无止境的意思是什么_永无止境是什么意思