国家标准《信息安全技术——个人信息安全规范》中规定,收集个人信息后,个人信息控制者宜立即进行去标识化处理。在金融行业,很多服务场景的对象都是人,用联邦学习建模的样本数据很多都是个人信息。因此我们在联邦学习中用到的数据是需要去标识后的数据,即需要对数据进行去标识化(de-identification)。

去标识化的定义:

通过去标识化计算,使其在不接触额外信息的情况下,达到无法识别个人信息主体的效果。

  • 直接标识符(direct identifier):

微数据中的属性,在特定环境下可以单独识别个人信息主体。

  • 准标识符(quasi-identifier):

微数据中的属性,结合其他属性可唯一识别个人信息主体。

举个例子,身份证号、手机号等是直接标识符(direct identifier),而年龄、地址等是准标识符(quasi-identifier)。通过直接标识符,我们可以立即锁定某个人。

常用的去标识化技术:

密码技术、假名化技术、抑制技术、泛化技术、统计技术、随机化技术、数据合成

统计技术指利用统计学方法对数据进行脱敏,主要包括数据抽样和数据聚合两种技术。它的优势是可以保持数据集的统计学特性。

密码技术指通过密码学的加密算法将数据进行加密来完成变形脱敏。采用密码技术脱敏的数据是可以还原的,当需要还原时,采用相同的算法或者对应算法输入秘钥,即可完成还原。密码技术可以细分为确定性加密和随机性加密两类。

抑制技术即对不满足隐私保护的数据项删除,不进行发布。抑制技术适用于分类数据。

假名化技术是一种使用假名替换直接标识(或其他准标识符)的去标识化技术。采用假名化技术脱敏的数据无法直接进行还原,可以建立原始数据到假名数据的映射表来实现还原。但在我国,身份证号、手机号等经常作为ID信息的原始空间是可以枚举的,攻击者往往通过彩虹表等进行暴力枚举,对假名化的结果进行反向还原。

泛化技术是一种降低数据集中所选属性粒度的去标识化技术,对数据进行更概括、抽象的描述。泛化技术在做特征处理的时候也经常用到,例如对年龄进行区间化。

随机化技术指通过随机化修改属性的值,使得随机化处理后的值区别于原来的真实值,无法进行还原。

数据合成是一种以人工方式产生微数据的方法,用以表示预定义的统计数据模型。其主要运用在测试集里,由使用者随机生成一份测试的值来替代真实的值。

在金融领域,用的最多的还是泛化技术。

去标识化后应达到的效果:

  • 接标识符:

需要保持唯一性,个人信息标识度分级应达到2级

  • 准标识符:

个人信息标识度分级应达到3级

1级:能直接识别主体的数据

2级:消除直接标识符的数据

3级:重标识风险可接受数据​​​​​​​

4级:聚合数据​​​​​​​

样本数据去标识化技术相关推荐

  1. 个人信息去标识化框架及标准化

    个人信息去标识化框架及标准化 谢安明1,金涛2,周涛1 1. 北京启明星辰信息安全技术有限公司,北京 100081 2. 清华大学软件学院,北京 100084 摘要:随着大数据的发展,个人信息保护面临 ...

  2. 【链接攻击,差分攻击,去标识化代码实现】差分隐私代码实现系列(二)

    差分隐私代码实现系列(二) 写在前面的话 去识别化(De-identification) 数据处理 去识别化操作 链接攻击 Karrie特别吗? 我们可以重新识别多少人? 聚合(Aggregation ...

  3. 数据安全--15--去标识化技术

    一.去标识化的概念 去标识化就是通过使用匿名.假名等方法,让攻击者无法从处理后的数据记录定位到自然人的过程. 二.匿名化 所谓匿名化,就是通过一定的算法,不可逆地去除数据集中的身份标识信息,使得无法从 ...

  4. 以太坊社区激励金计划:支持开发者利用去中心化技术改变世界

    2019独角兽企业重金招聘Python工程师标准>>> 1 Matt Liston:希望通过奖励金支持更多好项目 来源|金色财经 责任编辑| 姚泓泽 2018年2月19日19:00, ...

  5. 关于去中心化技术实现的意义

    谈起去中心化,我们首先得知晓何谓中心化?所谓中心化就是一切以中央为转移.古代的皇权社会就是典型的中心化组织,天下以皇帝为权力中心,一切经济.文化.政治等天下大事都以皇帝为转移,才算合法合规,不然就是& ...

  6. 个人信息去标识化指南_重磅解读 | APP收集使用个人信息自评估指南2.0版正式出炉...

    2020年3月19日全国信息安全标准化技术委员会秘书处发布了<网络安全标准实践指南--移动互联网应用程序(APP)收集使用个人信息自评估指南(征求意见稿)>(简称征求意见稿).2020年7 ...

  7. 去中心化云存储技术 | CESS 的多层网络架构详解

    区块链以其特有的分布式算法和技术底层,让链上数据也随着区块链的不同实现了分布式存储,CESS(Cumulus Encrypted Storage System)去中心化云储存网络基础设施,让我们看到了 ...

  8. 刘锋 吕乃基:互联网中心化与去中心化之争

    前言:本文发表在2019年5月<中国社会科学报>上,主要从神经学角度分析互联网的发育过程,并对云计算和区块链为代表的中心化与去中心化技术趋势进行了探讨. 当前,学术界和产业界对互联网的未来 ...

  9. 中心化,去中心化?关乎互联网未来命运的重要选

    作者:刘锋 计算机博士 <互联网进化论>作者 前言:不知不觉互联网的未来发展出现了分歧,当Facebook.谷歌等互联网巨头越来越强大的时候,反弹的声音也越来越大,人类社会的有识之士希望解 ...

最新文章

  1. python 字符串 删除 空格 换行符
  2. msdn 上的关于delegate和event的一个例子,理解后加点评论
  3. 微信好友大揭秘,使用Python抓取朋友圈数据,通过人脸识别全面分析好友,一起看透你的“朋友圈”...
  4. python 修饰器_python中用修饰器进行异常日志记录
  5. 线性直接变换方法对摄像机进行标定
  6. 仅使用NumPy完成卷积神经网络CNN的搭建(附Python代码)
  7. __cdecl __fastcall与 __stdcall 调用约定
  8. Aspose填充word数据
  9. AngularJS学习笔记之二:开发、调试和测试工具
  10. 第01期:salesforce开发环境的搭建
  11. 精品软件 推荐 常用软件 游戏的 运行库 下载 合集 3D game 玩游戏的一定要收藏一下。...
  12. 计算机端口25,在Windows 下关闭21\23\25端口的方法 -电脑资料
  13. ( cf1249 )Codeforces Round #595 (Div. 3)部分题解
  14. 动态拨号云服务器安装Ubuntu系统使用说明
  15. 攻防世界逆向-logmein
  16. 长隆大马戏机器人_腾讯长隆打造智能主题酒店 小Q机器人全面部署智慧旅游
  17. 去掉Chrome自动填充表单浅黄色背景色
  18. 软件测试周刊(第69期):说出观点需要勇气,说好笑则需求智慧。
  19. 纯虚函数 和 抽象类
  20. 法官批准离婚申请 布兰妮正式恢复“单身”(图)

热门文章

  1. 别人写好的爬虫怎么运行_项目申报怎么去写才好
  2. 峰度和偏度的计算方法偏度的处理
  3. 德州仪器撤出手机芯片市场:新一轮洗牌开始
  4. 天龙八部ol卡彩色名字分析
  5. Android--沉浸式状态栏字体颜色的修改(只针对小米和魅族)
  6. 离散 排斥或与相容或的区别
  7. vue得到的某一时间与当前时间作比较
  8. 百度云在线视频倍速播放
  9. Matplotlib绘制常用三维图
  10. 基于ATMEGA16单片机的空调控制器