全文共2715字,预计学习时长7分钟

图源:unsplash

匿名化是为了确保数据的隐私性,公司用它来保护敏感数据。这类数据包括:

·        私人数据

·        业务信息,如财务信息或商业秘密

·        机密信息,如军事机密或政府信息

匿名化为遵循个人数据相关隐私条例提供了范例,个人数据和业务数据的重合之处就是客户信息所在。但并非所有的业务数据都受监管,本文将重点讨论个人数据的保护。

敏感数据类型示例

在欧洲,监管机构将任何与某人(如你的名字)有关的信息定义为“个人数据”。不论形式,任何关联到此人的信息都符合上述定义。从上世纪起,个人数据收集逐渐民主化,数据匿名化问题开始出现。随着隐私条例在世界各地开始生效,这件事尤显重要。

什么是数据匿名化,为何要关注它?

我们从经典定义开始。欧盟的《通用数据保护条例》(GDPR)是这样定义对匿名信息的:“与识别或可识别自然人无关的信息,或以数据主体不能或不再可识别的方式匿名提供的个人信息。”

其中,“可识别”和“不再”至关重要。这不仅意味着你的名字不应再出现在数据中,也意味着不能从剩余数据中发现你是谁,这与再认同(有时也叫去匿名化)过程有关。

同样,GDPR(契约中)陈述了一个重要事实:“……因此,数据保护不应适用于匿名信息”。所以,若你设法匿名数据,就不再受GDPR数据保护法的约束。

你可以执行任何处理操作,如分析或数据货币化。这带来了大量机会:

·        出售数据显然是首选用途。在世界各地,隐私保护法正在限制个人数据交易,而匿名数据为公司提供了另一种选择。

·        它带来了合作机会。许多公司为了创新或研究而共享数据,匿名数据有助于降低风险。

·        它还为数据分析和机器学习创造了机会。在保持兼容性的同时运行敏感数据的操作正变得越来越复杂,匿名数据为统计分析和模型训练提供了安全的原材料,前景一片光明。但实际上真正的匿名数据往往并不如愿。

数据隐私保护机制的范围

数据的隐私保护有一个范围。多年来,专家们研发了一系列集方法、机制和工具为一体的技术。这些技术生成了具有不同的匿名级别和不同再识别风险等级的数据。可以说,其范围涵盖了个人可识别数据乃至真正的匿名数据。

数据隐私的范围

左端,有包含直接个人识别码的数据。通过这些元素,可以识别你的姓名、地址或电话号码。另一端,则是GDPR引用的匿名数据。

如你所见,这些数据有一个中间范畴。它处于可识别数据和匿名数据之间,即假名数据和去识别数据。请注意,其界定仍有争议。有些报告认为假名化是去识别化的一部分, 而另一些报告则将其排除在外。

生成这种“中间数据”的技术本身并无问题。它们能有效地将数据最小化。根据用例需求,它们将彼此关联,发挥用处。但切记,它们无法生成真正的匿名数据,它们的机制无法保证阻止再识别,所以将其生成的数据称为“匿名数据”是一种误导。

匿名和“匿名”

假名化和去识别化确实能在某些方面保护数据隐私。但根据GDPR的定义,它们无法生成匿名数据。

图源:unsplash

假名化技术从数据中删除或替换直接个人标识码,例如,从数据集中删除所有名称和电子邮件,你无法直接从假名数据中识别某人,不过可以间接识别。实际上,剩余数据通常会保留间接识别码,组合这些信息后,就能创建直接识别码,如出生日期,邮编,性别等。

就此而言,假名化在GDPR框架中有一个单独定义:“……以以下方式处理个人数据,即在不使用附加信息的情况下,数据不再可以归因于特定数据主体”。与匿名数据相反,假名数据符合GDPR的要求。

去识别化技术从数据中去除直接和间接的个人身份识别码。理论上,去识别化数据和匿名化数据之间的界限很简单。最新消息表明:有技术可保障永远无法再识别数据。这是一种“疑罪从无”的情况,去识别化数据在未识别之前是匿名的。每当专家设法重新识别那些最初未识别出的数据时,他们都进一步推动了发展。

数据重新识别不断重新定义匿名

上述机制类型对隐私保护没有同等效力,因此如何处理这些数据很重要。公司定期发布或出售他们声称“匿名”的数据,但当他们使用的方法不能保证“匿名”时,就会带来隐患。

众多事件表明,假名化数据这种隐私保护机制仍有缺陷。数据中的间接识别码会带来巨大的再识别风险。随着可用数据量的增长,相互参照数据集的机会也在增加:

·        1990年,麻省理工学院的研究生从去识别化医疗数据中重新确认了马萨诸塞州州长的身份,她将这些信息与公用人口普查数据相互参照来确定患者身份。

·        2006年,作为研究计划的一部分,美国在线公司(AOL)共享了去识别化搜索数据,研究人员能够将搜索查询与背后的个人联系起来。

·        2009年,作为比赛的一部分,网飞(Netflix)发布了一个匿名电影评级数据集,德克萨斯州的研究人员成功重新识别了用户。

·        同是2009年,研究人员仅利用公开信息就能预测出一个人的社会保险号。

最近研究表明,去识别化数据实际上可以被重新识别。比利时新鲁汶大学和伦敦帝国理工学院的研究人员发现:“使用15个人口统计属性,在任何数据集中,99.98%的美国人都能被正确地重新识别。”

另一项针对匿名手机数据的研究表明:“四个时空点就足以唯一识别95%的个体用户”。

技术日益进步,更多的数据正在被创建,研究人员正在努力划定去识别化数据和匿名数据之间的界限。2017年,研究人员发表论文称:“网络浏览历史只能通过公开数据链接到社交媒体上的个人资料。”

另一个令人担忧的问题是个人资料的泄露,越来越多的个人信息遭到泄露。ForgeRock消费者身份泄露报告预测,2020年的信息泄露数量将超过去年,仅美国,2020年第一季度就有超过16亿的客户记录被泄露。

分开处理的数据集无法重新识别,但与泄露数据结合起来,它会造成更大的威胁。哈佛大学的学生能够利用泄露的数据重新识别去识别化数据。

图源:unsplash

总之,那些我们所认为的“匿名数据”往往并不是真正的匿名数据。并非所有的数据净化方法都会生成真正的匿名数据。事事都各有优点,但没有一种能提供与匿名同等级别的隐私。随着数据量的不断增长,创建真正的匿名数据也越来越难,公司发布潜在可重新识别的个人数据的风险也在增加。

推荐阅读专题

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组:郝岩君、朱怡

相关链接:

https://www.kdnuggets.com/2020/08/anonymous-anonymized-data.html

如转载,请后台留言,遵守转载规范

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

​你不是真正的“匿名”:如何划定匿名数据和去识别化数据?相关推荐

  1. 匿名内部类和匿名类_匿名schanonymous

    匿名内部类和匿名类 Everybody loves a fad. You can pinpoint someone's generation better than carbon dating by ...

  2. java中抽象类的匿名子类和匿名对象

    package com.atguigu.com;/** **抽象类的匿名子类和匿名对象*** * * */public class PeronTest {public static void main ...

  3. C语言 匿名联合体和匿名结构体

    C语言 匿名联合体和匿名结构体 匿名联合体和匿名结构体顾名思义,就是没有名字的联合体和结构体,没有名字哪怎么用?拿来用? 在嵌入式数据通信里面,大部分都是使用联合体,将有实际意义的结构体和字节数组互相 ...

  4. C#泛型委托,匿名方法,匿名类

    C#泛型委托,匿名方法,匿名类 class Test{delegate K proxy<T, K>(T t, K k); //泛型委托,注意返回值的写法,返回值的类型K先于其声明proxy ...

  5. C# 匿名委托、匿名方法、匿名对象、Lambda表达式

    C# 匿名委托.匿名方法.匿名对象.Lambda表达式 原文:C# 匿名委托.匿名方法.匿名对象.Lambda表达式 一.匿名类型 可通过使用 new 运算符和对象初始值创建匿名类型. 示例: var ...

  6. c++11标准:匿名函数(匿名表达式)lambda

    lambda: C++11提供了对匿名函数的支持,称为Lambda函数(也叫Lambda表达式). Lambda表达式具体形式如下: 匿名函数定义/匿名表达式声明:[capture](paramete ...

  7. java匿名类和匿名对象及this的其他用法

    /* 匿名内部类:就是内部类的简写格式. 必须前提:内部类必须继承或者实现一个类或者接口. 匿名内部类其实就是一个匿名 子类对象. 格式:new 父类对象 or 接口(){子类内容:(覆盖父类的, 而 ...

  8. CSS 匿名文本和匿名框

    一个元素可以按照HTML元素的嵌套方式包含其他元素,大多数情况下,框都是由显式定义的元素所生成的. 然而,当把文本直接添加到一个块容器元素中(不是包含在行内元素)时,即便没有为这些文本显式定义元素,它 ...

  9. python匿名函数_Python匿名函数

    python匿名函数 Welcome to Python anonymous function tutorial. In the previous tutorial we learned about ...

  10. .NET中那些所谓的新语法之二:匿名类、匿名方法与扩展方法

    开篇:在上一篇中,我们了解了自动属性.隐式类型.自动初始化器等所谓的新语法,这一篇我们继续征程,看看匿名类.匿名方法以及常用的扩展方法.虽然,都是很常见的东西,但是未必我们都明白其中蕴含的奥妙.所以, ...

最新文章

  1. Minecraft Forge编程入门一 “环境搭建”
  2. java插入flash_怎样可以把flash添加到Java应用程序
  3. MLP回归,无需卷积、自注意力,纯多层感知机视觉架构媲美CNN、ViT
  4. Spring 提供几种配置方式来设置元数据?
  5. 数据库建立索引、数据表创建规则、备用字段 / 保留字段 / 预留字段
  6. 十大有用但又偏执的Java编程技术
  7. java的static类_java中staticclass静态类详解
  8. c语言指针灵活性管窥
  9. mysql optimizer mrr_MySQL优化器功能开关optimizer_switch
  10. 一个叫花子的故事(十个人看完十个人开悟)
  11. 好好把握人生的12种财富
  12. linux查cpu命令4可以选择哪些运动,Linux 查看cpu 信息的命令及简单实例
  13. android 设置drawable大小,在Android中调整Drawable大小
  14. 号外号外:Exchange2010SP2已经发布
  15. 基于IS-LM模型的宏观经济政策成效分析:弹性视角
  16. rufus 装windows11 系统 z790 msi 主板
  17. 十年SEO风云巨变,还有多少站长在坚持
  18. Python爬虫实战(3):安居客房产经纪人信息采集
  19. 手把手教你从头开始搭建友善之臂ARM-tiny4412开发环境(史上最详细!!)
  20. 数据迁移的几种方式 - MySQL数据库

热门文章

  1. dylib动态库注入及重签名打包
  2. 在windows系统上搭建CTS测试环境过程记录
  3. Linux学习(1):在服务器上与团队共享文件,workgroup这个用户组相关操作命令
  4. 字符编码那些事--彻底理解掌握编码知识
  5. AUTOSAR Network Wakeup(Can) Configuration
  6. opencv_python阈值处理
  7. css中的容器坍塌问题
  8. 听说掌握这些利器,运维就能运筹帷幄
  9. SequoiaDB分布式数据库2021.12月刊
  10. erlang ets写入mysql_Erlang 进程字典 VS ETS