2.5 在标识符中嵌入信息:不推荐
大多数标识符不是纯粹的随机数,它们通常含有一些可由熟悉标识系统的人解释的嵌入信息。例如,标识符中可以嵌入姓的前三个字母,同样,标识符中也可以嵌入出生年份的最后两位数字。标识符中常常嵌有这种经“知情人”核实的“赤裸裸”的真实信息。例如,一个9位数社会安全号码分为:前三位数表示区号,紧接着的两位数表示群组编号,最后四位数表示序列号。借助社会安全号码,人们可以根据经验在社保编码系统里窥探到大量个人信息,并且可以通过排除子序列的存在来确定是否存在数字伪造。
标识符里那些看似无关紧要的信息有时候会成为发现个人隐私的重要依据。举个例子,假设某个零售商店会给每个在店里购物的客户提供一个唯一编号,例如2010-3518582,这个编号表示交易是在2010年发生的。由于每个编号都是唯一的,且号码本身对交易只字未提,人们一般会理所当然地觉得这样的编号不会透露任何交易信息。
然而事实是,交易编号已经告诉你不少信息,比如编号中的2010表明购买的年份。如果编号是2010-0000001,那么你可以放心地说,这笔销售交易发生在2010年第一个工作日。如果给你任意一个2010年的交易编号,可以很容易通过计算得出具体的交易日期,只需用当年的最后一个交易编号的后缀数字除以待计算的交易编号后缀数字,再乘以365,此时得到的是自第一笔交易发生算起的交易天数,再映射到具体日期即可。
你觉得这没什么好说的?请考虑这种情况,总统身边的一名重要工作人员在2005年2月15日到华盛顿特区的医院进行了肝活检,你想知道活检的结果。于是你访问了相关网站,在这些网站上可以查询到2000~2010年去标识化的医院病理档案,也就是说档案不涉及个人身份信息,但是档案编号是依据社保号排序的。使用前面的策略,首先收集所有与2005年2月15日相关的活检资料,发现在这些活检中,只有三个肝活检。这三个活检,只有一个人的性别和年龄与总统的工作人员相匹配。那么,显然对应的报告提供了此工作人员的诊断结果。无需获得任何个人身份信息,发现一些非常私人的信息是完全可以实现的。
由字母、数字构成的标识符字符串,本不应该存在暴露患者身份信息的危险。病人的姓名、出生日期和社会安全号码组合而成的标识符也可以用来窃取个人的身份。最安全的标识符应该是不包含任何信息的随机字符串。

《大数据原理:复杂信息的准备、共享和分析》一一2.5 在标识符中嵌入信息:不推荐...相关推荐

  1. 《大数据原理与应用》林子雨:一. 大数据基础

    <大数据原理与应用>林子雨:一. 大数据基础 思维导图 PS:边学边记 重点: 理解大数据的概念及其处理架构Hadoop 难点: 掌握大数据处理架构Hadoop的安装与使用方法 第1章 大 ...

  2. 加快大数据战略布局 合力推动发展共享数字中国

    为了占据科学大数据制高点,世界主要大国已把科学大数据纳入到国家战略并开始重点部署实施.2012年美国政府宣布启动"大数据研究与开发计划". 英国发布<英国数据能力发展战略规划 ...

  3. 大数据的未来在于开放与共享

    21世纪,互联网.移动互联网.3D打印.人工智能--正如摩尔定律所言,人类的科技革新发展迅速,其中大数据的发展潜力最被看好.大数据的概念非常火爆,但少有人真正理解大数据的核心内容,一个普遍而且严重的误 ...

  4. 带你走进微博背后的大数据原理:微博推荐算法

    在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法.有这样一些问题:推荐系统适用哪些场景?用来解决什么问题.具有怎样的价值?效果如何衡量? 推荐系统诞生很早,但真正被大家所重视,缘起于以" ...

  5. Python + 大数据 - 数仓实战之智能电商分析平台

    Python + 大数据 - 数仓实战之智能电商分析平台 1. 项目架构 2. 数据仓库维度模型设计-事实表 事实表的特征:表里没有存放实际的内容,他是一堆主键的集合,这些ID分别能对应到维度表中的一 ...

  6. 续谈大数据之足球盘口赔率水位分析思路及其实现利器

    再谈大数据之足球盘口赔率水位分析的思路与神准预测技巧_sundayhost的博客-CSDN博客_大数据分析赔率这两天看到CSDN上一篇同行写的有趣的话题,题目为:浅谈大数据之足球盘口赔率水位分析的思路 ...

  7. 再谈大数据之足球盘口赔率水位分析的思路与神准预测技巧

    这两天看到CSDN上一篇同行写的有趣的话题,题目为: 浅谈大数据之足球盘口赔率水位分析的思路与神准预测技巧(一)_linwei_hello的专栏-CSDN博客 因为算是同行文章,本人也做足球大数据分析 ...

  8. 三谈大数据之足球盘口赔率水位分析思路及其实现利器

    前两期导航: 再谈大数据之足球盘口赔率水位分析的思路与神准预测技巧_sundayhost的博客-CSDN博客_欧赔水位如何看 再谈大数据之足球盘口赔率水位分析的思路与神准预测技巧_sundayhost ...

  9. 《大数据原理:复杂信息的准备、共享和分析》一一

    1.5 术语提取 知道它叫什么与知道它是什么,差别很大. ―Richard Feynman 我最喜欢的电影之一是恶搞版<巴斯克维尔猎犬>,主演有饰演福尔摩斯的Peter Cooke和饰演他 ...

最新文章

  1. 对话功率谱与自相关函数
  2. Android开发之程序员必须要懂得Android的重要设计理念
  3. 代理(Proxy)模式
  4. 二维数组数组名的使用
  5. 【批处理】shift用法举例
  6. Flask项目--爱家租房项目结构图
  7. mysql百万数据根据索引查询_mysql创建多列索引查询百万表数据的性能优化经验分享...
  8. 网络请求get和post的区别
  9. 自己动手开发编译器(十)miniSharp语法分析器
  10. 计算机病毒教学评课,计算机病毒评课稿.docx
  11. First Missing Positive missing number
  12. Office 2007免序列号安装的ISO制作方法
  13. mysql 表情符串_mysql支持emoji表情符存储
  14. 教你去掉 U盘写保护
  15. Java核心类库之(类加载器、反射机制、模块化)
  16. python中,ttk.Combobox的background、foreground和font属性的设置问题
  17. 《一篇文章全吃透》—YYModel的使用技巧
  18. python爬虫精选11集(selenium进阶总结【selenium的cookies处理、ip代理、useragent替换】)
  19. Java简单投票系统
  20. 射线法判断点是否在多边形内-JAVA

热门文章

  1. java ee 上传文件_17.《JavaEE 学习笔记》Servlet 上传文件
  2. 反向Z(Reversed-Z)的深度缓冲原理
  3. 坐标变换过程(vertex transformation)
  4. python类和实例化
  5. Python打包EXE神器 pyinstaller
  6. (五)DOM4j进行XML文件的解析及生成
  7. 容器的综合应用:文本查询程序
  8. 基于Element ui 实现输入框只能输入数字并支持千分位
  9. CLR基础,CLR运行过程,使用dos命令创建、编译、运行C#文件,查看IL代码
  10. What Are You Talking About HDU1075