前两天,Tectonix出了个视频,展示了春假期间迈阿密海滩的人群,几天内是如何散布到全美国的。如此大规模位置信息的追踪,可以说是疫情防控的定海神针。但是,相关隐私问题的来龙去脉和行业现状,也需要深入理解。

首先,我们要正视一个现实:今天的互联网服务,已经深深植根于用户数据,并且创造了巨大价值。如果一定要对用户数据使用层层设防,无异于在倡导大家不用电器一样荒唐。

为了严控隐私数据收集和使用,欧盟颁布了号称“史上最严格隐私保护”的GDPR标准。据估算,严格执行这个标准的话,实施成本可能就要上百万美金,小公司其实无法践行。用力这么猛,真的能解决问题么?

依我看,隐私问题如同大禹治水,宜疏不宜堵,主要靠技术而非法规解决。只有在中美这种互联网产业高度发达的市场,才能产生足以对抗隐私侵犯的技术。实际上,这方面的法规和技术能力,近两年都在逐渐清晰化。只是由于中国互联网早期的粗犷发展,大家出于惯性而疑虑重重。

当然,部分用户隐私问题,确实可以通过法规约束来解决或改善。

您肯定用过这种软件,像忠实粉丝一样,疯狂地要求授权,痴迷地收集着你的个人数据:办公软件要GPS,天气预报要摄像头,不论谁都要麦克风。这都是些什么操作?难道用软件还得面带微笑、文明表达,要不然就算不上优秀用户,需要定点清除么?显然,这些明显超出使用范围的过度授权,都是对用户隐私的侵犯。

对于提供综合性互联网服务的大平台而言,获得的数据自然更加多维,所生成的用户画像也更精准一些,不过在合规基础上的数据收集也只是为了让广告的投放更有价值,不必太过担心。但是,相比对平台可能存在的数据过度收集问题,我们更应该警惕的是大数据黑产。

卖数据,并不是给广告主几个兴趣标签这么简单。怕的是把地址和电话给无良商家,直接往你家里发货到付款的快递。你糊里糊涂收完了打开一看,原来就是块泡沫塑料!这可是真金白银的损失了。

这引出了隐私领域的一个重要概念:像地址、电话、邮箱这些能直接找到你的信息,泄露给陌生人风险很大。这些信息,叫做“个人可定位信息(Personal Identifiable Information,PII)”。

近年来法规趋严,从主观意图上看,PII数据的泄露风险已经很低了。毕竟,掌握大量PII信息的都是有一定规模的公司。而如今,卖五十条用户数据就要负刑事责任,为了这点小钱铤而走险的公司,恐怕早就倒闭了。

那么,这些信息是怎么流出来的呢?多数情况下,是因为内部人员的泄露。显然,这里有技术管理的问题。

研发人员因为统计和建模的需要,总要接触到用户数据,这就不可避免有泄漏的风险。上回,某公司的用户电话和地址泄露,不就是技术往外卖的么?

怎么办呢?可以建立这样的数据使用框架:产品技术人员只能访问一小部分采样用户数据,用以调试程序;而全量数据上的分析,则在与开发人员隔离的账号上提交执行。这样,就可以有效避免内部人员批量获得用户数据。

实际上,以欧盟的GDPR为代表的隐私保护法规,其主要内容除了在管理流程上做文章,对数据范围限定的部分主要聚焦在PII。

那么除了PII以外的数据,又能带来多大的隐私风险呢?其实,文章开始的例子已经给了我们答案:想想看,只要给出你的某个熟人几天的数据轨迹,即使像是一些日常人际交往、外出旅行等非敏感信息,以你对他的了解,是不是也很容易认出他是谁?

这也就意味着,仅靠管理权限和限定敏感数据的收集是不够的,我们还需要从技术手段进行有效的个人信息保护。

我们之所以能认识到这样的风险,是因为Netflix的推荐算法大赛。那次比赛的任务是:根据某用户对看过电影的评分,预测他对某一部新电影的评分。当然,在数据集里,用户的PII信息都是被抹去了的。

无巧不成书,有位参赛者在浏览数据时,无意中翻到一条记录。看此人的观影记录和评价,这不就是某某同事嘛!为什么这么肯定?因为他们俩经常交流电影,结合观影时间、片单和评价,正好能和这位某某同事一一呼应上。

于是,这位参赛者定睛又一看,同事的记录里还有些同性恋题材的片子,是从未提起过的。显然,这个数据集以始料未及的方式,泄露了他的隐私。该同事得知后怒不可遏,一纸诉状将Netflix告上了法庭。于是,推荐算法大赛只办了一届,就寿终正寝了·。

《纽约时报》在2010年3月16日的《How Privacy Vanishes Online》文章报道

看来,即使不是位置信息,由于人的行为千差万别,一旦通过行为数据关联找到某个熟人,就可以发现他的更多秘密,这称为行为数据引起的去匿名化风险。

互联网上的个体行为数据,即使不是敏感的PII信息,在公开或交换时也要相当谨慎。

既然能通过行为数据去匿名化,那我们能不能空手套白狼呢?比如我们知道一个人的少量信息,然后像滚雪球一样,这边撸点儿,那边撸点儿,最后就能把这个用户查个底儿掉。

实际上这是可以实现的。具体怎么做呢?其实,玄机就在很多广告平台都提供的受众分析功能里。

比方说,我想知道某用户A的性别,可以先指定一个十人用户集,在平台拉出男性其占比是60%;然后,把A加入用户集,再查出男性占比是54.5%;两个比例做简单计算,是不是就可以知道A是女性了?

这叫差分隐私攻击,它是通过平台提供的聚合数据分析做差分运算,探知某个具体用户的信息。但兵来将挡水来土掩,大企业也有自己的防御方案,基本思想是在数据上加扰动,让差分攻击失效。

就我了解的案例,腾讯广告在提供受众分析时,就实现了对抗差分隐私攻击的方案:在给广告主提供的受众分析上,系统会加上一定的随机扰动,这样一来,简单直接的差分就无效了。

那我多拉几次数据取平均,不就可以去掉随机扰动了?没错。所以,系统还要让这个随机扰动,在一定时间内保持相对稳定。其中的技术细节很多,就不赘述了。

对于设备制造商来说,也可以在数据获取到云端时,实现差分隐私保护。这样一来,云端再有多么复杂的数据应用和交换,风险也都不大了。苹果手机从iOS10起,就引入了这样的方案。

总之,差分隐私问题要求我们,即使在提供人群上的聚合数据时,也需要精心设计算法,否则就如同裸奔。不过不用太担心,因为现在拥有大规模数据的平台,已经有了这方面的考虑和实践方案,否则不可能走得远。

有人说,只要有数据交换,我作为普通用户就还是不放心。那么,能不能根本不收集数据,又能完成系统必须的建模任务呢?这引出了一个有趣的新技术方向——联邦学习(Federated Learning)。

举个例子,输入法要根据用户的实际输入数据优化模型,如果不把数据收集到云端,能不能做呢?2017年,谷歌的研究员发表文章“Federated Learning :Challenges, Methods and Future Directions”,提出了这个研究方向。简单地理解概念,就是把模型下发到各个数据拥有方,它们分别更新以后,再到一个聚合方,同步成新的模型。整个流程如下图所示:

(图片来自“Multi-Institutional Deep Learning Modeling Without Sharing Patient Data: A Feasibility Study on Brain Tumor Segmentation”)

也就是说,不再需要从各个数据拥有方那里收集和交换数据,也可以完成建模的任务!当然,联邦学习具体的实现技术,以及适用于哪些场景,还是相当前沿的研究课题。如果想深入了解产业界这方面的问题和进展,建议大家参考微众银行的《联邦学习白皮书1.0》。

显然,利用联邦学习技术,可以在不将用户设备数据同步到云端的前提下,完成一些建模任务。比如,谷歌在输入法的“下一词预测”问题中,采用了此方案,并且取得了优于服务器端集中训练的性能。

联邦学习除了用于用户和平台之间的数据交换,还可以用于几家公司合作时,各自数据不便外流,又要完成联合建模的场景。最典型的例子,是相似人群拓展(Look-alike)问题:广告主甲有自己的种子用户,希望利用广告平台乙,拓展出相似人群,定向投放广告。

由于去匿名化风险,乙不会把用户数据交给甲;而甲考虑到信息安全或是法规限制(比如银行业),有时也不能把数据交给乙。显然,采用联邦学习的方法,也可以实现这一建模任务。

最近,微众银行与腾讯广告RTA有一个应用案例,里面就提到了联邦学习技术。我们有理由期待,这样既保护了各方数据安全,又可以基于用户数据进行建模的方案,会逐渐成为业界的显学,而用户的隐私保护问题,最终会被不断进击的技术所解决。

另外,蚂蚁金服也在致力解决数据孤岛的问题。在其《共享学习:蚂蚁金服数据孤岛解决方案》一文中,该项技术被称为共享机器学习(Shared Machine Learning)。近来,蚂蚁金服还在IEEE(电气和电子工程师协会)等标准化组织正式立项《共享学习系统技术框架及要求》,参与了国际标准的制定。

这么看来,隐私保护这张试卷,对欧盟的职业政客们而言,有点超纲了。因为这里除了加减法,还有微积分。如果对技术复杂性考虑不够,那就好比小学二年级毕业,就要强行给出全部标准答案。最终的唯一结果,是让互联网创业成本徒增。反而是中国互联网市场在用户和数据规模的基础上,更有可能发展出成熟的隐私保护技术,对这一点,我深信不疑。


我是@北冥乘海生,想吸收更多负能量,请大家关注我的公众号“计算广告”(Comp_Ad)和下面的知乎专栏:

隐私保护,在法规以外更依赖技术相关推荐

  1. 清华系创企RealAI:独家“隐私保护机器学习”技术,全球首款编译级产品

    原创:谭婧   以侵犯隐私的方式处理数据,已属非法行为,违法必究,犯罪分子,瑟瑟发抖. 但数据,作为人工智能(AI)的"石油",不能简单粗暴一刀切,如何加高数据安全的"围 ...

  2. 驱动AI产业“第二增长曲线”,清华系RealAI发布首个企业级隐私保护机器学习平台与升级版AI模型杀毒软件

    12月9日,由清华大学人工智能研究院.北京智源人工智能研究院.北京瑞莱智慧科技有限公司联合主办的"2020第三代人工智能产业论坛暨瑞莱智慧RealAI战略发布会"在北京召开.清华大 ...

  3. 面向医疗数据的差分隐私保护

    第一章 差分隐私保护 1.1 差分隐私概述 差分隐私是Dwork在2006年提出的一种针对敏感数据集发布导致的隐私泄露问题的隐私保护模型.基于这一模型,处理后的数据集对任意一个记录的变化是不敏感的,因 ...

  4. 从入学隐私声明看美国学生隐私保护

    引子:两份入学隐私声明 近日,笔者从一位朋友那里,看到了美国东部某小学Kindergarten(相当于幼儿园大班/学前班)的入学注册文件,其中一份<家长声明>引起了笔者的注意. 笔者将声明 ...

  5. 美国主机网站建设中的安全性和隐私保护措施

    随着互联网的迅猛发展,越来越多的企业和个人选择在网上建立自己的网站.而对于选择美国主机的用户来说,网站的安全性和隐私保护是非常重要的考虑因素之一.在美国主机网站建设中,有一系列的安全性和隐私保护措施被 ...

  6. 第二届2050大会新生论坛:Conflux研究总监杨光畅谈隐私保护

    4月27日,Conflux研究总监杨光受邀参加由杭州云栖科技创新基金会.阿里云创始人王坚博士,与众多志愿者共同发起的,面向全世界爱科技的年轻人举办的非营利活动2050大会中由巴比特和锌财经合办的&qu ...

  7. 《用户服务协议及隐私保护政策》

    ** <用户服务协议及隐私保护政策> ** 为了更好地为您提供服务,请您仔细阅读本"用户服务协议及隐私保护政策"(以下简称 "本协议").在您开始使 ...

  8. 蚂蚁区块链第7课 零知识证明隐私保护原理和蚂蚁BAAS接口调用实现

    1,摘要 本文试图普及隐私保护和零知识证明的相关技术知识,尝试使用更简单的描述来理解复杂的数学算法和技术原理.同时,也提供了蚂蚁区块链已经实现的隐私保护的接口函数说明. 本文涉及的专业知识有零知识证明 ...

  9. 人工智能隐私保护:如何在保护隐私的同时保护数据的可维护性和可验证性

    作者:禅与计算机程序设计艺术 <人工智能隐私保护:如何在保护隐私的同时保护数据的可维护性和可验证性> 引言 1.1. 背景介绍 随着人工智能技术的快速发展,我们越来越依赖各种 AI 应用来 ...

最新文章

  1. 查看git是否安装_Java程序员的必备Linux运维技能-安装git
  2. laravel 5.5 的相关字符串辅助函数
  3. 上下文 及 执行上下文
  4. http://www.ybtsoft.com/
  5. 输出多个重复字符或字符串
  6. Win10修改管理员用户名(注册表深度完全修改更改c盘下的用户名)
  7. java oom-killer_与Linux OOM-killer的第一次亲密接触
  8. python底层源码_大师兄的Python机器学习笔记:统计学基础之底层代码实现(一)...
  9. centOS6.9下安装Redis
  10. ps制作计算机考试证件照,如何通过PS制作一寸证件照(超详细流程)?
  11. Python----chardet模块的使用方法
  12. 矢量网络分析仪(矢网)的校准
  13. kodi 媒体库插件_如何使用Kodi管理媒体
  14. Android Camera HAL3 - 开篇词
  15. DB2活动日志满的原因、分析、处理与避免
  16. AI+BI,悬在云上的梦想,难以落地的应用
  17. FPGA 中的有符号数乘法
  18. android 2.3 StrictMode 使用
  19. 上万条个性签名与个性网名ACCESS数据库
  20. 选择与放弃决定着你的生命

热门文章

  1. 5g上行速率怎么提升_5G网络室内覆盖系统的解决方案解析
  2. rabbitmq系列(一)初识rabbitmq
  3. JZOJ 3053 【NOIP2012模拟10.25】旅行
  4. 动态的GIF图怎么在电脑上制作
  5. 《问道》1月28日三区组体验1.43新版
  6. 灵峰服务器在线人数,《问道》4月2日开启电信新服吴越灵峰
  7. 北邮和西电真的厉害,看到许多985的喊0 offer,同时也看到一大堆北邮西电的人秀出高薪offer...
  8. python加载图片并显示_python读取目录下所有的jpg文件,并显示第一张图片的示例...
  9. Flutter 事件分发
  10. 【Flutter】二十五、Flutter的事件处理