大数据文摘出品

作者:易琬玉

一包垃圾值得被快递吗?

当然,一袋普通的垃圾肯定不值得,但是可以暴露出某个重要人物信息的垃圾就需要小心处理,再或者,对于一个被垃圾分类逼疯的上海市民来说,答案也可能不同。

本周一,在最新一期“智源-AI Time”沙龙中,几位嘉宾用“垃圾值不值得快递取决于这包所谓垃圾的价值”类比了“数据是否值得被加密后共享”这个问题。

如何处理数据共享与隐私保护之间的矛盾早已成为了当前数据圈的热议话题,本期“智源-AI Time”邀请到了明略科技集团首席科学家吴信东教授、清华大学计算机系朱小燕教授、清华大学交叉信息研究院徐葳副教授,以及微众银行人工智能部副总经理吴海山,共同论道了“数据共享开放与隐私保护”这个似乎高深,又与每个人息息相关的话题。

数据开放的三大必要条件

我们共享位置信息以便预约车的司机找到自己,也暴露了自己的行踪;用浏览纪录调教APP获得更合心意的推荐,也让个人喜好一览无余。开放个人数据的同时,我们冒着暴露隐私的危险,也享受着它带来的便利。

有统计数据显示,每天全世界会上传5亿张图片,每分钟就有20小时的视频被分享,我们整个人类文明所产生的全部数据中有90%是过去两年所产生的。

有人说,发挥数据的价值,主要在流通。的确,数据共享可以使更多的人充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用,而把精力重点放在开发新的应用程序及系统集成上。但是,要真的让数据流通起来,需要以下这些必要条件:

数据资源的标准化

数据开放共享,首先要做到的就是数据资源的标准化。我们需要解决大规模的、来自多个来源的、异构的数据集成问题,实现海量多元异构数据源的统一管理。

数据质量

数据质量是数据开放共享中需要解决的关键问题。比如,对于数据的发布者来说的话,怎么样来保证开放的数据没有敏感内容,怎么样保证这个数据是可信的?自动的评估和控制数据质量,是一个关键指标。

开放和共享不等于免费

清华大学计算机系朱小燕教授提到“开放和共享不等于免费”,分配权益,其实也是数据流通的基本动力,必须要保证数据的拥有者,持有者和开发者,都能有满意的权益分配。

清华大学计算机系朱小燕教授

数据共享和开放在产业界的趋势和挑战

根据不同的用法,数据有不同的治理和整理方法。那些使用数据的人,未必是生产数据的人。

清华大学交叉信息研究院徐葳副教授提到,“来自业内的数据可能不如分布在地方政府手里的数据多,但是很多人会明显觉得BAT似乎把数据用的更好。那是因为业内特定领域已经打通了数据并且形成了闭环,他们更清楚数据应该怎么使用,理解根据这些使用需要采集怎样的数据、怎样去对数据进行清洗。”

清华大学交叉信息研究院徐葳副教授

的确,数据必须要流动起来它才能产生价值,否则的话它就是一个孤岛,没有什么太大的价值。数据共享,也需要一个前后背景,以学术研究还是产业应用为前提进行共享,这两者的管理治理完全不一样。

以金融行业为例,因为金融行业非常容易出现不合规行为,所以数据的应用和管控会更加严格。比如,如果用来投资,被标为非公开信息的数据会被禁止使用。而关于个人用户隐私层面的管控可能更严,在金融领域里面,有一种“另类数据”。它不是类似传统银行财报这样公开的信息,而是一种新型的数据,比如手机上的GPS数据、网站APP下载的数据。这些也可以用来分析一个公司或者一个国家经济层面的运转程度。

现在越来越多的研究层面开始关注,包含用户信息的数据如何在技术场景里使用。为了解决一个工业界的问题,需要训练模型,那如何在不共享数据的情况下进行机器学习呢?

微众银行人工智能部副总经理吴海山举例解释,“比如用数据去分析用户贷款违约的概率,可能需要A公司电商的数据、B公司社交的数据,但两家公司不可能放心地把数据放到我的平台上……在这种情况下,为了在数据不共享的情况下,依然能够训练机器学习模型,我们首席人工智能专家杨强教授提出了联邦学习,它是一种新型的,能够在保护用户隐私和数据共享的前提下,以一个合法合规的方式去使用数据、训练模型、解决问题,我们觉得这个可能是更加本质的一个问题。”

微众银行人工智能部副总经理吴海山

"离开数据服务谈数据隐私都是耍流氓"

机器学习需要大量数据,数据的共享无疑是学界和业界共同期待的,但是数据的共享也离不开对于数据和隐私的保护。

对于用户隐私的保护,几位专家有不同的看法。徐葳教授认为隐私是一种个人感受;吴信东教授认为企业的隐私就是其核心竞争力。

而吴海山先生则认为隐私是一种资产,“我们去看病的时候,恨不得把所有的信息都告诉医生,我们买房子贷款的时候,恨不得把以往所有的信息都给银行看,才能让它给你贷款。这个时候隐私已经作为一种资产,有一个隐含的定价前提。你得到更好的金融服务,得到更好的企业服务,个性化服务。所以谈任何个人隐私、企业隐私,得到的服务和隐私之间有一个平衡,这是在讨论隐私之前需要关注的问题。”

数据加密技术大盘点

大数据生命周期分为数据发布、数据储存、分析和挖掘、数据使用,在这些环节中都存在数据隐私保护的问题。加密是保护数据的一个手段,但是加密之后的数据无法使用。现在的技术需要保证数据在流通使用过程中也不造成泄露,也就是限制数据的使用。

在沙龙现场,几位嘉宾也探讨了目前几种常见的数据加密技术。

差分隐私

差分隐私其实是一种度量方式。通过一群人里算出来的模型,和去除A算出来的是一样的,这样就无从判断A是否还在这群人中,就起到保护A隐私的作用。这个方法对于保护“泯然众人”的数据是有用的,但是却很难保护那些“很个性”的数据,因为这些“个性”的数据对于整体数据的计算印象很大。

多方安全计算

多方安全计算(MPC)是解决一组互不信任的参与方之间保护隐私的协同计算问题,MPC要确保输入的独立性,计算的正确性,同时不泄露各输入值给参与计算的其他成员。主要是针对无可信第三方的情况下,如何安全地计算一个约定函数的问题,在电子选举、电子投票、电子拍卖、秘密共享、门限签名等场景中有着重要的作用。

K匿名

k-匿名技术是1998 年由Samarati和Sweeney提出的,要求发布的数据中存在一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。明略科技集团首席科学家吴信东教授举例解释,“比如,为了避免报警者受到报复,警察记录的是方圆多少距离的人打来的报警电话,通过对位置信息的泛化,保护了报警者的位置信息,但同时也会降低数据的可用性。可能警察记录是五公里以内的人打了电话,但是警察自己也找不到那个人是谁。”

明略科技集团首席科学家吴信东教授

什么样的数据值得保护?数据隐私保护技术就像是顺丰快递,要看寄送的东西值不值得快递费用。评估数据的价值,是比数据保护更重要的事情。数据保护问题的本质就在于我们如何对数据进行定价。或许有人出价一万买你的隐私,你会断然拒绝;但如果是一亿呢?离开数据的定价、数据流动产生的价值和通过数据得到的服务去讨论数据隐私,其实都是比较片面的。

隐私保护的政策问题

2018年5月25日,欧洲联盟出台《通用数据保护条例》(GDPR General Data Protection Regulation)。这是全球目前最严格的数据保护条例。其最高的一笔罚单给了英国航空公司,罚金数额为1.8339亿英镑(约合15.8亿元人民币)。

国际方面对于数据保护的政策愈发严格,中国在保护个人信息方面也发布了推荐性国家标准《信息安全技术个人信息安全规范》,可以说在数据隐私保护规定方面,中国走在了亚洲前列。这项规范也参考了欧盟的《通用数据保护条例》,ISO29000系列等国际范围内的个人信息保护法律法规及标准,同时,从国内主要存在的个人信息保护现状和问题出发制定标准,更侧重标准的实用性。

欧盟《通用数据保护条例》(即GDPR)的制定确实在一定程度上保护了数据,但是也阻碍了欧洲人工智能产业的发展。而且,因为GDPR罚款高达公司全球营业额的4%,这对传统产业的企业很不友好、也不利于小公司的生存和发展。

从政策制定角度来讲,隐私保护政策需要可操作性以及合理合法的指导,让受众接受这条政策并积极施行。从经济学角度来讲,隐私保护政策会提高数据的价值,毕竟数据本身就是一种资产。

更严的隐私无疑会增加数据的成本,让整个行业尤其是小公司生存更加困难;更开放的数据共享,只会让大众和媒体放大数据隐私的侵犯,反而忘记数据共享带来的价值。我们需要的是灵活的隐私保护和数据共享方案。

AI Time下期预告 无人驾驶即将来临还是遥遥无期

时间:7月26日15:00-17:00

地点:海淀区中关村东路搜狐大厦二楼1911(清华科技园)

本次AI Time我们邀请到重量级嘉宾:

楼天城:小马智行联合创始人兼CTO,计算机编程界公认的领军人物(比赛ID为“ACRush”),百度历史上最年轻的T10工程师。

邓志东:清华大学人工智能研究院视觉智能研究中心主任,清华大学计算机系教授,博士生导师。

另外会有神秘嘉宾加入哦,扫描小程序二维码即可免费报名。

AI Time由一群关注人工智能发展的青年人创办,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,展开辩论,碰撞思想,打造人工智能知识分享的策源地和聚集地。大数据文摘作为合作媒体将长期合作报道。

感兴趣的小伙伴还可以点击下方链接,查看前三期的内容:

  • 清华张钹院士、人大文继荣院长激情辩论:人类对AI的爱痴忧惧

  • 要强大的“黑匣子”,还是“可解释”的机器学习?

  • 知识图谱的构建主要靠人工还是机器?

数据共享的核心在定价,数据开放与隐私保护探讨 | AI Time相关推荐

  1. AI Time | 论道数据共享开放与隐私保护

    来源:大数据文摘 本文约3600字,建议阅读10分钟. 我们需要的是灵活的隐私保护和数据共享方案. [ 导读 ]7月15日,第4期AI Time邀请到了4位重磅嘉宾,就"数据共享开放与隐私保 ...

  2. 面向医疗数据的差分隐私保护

    第一章 差分隐私保护 1.1 差分隐私概述 差分隐私是Dwork在2006年提出的一种针对敏感数据集发布导致的隐私泄露问题的隐私保护模型.基于这一模型,处理后的数据集对任意一个记录的变化是不敏感的,因 ...

  3. 师兄毕业论文 -- 交通轨迹数据发布差分隐私保护算法研究(2020)

    交通轨迹数据发布差分隐私保护算法研究(2020) 记录一些比较关键重要的点 1.论文摘要,几个重要观点: 用户大量的轨迹数据,如果未经任何处理,数据管理员就直接发布,用户的个人隐私就会被泄露 针对智能 ...

  4. DLP数据丢失防护/数据防泄漏 隐私保护概念解析

    DLP数据丢失防护/数据防泄漏 隐私保护概念解析 预防数据丢失 Data Loss Prevention 数据丢失是有意或无意地将信息发布到不受信任的环境. 预防数据丢失(DLP), 也称为数据泄漏预 ...

  5. 静态数据/动态数据/使用中数据概念及数据防泄漏 隐私保护

    数据防泄漏Data Loss Prevention 预防数据丢失(DLP),也称为数据泄漏预防,指的是一个全面的方法覆盖人,流程和系统,识别.监控.和保护数据在使用(例如,端点的行为),动态数据(例如 ...

  6. 大数据时代的隐私保护:“被遗忘权”

    个人有权要求删除指向个人信息的链接,这是网民夺回网络空间的一大步吗? 注:欧洲的最高法院5月裁定,在特定情况下,个人有权要求删除指向个人信息的链接.这是欧洲法院法官的一小步,却是网民夺回网络空间的一大 ...

  7. 大数据时代的隐私保护

    互联网上产生的越来越多的个人数据,究竟应该如何处理?莫妮卡·莱温斯基自称是"互联网时代第一个受全球侮辱的人". 她是美国前总统比尔·克林顿"桃色新闻"事件的女主 ...

  8. 数据脱敏平台-大数据时代的隐私保护利器

    什么是数据脱敏 又称数据漂白.数据去隐私化或数据变形.是对核心业务数据中敏感的信息,进行变形.转换.混淆,使得对业务数据中的身份.组织等隐私敏感信息进行去除或掩盖,以保护数据能被合理.安全地利用. 数 ...

  9. 如何划清隐私保护与开放共享的界限?大数据讲座整理

    互联网技术的革新带来了海量数据,大数据在蛮荒发展,大众的隐私保护意识也在不断提高. 参加的AI Time第四期交流会依旧生动与专业,活动就中国目前数据保护与共享的需求,从技术.政策上讨论提出了中国关于 ...

最新文章

  1. 《监控》再起风云,连同创作中的《监控2》成功牵手影视公司
  2. 清华硕士眼中的2021届算法岗秋招
  3. Java技巧:深拷贝的两种方式2(转)
  4. javascript select option对象总结
  5. ConcurrentLinkedQueue非阻塞队列实现原理分析
  6. TCP/IP的四层负载均衡
  7. eclipse(或者myeclipse)常用配置方法
  8. problem about can't trigger exit-command in CR
  9. (59)UART外设驱动用户接收模块(四)(第12天)
  10. UITableView性能-圆角图片
  11. java 中方法里的参数_【Java基础】12、java中方法的参数传递机制
  12. js平滑滚动到顶部,底部,指定地方 animate()
  13. C++基础--static的用法
  14. 学生管理系统java源代码_java学生管理系统源代码
  15. QT下使用MapX控件的问题以及Activex技术
  16. JDK 8和Java 8的下载与安装
  17. 使用eclipse开发jsp项目入门
  18. 如何用文献管理软件Endnote X9插入参考文献
  19. 中国五笔 恶意软件清理助手
  20. 如何将证件照片打印在A4纸上

热门文章

  1. WIN7下QQ概念版使用手记
  2. term长度超限制问题
  3. Oracle01-课程背景-基本概念-DQL查询语句
  4. 3. 安装部署MGR集群 | 深入浅出MGR
  5. 当我不再依赖你的时候说说_「精选」关于依赖一个人的说说()-说说控
  6. “写”一手漂亮的好字,还会“画画”
  7. CSS总结——导航栏
  8. 海龟绘图,画一个牡丹
  9. 太原主题婚礼受追捧 一般收费起价15000元
  10. 2020.7.16 bug总结 第二周 (转载篇)