来源:大数据文摘

本文约3600字,建议阅读10分钟。

我们需要的是灵活的隐私保护和数据共享方案。

[ 导读 ]7月15日,第4期AI Time邀请到了4位重磅嘉宾,就“数据共享开放与隐私保护”这个似乎高深,又与每个人息息相关的话题展开讨论。

7月26日15点,我们将迎来AI Time 第5期 , “论道无人驾驶即将来临还是遥遥无期”,嘉宾包括小马智行联合创始人兼CTO楼天城、清华大学教授邓志东等,欢迎扫下边小程序免费报名。

上周一,在第四期AI Time论坛中,几位嘉宾用“垃圾值不值得快递取决于这包所谓垃圾的价值”类比了“数据是否值得被加密后共享”这个问题。

如何处理数据共享与隐私保护之间的矛盾早已成为了当前数据圈的热议话题,本期“智源-AI Time”邀请到了明略科技集团首席科学家吴信东教授、清华大学计算机系朱小燕教授、清华大学交叉信息研究院徐葳副教授,以及微众银行人工智能部副总经理吴海山博士,共同论道了“数据共享开放与隐私保护”这个似乎高深,又与每个人息息相关的话题。

数据开放的三大必要条件

我们共享位置信息以便预约车的司机找到自己,也暴露了自己的行踪;用浏览纪录调教APP获得更合心意的推荐,也让个人喜好一览无余。开放个人数据的同时,我们冒着暴露隐私的危险,也享受着它带来的便利。

有统计数据显示,每天全世界会上传5亿张图片,每分钟就有20小时的视频被分享,我们整个人类文明所产生的全部数据中有90%是过去两年所产生的。

有人说,发挥数据的价值,主要在流通。的确,数据共享可以使更多的人充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用,而把精力重点放在开发新的应用程序及系统集成上。但是,要真的让数据流通起来,需要以下这些必要条件:

  • 数据资源的标准化

数据开放共享,首先要做到的就是数据资源的标准化。我们需要解决大规模的、来自多个来源的、异构的数据集成问题,实现海量多元异构数据源的统一管理。

  • 数据质量

数据质量是数据开放共享中需要解决的关键问题。比如,对于数据的发布者来说,怎么样来保证开放的数据没有敏感内容,怎么样保证这个数据是可信的?自动的评估和控制数据质量,是一个关键指标。明略科技集团首席科学家、IEEE Fellow吴信东教授介绍了他最近发表在《软件学报》上的“数据治理技术”论文,强调数据治理包括数据规范、数据清洗、数据交换和数据集成。

  • 开放和共享不等于免费

清华大学计算机系朱小燕教授提到“开放和共享不等于免费”,分配权益,其实也是数据流通的基本动力,必须要保证数据的拥有者,持有者和开发者,都能有满意的权益分配。

清华大学计算机系朱小燕教授

数据共享和开放在产业界的趋势和挑战

根据不同的用法,数据有不同的治理和整理方法。那些使用数据的人,未必是生产数据的人。

清华大学交叉信息研究院徐葳副教授提到,“来自业内的数据可能不如分布在地方政府手里的数据多,但是很多人会明显觉得BAT似乎把数据用的更好。那是因为业内特定领域已经打通了数据并且形成了闭环,他们更清楚数据应该怎么使用,理解根据这些使用需要采集怎样的数据、怎样去对数据进行清洗。”

清华大学交叉信息研究院徐葳副教授

的确,数据必须要流动起来它才能产生价值,否则的话它就是一个孤岛,没有什么太大的价值。数据共享,也需要一个前后背景,以学术研究还是产业应用为前提进行共享,这两者的管理治理完全不一样。

以金融行业为例,微众银行人工智能部副总经理吴海山认为,因为金融行业对数据的应用和管控会更加严格。比如,如果用来投资,被标为非公开信息的数据会被禁止使用。而关于个人用户隐私层面的管控可能更严,在金融领域里面,有一种“另类数据”。它不是类似传统银行财报这样公开的信息,而是一种新型的数据,比如卫星遥感图像、手机上的GPS数据、网站APP下载的数据。这些也可以用来分析一个公司或者一个国家经济层面的运转程度。

现在越来越多的研究层面开始关注,包含用户信息的数据如何在技术场景里使用。为了解决一个工业界的问题,需要训练模型,那如何在不共享数据的情况下进行机器学习呢?

吴海山博士举例解释,“比如用数据去分析用户贷款违约的概率,可能需要A公司电商的数据、B公司社交的数据,但两家公司不可能放心地把数据放到一个平台上,在这种情况下,为了在数据不共享的情况下,依然能够训练机器学习模型,微众银行的首席人工智能官杨强教授提出了联邦学习,它是一种加密的分布式机器学习技术,能够在保护用户隐私的前提下,各个企业的自有数据不出本地,通过加密机制实现参数交换,以一个合法合规的方式去使用数据、训练模型、解决问题。联邦学习是在隐私保护下的机器学习的可实现路径,并为数据孤岛提供了一个解决方案。”

微众银行人工智能部副总经理吴海山

“离开数据服务谈数据隐私都是耍流氓”

机器学习需要大量数据,数据的共享无疑是学界和业界共同期待的,但是数据的共享也离不开对于数据和隐私的保护。

对于用户隐私的保护,几位专家有不同的看法。徐葳教授认为隐私是一种个人感受;吴信东教授认为企业的隐私就是其核心竞争力。

而吴海山博士则认为隐私的背后意味着数据是一种资产,“我们去看病的时候,恨不得把所有的信息都告诉医生,我们买房子贷款的时候,恨不得把以往所有的信息都给银行看,才能让它给你贷款。这个时候数据已经作为一种资产,有一个隐含的定价前提。你得到更好的金融服务,得到更好的企业服务,个性化服务。所以谈任何个人隐私、企业隐私,其背后都有服务和隐私之间的一个平衡,这是在讨论隐私之前需要关注的问题。”

数据加密技术大盘点

大数据生命周期分为数据发布、数据储存、分析和挖掘、数据使用,在这些环节中都存在数据隐私保护的问题。加密是保护数据的一个手段,但是加密之后的数据无法使用。现在的技术需要保证数据在流通使用过程中也不造成泄露,也就是限制数据的使用。

在沙龙现场,几位嘉宾也探讨了目前几种常见的数据加密技术。

  • 差分隐私

差分隐私其实是一种度量方式。通过一群人里算出来的模型,和去除A算出来的是一样的,这样就无从判断A是否还在这群人中,就起到保护A隐私的作用。这个方法对于保护“泯然众人”的数据是有用的,但是却很难保护那些“很个性”的数据,因为这些“个性”的数据对于整体数据的计算印象很大。

  • 安全多方计算

安全多方计算(SMC,Secure Multi-Party Computation)是解决一组互不信任的参与方之间保护隐私的协同计算问题,SMC要确保输入的独立性,计算的正确性,同时不泄露各输入值给参与计算的其他成员。主要是针对无可信第三方的情况下,如何安全地计算一个约定函数的问题,在电子选举、电子投票、电子拍卖、秘密共享、门限签名等场景中有着重要的作用。

  • K匿名

k-匿名技术是1998年由Samarati和Sweeney提出的,要求发布的数据中存在一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。吴信东教授举例解释,“比如在西方国家,为了避免报警者受到报复,警察记录的是方圆多少距离的人打来的报警电话,通过对位置信息的泛化,保护了报警者的位置信息,但同时也会降低数据的可用性。可能警察记录是五公里以内的人打了电话,但是警察自己也找不到那个人是谁。”吴教授也介绍了他2003年在TKDE上同中南大学张师超教授一起发表的Local Analysis方法,这种方法利用本地学习的思想做信息保护和模型共享,但模型共享可能还是有信息保护的顾虑。

明略科技集团首席科学家吴信东教授

什么样的数据值得保护?数据隐私保护技术就像是顺丰快递,要看寄送的东西值不值得快递费用。评估数据的价值,是比数据保护更重要的事情。数据保护问题的本质就在于我们如何对数据进行定价。或许有人出价一万买你的隐私,你会断然拒绝;但如果是一亿呢?离开数据的定价、数据流动产生的价值和通过数据得到的服务去讨论数据隐私,其实都是比较片面的。

隐私保护的政策问题

2018年5月25日,欧洲联盟出台《通用数据保护条例》(GDPRGeneral Data Protection Regulation)。这是全球目前最严格的数据保护条例。其最高的一笔罚单给了英国航空公司,罚金数额为1.8339亿英镑(约合15.8亿元人民币)。

国际方面对于数据保护的政策愈发严格,中国在保护个人信息方面也发布了推荐性国家标准《信息安全技术个人信息安全规范》, 可以说在数据隐私保护规定方面,中国走在了亚洲前列。这项规范也参考了欧盟的《通用数据保护条例》,ISO29000系列等国际范围内的个人信息保护法律法规及标准,同时,从国内主要存在的个人信息保护现状和问题出发制定标准,更侧重标准的实用性。

欧盟《通用数据保护条例》(即GDPR)的制定确实在一定程度上保护了数据,但是也阻碍了欧洲人工智能产业的发展。而且,因为GDPR罚款高达公司全球营业额的4%,这对传统产业的企业很不友好、也不利于小公司的生存和发展。

从政策制定角度来讲,隐私保护政策需要可操作性以及合理合法的指导,让受众接受这条政策并积极施行。从经济学角度来讲,隐私保护政策会提高数据的价值,毕竟数据本身就是一种资产。

更严的隐私无疑会增加数据的成本,让整个行业尤其是小公司生存更加困难;更开放的数据共享,只会让大众和媒体放大数据隐私的侵犯,反而忘记数据共享带来的价值。我们需要的是灵活的隐私保护和数据共享方案。

AI Time | 论道数据共享开放与隐私保护相关推荐

  1. 数据共享的核心在定价,数据开放与隐私保护探讨 | AI Time

    大数据文摘出品 作者:易琬玉 一包垃圾值得被快递吗? 当然,一袋普通的垃圾肯定不值得,但是可以暴露出某个重要人物信息的垃圾就需要小心处理,再或者,对于一个被垃圾分类逼疯的上海市民来说,答案也可能不同. ...

  2. 数据共享中的隐私保护问题

    一.数据共享中的隐私保护问题 现有的数据共享模式较为简单:数据需求方直接从远端数据提供方获取源数据至本地,在本地对数据进行处理.分析.需求方是整个平台的中心,源数据聚合在需求方,计算也都在需求方进行. ...

  3. 如何划清隐私保护与开放共享的界限?大数据讲座整理

    互联网技术的革新带来了海量数据,大数据在蛮荒发展,大众的隐私保护意识也在不断提高. 参加的AI Time第四期交流会依旧生动与专业,活动就中国目前数据保护与共享的需求,从技术.政策上讨论提出了中国关于 ...

  4. 数据自治开放模式下的隐私保护

    数据自治开放模式下的隐私保护 王智慧1,2, 周旭晨1,2, 朱云1,2 1. 复旦大学计算机科学技术学院,上海 201203 2. 上海市数据科学重点实验室,上海 201203 摘要:数据开放对于提 ...

  5. 清华系创企RealAI:独家“隐私保护机器学习”技术,全球首款编译级产品

    原创:谭婧   以侵犯隐私的方式处理数据,已属非法行为,违法必究,犯罪分子,瑟瑟发抖. 但数据,作为人工智能(AI)的"石油",不能简单粗暴一刀切,如何加高数据安全的"围 ...

  6. 虚拟专题:联邦学习 | 面向隐私保护的非聚合式数据共享综述

    来源:通信学报 面向隐私保护的非聚合式数据共享综述 李尤慧子1, 殷昱煜1, 高洪皓2,3, 金一4, 王新珩5 1 杭州电子科技大学计算机学院,浙江 杭州 310018 2 上海大学计算机工程与科学 ...

  7. 安卓最好的浏览器_今日软件 | AI一键抠图、隐私保护工具、全能下载器、安卓启动器、茄子快传、迅雷、批量字符替换、傲游浏览器、全局负一屏...

    今日软件更新 安卓APP 「SHAREit」5.7.18 # 茄子快传,手机文件传输工具 ▾下载:https://lanzoux.com/iyyn4hdfs9c 「QuickEdit」1.7.0 # ...

  8. 驱动AI产业“第二增长曲线”,清华系RealAI发布首个企业级隐私保护机器学习平台与升级版AI模型杀毒软件

    12月9日,由清华大学人工智能研究院.北京智源人工智能研究院.北京瑞莱智慧科技有限公司联合主办的"2020第三代人工智能产业论坛暨瑞莱智慧RealAI战略发布会"在北京召开.清华大 ...

  9. 基于区块链的隐私保护数据共享

    摘要: 区块链是近年来出现了一项分布式共识技术,基于区块链共识协议结合智能合约技术可实现去中心化的数据共享.隐私保护是数据共享中的关键特性,原生区块链没有解决隐私保护问 题.利用数字摘要匹配算法提出了 ...

最新文章

  1. 华为数据通信部门怎么样_华为最高级别认证适合小白吗
  2. 科技论文的几种类型-如何写好科技论文之我见(二)
  3. Flume实操(三)【实时读取目录文件到HDFS案例】
  4. php开发客服系统(持久连接+轮询+反向ajax)
  5. python语言保留字的特点_python保留字及其说明
  6. 快速搭建MQTT服务器(MQTTnet和Apache Apollo)
  7. coreldraw登录老是出现未知错误_原神:新版本bug频出,史莱姆消失,联机模式提示506错误码...
  8. windows phone 扫描二维码
  9. vs2015 中无法链接strcasecmp 和 strncasecmp的解决办法
  10. 服务器的使用:Linux一键搭建KMS激活服务器
  11. led屏背后线路安装图解_液晶拼接屏安装方法图解及接线方法
  12. 《梁宁·产品思维30讲》
  13. Bugku web — ereg正则%00截断(代码审计) ——详细题解
  14. Android Support Library介绍
  15. php代码生成折现统计图
  16. 通过XManager5连接Linux操作系统,安装Eclipse工具,进行代码开发、测试
  17. 135、137、138、139、445等端口解释和关闭方法
  18. 李宏毅hw4,训练+调优
  19. ybt 神(bian)奇(tai)题目总结合集(中)
  20. 异常积累(SQLException)

热门文章

  1. 表单和v-model
  2. 配置告警系统主脚本main.sh mon.sh load.sh 502.sh disk.sh
  3. 设计模式——3单例模式(Singleton)
  4. xcode打包(Archive)显示Command /usr/bin/codesign failed
  5. 基本类型变量和引用型类型变量
  6. scratch跳一跳游戏脚本_跳一跳游戏:经典跳一跳2微信小游戏,点开既玩
  7. python threading join_Python中threading模块join函数用法实例分析
  8. python输出去空格_python输出怎么取消空格
  9. android连接不上socket,关于socket通信的android与pc端连接,为什么我定义的socket是为空的,连接不上pc端...
  10. mysql教程多表查询_mysql重点,表查询操作和多表查询