互联网技术的革新带来了海量数据,大数据在蛮荒发展,大众的隐私保护意识也在不断提高。
参加的AI Time第四期交流会依旧生动与专业,活动就中国目前数据保护与共享的需求,从技术、政策上讨论提出了中国关于数据保护与共享的愿景与蓝图。诚然,在数据开放与数据共享寻求Trade off,在数据计算准确度与计算效率上寻找最优解,在法律制度与数据行业的经济利益分配之间不断螺旋上升,是大数据时代下要思考的问题。

以下是部分会议整理分享
以及干货集锦:AI Time 4 | 论道数据共享开放与隐私保护(资源整合)作者: 魔杰作

数据隐私与数据保护的定义

数据获取技术的革命性进步、存储器价格的显著下降以及人们希望从数据中获得知识的客观需要等,催生了大数据。

1、数据闭环:
根据数据的形式与定义,目前的数据流通一般分为四大环节:数据发布、数据存储、数据挖掘与数据使用,数据种类包括企业、个人、国家安全等各个领域。
2、数据共享与保护
数据共享与保护离不开对隐私的定义,界定用户隐私的使用范围以及获取用户隐私授权。大数据的流转会形成闭环,不同的数据有不同的保护模式,比如个人的医疗数据与企业信用数据就比平时淘宝的购买记录信息要重要,因此,问题逻辑的复杂度决定了隐私维护的难度。
3、数据的保护维度与保护力度
数据的保护维度与保护力度随着商业的、社会的发展,在不同时间段在不断变化。早起Google50余页的用户协议,与用户约定数据在内部产品矩阵不相流通,例如Gmail的数据是不能提供给chrome的部门去优化用户体验的,这种约定在很长时间里制约了谷歌公司的市场竞争力大小。

数据隐私性保护如此重要,如何去保护我们的数据?

谈及隐私保护政策最重要的一点是可操作性,中国人工智能的特色是AI落地产业转型,关注点在于商业应用提高生产力,相比于目前欧洲GDPR《通用数据保护条例》(General Data Protection Regulation),数据商用层面相对宽松。GDPR罚款条例中对企业Revenue的4%税收罚款对于传统行业的影响比像Google这样边际成本不高的公司影响是不同的导致的问题,是中国政府可以借鉴参考的地方。

在这里,简单的谈几个技术手段:(我们以“张朝阳”先生的信息安全为例)
在朝阳区居住的张朝阳先生,向警方举报了不法分子,为了保护张先生的个人隐私,我们需要对其居住地址等个人信息进行保护。

  • 信息加密:以密码学的角度,在Input和Ouput赋加K变量等手段调整数值,在警方输出数据与输入数据的时候必须要获得某个特定参数;
  • 匿名:K-anonymity(加密为张某),这可能会导致信息失真,警方倒逼时都不知道这位先生的全名
  • 加噪音:(李超越先生、或者吴某)这是一种破坏性的隐私保护
  • 联邦学习:在不在数据共享的前提下进行数据共享,将模型下发到终端。问题在于模型共享后,技术公司的核心技术容易被窃取,联邦学习倒挂机器学习模型的危险管控。
    关于federated learning, 吴信东老师在2003年就发表了下述论文:
    Xindong Wu, Shichao Zhang:Synthesizing High-Frequency Rules from Different Data Sources. IEEE Trans. Knowl. Data Eng. 15(2): 353-367 (2003)
    这篇文章里明确提到了隐私保护和local analysis(本地分析/学习)。

由此几项技术,可以看出,对数据隐私保护技术来说,数据藏起来是容易的,但是解开就复杂了。明略科技集团首席科学家吴信东在软件学报《数据治理技术》提出数据治理存在四个维度:数据标准化、数据映射、数据交换(成本与效率的取舍)与噪音区。其中差分隐私可提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。但其中加噪声的度量和关键个人的隐私保护如何平衡,都是技术需要解决的问题。

数据开放共享的必要之路

目前国际上影响力大的数据共享开放计划或平台DBLP(DataBase systems and Logic Programming)是计算机领域内对研究的成果以作者为核心的一个计算机类英文文献的集成数据库系统。科研学者可以通过接入会议期刊的数据共享接口,从而调取目标数据,DBLP所收录的期刊和会议论文质量较高,文献更新速度很快,很好地反应了国外学术研究的前沿方向。但DBLP没有提供对中文文献的收录和检索功能,国内的权威期刊及重要会议的论文缺乏一个类似的集成检索系统。
清华大学朱小燕教授发言呼吁政府提高并关注数据共享领域的推进。数据共享关键作用在应用,有了数据才能训练好的模型。数据隐私保护是数据开放共享的必要条件,那在未来,在数据隐私保护欲数据开放之间寻求平衡?
微众银行人工智能部副总经理吴海山表示:离开数据服务谈数据隐私是不完整的,平衡的关键点在于服务的定价讨论!医疗与金融的场景是不同用户的隐私性的典型,你怎么看待滴滴打车调取你位置信息的权利和你获得的便车服务,就是一个典型问题。
对于数据保护的方法,清华大学交叉信息研究院院长聘副教授徐葳从工程的角度来看,如果要实现数据保护,应该从设计初始时候就应该设计好。调整隐私保护的接口,在用户效率和用户速度上取得平衡。从企业的角度来说,要去衡量经过加密的数据的商业变现价值是多少,值不值得去做。举个生动的例子就是寄快递的快递费值不值得出,将垃圾从上海寄到北京再分类,是没有任何价值的。

以上属个人自由整理内容,欢迎探讨指正。

如何划清隐私保护与开放共享的界限?大数据讲座整理相关推荐

  1. 【2017年第3期】面向共享的政府大数据质量标准化问题研究

    洪学海1,王志强2,杨青海2 1.中国科学院计算技术研究所,北京 100190 2. 中国标准化研究院,北京 100191 摘要:回顾了国内外数据质量研究与实践的进展,重点对ISO 8000数据质量国 ...

  2. 数据资源丨开放中的行政大数据——国内篇(附链接)

    来源:数据Seminar 本文约3000字,建议阅读6分钟 本文我们为你介绍目前国内行政大数据开放情况. 行政大数据是指政府行政部门为实现管理.监督和服务等目的而收集和保存的关于自然人或其他社会实体的 ...

  3. 开放中的行政大数据——国内篇(附链接)

    以下文章来源于数据Seminar ,作者兔饼(吴凡) 行政大数据是指政府行政部门为实现管理.监督和服务等目的而收集和保存的关于自然人或其他社会实体的相关微观信息,包括但不限于在办证.登记.医疗.保险. ...

  4. 隐私保护与隐私计算研讨会 | 余维仁:大数据时代下需要各界更新对个人隐私保护的固有认识

    8月13日下午,由深圳市信息服务业区块链协会.陀螺研究院.矩阵元主办,中国生物识别与计算机视觉科技创新产业联盟.金砖国家未来网络研究院中国分院.中国船舶综合技术经济研究院.深圳市人工智能产业协会.深圳 ...

  5. 保护个人信息,才能享受大数据的时代成果

    近日,中央网信办公开发布<关于做好个人信息保护利用大数据支撑联防联控工作的通知>(以下简称<通知>),明确为疫情防控.疾病防治收集的个人信息,不得用于其他用途.任何单位和个人未 ...

  6. 虚拟专题:联邦学习 | 联邦学习隐私保护研究进展

    来源:大数据期刊 联邦学习隐私保护研究进展 王健宗, 孔令炜, 黄章成, 陈霖捷, 刘懿, 卢春曦, 肖京 平安科技(深圳)有限公司,广东 深圳 518063 摘要:针对隐私保护的法律法规相继出台,数 ...

  7. 联邦学习隐私保护研究进展

    点击上方蓝字关注我们 联邦学习隐私保护研究进展 王健宗, 孔令炜, 黄章成, 陈霖捷, 刘懿, 卢春曦, 肖京 平安科技(深圳)有限公司,广东 深圳 518063 摘要:针对隐私保护的法律法规相继出台 ...

  8. 专题:大数据安全和隐私保护

    专题:大数据安全和隐私保护 Big Data Security and Privacy Protection 导读: 随着DT时代的到来,数据像石油一样成为一种战略资源,给社会生产生活带来了深远的影响 ...

  9. 面向医疗数据的差分隐私保护

    第一章 差分隐私保护 1.1 差分隐私概述 差分隐私是Dwork在2006年提出的一种针对敏感数据集发布导致的隐私泄露问题的隐私保护模型.基于这一模型,处理后的数据集对任意一个记录的变化是不敏感的,因 ...

最新文章

  1. 【每日DP】day 10、P1005 矩阵取数游戏【区间DP+高精(python)】难度⭐⭐⭐★
  2. 统计学习导论:基于R应用——第二章习题
  3. 【转】如何在Mac上卸载Java及安装Java
  4. [zz] C++智能指针循环引用解决
  5. AC66U-B1) 刷梅林固件教程
  6. 重新组织函数--《重构》阅读笔记
  7. 李春雷 | 夜宿棚花村
  8. HUE Load Balancer 启动失败
  9. Python operator.lt()函数与示例
  10. C++ 设计模式之Static Factory模式(简单工厂模式)
  11. 设计模式之——动态代理模式
  12. JD-GUI(反编译工具)
  13. 接口implement
  14. CSS 分析倒三角|侧三角|正三角的实现
  15. 下拉菜单选择城市列表html,js弹出式下拉列表框选择省市地区美化插件 - pickout.js...
  16. 陈满雪冤背后英雄:上百名同学捐款数十万元
  17. ios iPhone的 自带输入法emoji编程
  18. HTML—超文本标记语言
  19. 宏观经济学-计算题(一)
  20. 小旋风虚拟服务器怎么用,小旋风aspweb服务器该怎么使用

热门文章

  1. 我想请问一下逆战开透视怎么加密呀?
  2. ASP.NET - ScriptManager 控件概述
  3. 运营推广-百度快照分析
  4. 渣渣渣变渣渣系列(2)
  5. android基于MVP小说网络爬虫、宝贝社区APP、仿虎扑钉钉应用、滑动阴影效果等源码
  6. LinkButtonnbsp;控件的CommandArgument…
  7. android毛笔笔锋
  8. PM3破解辅助计算器
  9. JQ实现效果:鼠标滑过图片,图片变大
  10. SpringMVC 框架进阶