文章讲的是ACM图灵奖获得者:想从大数据中获益,先解决集成问题!如今,大数据对所有行业都产生了深远影响:从医疗保健、汽车、电信到物联网。随着数据浪潮的持续,企业都在寻找更新的管理和分析方法、收集可行的见解并应对安全和隐私的双重挑战。

  计算机协会(ACM)刚刚结束了ACM A.M.50年的庆祝活动。图灵奖(俗称“诺贝尔计算奖”)在旧金山举行了为期两天的会议。会议汇集了一些计算行业的翘楚,探讨计算机的未来发展以及该领域的领先地位。以下是与麻省理工学院计算机科学与人工智能实验室(CSAIL)兼职教授Michael Stonebraker的对话,其是ACM 2014图灵奖的获得者。

  问:Gartner估计,目前有大约49亿台物联网设备(汽车,家用电器,工业设备等)可以生成数据。预计到2020年将达到250亿。你认为这一波数据带来的主要挑战和机遇是什么?

  Michael Stonebraker:从我的观点来看,大数据有三个潜在的问题,可以分成三个“V”。首先是volume(规模)问题,意味着如今企业有太多的数据;其次是velocity(速度)问题,数据来临的速度太快;最后是variety(类型)问题,数据来源太多,数据类型繁杂。我们来分别看一下这三个V。

  如果企业存在规模问题,并且只对在大量数据上运行SQL风格的商业智能感兴趣,那么在数据仓库中,至少有几十个生产仓库正在进行中。在这方面,如果企业只想做商业智能,那么规模问题基本上是可以解决的。

  第二个“V”(速度)也是相当简单,如果处理一百万条消息希望是一秒钟,当前的流处理引擎完全可以满足这一点。就我目前所知道的而言,这个速度已经足够快了。当然,随着社会的发展,未来可能会对速度有更高的要求,但我并不认为速度问题很难解决。

  第三个“V”(类型),我认为多样化才是真正的问题。当数据有太多不同的来源时,企业就会遇到数据集成挑战。这几乎是所有企业都面临的难点,大多数企业是孤立的,这意味着他们可能会为每个业务部门独立构建数据存储。问题就出在这,业务部门可能会存储客户数据,并且希望识别客户以进行交叉销售。合并数据将有助于获得更好的见解,从而可以节省成本并提高运营效率。但是,当企业想要整合这些数据时,每个仓库都有自己的数据存储,并且通常没有跨单元客户标识符,这件事情就变得很难了。

  所以,我认为难倒企业的倒不见得是物联网设备增多了,而是企业需要将这些孤立的数据整合在一起。无论是医疗、制造还是金融服务领域,所有这些独立结构的数据库都将是一个杀手。

  问:您认为应该如何处理隐私问题呢?包括我们的个人隐私以及企业收集的信息中的隐私数据。

  Michael Stonebraker:大数据时代,隐私是一个非常好的话题。举一个简单的例子,你在医院完成了一个X光检查,你希望医生可以查询一下,你的X射线与哪些患者比较像,这些患者的诊断说明是什么,发病率是多少等等信息,这可能就要整合全国的在线医疗数据库,甚至扩展到多少个国家的数据库。虽然这对你而言可能是有益的,但这就造成了难以置信的隐私问题。

  大体而言,虽然面临着数据集成方面的挑战,但技术层面的问题还是可以解决的。但原则上来说,任何一家机构都无权直接或间接披露用户的隐私数据。

  我认为隐私问题本质上是一个法律问题,国家可推出相应的法律法规来规避这一问题可能造成的风险。不幸的是,隐私对社会带来的价值是可观的,所以导致很多人屡屡涉险。

  问:现在有越来越多的企业会使用预测性数据分析,您认为预测分析还存在哪些问题?我们如何克服这些挑战?我们谈到了隐私方面的问题了,还有其他什么问题吗?

  Michael Stonebraker:预测模型的问题在于,它们由人类自然构建,因此容易产生偏见。比如特朗普总统大选事件,事后证明很多预测分析模型都没有做出正确的判断。

  预测分析问题的另一个很好的例子就是学校教师考评,通过对学生的升学之初和学期结束时的成绩进行考核,决定教师的教课水平,这就会导致N年级的教师对N+1年级的教师产生影响,这种决策是片面的。

  预测模型的问题就是模型本身,我们对模型预测过于信任。如果模型中不包括欺诈,偏见等,还可能会得到一个不错的答案。

  问:安全是关于大数据的热门话题,大数据在很大程度上对安全提出了新的挑战?如何修复可能存在的安全问题?安全问题的责任如何划分?最大的问题是什么?

  Michael Stonebraker:从历史上看,绝大多数的数据泄露都是从内部开始的。虽然也存在黑客从外部入侵的事件,但有很大一部分是通过内部员工的用户名和密码直接登录内部系统造成的。因此,我认为公司为数据中心安全人员支付更高的薪酬是有必要的,至少可以修复一部分内部人士的数据泄露事件。这不是说没必要防范远程攻击和黑客,只是解决内部问题可能优先级更高一些。

  问:大数据可以如何更好地利用,以提高公众利益。比如医疗领域的部分数据共享等。

  Michael Stonebraker:大数据产生社会效益的例子有很多,无论是提高竞争力,还是大幅改善医疗服务方面,很多例子都与社会福利挂钩,但需要首先解决的还是隐私问题,如何获得合理的数据而不破坏个人隐私,这或许是值得探讨的。

  问:您对大数据的未来还有什么样的想法呢?

  Michael Stonebraker:我们期望从大数据中获得的所有效益,都取决于数据无缝集成的程度。解决改进数据集成问题将成为从所有数据中获益的关键。

作者:编译 | 钰莹

来源:IT168

原文链接:ACM图灵奖获得者:想从大数据中获益,先解决集成问题!

ACM图灵奖获得者:想从大数据中获益,先解决集成问题!相关推荐

  1. 6位图灵奖获得者、10多位院士在线“教学”,这套关于“人工智能下一个十年”的课程免费提供给你...

    2020 年 6 月 21-24 日,第二届北京智源大会将以线上直播形式盛大召开,本届大会邀请了包括 6 位图灵奖获得者.10 多位院士在内的上百位人工智能领域的顶级专家学者,围绕技术.应用.基础设施 ...

  2. 读《ACM图灵奖》有感

    引言 暑期闲暇之余阅读了由北京理工大学老师吴鹤龄.崔林编著的<ACM图灵奖>一书,颇有感想,特写此篇读书笔记以记录. 说起图灵(Alan M. Turing),大家可能都很熟悉,就是那位被 ...

  3. 图灵奖获得者 Alan Kay:突破常规思维,创建下一代科研社区(附视频)

    2020 北京智源大会 本文属于2020北京智源大会嘉宾演讲的整理报道系列.北京智源大会是北京智源人工智能研究院主办的年度国际性人工智能高端学术交流活动,以国际性.权威性.专业性和前瞻性的" ...

  4. 图灵奖获得者Yann LeCun:未来几十年AI研究的最大挑战是「预测世界模型」

    来源:机器之心 LeCun 认为,构造自主 AI 需要预测世界模型,而世界模型必须能够执行多模态预测,对应的解决方案是一种叫做分层 JEPA(联合嵌入预测架构)的架构.该架构可以通过堆叠的方式进行更抽 ...

  5. 量子计算机科学家姚期智,姚期智论文,关于图灵奖获得者姚期智:量子计算机只差“最后一公里”相关参考文献资料-免费论文范文...

    导读:本论文主要论述了姚期智论文范文相关的参考文献,对您的论文写作有参考作用. RSA 算法是现在常用的加密算法,大家认为这是一个高度安全的论文范文系统,但是如果有了量子计算机,科学家发现,RSA 将 ...

  6. 【转载】陈宝权教授访谈图灵奖获得者Ivan Sutherland

    原文作者:武卫东,转自图灵社区 转载地址:https://www.ituring.com.cn/article/127792 10月22日到25日中国计算机大会(CNCC 2014)在河南郑州隆重举行 ...

  7. 计算机名人堂(历届图灵奖获得者)

    计算机名人堂(历届图灵奖获得者) 摘自  温研的专栏 图灵奖最早设立于1966年,是美国计算机协会在计算机技术方面所授予的最高奖项,被喻为计算机界的诺贝尔奖.它是以英国数学天才Alan Turing先 ...

  8. 1985年的图灵奖获得者-Richard Manning Karp

    Richard Manning Karp(01/03/1935--) 图 灵 奖 获 得 时 间 : 1985年 . 第二十位 图 灵 奖 (1985年 ) 获 得 者 . 图 灵 奖 引 用 (Tu ...

  9. 计算机技术发展史 一 读后感,《ACM图灵奖(1966-1999)---计算机发展史的缩影》读后感...

    <ACM图灵奖(1966-1999)---计算机发展史的缩影>读后感 计算机的诞生与发展不得不说是世界发展的里程碑,在科学技术发展突飞猛进的今天,计算机的作用是无可比拟的.我曾经看了一本书 ...

最新文章

  1. springboot 启动类注解 @SpringBootApplication 和 @ComponentScan 的问题
  2. Boost:BOOST_VERIFY_MSG扩展的用法测试程序
  3. python根据表格数据生成折线图_Python交互图表可视化Bokeh:4. 折线图| 面积图
  4. mongodb数据可视化_使用MongoDB实时可视化开放数据
  5. 一个值得收藏的小工具
  6. Visual C++ 运行库合集
  7. Pwn2Own 三连冠团队成员访谈实录:如何才能登峰造极?
  8. 四轮驱动移动机器人(SSMR)与两轮差速驱动机器人、car-like robot的对比分析
  9. typora中插入分页符markdown,设置字体,居中,调整图像大小
  10. FRR BGP协议分析12 -- ZEBRA路由的处理1
  11. 鸿蒙系统翻车了,鸿蒙“翻车”? 网友发现鸿蒙系统居然是安卓9.0
  12. servlet中使用db4o
  13. 同方台式计算机密码,清华同方bios默认密码
  14. 11408考研复习规划
  15. 彻底清除狗太阳的3721病毒完全手册!
  16. 牛客刷题记录之语法入门选择结构篇
  17. Visual SourceSafe基本操作
  18. DNS主域名服务器、从域名服务器和缓存域名服务器的构建和原理
  19. FFmpeg入门详解之43:FFmpeg解封装的原理与实战
  20. 【PA2013】【BZOJ3837】Filary

热门文章

  1. 论文阅读--PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection
  2. 螳螂捕蝉黄雀在后!地下黑客论坛免费远控木马被曝“后门”
  3. 关于网易云音乐爬虫的api接口?
  4. MFC窗体控件随窗体变化
  5. Matlab绘图高级部分
  6. 大数据处理过程中,如何让Hadoop运行得更快一些?
  7. 关于hql一些不常见但好用的技巧(个人总结)
  8. 又一例SPFILE设置错误导致数据库无法启动
  9. Python进阶之路 3.4.2 条件语句(if、else和elif)
  10. windows下vs2013使用C++访问redis