英国皇家学会院士樊文飞:把大数据变小,突破企业资源限制
无论是去年李开复所言的“AI 泡沫破裂”、Yann LeCun说的“AI 公司要没钱了”,还是今年张钹院士提出的“深度学习触及天花板”,亦或是图灵奖得主Judea Pearl直指“AI 现在的重点是曲线拟合,而不是智能”,这些人工智能领域的大牛无一不在表述这样一个观点:人工智能需要冷思考。
“AI 目前可以帮助我们发现一些关联关系,提高生产效率。要使 AI 进一步发挥潜力,就需要提高基础计算引擎的效率。”英国皇家学会院士樊文飞表示,“大数据是 AI 的基础。由于大数据计算的困难性,传统的经典计算理论已经不能够解决大数据的问题,需要新的理论和切实可行的技术”。
图 | 樊文飞(中)与两位博导Scott(左一)和Peter(右一)在英国皇家学会的合影 (来源:樊文飞)
樊文飞是国际学术界公认的在“数据库理论与系统领域都做出突破性贡献的极少数学者之一”。他是英国皇家学会计算机领域唯一的华裔院士(美国科学院计算机领域的华裔院士也只有姚期智一人),是在英国皇家学会具有 300 余年历史的签名簿上用中文签名的第一人。他是数据库领域历史上仅有的两个“大满贯”学者之一,即获得国际数据库理论与系统四大顶级会议的最佳论文奖或十年最佳论文奖 (SIGMOD 2017, PODS 2015 & 2010, VLDB2010, ICDE 2007)。
尽管樊文飞从理论到实践,从学术到科研再到产业,都有丰富的积淀和经验,但是他很少在公共舆论环境中发表意见。据 DeepTech 了解,他已经接受了中国计算机学会(China Computer Federation,缩写“CCF”)的邀请,将出席即将召开的中国计算机大会(China National Computer Congress,缩写“CNCC”)并发表演讲。我们就此和他进行了交流。
理论和系统的突破
“计算机研究的核心是理论和系统。”樊文飞开篇明义。
“打个比方,大家都知道 Google 的阿尔法狗(Alpha Go)打败围棋世界冠军,是人工智能的一个重要里程碑。但大家也应该看到,Alpha Go 背后用到的处理资源的价值是以千万美元计算的,研发团队里面集聚了一大批国际顶级人才,他们的价值更是以亿计算。这样的代价和成本不是一般的企业所能承受的。”
“我们是否可以通过理论的突破到系统的落地,解决大多数企业因资源受限无力从事真正的大数据计算的现实问题?是否可以通过‘把大数据变小’,做到企业无论大小都能享受大数据分析的利益?”
“对此我们提出了有界计算理论(bounded evaluation)及数据驱动的近似计算(data-driven approximation)理论。”
有界计算理论的基本思想是,给定一个函数 F(x),参数 x 代表大数据集。多数计算不需要访问全部的 x、只需要取 x 的一小部分就能得到 F(x)的精确解。有界计算理论研究的就是如何根据不同的函数 F,根据语义找到所需的 x 的那一小部分。
樊文飞说,“一家世界一流的公司通过测试发现,在数十亿条数据的实时查询场景下,91% 的查询可以用有界计算来解决;并在 70% 以上的查询中,查询效率提升 25 倍到 14 万倍。剩余 9% 不具备有界计算条件的查询,可以通过数据驱动的近似计算理论来解决。”
数据驱动的近似计算是根据用户的查询,在数据的层次表述中动态找到所需的数据,并在有限资源下计算查询的近似解。其特点是保证精确度,即对每个精确解,都找到一个对应的近似解使得二者之间的误差在一定范围内,同时每个近似解都对应一个误差范围内的精确解。国际上还没有查询系统能做到这一点。
“比如你要在北京找一个离艺术馆比较近的、价格低于 500 元的旅馆,在资源有限的情况下只能查看一百条数据,那么我们就可以给你一个近似的结果,可能这个旅馆是 520 元,也可能是距离一个美术馆比较近的旅馆,但保证每个近似解都是相关的,而且每一个精确解都能被覆盖到。”
“上面提到的这家世界一流的公司认为,有界计算是一个具有突破性的高潜力发明,并决定每年投资上千万人民币支持开放性的基础研究。”樊文飞介绍,“此外,这项工作还在 2018 年拿了 Royal Society Wolfson Research Merit Award(“英国皇家学会沃尔夫森研究优秀奖”)。”
目前,一支“超级团队”正在做“把大数据变小”这个理论的产业化落地,打造一款从理论到实现都是中国人原创的、具有实时分析能力的下一代大数据系统。这个系统将有界计算和数据驱动的近似计算叠加,突破性解决大数据计算问题,旨在将大数据从科技巨头们的特权普及到各行各业和生活的各个方面。这支团队有一个充满霸气的名字——“数据征服者”(Conquer of Data,简称“CoD”)。据悉,这个系统将在明年发布,CoD 团队将在 CNCC 大会展示区展出其系统原型。
另一个理论到系统的案例是GRAPE。为提升大规模图数据计算效率,从 2016 年开始,樊文飞着手研究并提出了两个理论:一个是基于不动点计算的单机图算法自动并行化的程序设计模型,另一个是同步/异步自适应并发计算模型。这些理论可以降低并行图计算程序设计的门槛,保证计算正确性,同时可以大幅提升效率。这些工作获得了包括 SIGMOD 和 VLDB 这些行业顶级会议上的三个奖项。
图 | 开发GRAPE的团队 (来源:GRAPE团队)
基于这些理论,樊文飞的学生于文渊博士、徐静波博士等人回国,开发了这套名为 GRAPE 的系统。他们在 2018 年 3 月 5 日成立了公司,同年 3 月 15 日就有知名企业来收购。“我们最终还是选择了一家互联网巨头,因为这家公司承诺为 GRAPE 建立一个开源社区并且打造成一个中国自己的国际 IT 软件品牌。” 据这家公司的材料披露,GRAPE 在社交关系处理、推荐、风控等应用场景都取得很好的效果,在一些业务线上,GRAPE 相比原流程甚至有数量级的性能提升。
提出原创,引领落地
什么是创新?创新包括探索新领域、发现新问题、找到新方法、或者借鉴其他领域的解决方法解决本领域的问题,这是创新程度的一个评判标准。
樊文飞说:“我们所谓的创新,关键不是看你发了多少论文、在哪里发表、引用率有多高。学术地位是由学术界的口碑决定的,是你能否提出基础、原创的东西,能够引领学术界,并在工业界落地。”
他的第三篇论文就荣获了 2010 年 ACM PODS(Principles of Database Systems) 的“十年最佳论文奖”(ACM PODS Alberto O. Mendelzon Test-of-Time Award)。ACM PODS 始于 1982 年,是国际公认的数据库理论顶级会议。时间检验奖旨在奖励在十年间对研究、方法论及实践产生重大影响力的论文。樊文飞是国际上屈指可数的两获 PODS 时间检验奖的学者之一。近四十年里,中国大陆被 ACM PODS 录用的论文屈指可数。
图 |樊文飞是国际上屈指可数的两获PODS时间检验奖的学者之一 (来源:ACM PODS)
他把这次获奖归结于“幸运”。但不能否认的是,坚持原创是他极具前瞻性视野的一个重要条件。他 2000 年发表的半结构化数据约束理论现在已成为一个成熟的研究领域,目前被广泛应用在网络数据语义描述、查询的优化、分析、数据质量提升和数据知识获取、知识图谱的扩展这些业务。
把学生当做合作者
除了学者的身份之外,樊文飞还是一位导师,是爱丁堡大学主任教授。
“我在贝尔实验室工作多年,所以我习惯把学生当做合作者,”他说,“对博士研究生来说,最难的是找题目,还有研究遇到瓶颈。导师应该帮助学生找题目,解决学生做不出的问题。在论文上,我也是合作者,要做出自己的贡献。我的论文中,所有题目都是我提出的,技术难题我都要给出方法解决甚至自己写证明、算法,而且经常要承担大部分写作。我从来没有在我没有做出足够贡献的论文上挂过名字。”
在英国读博需要三年,不像是美国需要四到六年。就教学周期来说,樊文飞有自己的一套方法:“第一年学生帮助实现我们给出的算法,这时候他会发现一些乐趣,尤其是发表了一篇论文之后他会很兴奋,会有做学问的动力;第二年他们开始设计一些算法,他们会想得更深;第三年他们开始领导一个课题,我可以给他们题目,但他们要从头到尾去设计,解决不了的问题再来找我。这样由浅入深,三年的时间只要认真工作,基本就可以独立了。我带学生的办法就是亲身参与,把学生当做合作者。”樊文飞带出来的学生,每人都获得过至少一个数据库顶级会议的最佳论文奖。
樊文飞说:“在爱丁堡大学,七十多岁的老教授在圣诞假期还在学校里自己写论文,他就是喜欢研究,享受这份乐趣,不把研究做为获取名利的手段。所以他们能做出有价值的原创研究。”
追求兴趣、保持热情、坚持原创、锻炼学术头脑的灵活性,把学生当做合作者,这是老一辈学者和优秀导师们身上值得学习的东西。
图 | 樊文飞将在CNCC上带来“Making Big Data Small”的演讲报告 (来源:CNCC大会网站)
在即将召开的 CNCC 大会上,樊文飞将为参会的近八千位计算机领域专家、企业技术人员、高校的科研人员和学生带来“Making Big Data Small”的演讲报告。当被问及他本人最感兴趣的会议话题是什么,他回答说:“今年的一些技术性的论坛我都很感兴趣。我们需要一些介绍最新的学术发展趋势和自己原创的讲座。国家需要脚踏实地做学问的科学家。”
英国皇家学会院士樊文飞:把大数据变小,突破企业资源限制相关推荐
- 中国工程院院士高文:从大数据科学到人工智能的迁移过程
https://blog.csdn.net/qq_33414271/article/details/79653094 2017年11月6日,京东举行JDD京东金融全球数据探索者大会,在全球范围内寻求志 ...
- 中国工程程院院士高文:从大数据科学到人工智能的迁移过程
本文转自: 创客总部–>产业数字化智库 11月6日,京东举行JDD京东金融全球数据探索者大会,在全球范围内寻求志同道合的伙伴共同探索大数据和人工智能在金融领域的最佳实践.中国工程程院院士.北京大 ...
- 一文读懂大数据平台——写给大数据开发初学者的话!
一文读懂大数据平台--写给大数据开发初学者的话! 文|miao君 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hado ...
- 老文新读 | 大数据于国内影视行业的意义及应用
编者注:本文由作者4年前发表于知乎专栏,前两天编者偶然读到,觉得很有意思,于是转过来与大家分享.原文标题:评析:触不到的大数据 作者 | 王义之,凡影合伙人 最近这几年,我们可以听到很多关于大数据在影 ...
- 院士李德毅:大数据认知(演讲全文)
院士李德毅:大数据认知(演讲全文) 摘要: 导读:李德毅院士通过介绍作诗.语言翻译.语音识别.保险.人脸识别,深入浅出地阐述了大数据认知的方法学.大数据标志数据密集型科学的新时代的到来,大数据时代是小 ...
- 【大数据】中国工程院院士何友:工业大数据及其应用
来源:德先生D-Technologies 工业大数据面临的挑战. 第一是数据搜集,要对来自网络包括物联网和机构信息系统的数据附上时空标签,去伪存真,尽可能收集异源甚至是异构的数据,还可与历史数据对照, ...
- 一文读懂大数据及大数据产业
随着"云计算"."互联网"."物联网"的快速发展,大数据(Big Data)也吸引了越来越多的人关注,成为社会热点之一.大街小巷不论是技术人 ...
- 一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】
一文看懂大数据生态圈完整知识体系 徐葳 随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈 ...
- pdf太大怎么变小?pdf压缩一分钟学会
一个伙计请教如何把一个4兆大小的pdf文件,压缩到1兆以内方便传输分享.其实他在找到我之前,在网上也下载过一些类似的压缩软件,但是他比较担心的是这些软件的安全性,还有些软件使用真的复杂闹心.因为我工作 ...
最新文章
- Nature调查:读博难,在中国读博难上加难
- 分割BiSeNet笔记
- 解决svn错误:post-commit hook failed (exit code 1) with output
- 在VC中如何找到崩溃的源头(二)
- 深度概览卷积神经网络全景图,没有比这更全的了!
- Visual Studio Code 1.45 发布
- 正则表达式-基本概念与简单元字符
- java 中append()_调用append()方法在Java中构造一个StringBuffer对象
- Android 中自定义控件和属性(attr.xml,declare-styleable,TypedArray)的方法和使用 一
- CMD下的网络安全配置
- Android三横变叉动画,90%的孩子会写错的笔顺,动画演示来一波!一看就会!
- 2020最强图像匹配综述论文-Part1
- stm32 SWD printf SWD调试输出
- Echarts实现数据可视化大屏
- 齿轮箱常见故障数据_齿轮箱故障数据
- 【数据库】码,超码,候选码与主码,外码
- 后缀001,002,003等的文件解压
- MDM结算分录后无法再进行更改
- Linux kernel的中断子系统之(二):IRQ Domain介绍
- 带你玩转kubernetes-k8s(第14篇:k8s-深入掌握Pod-在容器内获取Pod信息)