Spark核心开发者:性能超Hadoop百倍,算法实现仅有其1/10或1/100

发表于 2013-04-26 13:42|  113488次阅读| 来源 CSDN|  449 条评论| 作者 王鹏

Tachyon Spark Shark 数据库 AMPLab Reynold Xin 云计算大会
allowtransparency="true" frameborder="0" scrolling="no" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2013-04-26%2F2815057-Spark-Reynold&type=3&count=&appkey=&title=CSDN%E4%B8%93%E8%AE%BF%E4%BA%86Shark%E7%9A%84%E4%BD%9C%E8%80%85%EF%BC%8C%E4%B9%9F%E6%98%AFSpark%E7%9A%84%E6%A0%B8%E5%BF%83%E6%88%90%E5%91%98%EF%BC%8C%E6%9D%A5%E8%87%AA%E4%B8%AD%E5%9B%BD%E7%9A%84%E5%8D%9A%E5%A3%AB%E7%94%9FReynold%20Xin%E3%80%82%E5%9C%A8%E6%94%BB%E8%AF%BBBerkeley%E7%9A%84%E5%8D%9A%E5%A3%AB%E4%B9%8B%E5%89%8D%EF%BC%8C%E4%BB%96%E5%9C%A8Google%E5%92%8CIBM%E5%B7%A5%E4%BD%9C%E8%BF%87%E4%B8%80%E6%AE%B5%E6%97%B6%E9%97%B4%EF%BC%8C%E6%9B%BE%E5%9C%A8Google%E5%81%9A%E5%88%86%E5%B8%83%E5%BC%8F%E7%B3%BB%E7%BB%9F%E5%BC%80%E5%8F%91%EF%BC%8C%E8%BF%98%E5%8F%82%E4%B8%8E%E4%BA%86IBM%E5%88%86%E5%B8%83%E5%BC%8F%E7%9A%84DB2%E5%86%85%E6%A0%B8%E7%9A%84%E5%BC%80%E5%8F%91%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1438492899839" width="22" height="16"> 摘要:CSDN专访了Shark的作者,也是Spark的核心成员,来自中国的博士生Reynold Xin。在攻读Berkeley的博士之前,他在Google和IBM工作过一段时间,曾在Google做分布式系统开发,还参与了IBM分布式的DB2内核的开发。

前几天,CSDN报道了伯克利大学的一个项目Tachyon。记者及时联系到了Berkeley计算机系AMPLab的博士生Reynold Xin,中文名字辛湜,他是Shark的作者,也是Spark的核心成员(@hashjoin)。

Spark是一个高效的分布式计算系统相比Hadoop,它在性能上比Hadoop要高100倍。Spark提供比Hadoop更上层的API,同样的算法在Spark中实现往往只有Hadoop的1/10或者1/100的长度。Shark类似“SQL on Spark”,是一个在Spark上数据仓库的实现,在兼容Hive的情况下,性能最高可以达到Hive的一百倍。 

图:Spark的核心成员Reynold Xin

CSDN的专访整理如下:

CSDN:你好,辛湜。请首先介绍一下自己。

辛湜:我是UC Berkeley计算机系AMPLab的博士生,专注于数据库以及计算机系统的研究。AMPLab正在开发一个大数据的处理平台叫做Berkeley Data Analytics Stack (BDAS),其中包括了Spark, Shark等项目。我是Shark的作者,也是Spark的核心成员。 (辛湜的学术主页)

在来Berkeley开始博士研究之前,我在Google和IBM工作过一段时间。在Google的时候主要做分布式系统开发,在IBM的时候做分布式的DB2内核的开发。之前我是在多伦多大学就读工程科学专业本科(Engineering Science,类似工程物理)。

CSDN:为什么会选择计算机专业?有什么特别的故事吗?

辛湜:从小学开始接触编程,当时觉得可以通过程序来控制电脑是一个十分神奇的事情。后来高中之后和一个朋友(网名“旅行”)合作,写了一个在国内当时比较有名的论坛程序FastBoard(以及后续版本Celeste)。我们还建立了可能是当时中国最大的PHP论坛。不过后来因为个人学业原因几个项目都没有再继续。

CSDN:为什么会选择伯克利大学?伯克利大学给你留下印象最深刻的东西是什么?

辛湜:大学是在加拿大多伦多大学读的。当时选择伯克利的原因主要有几个方面:

首先,我在选择学校的时候几个教授正要成立一个专门针对大数据的实验室(就是AMPLab),由几个来自不同学科的世界顶尖教授组成,比如说数据库(Michael Franklin),系统(Ion Stoica),机器学习(Michael Jordan),计算机网络(Scott Shenker),计算机架构(David Patterson, Randy Katz)等。世界上应该很难再找到一个类似的地方。

其次,Berkeley数据库和系统领域的研究项目基本上都会开源,对工业界有比较深的影响(BSD, PostgreSQL, Berkeley DB, TinyOS等等)。我个人希望我的研究想法可以超越论文的阶段,所以Berkeley这几点十分吸引我。

最后要说一点,就是Berkeley自然环境非常好,我第一次参观学校的时候住半山上,眺望了整个旧金山海湾和金门大桥。

CSDN:现在主要从事哪一方面的工作?

辛湜:我其实最主要是做Shark和Spark。在Tachyon方面我主要负责Shark和Tachyon的集成,让Shark可以原生的使用Tachyon里面“列”的概念。 

Tachyon的主要作者HY也是一个中国人。如果有兴趣的话我可以介绍你们相互认识一下。(笔者正在准备采访HY,请关注后续的报道)

CSDN:在微博上看到你在很多地方做Spark和Shark的演讲,可以简单的介绍一下这两方面的内容吗?

辛湜:Spark是一个高效的分布式计算系统,相比Hadoop有以下几个优势:

  • 性能可以比Hadoop高100倍。
  • Spark提供比Hadoop更上层的API,同样的算法在Spark中实现往往只有Hadoop的十分之一或者一百分之一的长度。

Shark类似“SQL on Spark”,是一个在Spark上数据仓库的实现,在兼容Hive的情况下,性能最高可以达到Hive的一百倍。

CSDN:Tachyon现在开源了吗?

辛湜:现在已经开源了。可以在Github上找到。

CSDN:你在微博上说“时代杂志2006及2011年度风云人物奖获得者”,这个我有些疑惑?

辛湜:那是个玩笑, 2006年的时代杂志年度风云人物是“你”,包括了网络上的每一个人。2011年的年度风云人物是所有参与了反华尔街示威抗议的人。2011年我在示威场所观察了三个小时,当时在抗议加州政府对教育经费的削减。

CSDN:了解知道国内的“云计算大会”吗?CSDN已经举办了五届,希望你有机会来参加,也非常希望你能来云计算大会做演讲嘉宾,可以把更多的科技信息分享给大家。

辛湜:听过。有机会的话我也希望可以在会议上给大家介绍一下Berkeley开发的一些项目以及这些项目在工业界的应用。 (文/王鹏,审校/仲浩)

相关阅读:Tachyon:吞吐量超过HDFS 300多倍 来自伯克利的分布式文件系统

“  第五届中国云计算大会 ”将于2013年6月5-7日在北京国家会议中心隆重举行。猛击报名!

本文为CSDN编译整理,未经允许不得转载。如需转载请联系market@csdn.net

Spark核心开发者:性能超Hadoop百倍,算法实现仅有其1/10或1/100相关推荐

  1. 我是如何将一个老系统的kafka消费者服务的性能提升近百倍的

    大家好,又见面了~ kafka作为一种高吞吐量的分布式发布订阅消息系统,在业务系统中被广泛的使用. 如果问你,如何提高kafka队列中的消息消费速度呢? 答案很简单,topic多分几个分片,然后使用消 ...

  2. h5如何上传文件二进制流_Hadoop如何将TB级大文件的上传性能优化上百倍?

    这篇文章,我们来看看,Hadoop的HDFS分布式文件系统的文件上传的性能优化. 首先,我们还是通过一张图来回顾一下文件上传的大概的原理. 由上图所示,文件上传的原理,其实说出来也简单. 比如有个TB ...

  3. 阿里首款自研芯片含光800问世!算力相当于10个CPU,性能超第二名4倍!

    大数据文摘出品 作者:魏子敏.曹培信 阿里巴巴云栖大会第十年,平头哥又有重大发布. 去年10月份,也是在云栖大会上,阿里巴巴宣布了平头哥半导体有限公司的成立,致力于芯片研发.过去半年,平头哥先后发布玄 ...

  4. 他是阿里顶尖科学家,扛起国产分布式数据库大旗,性能超Oralce 20倍!

    点击"技术领导力"关注∆  每天早上8:30推送 作者| Mr.K   编辑| Emma 来源| 微信公号 技术领导力(ID:jishulingdaoli) 2020年5月19日, ...

  5. 英伟达颠覆CPU!Arm架构专为AI而生,性能超x86十倍

    30系显卡买不到?英伟达老黄刚刚又发布一款"空气CPU". 不过就算你抢不到也没关系,因为这款CPU专门为服务器设计,到2023年才能发布. 刚刚,在英伟达举办的GPU技术大会上( ...

  6. 英伟达发布“空气CPU”,Arm架构专为AI而生,性能超x86十倍,与自家GPU更搭

    梦晨 晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 30系显卡买不到?英伟达老黄刚刚又发布一款"空气CPU". 不过就算你抢不到也没关系,因为这款CPU专门为服务器 ...

  7. OLAP系统场景中,GaussDB(for MySQL)借助PQ+NDP让性能提升高达百倍

    点击关注 · 我们一起过元旦 1.背景 OLAP(On-Line Analytical Processing)联机分析处理,应用在数据仓库,使用对象是决策者.OLAP系统强调的是数据分析,响应速度要求 ...

  8. 上线周期缩短上百倍!NLP流水线系统发布,10分钟搭建检索、问答等复杂系统...

    伴随着产业智能化升级的浪潮,企业对灵活可定制的智能NLP系统有着广泛需求.例如,保险公司希望通过智能客服平台向客户提供24小时问答服务,同时也想建设企业内搜平台向员工提供精准.高效的搜索服务.然而众多 ...

  9. 腾讯云数据库开源再突破:TDSQL PG版查询性能提升百倍

    日前,腾讯云数据库开源产品TDSQL PG版(开源代号TBase)宣布推出重磅升级--经过一年半的打磨,上万张表访问场景下,内存占用节省60%:查询性能提升百倍:SQL语句兼容性增强.同时,大力提升原 ...

最新文章

  1. linux中mysql回滚重演_DM7 达梦 数据库 数据守护(Data Watch) (1) -- 基本概念
  2. hello程序的运行过程-从计算机系统角度
  3. 将深度缓冲z值变换到相机坐标系
  4. 蠕虫mysql_mysql蠕虫复制基础知识点
  5. 【java】输入球的半径,求出其体积
  6. Oracle的去重函数 distinct
  7. 【转】大厦将倾,互联网将如何变革传统行业(下)
  8. thinkphp的商城 好在哪里
  9. 基于JavaSwing开发中国象棋对战游戏+实验报告 课程设计 大作业
  10. 实例:用C#.NET手把手教你做微信公众号开发(系列文章索引目录)
  11. RL(Chapter 6): Cliff Walking
  12. “关灯”看这出戏,依旧是百年至美
  13. linux cpu 时间,【Linux】CPU时间与处理器耗时
  14. centos 7搭建直播间
  15. PHP-CGI远程代码执行
  16. 计算机三级网络技术(补充)
  17. 如何查询澳大利亚药监局(TGA)药品信息数据
  18. linux安装centos7.3,安装CentOS 6.9与CentOS7.3
  19. yan-master项目集成Activiti 6.0.0
  20. uboot中利用TFTP和NFS加载镜像到ram运行

热门文章

  1. Pytho解析器的安装及配置
  2. CC2530+RFX2401启用功放过程小结
  3. gRPC大数据量消息传递方法
  4. 裸金属服务器能虚拟化吗,市场需求多样化,裸金属服务器如何“吃得开”?
  5. Anbox 容器管理服务
  6. 基于二极管的温度检测电路
  7. 线性丢番图方程的C++实现
  8. 硕士阶段学习情况汇总
  9. 项目简要建设情况汇报材料报告
  10. 无需会员,百度云不限速下载!