七牛技术总监陈超:记Spark Summit China 2015

width="22" height="16" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2015-04-30%2F2824594-spark-summit-china-2015&type=3&count=&appkey=&title=%E7%9B%B8%E6%AF%94%E5%8E%BB%E5%B9%B4%E5%B3%B0%E4%BC%9A%EF%BC%8C%E4%BB%8A%E5%B9%B4%E7%9A%84Spark%E5%B3%B0%E4%BC%9A%E6%98%BE%E5%BE%97%E6%9B%B4%E5%8A%A0%E8%87%AA%E4%BF%A1%E3%80%82%E5%8E%BB%E5%B9%B4%EF%BC%8C%E5%A4%A7%E9%83%A8%E5%88%86%E5%8F%82%E4%BC%9A%E8%80%85%E5%8F%AF%E8%83%BD%E6%9B%B4%E5%A4%9A%E6%98%AF%E6%8A%B1%E7%9D%80%E2%80%9C%E6%88%91%E8%83%BD%E4%B8%8D%E8%83%BD%E7%94%A8Spark%E2%80%9D%E7%9A%84%E5%BF%83%E6%80%81%EF%BC%8C%E8%80%8C%E4%BB%8A%E5%B9%B4%E5%8F%82%E4%BC%9A%E8%80%85%E6%83%B3%E7%9A%84%E6%9B%B4%E5%A4%9A%E7%9A%84%E6%98%AF%E2%80%9C%E6%88%91%E6%80%8E%E6%A0%B7%E6%89%8D%E8%83%BD%E6%9B%B4%E5%A5%BD%E5%9C%B0%E4%BD%BF%E7%94%A8Spark%E2%80%9D%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1430472152698" frameborder="0" scrolling="no" allowtransparency="true">摘要:相比去年峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态,而今年参会者想的更多的是“我怎样才能更好地使用Spark”。

Spark Summit China 2015于4月18日在北京国际会议中心顺利召开。作为本次峰会的主席,我很荣幸地邀请到了来自Databricks、微软亚洲研究院、IBM、英特尔、Cloudera、百度、阿里巴巴、腾讯及亚信的Spark开发者与使用者来分享他们的宝贵经验。本文,我将从我的视角来解读本次Spark峰会所传递出来的信息。下面一起回顾:

Tathagata Das:New Directions for Spark in 2015

从TD(Spark Streaming负责人)的第一场分享来看,Spark确实已经开始在大数据领域起到中流砥柱的作用了。同时,Spark本身的发展也相当迅猛:2014年,Spark的代码量从19万增加到37万,代码贡献者从150多人上升至500多人,对比之下,Hadoop前进的脚步显然慢了一些。过去一年,Spark的重点基本是在稳定性和效率上,当然Spark社区也一直在提供更丰富的Library。而在2015年,Spark的新方向是数据科学与平台化。Spark1.3正式发布了DataFrame,这个后面连城的分享会有更详细的阐述。Machine Learning Pipeline的出现使得机器学习更加便捷。TD同时也透露Spark1.4中将引入SparkR,这显然是给数据科学从业者注入了一针强心剂。另外一方面,Spark也可以基于DataSource接口无缝接入各个不同的数据源,这不仅给不同数据源的使用者提供了更便利的Spark使用方式,更给那些需要从不同数据源收集数据,并结合起来进行分析挖掘的用户提供了一个极其简单的实现。最后TD表明,基于Spark的第三方package也发展迅猛。

周虎城:Spark Ecosystem and Applications inside Microsoft

第二场演讲来自微软亚洲研究院的周虎成,他主要介绍了Spark在微软内部的使用。听完周虎成的分享后,我本人其实对于微软会将Spark用的这么深入而略感意外。刚开始时,周虎成就说了一句非常有意思的话——“微软可能是目前唯一一个将Spark跑在Windows Server上的用户”。微软的Spark生态系统由Resource Management、Data as a Service、,Spark as a Service 及 App组成,其中data可以支持HDFS、Cosmos、 Azure storage、Entity store及Tachyon。值得一提的是,微软使用了Zeppelin作为交互式分析工具。此外,Spark Streaming与MLlib在微软内部也有被使用。

王联辉:腾讯在Spark上的应用与实践优化

第三位进行分享的是腾讯高级工程师王联辉。众所周知,腾讯在很早之前就开始使用Spark了,在TDW得到了深度运用,TDW目前拥有8000多的结点。在腾讯内部,每天由Spark执行的任务数在10000以上,典型的应用场景是:1、预测用户的广告点击概率;2、计算两个好友间的共同好友数; 3、用于ETL的SparkSQL和DAG任务。最后王联辉也给出了腾讯在Spark实践中的一些优化,给大家带来了较大的帮助。

连城:四两拨千斤——Spark SQL结构化数据分析

第四场是Databricks工程师、Spark Committer、Spark SQL主要开发者之一连城带来的Spark SQL相关分享。连城给出了一组关于Spark SQL的开发者数据,数据表明Spark SQL当仁不让的成为Spark中最活跃的组件,并且也正式在Spark1.3中从alpha版本毕业。连城主要介绍了DataFrame(DF),他表示,DF的出现使得语言的选择(这里主要指Scala、Python与Java)变得不那么重要,因为无论你选择何种语言,DF都有非常优秀的性能,并且明显好过直接针对原始RDD的编程。最后连城认为DataFrame已经成了NewRDD,我也比较认同这个观点,相信以后很多场景下,一定都是直接针对DataFrame的编程。

马小龙:Spark在百度的工程实践分享

第五场由百度资深软件工程师马小龙分享Spark在百度的应用。百度目前的Spark集群规模为1500台左右,每天的作业数在10000左右。比较有趣的是,马小龙给出了不同语言的API在百度被使用的比例,其中Python占到70%, Scala占到20%,Java仅占比10%。在百度的众多Spark case中,Tachyon的使用是比较有意思的。百度目前面临着数据节点和计算节点不在同一个数据中心的可能,还有跨数据中心访问延迟大的问题。百度使用Tachyon作为Transparent Cache Layer,冷查询直接从远程存储节点读取数据,而热查询直接从Tachyon读取。结果表明,采用Tachyon后,热查询的效率提高了10倍以上。

黄明:图流合壁——基于Spark Streaming和GraphX的动态图计算

第六场分享由阿里巴巴淘宝技术部高级技术专家黄明(明风)带来,他主要讲的是利用Spark Streaming与GraphX进行的动态图计算相关的内容。有个小花絮,TD对明风的分享非常感兴趣,整个过程中都在与我交流,他也希望有更多有意思的用法出现。明风表示,单纯基于GraphX的图计算可以对用户进行社区划分,可以更好地为决策提供依据。但是每天一次离线计算不及时,没法快速响应业务,而业务需要实时对淘宝的用户进行社群划分,所以明风团队决定尝试由实时消息与实时图构建组成的动态图模型。通过实时效果修正,新的模型体现出了显著的优势,处理时间可以控制在一分钟以内。

田凤占:Spark驱动智能大数据分析应用

第七场分享由Cloudera的高级架构师田凤占博士带来。田博士主要介绍了Cloudera在Spark上所做的努力,并且表示Cloudera已经完全拥抱了Spark,全方位支持Spark的发展。田博士抛出的一个观点很有趣:关注开放标准,而不仅仅关注开源。意思就是厂商需要支持那些被使用最广泛的组件。

黄洁:Spark优化及实践经验分享

第八场分享由英特尔大数据技术中心研发经理黄洁带来的Spark优化及实践经验分享。本场分享在会后带来了极大的反响,建议每一位Spark使用者都去看下黄洁的这份slide,相信一定会使你受益匪浅。黄洁从内存管理、提高IO及优化计算三方面来阐述如何使Spark更加高效。其中的一些方法为用Tachyon作为Spark的off-heap memory,提供更好的任务数据本地性及优化的shuffle实现。最后黄洁也给出了两个可以来评测Spark运行状况的工具。

Tathagata Das:The State of the Union of Spark Streaming and the Road Beyond

第九场分享还是来自TD,不过他这次分享的是Spark Streaming相关内容。TD介绍了Streaming的发展,并且给我们展示了很多使用Spark Streaming的公司,可以看到,Spark Streaming的高质量用户已经非常多了。TD尤其强调了Spark 1.3中release的Kafka Direct Stream API——既然现在Kafka的用户如此之多,所以更好的支持Kafka就显得尤为重要。新的Kakfa Direct Stream API使用了Kafka的simple consumer API,不需要receiver并做到零数据丢失,而且支持exactly-once语义。

田毅:Spark平台在电信运营商的应用实践

第十个进行分享的是亚信大数据平台研发部门经理田毅,其演讲内容是基于Spark改造用户标签分析查询平台。改造前,平台主要是直接利用SQL从数据库中进行查询,这样做的直接问题是标签数量越来越大,数据库负载过高,扩展成本高。因此,田毅团队利用Spark SQL的External Datasource从外部系统的数据表中抽取数据后直接分析,大大提升了效率,最后田毅团队引入了Spark Streaming,使得处理时间进一步缩短。

陈冠诚:基于OpenStack、Docker和Spark打造SuperVessel大数据公有云

最后一场分享由IBM中国研究院高级研究员陈冠诚带来的Spark、Docker与OpenStack的结合实战。这可能也是后面发展的一个方向,就是将容器技术与大数据框架结合起来跑,我本人也十分期待后续更多类似的案例出现。

以上是本次Spark中国峰会的各场次摘要,由于篇幅所限,无法做更详细的展开,大家可以选择感兴趣的话题去查阅相关资料,同时也欢迎讨论。

本次峰会的另一大亮点是报名企业的种类非常多,不仅大量的互联网公司派遣相关人员参会,不少传统企业也对Spark表现出了极大的兴趣。在上午的峰会中,会场两边与后面的走道都挤满了观众,这样的热情有点出乎我的意料,所以组委会临时决定下午减少现场的桌子,增加一些椅子给各位参会者。同时,相比去年的峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态来的,而今年参会者想得更多的是“我怎样才能更好地使用Spark”。从我与不少现场参会者的交流来看,大家已经非常认可Spark了,我们有理由期待Spark成为继 Hadoop(MapReduce)后新一代大数据处理事实上的标准。在Spark后续的发展中,我认为DataFrame将毫无疑问成为核心,所以我建议Spark的使用者都来关注一下DataFrame,另一方面,我也预计将会有越来越多的数据科学家会选择使用Spark,而Spark SQL、Spark Steaming及MLlib这三个组件一定会有更多融合使用的场景。希望在明年峰会的时候,有更多有意思的议题出现。

2015年的峰会圆满落幕了,借此机会感谢各位讲师,感谢各位参会者,也要感谢主办方,希望明年我们可以共同办一届更加成功的峰会。

Spark——星星之火,已经燎原! 

后记:北京时间2015年4月28日晚,Databricks在其公司博客宣布了Tungsten项目,这将是自Spark诞生以来内核级别的最大改进。同时,据Reynold透露,Tungsten将在未来两到三个release内实现。届时,Spark的执行效率又将有大幅提升!这似乎也在说明着——Spark的优化,永不止步!

七牛技术总监陈超:记Spark Summit China 2015相关推荐

  1. 专访七牛云技术总监陈超:浅谈开源技术选型考量

    编者按:最近一次见到陈超(@CrazyJVM,七牛云技术总监)是在SDCC架构和数据库峰会的上海站,当时他给大家带来的是一个时间序列数据库的话题--"InfluxDB".这是一个令 ...

  2. 七牛技术总监肖勤:微服务架构实践经验分享

    服务的疯狂增长与云计算技术的进步,让微服务架构受到我们的重点关注.在近日的七牛开发者最佳实践日上,七牛技术总监肖勤介绍了本人在微服务架构方面的实践经验,并接受了恩威科技(微信公众号:天府云创)记者的采 ...

  3. 对话七牛云技术总监陈辉:音视频行业中的新系统新规划和新增长

    编者按: 从去年七牛云音视频团队发布音画质量分析系统到现在已有半年多的时间,得到了很多业内玩家和客户的认可.在即将召开的 LiveVideoStackCon 2022 音视频技术大会上海站,七牛云将以 ...

  4. Docker入门与七牛kirk工具

    一.Docker的实现原理和技术前景 Docker技术是一门容器技术,于2013年正式开源发行,现在它已经成为了目前最流行的虚拟化技术,Docker的优点是"轻量型"," ...

  5. 七牛访谈|秒拍&小咖秀CTO汤力嘉:产品的生存系于技术

    近日,七牛小伙伴.知名短视频社交产品"秒拍"."小咖秀"背后母公司炫一下科技宣布完成2亿美元D轮融资,并将继续深耕移动短视频领域,加大在移动短视频内容领域的投入 ...

  6. 为什么 CTO、技术总监、架构师都不写代码,还这么牛?

    作者| Mr.K   整理| Emma 来源| 技术领导力(ID:jishulingdaoli) 常常会被问到这样的问题:CTO.技术总监.架构师很少写具体代码,为什么还很牛逼的样子,拿这么高工资? ...

  7. 何李石:七牛直播云技术详解

    导读: 6月30日,七牛在原有云存储,云加速以及数据处理服务的基础上,正式推出七牛直播云服务.这次发布,除了推出实时流网络(LiveNet)作为全面支撑直播实时互动场景的传输网络通道,同时也推出多平台 ...

  8. 七牛直播云服务技术揭秘

    以下根据七牛云首席布道师何李石现场演讲内容整理. 直播模型及其实现 一个通用的直播模型一般包括三个模块:主播方.服务器端和播放端. 首先是主播方,它是产生视频流的源头,由一系列流程组成: 第一,通过一 ...

  9. #为何程序员百万年薪,CTO技术总监架构师不写代码还这么牛逼 ?

    [此文章转自乐字节] 真的是一点不服气我的领导,每天就在座位上看看头条,到时间开开会,每天写代码的时间可能不到两小时,到底是为什么他的收入有年薪百万?我们都是985研究生毕业,是什么铸就了他的价值? ...

最新文章

  1. 使用WinINet和WinHTTP实现Http訪问
  2. nodejs开发部署工具,守护进程
  3. 蓝桥杯基础训练——Fibonacci数列
  4. 《像计算机科学家一样思考C++》导读
  5. MQTT协议通俗讲解
  6. 【AI大咖】ML宗师乔教主,Science评选的全世界最有影响力的计算机科学家
  7. insert into 插入空值_MySQL数据库的表中 NULL 和 空值 到底有什么区别呢
  8. Java Mybatis
  9. 【HDU1754】I HATE IT,线段树练习
  10. Hibernate性能优化
  11. 微会显示服务器当前线路忙,免费电话之争:触宝电话/微会谁更强
  12. Q95:纹理映射(Texture Mapping)(3)——Triangle Meshes
  13. 【pandas】dataframe根据某列是否是null筛选数据
  14. 算法课 - 最大流问题
  15. 逍遥模拟器android4.0版本,【逍遥安卓模拟器最新版】逍遥安卓模拟器官方下载 v7.2.1.0 电脑版-开心电玩...
  16. iozone联机测试
  17. 计算机每天定时开机设置方法,电脑如何设置每天定时开机
  18. 项目npm install报错gyp info it worked if it ends with ok
  19. 《InsideUE4》GamePlay架构学习_Level和World
  20. 【向生活低头】十分白痴地自动删微博文章脚本

热门文章

  1. ar linux 删除模块_Linux基础命令---ar
  2. 2020年北大中文核心期刊目录_中文核心期刊目录汇总(2020年4月发布)
  3. Ubuntu terminal路径太深,名字太长
  4. tensorflow 风格迁移二
  5. c++编辑器_盘点四款PDF编辑器,使用它们,编辑PDF文件没问题!
  6. python爬取全国社会组织查询网站
  7. MySQL从入门到精通50讲(四)-MySQL表操作创建表及删除表
  8. Tableau必知必会之学做一个实用的热图日历
  9. SVM在R语言中的使用
  10. emacs python plugin_使用 python 扩展 emacs