2016云栖大会·北京峰会于8月9号在国家会议中心拉开帷幕,在云栖社区开发者技术专场中,来自阿里云技术专家曹龙(封神)为在场的听众带来《Deep dive into Spark》精彩分享。

关于分享者

曹龙,花名封神,专注在大数据领域,6年分布式引擎研发经验。先后研发上万台Hadoop、ODPS集群。先后负责阿里YARN、Spark及自主研发内存计算引擎。目前为广大公共云用户提供专业的Hadoop服务,即:E-mapreduce产品

演讲内容架构

  • 数据处理技术介绍
  • Spark 介绍
  • Spark Plus
  • Spark 应用场景
  • Spark 在云上
  • Spark 常见的问题
  • E-MapReduce大数据平台

演讲主要内容

大数据通常自上而下分为大数据产品、数据治理/作业生命周期、作业管理/作业流、分布式计算、分布式存储、分布式调度、硬件/机房七层。本次演讲的重点在于分布式计算层。

在以时间、数据量的坐标抽上列出目前引擎大致擅长处理数据的坐标,应该还需要加上数据复杂度、成本等维度,才能更好的体现侧重点,这里不列出。没有哪个软件能解决所有的问题,能解决问题也是在一个范围内,即使是spark、flink等。目前存在有意思的事情是:greenplum类似的MPP引擎想处理大数据的需求,hadoop等被定位为大数据的引擎也想解决小数据的问题(列式存储、或者也加入一些索引)。图中右上角的想往左边靠,减少延迟,图中左下角的想往上面靠,增大能处理的数据量。

DB/MPP跟Hadoop引擎相对比,两者有很大的不同,具体差异参见下图。从硬件、容错、调度模型及衡量标准方面各自都侧重一方面,对于事务性、index等,Hadoop引擎当前是不支持的。另外MPP其实也在跟Hadoop在融合,比如MPP on HDFS,Spark on DB也在实现。

Hadoop生态计算引擎目前包括:Hadoop MapReduce、Spark/Spark 2.0、TEZ、Flink等,这里从计算模型,各自的特点分为了1G、2G、3G、3.8G、4G,分别代表其理论先进程度。Spark理论上并不是最先进的,但是目前来讲应该是最适合的。

Spark 介绍

下图展示的是Spark的趋势,可以清楚地看到,在2012年至2013年间,Spark有了一个很大的转折,在那时候,阿里也在逐步使用Spark,到今天,Spark和Hadoop逐渐持平发展。

Spark 提供 SQL、机器学习库 MLlib、流计算 Streaming 和图计算 Graphx,同时也支持 Scala、Java、Python 和 R 语言开发的基于 API 的应用程序。下图显示的是Spark 1.0的基础架构。

下图是Spark 2.0的基础架构,对比于1.0,Spark 2.0主要聚焦于两个方面:(1)对标准的SQL支持。(2)统一的DataFrame和Dataset(逻辑执行计划)API。特别的以后一些的API都是基于Catalyst的。

完整的Spark链路如下图所示,主要包括SQL、RDD、Task、Thread。

Spark Plus

常见的Spark puls有:Spark部署模式、Spark弹性伸缩、Spark+aliuxio(加速)、与业务系统融合(解耦,业务系统与大数据系统)、Spark+数据库服务、Spark+存储格式。

其中弹性伸缩让Spark上大集群成为了可能;在Spark+存储格式中:1 TB数据的存储相对比文本节省了将近 75%;性能按照不同的query提高从几倍到数十倍不等。

常见的Spark应用场景包括:ETL、机器学习、流式计算、即时查询。

其中,在ETL场景中,通过Spark SQL 、Spark API、Dataset实现图片、语音、视频等信息的在线/离线数据抽取、转化为结构化数据,便于后续分析处理。

Spark 在云上

Spark在云上的最佳实践是将存储与计算分离,下图展现了自建ECS和EMP+OSS的存储计算分离成本估算对比情况。

下图展示的是自建ECS和EMP+OSS的terasort时间对比,这里自建ECS配置参数是1 master 4cpu 16g和8 Slave 4cpu 16g;EMR+OSS的参数是1 master 4cpu 16g和8 Slave 4cpu 16g。

下图展现了自建ECS和EMP+OSS的存储计算分离性能对照图,左边是ECS自建,右边是EMP+OSS。

Spark常见的问题包括卡住、内存溢出、GC频繁。

随着Spark 2.0的发布,Spark逐渐趋于成熟,未来Spark的发展方向:

  • 支持ANSI SQL
  • 性能接近MPP数据仓库
  • 一切基于优化(Catalyst)
  • 新硬件的支持,比如:大内存、GPU
  • 更加友好的支持云

E-MapReduce大数据平台

E-MapReduce 是运行在阿里云平台上的开源大数据处理系统解决方案。它能够让用户将Apache Hadoop和Apache Spark等开源引擎运行在阿里云的云平台上,提供给用户在云上的分析和处理大数据的平台。我们提供管控系统、运维系统及后续的专家系统帮用户解决自动化的问题,并提供专家服务帮助客户解决疑难杂症。

E-MapReduce产品的架构如下图所示:

从上图可以看出,Spark生态是E-MapReduce引擎的一部分,我们还有支持了其它非常多的引擎,如在离线处理、在线流式、在线存储及交互式查询等各个方面。基于我们过去许多年在阿里内部的沉淀,在易用性、成本、性能、运维等各方面具有阿里开源大数据的技术能力,欢迎大家使用。

和封神一起“深挖”Spark相关推荐

  1. spark封神之路(1)-spark简介

    1 Spark简介 Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apa ...

  2. spark封神之路(2)-spark运行模式

    本专栏系列视频教程 2 spark运行模式入门 1.官网地址 http://spark.apache.org/ 2.文档查看地址 https://spark.apache.org/docs/2.1.1 ...

  3. 苹果造车简史:库克能靠造车封神吗?

    来源|字母榜 作者|赵晋杰 原计划在2023-2025年推出的苹果首款电动车Apple Car,近期被媒体曝出有望提前至2021年第三季度.苹果造车消息一出,特斯拉股价(截至12月21日美股收盘)当天 ...

  4. 【深挖字符串操作】·万字总结,这些知识点你真的懂了吗?

    大家好,我是Duoni!  开始前言 博主介绍:一位不愿透露姓名的艺术生跨界分子 学习阶段:C语言进阶 信念支撑:业精于勤,只要足够肝,世间就没有跨不了的界! 阅前请求:博主自愧没有任何计算机基础,之 ...

  5. 科技云报道:被封神的零信任,如何走下神坛?

    科技云报道原创.​ 如今安全业内言必谈零信任. 根据知名咨询机构Gartner发布的2021年企业网络技术成熟度曲线,零信任已走过了低谷期,进入了稳步爬升的光明期.Gartner曾预测,到2023年, ...

  6. 深挖数据价值 阿里云栖开年大会报道

    本文讲的是深挖数据价值 阿里云栖开年大会报道[IT168 云计算]经历风雨,转身看到彩虹.在这个"化云为雨"的时节,造云大咖们角色扮演也逐步渐入佳境,或随需而动,或引领潮流.阿里云 ...

  7. 硬核干货:一位码农的架构师封神之路!

    点击上方"方志朋",选择"设为星标" 回复"666"获取新整理的面试文章 转自机器之心 几天前,高级架构师 Justin Miller 在 ...

  8. 封神召唤师显示服务器爆满,封神召唤师总是显示无法连接网络

    封神召唤师总是显示无法连接网络,相信大家在玩封神召唤师的过程中,经常会遇到这样的问题,下面ourplay小编就简单为大家介绍几种常见的解决方案. 封神召唤师游戏简介 <封神召唤师>取材于经 ...

  9. 32岁封神!苏炳添博士重磅论文:我怎么跑这么快?

    32岁,9.83秒,亚洲第一! 「亚洲飞人」苏炳添创造了奥运赛场上中国男子百米短跑的奇迹. 这天,微博热搜为他「引爆」!百米决赛,他做到了极致. 不只是「亚洲飞人」,他其实还是学术界大佬! 暨南大学体 ...

最新文章

  1. 大数据集合求交集_通达信北上资金+盘面分析sp版面,智能大数据集合,筹码占比指标...
  2. SAP PM 初级系列1 – 定义维护工厂和维护计划工厂
  3. markdown 编辑器_推荐一款公众号 Markdown 编辑器
  4. 力扣--19删除链表中的倒数第n个节点
  5. 蓝桥杯 ADV-85 算法提高 算术运算
  6. C#链接各种数据库代码总结
  7. 第九次作业(杨辉三角)
  8. 使用Intel NCS算力棒 安装部署记录 VirtualBox With Ubuntu16.04 Source Aliyun
  9. .kux转mp4文件
  10. word如何删除页脚页眉?
  11. android ems具体意义?
  12. 【UV打印机】电器之开关电源LRS-350
  13. 搭建云平台 1 Day 虚拟机安装(超详细)
  14. 如何剪辑短视频?剪辑短视频的技巧来了
  15. win10VS+QT/OpenCV/灰点相机配置及其使用
  16. FormData 上传图片之身份认证
  17. EATS dbc 合并方法
  18. ArcGIS API for JS:实现属性查询
  19. jsPlumb插件的使用
  20. 高精度气象模拟软件WRF(Weather Research Forecasting)

热门文章

  1. 神经科学家发现神经元网络可以拉伸或压缩其活动以控制时间
  2. SAP WM LRFMD中Variant参数的影响初探
  3. 言论丨马库斯回应14大质疑,重申深度学习怀疑论
  4. 无线网络未来十年十大产业趋势
  5. 智慧城市领域又出最新报告——智慧交通将迎来大爆发
  6. 后摩尔定律时代的芯片新选择!
  7. 3D打印产业化机遇与挑战
  8. 中科院等发布《2017研究前沿》 中国25个前沿表现卓越 居全球第二
  9. 学术界盛事揭幕:一图解读跨越百余年的诺贝尔奖
  10. 化解谷歌AI霸权的另一种思路?开发平台的生态围剿