【摘要】 Spark社区在2.3版本开始,已经可以很好的支持跑着Kubernetes上了。这样对于统一资源池,提高整体资源利用率,降低运维成本(特别是技术栈归一)有着非常大的帮助。这些趋势是一个大数据人不得不重视的信号,所以提前开始了解并考虑起来吧:-)

1      大数据邂逅云计算

相信玩Spark的你已经注意到最新的Spark版本已经支持不做任何修改可以直接跑在K8S上了,即以kubernetes容器集群作为Cluster Manager的实现。其实早在2017年底Spark 2.2版本开始的时候,Spark社区就开始合入用k8s管理spark集群的能力了,只是那时候功能上还没有很完善。另外那个时候Kubernetes还没有像现在这么普及,被广泛地接受成为应用基础设施层。经过了2年了持续迭代,Spark on Kubernetes已经成为帅气的小伙,大家可以围观起来了。

其实,大数据和云计算一直分属两个不同的领域,大数据主要关注怎么将数据集中起来,挖掘数据的价值。云计算主要关注怎么更高效地使用资源,提升资源的利用效率。当大数据发展到一定阶段的时候,它就会和云计算不期而遇。

2      现状并不美丽

在技术层面上,当前的大数据计算如Hadoop和Spark将计算和存储结合在一起的模式,是分布式架构构建的一种尝试。但是当社区修改HDFS以支持Hadoop 3.0的ErasureCode(纠删码)时,即接受了:不(Wu)再(Fa)支持就近读取的策略。它就代表了一种新趋势。数据层面,为取代 HDFS,可以用大规模的基于云的对象存储,构建在 AWS S3 模型上。计算层面,要能够根据需要启动计算,也可以考虑使用类似 Kubernetes 的虚拟化技术,而不是绑定 YARN。

曾经,数据处理任务从远程物理机读取数据开销大。以数据为“中心”,将数据处理任务迁移到数据所在的物理机上,能有效降低网络带宽,保证了整体性能。这就是存算一体的大数据技术架构。经过十多年的发展,网络性能已经提升了100倍,内存容量也提升了数十倍。大数据处理的瓶颈逐渐从网络转移到CPU上,上述存算一体架构的缺点也逐渐突显出来。

(1)不同场景需要的存储空间和算力配比是不一样的。实际使用中要么计算资源达到瓶颈,要么是存储容量不足,只能对集群进行刚性扩容,造成集群资源浪费。(2)不同时期需要的算力是不固定的,存在波峰和波谷。物理机中存储数据造成无法大规模关闭闲置节点,造成算力闲置和能源浪费。(3)不同业务对运行环境需求不一样。Spark应用需要绑定Spark集群运行。Web类型需要实例快速水平扩展。所以通过统一平台来混合部署提升资源利用率的需求强烈。

容器技术的出现,给了IT行业统一运行环境一线希望。它以自己的build once,run every where的旗帜挥舞到各个IT行业。可以说如果还不考虑使用容器技术,你的基础平台的灵活性是绝对不够的。

3      统一的ABC平台

当前大数据的实现代表了构建分布式系统的一种方法:计算和存储以及基础架构结合在一起。但是这条路是否畅通也不好说,毕竟近期有好多文章在说大数据已死。不过话说回来,大数据的数据量是越来越大,大数据的业务需求也只增不减,只是在实现大数据需求的途径上,方向发生了些偏移。所以并不是大数据本身已死,而是原来的大数据框架底层设施有了新的方向,云原生大数据已经崭露头角。

所谓的ABC就是指AI + Bigdata + Cloud,一般由于业务部门的划分,或者历史遗留,各厂家做法普遍都是不同的研发部门维护不同的资源池。这就带来了计算、存储资源不均衡,资源调度最佳利用率和基础设施能力共享的问题。特别的基础设施技术不需要维护多套,降低研发人力成本。

如果想提高整体资源利用率,那就得有统一infrastructure平台。而且,不同业务类型对资源述求不一样,比如AI以GPU为主,Web业务以CPU为主等。所以要求基础设施平台,必须能够支持多种计算资源,统一调度能力。并且业务也得有统一的运行环境的标准,保证开发&生产的运行一致性。

很明显,以Docker+Kubernetes技术打造云原生计算平台具备这样的气质。特别是,以Docker的普适性,真的在各领域势如破竹。中国联通数据中心总经理王志军在2019年6月分享的《中国联通容器化大数据平台的探索与实践》中,提到各省公司的AI训练,大数据,容器化应用都统一在以Kubernetes+Docker为底座的统一平台上,目前拥有节点437个,大量任务同时跑在该平台上。也是这一趋势的实践。

4      Kubernetes as Infrastructure

大数据领域,计算资源会越来越多容器化。以前容器化主要是被 DevOps和微服务所使用,最近随着大数据应用的依赖越来越复杂,需要用容器化做更好的依赖管理和资源隔离。容器的一次构建,随处可运行的特点,非常契合应用运行环境的一致性述求。

大规模容器集群管理,现在Kubernetes已经是无可争议的事实标准。作为Mesos商业化的重要推手,Mesosphere 在2019年8月宣布正式更名为 D2IQ,关注点也随即转向 Kubernetes 及云原生领域。VMware则在VMworld 2019宣布推出新的产品和服务品牌VMware Tanza,全面拥抱K8s。各个领域也是遍地开花,基因数据分析,高性能计算HPC,AI机器学习,传统互联网纷纷拥抱容器技术,无不选择K8s作为容器计算平台。真的是践行了Docker诞生时的理念,不仅仅是build once,而且真的是run every where。现在已经到处都是容器了,该轮到大数据了,幸运的是Spark社区已经上车了,那么你呢? spakr on k8s可以有。

5      Volcano(增强型K8S资源调度器)

K8S自带的的资源调度器,有一个明显的特点是,依次调度每个容器。但是当AI训练,大数据计算,这样必须多个容器同时配合执行的情况下。依次调度是无法满足需要的。因为这些计算任务包含的容器们想要的是,要么同时都成功,要么就都别执行。

比如,某个大数据应用需要跑1个Driver容器+10个Executor容器。如果容器是一个一个的调度,假设在启动最后一个executor容器时,由于资源不足而调度失败无法启动。那么前面的9个executor容器虽然运行着,其实也是浪费的。AI训练也是一样的道理,必须所有的Worker都同时运行,才能进行训练,坏一个,其他的容器就等于白跑。要知道GPU被容器霸占着却不能开始计算,成本是非常高的。

所以当你的(1)总体资源需求<集群资源的时候,普通的K8S自带调度器可以跑,没问题。但是当(2)总体资源需求>集群资源的时候,K8S自带调度器会因为随机依次调度容器,使得部分容器无法调度,从而导致业务占着资源又不能开始计算,死锁着浪费资源。那么场景(1)和场景(2)谁说常态呢?不用想,肯定是(2)了,谁能大方到一直让集群空着呢对吧。这个时候就必须需要增强型的K8s资源调度器Volcano了。

Volcano首先要解决的问题就是Gang Scheduling的问题,即一组容器要么都成功,要么都别调度。这个是最基本的用来解决资源死锁的问题,可以很好的提高资源利用率。除此之外,它还提供了多种调度算法,例如priority优先级,DRF(dominant resource fairness), binpack,task-topology亲和,GPU感知,batchwisepack等。多种调度算法插件,根据权重条件,就可以很好的满足各种复杂场景需求。真正做到统一资源平台,最佳资源利用率。

6      结束语

统一的资源池,统一的计算平台,统一的基础设施技术栈,这样资源利用和人力成本都是最优的,可以聚焦到业务创新方向。那么所有的技术都已经ready了,时候让你的Spark跑在K8S上了。

是时候考虑让你的Spark跑在K8S上了相关推荐

  1. Spark SQL在100TB上的自适应执行实践

    作者:汪愈舟   俞育才   郭晨钊   程浩(英特尔),李元健(百度) 责编:钱曙光(qianshg@csdn.net) Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非 ...

  2. 中国Spark技术峰会(上):Spark与生态圈中组件结合实战

    5月13日-15日,由全球最大中文IT社区CSDN主办的"2016中国云计算技术大会"(Cloud Computing Technology Conference 2016,简称C ...

  3. python做好的程序如何变成小程序-使用python编写简单的小程序编译成exe跑在win10上...

    每天的工作其实很无聊,早知道应该去IT公司闯荡的.最近的工作内容是每逢一个整点,从早7点到晚11点,去查一次客流数据,整理到表格中,上交给素未蒙面的上线,由他呈交领导查阅. 人的精力毕竟是有限的,所以 ...

  4. 让Qt应用程序跑在Android上

    Qt最大的优势就是跨平台,一次性开发的Qt应用程序,可以跑Windows.跑linux.跑MAC--如今移动平台android操作系统如此火爆,Qt当然不能放过对android的支持,对了,还有iph ...

  5. 一款跑在云上的定制容器专属 OS 来了——LifseaOS | 龙蜥技术

    简介:如果可以把运维 API 化,那我们是不是可以把 OS 也作为一个 K8S 可以管理的资源,让 K8S 像管理容器一样管理OS? 引言 在 2021 年 10 月的云栖大会上,为云原生而生的 OS ...

  6. 【Spark】一条 SQL 在 Apache Spark 之旅(上)

    1.概述 转载学习加深印象:一条 SQL 在 Apache Spark 之旅(上) Spark SQL 是 Spark 众多组件中技术最复杂的组件之一,它同时支持 SQL 查询和 DataFrame ...

  7. spark在集群上运行

    1.spark在集群上运行应用的详细过程 (1)用户通过spark-submit脚本提交应用 (2)spark-submit脚本启动驱动器程序,调用用户定义的main()方法 (3)驱动器程序与集群管 ...

  8. Spark在集群上执行代码案例(中文切词)

    Spark在集群上执行代码案例 java的切词使用案例(Demo) Spark中文切词代码 需求:利用jieba进行中文分词,并打包上传到集群进行执行 java的切词使用案例(Demo) @Test ...

  9. 通过helm在k8s上部署spark(伪集群版)

    全栈工程师开发手册 (作者:栾鹏) 架构系列文章 首先要求你的k8s支持helm.阿里云自带的k8s已经包含了对helm的支持.关于服务器k8s的部分这里不讨论,我们考论如何用一个已经好的k8s来进行 ...

最新文章

  1. 表格(增加行号) http://www.blogjava.net/zeyuphoenix/archive/2010/04/19/318788.html
  2. 草稿--Windows消息机制
  3. 计算机语言2进制怎么计算,计算机语言二进制…八进制、十进制…怎样推算?数制是怎么读?...
  4. Linux系统修改环境变量PATH路径
  5. 苏宁易购第二次债券购回基本方案:购回资金总额20亿元
  6. oracle错误ORA-00604 递归sql级别1出现错误 ora-00942 表或试图不存在 ORA-06512 在line 11...
  7. You can format your XML in the 'standard' Android way...
  8. 微信小程序实现秒杀、拼团、团购等效果
  9. c语言反向工程软件,逆向工程工具之Reverse
  10. vue后台管理框架配置vux记录
  11. 2019主流的前端框架
  12. HDU-6396-Swordsman(文件输入+优先队列)
  13. Mstar的Monitor方案笔记(七)——EDID基本数据结构
  14. asp.netcore 关于静态文件的访问权限控制(UseStaticFiles)
  15. 高质量的CAD练习图纸在线分享
  16. [译] 3.泛型和子类型
  17. 2019-2020-2 20175227张雪莹《网络对抗技术》 Exp2 后门原理与实践
  18. 2021上海最新购房政策指南!买房、贷款、限购究竟有哪些变化?
  19. 坠落的唯品会与它焦虑的“二选一”
  20. 写在一年半前的关于网站改版事宜

热门文章

  1. Python笔记(4) 关键字
  2. html asterisk 电话,Asterisk 常见问题
  3. asp html转义字符串,asp.net – 转义HTML实体并避免WebForm标签中的HTML注入?
  4. 两个运放制作加法器_集成电路的分类及其制作工艺
  5. 计算机专业简历中技能特长怎么写,简历上特长技能应该怎么填写
  6. android 字符串 时间格式化,Android 获取年月日时分秒 格式化指定时间字符串
  7. Arrays.asList()知识点
  8. 七:Java之封装、抽象、多态和继承
  9. JavaScript事件基础知识总结【思维导图】
  10. C++中的4种类型转换方式