Apache Spark是一个开源的通用集群计算系统,它提供了High-level编程API,支持Scala、Java和Python三种编程语言。Spark内核使用Scala语言编写,通过基于Scala的函数式编程特性,在不同的计算层面进行抽象,代码设计非常优秀。

RDD抽象

RDD(Resilient Distributed Datasets),弹性分布式数据集,它是对分布式数据集的一种内存抽象,通过受限的共享内存方式来提供容错性,同时这种内存模型使得计算比传统的数据流模型要高效。RDD具有5个重要的特性,如下图所示:

上图展示了2个RDD进行JOIN操作,体现了RDD所具备的5个主要特性,如下所示:

一组分区
计算每一个数据分片的函数
RDD上的一组依赖
可选,对于键值对RDD,有一个Partitioner(通常是HashPartitioner)
可选,一组Preferred location信息&

79-Spark Standalone架构设计要点分析相关推荐

  1. Spark Standalone架构设计要点分析

    全栈工程师开发手册 (作者:栾鹏) 架构系列文章 Apache Spark是一个开源的通用集群计算系统,它提供了High-level编程API,支持Scala.Java和Python三种编程语言.Sp ...

  2. Flume(NG)架构设计要点及配置实践

    Flume(NG)架构设计要点及配置实践 http://shiyanjun.cn/archives/915.html 转载于:https://blog.51cto.com/vikenxu/165732 ...

  3. 新时期下大型数据中心机房给排水及消防设计要点分析

    20世纪以来,全球的经济和科技都得到了非常惊人的发展,人类也在20世纪正式迎来了信息时代.互联网行业的蓬勃发展让各类信息采集和传播技术得到了前所未有的水平,信息技术和互联网的不断发展和普及带来的就是庞 ...

  4. Spark商业案例与性能调优实战100课》第20课:大数据性能调优的本质和Spark性能调优要点分析

    Spark商业案例与性能调优实战100课>第20课:大数据性能调优的本质和Spark性能调优要点分析 基于本元想办法,大智若愚,大巧若拙!深入彻底的学习spark技术内核!

  5. Hadoop YARN架构设计要点

    YARN是开源项目Hadoop的一个资源管理系统,最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题,但是现在它已经是一个更加通用的资源管理系统,可以把MapReduce计算框 ...

  6. 金融级分布式数据库架构设计要点

    行业背景 银行业从最初的手工记账到会计电算化,到金融电子化,再到现在的金融科技,可以看到金融与科技的结合越来越紧密,人工智能.大数据.物联网.区块链等新兴技术改变了金融的交易方式,为金融行业的创新前行 ...

  7. 秒杀系统架构设计与分析

    秒杀系统架构分析与实战 2016-01-18陶邦仁Qunar技术沙龙 1 秒杀业务分析 正常电子商务流程 (1)查询商品:(2)创建订单:(3)扣减库存:(4)更新订单:(5)付款:(6)卖家发货 秒 ...

  8. 架构设计案例分析-高速公路收费运营管理平台

    本文旨在通过对某省高速公路联网收费运营管理平台的架构设计过程进行案例分析,描述架构设计的决策过程. 1.业务背景 某省的高速公路分为近百个路段,不同的路段归属不同的公司建设与运营,造成了车辆在跨越不同 ...

  9. 网购秒杀系统架构设计案例分析

    大型网站技术架构-核心原理与案例分析 作者:李智慧 申明:文章版权归作者所有,若有侵权,请联系删除 秒杀是电子商务网站常见的一种营销手段:将少量商品(通常只有一件)以极低的价格,在特定的时间点开始出售 ...

最新文章

  1. MEMS传感器作为变革的驱动力
  2. Flask 蓝图,数据库链接
  3. url的特殊字符编码 encodeURI编码
  4. 【转】CT球管小知识--热容量
  5. 王思聪限制消费令被取消!
  6. android打开视频噔_如何运行两种游戏数据包(视频教程)
  7. scala基础-04
  8. Vue双向绑定的实现原理系列(三):监听器Observer和订阅者Watcher
  9. 【手势识别】基于matlab GUI石头剪刀布【含Matlab源码 774期】
  10. 企业如何真正实现无纸化办公?
  11. 计算机管理格式化硬盘,教你电脑怎么格式化硬盘
  12. 全球与中国网络连接视频门铃对讲机市场深度研究分析报告
  13. C语言每日一练——第10天:求一个矩阵主对角线及副对角线元素之和
  14. 加路由时提示Network is unreachable的一种解决方法
  15. AR增强现实的三大关键技术
  16. python进行各项统计检验_运用python进行相关性统计检验
  17. mapTalks:基础操作与WMS/WMTS地图服务加载
  18. JPG文件编解码详解——详细介绍编码和解码JPG
  19. 从Linux源码看Socket(TCP)的listen及连接队列
  20. java多线程复习与巩固(三)

热门文章

  1. 苹果iPhone 13有望提供1TB存储 但仅限高端机型
  2. 因触屏故障 美国监管部门对15.9万辆特斯拉进行调查
  3. 华为Mate 40系列或采用双处理器方案:国行版仍为麒麟芯
  4. 华为、三星都崴了脚:石墨烯充电还有戏吗
  5. “iPhone等苹果产品挤牙膏无创新”?库克正面回怼...
  6. 那些慢慢消失的手机功能,最怀念第一个!
  7. “携号转网”正式试运行,这两个原因或致无法转网
  8. 坑哭了!老牌教育机构也崩盘,疑失联跑路,学员却还得继续还贷
  9. WiFi穿透能力甩对手两堵墙 荣耀9X新特性令人侧目
  10. 月费10元起!中国移动推年轻人的第一张5G元素电话卡