Hadoop再火,火得过Spark吗?今天我们继续关于Spark的精华问答吧。

1

Q:RDD的核心概念是什么

A:Client:客户端进程,负责提交作业到Master。

Master:Standalone模式中主控节点,负责接收Client提交的作业,管理Worker,并命令Worker启动分配Driver的资源和启动Executor的资源。

Worker:Standalone模式中slave节点上的守护进程,负责管理本节点的资源,定期向Master汇报心跳,接收Master的命令,启动Driver和Executor。

Driver: 一个Spark作业运行时包括一个Driver进程,也是作业的主进程,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。

Executor:即真正执行作业的地方,一个集群一般包含多个Executor,每个Executor接收Driver的命令Launch Task,一个Executor可以执行一到多个Task。

2

Q:RDD有哪些常见术语?

A:DAGScheduler: 实现将Spark作业分解成一到多个Stage,每个Stage根据RDD的Partition个数决定Task的个数,然后生成相应的Task set放到TaskScheduler中。

TaskScheduler:实现Task分配到Executor上执行。

Task:运行在Executor上的工作单元

Job:SparkContext提交的具体Action操作,常和Action对应

Stage:每个Job会被拆分很多组任务(task),每组任务被称为Stage,也称TaskSet

RDD:Resilient Distributed Datasets的简称,弹性分布式数据集,是Spark最核心的模块和类

Transformation/Action:SparkAPI的两种类型;Transformation返回值还是一个RDD,Action返回值不少一个RDD,而是一个Scala的集合;所有的Transformation都是采用的懒策略,如果只是将Transformation提交是不会执行计算的,计算只有在Action被提交时才会被触发。

DataFrame:带有Schema信息的RDD,主要是对结构化数据的高度抽象。

DataSet:结合了DataFrame和RDD两者的优势,既允许用户很方便的操作领域对象,又具有SQL执行引擎的高效表现。

3

Q:RDD提供了哪些操作?

A:RDD提供了两种类型的操作:

transformation和action

1,transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD

2,action是得到一个值,或者一个结果(直接将RDD cache到内存中)

3,所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。

4

Q:RDD中关于转换(transformation)与动作(action)有什么区别?

A:transformation会生成新的RDD,而后者只是将RDD上某项操作的结果返回给程序,而不会生成新的RDD;无论执行了多少次transformation操作,RDD都不会真正执行运算(记录lineage),只有当action操作被执行时,运算才会触发。

5

Q:RDD 与 DSM的最大不同是什么?

A:RDD只能通过粗粒度转换来创建,而DSM则允许对每个内存位置上数据的读和写。在这种定义下,DSM不仅包括了传统的共享内存系统,也包括了像提供了共享 DHT(distributed hash table) 的 Piccolo 以及分布式数据库等。

小伙伴们冲鸭,后台留言区等着你!

关于Spark,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……

同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~

福利

1、扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!

2、公众号后台回复:白皮书,获取IDC最新数据白皮书整理资料!

推荐阅读:

  • 技术头条

  • 2019年技术盘点微服务篇(二):青云直上云霄 | 程序员硬核评测

  • “入职 6 年,新人工资高我 2 千”:老板不加钱,不是嫌你老

  • 从沉迷游戏到沉迷编程,16 岁赚 20 万美元!

  • 南大和中大“合体”拯救手残党:基于GAN的PI-REC重构网络,“老婆”画作有救了 | 技术头条

  • 救救中国 996 程序员!GitHub 近 230,000 Star、Python 之父伸张正义!

  • 一个月修复20个漏洞获23675美元赏金, 原来是黑客队伍里出了无间道

真香,朕在看了!

Spark精华问答 | RDD的核心概念是什么?相关推荐

  1. Spark精华问答:DataFrame与RDD的主要区别在哪?

    Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎.目前的热度已经超过Hadoop,正所谓青出于蓝而胜于蓝,今天我们就来看看关于park 的精华问答吧. 1 Q:DataFram ...

  2. Spark精华问答 | spark的组件构成有哪些?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  3. Spark精华问答 | Spark的三种运行模式有何区别?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  4. Spark精华问答 | spark性能优化方法

    Hadoop再火,火得过Spark吗?今天我们继续关于Spark的精华问答吧. 1 Q:影响性能的主要因素是什么? A:网络传输开销大 硬件资源利用率低 同一资源的复用率低 2 Q:优化的方向有哪些? ...

  5. Spark精华问答 | Spark的计算方法是什么?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  6. Spark精华问答 | Spark和Hadoop的架构区别解读

    总的来说,Spark采用更先进的架构,使得灵活性.易用性.性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高.我总结,具体表现在如下几个方面. 1 Q:Spark和 ...

  7. Spark精华问答 | Spark 会替代Hadoop 吗?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  8. Spark精华问答 | 怎么运行Spark?

    戳蓝字"CSDN云计算"关注我们哦! 为什么要学习Spark?作为一个用来实现快速而通用的集群计算的平台.扩展广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包 ...

  9. Spark精华问答 | 为什么选择Spark作为流计算引擎?

    总的来说,Spark采用更先进的架构,使得灵活性.易用性.性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高.我总结,具体表现在如下几个方面. 1 Q:为什么选择K ...

最新文章

  1. 吴文俊AI最高成就奖颁给清华张钹院士,之前曾空缺七年
  2. 剑指Offer #10 矩形覆盖(问题分析)
  3. Qt使用dmctk时的错误
  4. [译]基于GPU的体渲染高级技术之raycasting算法
  5. ubuntu安装环境软件全文档
  6. 11 PP配置-生产主数据-工作中心相关-定义工作中心屏幕顺序
  7. iOS:Core Data 中的简单ORM
  8. 如何判断mysql主从延迟_【转】MySQL主从延迟如何解决
  9. Qt中QBitmap 的使用 --QBitmap的作用
  10. Hype教程,如何设置字体样式?
  11. 7时过2小时是几时_小姐姐花1万7租了一个2小时男友,全程上演偶像剧......
  12. java 转义工具_Java字符转换转义的工具类
  13. 在线人民币大写转换器工具-把数字金额转换成中文大写
  14. java随机生成26个字母_js随机生成26个大小写字母
  15. 【C语言】0x1F<<11等于0还是0xF800 ?
  16. vue 项目中实现pdf预览 pdf打印 pdf下载
  17. 【机器学习】生成式模型和判别式模型
  18. 没想到,还有小白不知道怎么比较数组是否相等以及检出不匹配项
  19. 小白终是踏上了这条不归路----小文的mysql学习笔记(8)----分页查询
  20. linux6和linux7使用udev绑asm磁盘(达梦dsc和oracle rac数据库通用绑asm磁盘技术浅析,本文以达梦dsc为例)

热门文章

  1. ehcache使用_Mybatis整合(Redis、Ehcache)实现二级缓存,恕我直言,你不会
  2. oracle存储过程 取时间格式,Oracle存储过程获取YYYY-MM-DD的时间格式
  3. python 绘制分布直方图_统计学中常见的4种抽样分布及其分布曲线(Python绘制)...
  4. 痛惜,今年已有多名杰青英年早逝!
  5. 颜宁谈院士增选:导师施一公让我特别受益的是:纯粹,做事情的纯粹
  6. 【福利】爱德华·阿什福德·李:人类与AI技术将是共生关系
  7. 我国共招过多少博士?多少硕士?数据来了!
  8. 普通人为什么要学习Python
  9. ubuntu怎么在jupyter notebook中引入anaconda虚拟环境
  10. java调用类中的静态变量时类中静态代码块什么情况会执行以及类的初始化问题?