选择题

1. spark 的四大组件下面哪个不是   (D)
A.Spark Streaming      B MLlib      C Graph X    D Spark R

2. Hadoop框架的缺陷有  (ABC)
A.表达能力有限,MR编程框架的限制
B.过多的磁盘操作,缺乏对分布式内存的支持
C.无法高效低支持迭代式计算
D.海量的数据存储

3. 与hadoop相比,Spark主要有以下哪些优点(ABCD)
A. 提供多种数据集操作类型而不仅限于MapReduce
B. 数据集中式计算而更加高效
C. 提供了内存计算,带来了更高的迭代运算效率
D. 基于DAG的任务调度执行机制

4. YARN是负责集群资源调度管理的组件。不同的计算框架统一运行在YARN框架之上,具有哪些优点(ABCD)
A. 计算资源按需伸缩
B. 不同负载应用混搭,集群利用
C. 共享底层存储,避免数据跨集群迁移
D. 大大降低了运维成本

5.spark的特点包括(ABD)
A. 快速
B. 通用
C. 可延伸
D. 兼容性

6.以下哪个不是Spark的组件 (B)
A.DAGScheduler
B.MultiScheduler
C.TaskScheduler
D.SparkContext

7. Master 的 ElectedLeader 事件后不做哪些操作(ABC)
A. 通知 driver
B. 通知 worker
C. 注册 application
D. 直接 ALIVE

8. Spark driver的功能是什么(ABD)
A. 是作业的主进程
B. 负责了作业的调度
C. 负责向HDFS申请资源
D. 负责作业的解析

9. Task 运行在下来哪里个选项中 Executor 上的工作单元(C)
A. Driver program
B. spark master
C. worker node
D. Cluster manager

10. ClusterManager是  ( A )
A.主节点
B.从节点
C.执行器
D.上下文

11.Stage 的 Task 的数量由什么决定 ( A)
A.Partition    B.Job    C.Stage    D.TaskScheduler

12. SparkContext可以从哪些位置读取数据 ( ACD )
A.本地磁盘
B.web
C.hdfs
D.内存

13. 下面哪个不是 RDD 的特点(C)
A. 可分区
B. 可序列化
C. 可修改
D. 可持久化

14.RDD有哪些缺陷?  ( AD )
A. 不支持细粒度的写和更新操作(如网络爬虫)
B. 基于内存的计算
C. 拥有schema信息
D. 不支持增量迭代计算

15. 下面哪个操作是窄依赖 (B)
A. join
B. filter
C. group
D. sort

16.下面哪个操作肯定是宽依赖 (C )
A. map 
B. flatMap 
C. reduceByKey 
D. sample

17.Spark 的集群部署模式不包括  ( D )
A. standalone     B. spark on mesos      C. spark on YARN      D. Local

18. 下列哪个不是 RDD 的缓存方法(C)
A. persist()
B. Cache()
C. Memory()
D. 以上都不是

19. Spark默认的存储级别(A)
A. MEMORY_ONLY
B. MEMORY_ONLY_SER
C. MEMORY_AND_DISK
D. MEMORY_AND_DISK_SER

20. 要读取people.json文件生成DataFrame,可以使用下列那些命令(AC)
A. spark.read.json("people.json")
B. spark.read.text("people.json")
C. spark.read.format("json").load("people.json")
D. spark.read.format("csv").load("people.json")

21. DataFrame 和 RDD 最大的区别(B)
A. 科学统计支持
B. 多了 schema
C. 存储方式不一样
D. 外部数据源支持

22. Spark SQL支持读取那些类型的文件(ABC)
A. text
B. json
C. parquet

23. 从RDD转换得到DataFrame包含两种典型的方法,分别是(AB)
A.利用反射机制推断RDD模式 
B.使用编程方式定义RDD模式
C.利用投影机制推断RDD模式
D.利用互联网机制推断RDD模式

24. 流计算的处理流程(BCD)
A. 实时数据存储
B.实时数据计算
C.实时查询服务
D.实时数据采集

25. SparkStreaming的基本输入源有哪几种(ACD)
A. 文件流
B. kafka
C. 套接字流
D. RDD队列流

26. MLlib包括 ( ABCD )
A. 分类模型
B. 聚类模型
C. 特征抽取
D. 统计模型

27.下面关于Spark MLlib库的描述正确的是(AC)
A. MLlib库从1.2版本以后分为两个包:spark.mllib和spark.ml
B. spark.mllib包含基于DataFrame的原始算法API
C. spark.mllib包含基于RDD的原始算法API
D. spark.ml则提供了基于RDD的、高层次的API

判断题

1. standalone(集群模式)典型的Mater/slave模式,Master可能有单点故障的;Spark支持ZooKeeper来实现 HA。(正确)

2. 构造数据Schema模式可以添加数据的列名称(正确)

3. Spark Streaming支持RDD的所有算子(正确)

4. Pipeline被设计用来管理一系列的阶段,每一个阶段都由PipelineStage来表示。(正确)

5. Spark ML提供两种类型的transformers:特征transformer和机器学习模型。(正确)

如有问题,可以评论区指正,私信也行

Spark 练习测试题(答案仅供参考)相关推荐

  1. 操作系统P,V(wait,signal原语)操作讲解,以及两个例题(答案仅供参考)

    操作系统的pv操作是很核心的概念. 临界区 : 我们把并发进程中与共享变量有关的程序段称为临界区. 信号量 : 信号量的值与相应资源的使用情况有关.当它的值大于0时,表示当前可用资源的数量:当它的值小 ...

  2. ITAT 第九届 模拟题 C语言程序设计 参考答案(个人答案 仅供参考)

    第九届全国信息技术应用水平大赛模拟题 C语言程序设计 注:模拟题题量总计88道,其中单选题60道,每道题1分:多选题20道,每道题2分:程序填充题6道,每道题5分:编程操作题2 道,每道题10分.试卷 ...

  3. 百战程序员试题与答案(仅供参考)

    JAVA基础篇 1.你学习编程的目的是什么?学习编程最快的办法是什么? 答案:我觉得多敲代码,多思考学的能快一点 2.程序员的职业规划是什么?我怎么能拿到10万年薪,30万年薪,50万年薪? 答案:努 ...

  4. 【Java应用程序开发】【期末复习题】【2022秋】【答案仅供参考】

    文章目录 零.考试说明 一.单选题(175-2-2题,1') 二.多选题(16题,2') 三.判断题(20题,1') 四.简答题(18题,5') 五.编程题(9题,10') 零.考试说明 答题时长:9 ...

  5. 初级php基础知识问答题(答案仅供参考)

    php基础阶段内容 一. php 基本概念,常规语法 1.什么是php? Hypertext Preprocessor,超文本预处理器,它是个被广泛运用在网页程式撰写的语言,尤其是它能适用于网页程式的 ...

  6. 2022年,英文科技论文写作与学术报告期末考试答案(仅供参考)

  7. 2022年秋,工程伦理期末考试答案(仅供参考)

  8. 2022年,文献检索与利用期末考试答案(仅供参考)

     

  9. JavaScript基础知识问答题(答案仅供参考)

     php高中班javascript答辩题目 什么是javascript? 答:Javascript是一种专门设计用来增强网页交互性的脚本语言,它也是一种解释型语言. Javascript与C语言的 ...

最新文章

  1. 挥手送别 2019,翘首期待 2020
  2. 怎么把虚拟机清空内存_深入理解java虚拟机1——内存管理机制与回收机制
  3. Fragment详解之四——管理Fragment(2)
  4. POJ3096Surprising Strings(map)
  5. 使用nmap发现家庭wifi下的存活设备
  6. xgboost通俗_【通俗易懂】XGBoost从入门到实战,非常详细
  7. 中文版开源!这或许是最经典的 Python 编程教材
  8. function admincp.php,通读审计之AACMS
  9. Kubernetes部署项目报错ImagePullBackOff日志提示rpc error: code..http: server gave HTTP response to HTTPS client
  10. 安卓中的数据存储方式以及ContentProvider的简单介绍
  11. IEC61850简要介绍
  12. ROS机器人程序设计课程反思-2022终篇-
  13. Android ListView notifyDataSetChanged()不刷新数据
  14. EXCEL,锁定单元格后往下拉,但后面需要继续复制粘贴时又希望步锁定,该怎么办?小技巧,先把$ 替换为空后再粘贴
  15. 使用域名访问服务器网站,使用域名访问网站是啥意思
  16. MySQL8.0软件安装失败常见问题
  17. 【2022牛客多校5 A题 Don‘t Starve】DP
  18. Python循环结构——while
  19. 智能开关继电器-选型篇2
  20. 中国人民大学计算机考研贴吧,中国人民大学各专业考研经验分享 持续更新中...

热门文章

  1. 将excel(xls/xlsx)转换成csv文件
  2. ORA-01438: 值大于为此列指定的允许精度
  3. 没有可用的软件包 mongodb,但是它被其它的软件包引用了。这可能意味着这个缺失的软件包可能已被废弃,或者只能在其他发布源中找到E: 软件包 mongodb 没有可安装候选
  4. 钱钟书是怎样做读书笔记的
  5. cant download je-7.4.5.jar with maven [ com.sleepycat:je:jar:7.4.5 ]
  6. 基于SSM人才网站招聘网站求职网站就业系统兼职网站职位发布简历上传专业推荐匹配算法(idea-javaweb-javaee-j2ee-springboot)
  7. 带你认识无线组网中的胖瘦AP以及组网场景,了解企业AP部署
  8. 道闸系统临时服务器什么意思,停车场管理系统常见问题解答
  9. 闯关的lulu (有趣的规律题)
  10. SpringCloud Gateway 详解