仅供学习交流使用

一、选择题

1.下面哪个程序负责 HDFS 数据存储。
A、NameNode
B、Jobtracker
C、Datanode
D、secondaryNameNode
答案：C

2.HDFS 中的 block 默认保存几份？
A、3份
B、2份
C、1份
D、不确定
答案：A
3.hadoop2.x版本之后 HDFS 默认 Block Size。
A、32MB
B、64MB
C、128MB
D、256MB
答案：C

4.大数据集群的主要瓶颈是
A、CPU
B、网络
C、磁盘IO
D、内存
答案：C

5.关于SecondaryNameNode哪项是正确的？
A、它是NameNode的热备
B、它是内存没有要求
C、他的目的使帮助NameNode合并编辑日志，减少NameNode启动时间
D、SecondaryNameNode应与NameNode部署到一个节点
答案：C

6.下面哪个进程负责MapReduce任务调度。
A、NameNode
B、Jobtracker
C、TaskTracker0
D、secondaryNameNode
答案：B

7.（）反映数据的精细化程度，越细化的数据，价值越高。
A、规模 B、活性 C、关联度 D、颗粒度
答案：D

8.数据清洗的方法不包括（）。
A：缺失值处理 B、噪声数据清除 C、一致性检查 D、重复数据记录处理
答案：D

9.下列关于网络用户行为的说法中，错误的是（）。
A、网络公司能够捕捉到用户在其网站上的所有行为
B、用户离散的交互痕迹能够为企业提升服务质量提供参考
C、数字轨迹用完即自动删除
D、用户的隐私安全很难得以规范保护
答案：C

10.下列关于计算机存储容量单位的说法中，错误的是（）。
A、1KB＜1MB＜1GB B、基本单位是字节（Byte）
C、一个汉字需要一个字节的存储空间 D、一个字节能够容纳一个英文字符
答案：C

11.下列关于聚类挖掘技术的说法中，错误的是（）。
A、不预先设定数据归类类目，完全根据数据本身性质将数据聚合成不同类别
B、要求同类数据的内容相似度尽可能小
C、要求不同类数据的内容相似度尽可能小
答案：B

12.大数据的最显著特征是（）。
A、数据规模大 B、数据类型多样 C、数据处理速度快 D、数据价值密度高
答案：A

13.下列关于大数据的分析理念的说法中，错误的是（）。
A：在数据基础上倾向于全体数据而不是抽样数据
B：在分析方法上更注重相关分析而不是因果分析
C：在分析效果上更追究效率而不是绝对精确
D：在数据规模上强调相对数据而不是绝对数据
答案：D

14.数据治理是大数据技术的一个典型应用，数据来源繁多，下面哪一个不属于结构化数据源（）
A、网络日志 B、Mysql表数据 C、视频音频 D、csv文件
答案：C

16 .HDFS作为Hadoop中分布式存储单元，具备容灾容错的特性，不包括以下哪个情形( )
A、名称节点（Namenode）出错B、数据节点出错 C、数据出错 D、调度出错
答案：D
17. MapReduce计算引擎，属于哪一种计算模式（）
A、批量计算B、实时计算 C、流计算 D、查询分析
答案：A
18. 大数据框架中数据库很多，以下属于非关系型数据库的是（）
A、 Hive B、Mysql C、Hbase D、Oracle
答案：C
19. 智能健康手环的应用开发，体现了（）的数据采集技术的应用。
A、统计报表 B、网络爬虫 C、API接口 D、传感器
答案：D
20. 下列关于数据重组的说法中，错误的是（）。
A、数据重组是数据的重新生产和重新采集
B、数据重组能够使数据焕发新的光芒
C、数据重组实现的关键在于多源数据融合和数据集成
D、数据重组有利于实现新颖的数据模式创新
答案：A
22. Hive中可以使用SQL对数据表进行操作，对查询结果进行降序排列的关键函数是（）
A、Count ( ) B、DESC C、ASC D、Group by
答案：B
23. 数据采集是大数据开发工作的一个重要阶段，以下哪一个框架可以用于数据采集（）
A、 Hbase B、Flume C、Mahout D、Hive
答案：B
24.Hbase 可以实现超大规模的数据存储查询，它的存储是基于下面哪一个框架（）
A、Mysql B、HDFS C、GFS D、Spark
答案：B

25.下面哪一个框架是可靠的协同工作系统（）
A、Sqoop B、Flume C、Zookeeper D、Ambari
答案：C

26.大数据实时计算引擎 Spark作为目前企业主流的工具，其哪一个组件可以做实时计算（）
A、Spark core B、Spark Streaming C、Spark SQL D、Spark MLlib
答案：B

27.Client 端上传文件的时候下列哪项正确？
A、数据经过NameNode传递给DataNode
B、Client端将文件切分为Block，依次上传
C、Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作
D、以上都不正确
答案：B

30.HDFS1.0默认BlockSize大小是多少。
A、32MB
B、64MB
C、128MB
D、256MB
答案：B

32.Hadoop1.0默认的调度器策略是哪个。
A、先进先出调度器
B、计算能力调度器
C、公平调度器
D、优先级调度器
答案：A

34.在实验集群的master节点使用jps命令查看进程时，终端出现以下哪项能说明Hadoop主节点启动成功？
A、Namenode,Datanode,TaskTracker
B、Namenode,Datanode,secondaryNameNode
C、Namenode,Datanode,HMaster
D、Namenode,JobTracker,secondaryNameNode
答案：D

35.若不针对MapReduce编程模型中的key和value值进行特别设置，下列哪一项是MapReduce不适宜的运算。
A、Max
B、Min
C、Count
D、Average
答案：D

36.MapReduce编程模型，键值对<key, value>的key必须实现哪个接口？
A、WritableComparable
B、Comparable
C、Writable
D、LongWritable
答案：A

37.以下哪一项属于非结构化数据。
A、企业ERP数据
B、财务系统数据
C、视频监控数据
D、日志数据
答案：C

38.HBase数据库的BlockCache缓存的数据块中，哪一项不一定能提高效率。
A、–ROOT-表
B、META表
C、HFileindex
D、普通的数据块
答案：D

39.HBase是分布式列式存储系统，记录按什么集中存放。
A、列族
B、列
C、行
D、不确定
答案：A

40.HBase的Region组成中，必须要有以下哪一项。
A、StoreFile
B、MemStore
C、HFile
D、MetaStore
答案：B

41.客户端首次查询HBase数据库时，首先需要从哪个表开始查找。
A、.META.
B、–ROOT-
C、用户表
D、信息表
答案：B

42.设计分布式数据仓库hive的数据表时，为取样更高效，一般可以对表中的连续字段进行什么操作。
A、分桶
B、分区
C、索引
D、分表
答案：A

43.大数据技术的迅速发展，很大程度上取决于信息基础技术的发展，以下哪一个不是主要因素：
A、存储设备容量增加
B、CPU性能提升
C、网络带宽增加
D、自动化技术提升
答案：D

44.以下数据单位换算哪个是错误的：
A、1Mb=1024Kb
B、1Tb=1024Mb
C、1Pb=1024Tb
D、1Eb=1024Pb
答案：B

46.以下哪一个不属于大数据的计算模式：
A、批量计算
B、实时计算
C、流计算
D、矩阵计算
答案：D

49.HDFS具有高容错性、高可靠性、高扩展性、高吞吐性，适合的读写任务形式是？
A、一次写入，少次读写
B、多次写入，少次读写
C、一次写入，多次读写
D、多次写入，多次读写
答案：C

50.MapReduce计算引擎，属于哪一种计算模式？
A、批量计算
B、实时计算
C、流计算
D、查询分析
答案：A

51.HDFS作为大数据主流的存储框架，具备良好的容灾特性，其中多副本是一个主要原因，HDFS默认副本数是？
A、1个
B、2个
C、3个
D、4个
答案：C

53.在HDFS上创建目录的命令参数是？
A、-touch
B、-cat
C、-mkdir
D、-dir
答案：C

54.数据采集是大数据开发工作的一个重要阶段，以下哪一个框架可以用于数据采集?
A、Hbase
B、Flume
C、Mahout
D、Hive
答案：B

55.Hbase作为Hadoop大家族中的重要一员，具有什么特性？
A、抽取加载转换工具
B、大规模数据实时写入实时查询
C、复杂的SQL计算
D、实时数据采集
答案：B

56.Hbase可以实现超大规模的数据存储查询，它的存储是基于下面哪一个框架？
A、Mysql
B、HDFS
C、GFS
D、Spark
答案：B

57.下面哪一个框架是可靠的协同工作系统？
A、Sqoop
B、Flume
C、Zookeeper
D、Ambari
答案：C

58.大数据实时计算引擎 Spark作为目前企业主流的工具，其哪一个组件可以做实时计算？
A、SparkCore
B、SparkStreaming
C、SparkSQL
D、SparkMLlib
答案：B

59.Hive作为大数据仓库的重要工具之一，数据是存放在？
A、Hbase
B、Hdfs
C、Oracle
D、Mysql
答案：B

60.Hive中可以使用SQL对数据表进行操作，对查询结果进行降序排列的关键函数是？
A、Count()
B、DESC
C、ASC
D、Groupby
答案：B

61.智慧校园，数据中心建设中需要将学生处存放在Mysql中的学生信息导入到大数据仓库hive中，可以使用的工具是？
A、Flume
B、Sqoop
C、Navicat
D、Kafka
答案：B

62.大数据和人工智能技术应用于医学领域可以做心脏病的预测等，thalach（心跳）数值作为非常重要的特征参与计算预测的样本数据，进入预测模型训练前需要对样本数据进行简单清洗过滤去除异常值，假设样本数据存放在Hive表中，过滤出thalach数小于200大于10的正常值，表名称为 DWH_test，心跳值字段为 thalach，下面SQL语法正确的是？
A、selectfrom’DW_H_test’where’thalach’>200or’thalach’<10
B、selectfrom’DW_H_test’where’thalach’<=200or’thalach’<10
C、selectfrom’DW_H_test’where’thalach’<200and’thalach’>10
D、selectfrom’DW_H_test’where’thalach’>200and’thalach’<10
答案：C

63.当前大数据技术的基础是由（）首先提出的。
A、微软
B、百度
C、谷歌
D、阿里巴巴
答案：C

64.大数据的起源是（）。
A、金融
B、电信
C、互联网
D、公共管理
答案：C

65.根据不同的业务需求来建立数据模型，抽取最有意义的向量，决定选取哪种方法的数据分析角色人员是（）。
A、数据管理人员
B、数据分析员
C、研究科学家
D、软件开发工程师
答案：C

69.下列关于数据重组的说法中，错误的是（）。
A、数据重组是数据的重新生产和重新采集
B、数据重组能够使数据焕发新的光芒
C、数据重组实现的关键在于多源数据融合和数据集成
D、数据重组有利于实现新颖的数据模式创新
答案：A

70.智慧城市的构建，不包含（）。
A、数字城市
B、物联网
C、联网监控
D、云计算
答案：C

72.美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的（ B）。
A、在数据基础上倾向于全体数据而不是抽样数据
B、在分析方法上更注重相关分析而不是因果分析
C、在分析效果上更追究效率而不是绝对精确
D、在数据规模上强调相对数据而不是绝对数据

73.下列关于舍恩伯格对大数据特点的说法中，错误的是（）。
A、数据规模大
B、数据类型多样
C、数据处理速度快
D、数据价值密度高
答案：D+

74.当前社会中，最为突出的大数据环境是（）。
A、互联网
B、物联网
C、综合国力
D、自然资源
答案：A

75.下列关于网络用户行为的说法中，错误的是（）。
A、网络公司能够捕捉到用户在其网站上的所有行为
B、用户离散的交互痕迹能够为企业提升服务质量提供参考
C、数字轨迹用完即自动删除
D、用户的隐私安全很难得以规范保护
答案：C

78.在数据生命周期管理实践中，（）是执行方法。
A、数据存储和备份规范
B、数据管理和维护
C、数据价值发觉和利用
D、数据应用开发和管理
答案：B

80.下列国家的大数据发展行动中，集中体现“重视基础、首都先行”的国家是（）。
A、美国
B、日本
C、中国
D、韩国
答案：D

82.大数据时代，数据使用的关键是（）。
A、数据收集
B、数据存储
C、数据分析
D、数据再利用
答案：D

83.下列关于数据交易市场的说法中，错误的是（）。
A、数据交易市场是大数据产业发展到一定程度的产物
B、商业化的数据交易活动催生了多方参与的第三方数据交易市场
C、数据交易市场通过生产数据、研发和分析数据，为数据交易提供帮助
D、数据交易市场是大数据资源化的必然产物
答案：C

84.下列论据中，能够支撑“大数据无所不能”的观点的是（）。
A、互联网金融打破了传统的观念和行为
B、大数据存在泡沫
C、大数据具有非常高的成本
D、个人隐私泄露与信息安全担忧
答案：A

85.数据仓库的最终目的是（）。
A、收集业务需求
B、建立数据仓库逻辑模型
C、开发数据仓库的应用分析
D、为用户和业务部门提供决策支持
答案：D

86.支撑大数据业务的基础是（）。
A、数据科学
B、数据应用
C、数据硬件
D、数据人才
答案：B

87.云计算的关键技术不包含下面哪一个（）。
A、虚拟化
B、分布式存储
C、分布式计算
D、应用软件技术
答案：D

88.hadoop2.0的组件中新增了哪个组件（）。
A、hdfs
B、mapreduce
C、yarn
D、Tez
答案：C

89.hadoop的安装配置中，需要的语言环境是（）。
A、Java
B、python
C、c语言
D、R语言
答案：A

90.在安装伪分布式hadoop时，配置hadoop运行环境的是哪个文件（）。
A、hdfs-site.xml
B、core-site.xml
C、hadoop-env.sh
D、slaves
答案：C

91.hdfs的主节点是什么？
A、Datanode
B、Namenode
C、NodeManager
D、ResourceManage

92.hadoop2管理集群资源及调度的主进程是？
A、yarn
B、Mapreduce
C、ReouceManager
D、NodeManager
答案：A

95.hdfs中查看指定路径信息的命令是hadoop fs （）？
A、-cat
B、-ls
C、-tail
D、-mkdir
答案：B

96.hadoop 查看hdfs目录信息的端口是？
A、8088
B、19888
C、 50070
D、8080
答案：D

97.hadoop上传数据使用的命令是hadoop fs ()？
A、-mkdir
B、-touchz
C、-chgrp
D、-put
答案：D

98.hadoop节点Namenode描述错的是？
A、管理数据节点
B、文件块的映射
C、文件和目录的操作
D、存储数据
答案：D

99.hadoop创建hdfs目录的命令是hadoop fs （）？
A、-mkdir
B、-copyFromLocal
C、-cat
D、-chown
答案：A

100.hadoop下载hdfs上的文件到本地目录的命令 hadoop fs ()？
A、-cat
B、-ls
C、-stat
D、-get
答案：D

101.与大数据密切相关的技术是（）？
A、蓝牙
B、云计算
C、wifi
D、博弈论
答案：B

102.下面哪个程序负责HDFS数据存储？
A、NameNode
B、Jobtracker
C、Datanode
D、secondaryNameNode
答案：C
104.下列哪个程序通常与NameNode在一个节点启动？
A、SecondaryNameNode
B、DataNode
C、TaskTracker
D、Jobtracker
答案：D
105.Hadoop作者是哪位？
A、Martin Fowler
B、Kent Beck
C、Doug cutting
D、Alibaba
答案：C
109.下面与HDFS类似的框架是？
A、NTFS
B、FAT32
C、GFS
D、EXT3
答案：C

111.一个gzip文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？
A、1
B、2
C、3
D、4
答案：B

112.HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为？
A、64MB
B、75MB
C、一个map读取64MB，另外一个map读取11MB
D、读取11MB
答案：B

113.Client在HDFS上进行文件写入时，namenode根据文件大小和配置情况，返回部分datanode信息，谁负责将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块。
A、Client
B、Namenode
C、Datanode
D、Secondary namenode
答案：A
115.HDFS无法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括？
A、利用SequenceFile、MapFile、Har等方式归档小文件
B、多Master设计
C、Block大小适当调小
D、调大namenode内存或将文件系统元数据存到硬盘里
答案：D

116.关于HDFS的文件写入，正确的是？
A、支持多用户对同一文件的写操作
B、用户可以在文件任意位置进行修改
C、默认将文件块复制成三份存放
D、复制的文件块默认都存在同一机架上
答案：C
117.Namenode在启动时自动进入安全模式，在安全模式阶段，说法错误的是？
A、安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B、根据策略对数据块进行必要的复制或删除
C、当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式
D、文件系统允许有修改
答案：D
118.MapReduce框架提供了一种序列化键/值对的方法，支持这种序列化的类能够在Map和Reduce过程中充当键或值，以下说法错误的是？
A、实现Writable接口的类是值
B、实现WritableComparable接口的类可以是值或键
C、Hadoop的基本类型Text并不实现WritableComparable接口
D、键和值的数据类型可以超出Hadoop自身支持的基本类型
答案：C

119.以下四个Hadoop预定义的Mapper实现类的描述错误的是？
A、IdentityMapper<K, V>实现Mapper<K, V, K, V>，将输入直接映射到输出
B、InverseMapper<K, V>实现Mapper<K, V, K, V>，反转键/值对
C、RegexMapper实现Mapper<K, Text, Text, LongWritable>，为每个常规表达式的匹配项生成一个(match, 1)对
D、TokenCountMapper实现Mapper<K, Text, Text, LongWritable>，当输入的值为分词时，生成(taken, 1)对
答案：B

120.下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是？
A、FSDataInputStream扩展了DataInputStream以支持随机读
B、为实现细粒度并行，输入分片(Input Split)应该越小越好
C、一台机器可能被指派从输入文件的任意位置开始处理一个分片
D、输入分片是一种记录的逻辑划分，而HDFS数据块是对输入数据的物理分割
答案：B

126.Client 端上传文件的时候下列哪项正确？（）
A.数据经过 NameNode 传递给 DataNode
B.Client 端将文件切分为 Block，依次上传
C.Client 只上传数据到一台 DataNode，然后由 NameNode 负责 Block 复制工作
D.以上都不正确
答案：B
130. 在HDFS上创建目录的命令参数是（）
A、-touch B、-cat C、-mkdir D、-dir
答案：C

132.Hbase作为Hadoop大家族中的重要一员，具有什么特性（）
A、抽取加载转换工具 B、大规模数据实时写入实时查询 C、复杂的SQL计算D、实时数据采集
答案：B

134.下面哪一个框架是可靠的协同工作系统（）
A、Sqoop B、Flume C、Zookeeper D、Ambari
答案：C

二：判断题

1.HDFS分布式文件存储系统中，与namenode通信超时的DataNode被标记为宕机，不再发送IO任务。（对）
2.不同Map任务之间会进行相互通信。（错）
3.HDFS由Namenode和Datanode组成，其中Namenode存储元数据，Datanode存储数据，若Datanode容量不够，也不能使用Namenode存储数据。（错）
4.在Shuffle阶段，可以根据业务需要直接对Map结果排序，或将排序放在Reduce阶段完成（错）
5.在MapReduce框架中，如果需要处理的数据很小，可以将数据读取到计算节点完成Map运算和Reduce运算，节省网络传输带宽（错）
6.Hadoop 支持数据的随机读写。（错）
7.NameNode 负责管理元数据信息metadata，client 端每次读写请求，它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。（错）
8.MapReduce 的 input split 一定是一个 block。（错）
9.MapReduce适于PB级别以上的海量数据在线处理。（错）
10.链式MapReduce计算中，对任意一个MapReduce作业，Map和Reduce阶段可以有无限个Mapper，但Reducer只能有一个。（对）
11.MapReduce计算过程中，相同的key默认会被发送到同一个reduce task处理。（对）
12.HBase对于空（NULL）的列，不需要占用存储空间。（对）
13.不同的Reduce任务之间不会发生任何信息交换。（对）
14.Block Size 是不可以修改的。（错）
15.Nagios不可以监控Hadoop集群，因为它不提供Hadoop 支持。（错）
16.如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。（错）
17.Cloudera CDH是需要付费使用的。（错）
18.Hadoop是Java开发的，所以MapReduce只支持Java语言编写。（错）
19.Hadoop支持数据的随机读写。（错）
20.NameNode负责管理metadata，client端每次读写请求，它都会从磁盘中读取或则会写入metadata信息并反馈client端。（错）
21.NameNode本地磁盘保存了Block的位置信息。（对）
22.Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。（错）
23.Slave节点要存储数据，所以它的磁盘越大越好。（错）
24.hadoop dfsadmin –report 命令用于检测HDFS损坏块。（错）
25.Hadoop默认调度器策略为FIFO。（对）
26.集群内每个节点都应该配RAID，这样避免单磁盘损坏，影响整个节点运行。（错）
27.因为HDFS有多个副本，所以NameNode是不存在单点问题的。（错）
28.每个map槽就是一个线程。（错）
29.Mapreduce的inputsplit就是一个block。（错）
30.NameNode的Web UI端口是50030，它通过jetty启动的Web服务。（错）
31.Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。它默认是200GB。（错）
32.大数据的存储方案通常对一份数据在不同节点上存储三个备份,以提高系统的安全性。(对)
33.大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人继续解决的问题提供答案。（对）
34.数据可视化可以便于人们对数据的理解。（对）
35.大数据技术和云计算技术是两门完全不相关的技术。（错）
36.对于大数据而言,最基本,最重要的要求就是减少错误,保证质量.因此,大数据收集的信息尽量要精确。(错)
37.在噪声数据中，波动数据比利群店数据偏离整体水平更大。（错）
38.一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是同意的数据库,因此分布式数据库具有物理上的独立性，逻辑上的一体性，性能上的可扩展性的特点。（对）
39.当前，大数据行业发展的特点是数据增长速度慢。（错）
40.数据仓库最重目的是为用户和业务部分提供决策支持。（对）
41.大数据时代,数据使用的关键是数据再利用。(对)
42.HDFS采用的是主从（Master/Slave）结构模型。（对）
43.HDFS采用冗余数据，增强了数据可靠性，加快了数据传输速度。(对)
44.HBase是一个分布式系统,主要存储分结构化和半结构化数据的松散数据。(对)
45.Hadoop三大核心组件分别是HDFS，yarn，NameNode。(错)
46.HBase是一个紧密,多维度，排序的映射表。(错)
47.HBase在更新操作时,会替换旧数据。错）
48.HBase表被分成许多的“列族”的集合，它是最基本的访问控制单元。（对）
49.Hadoop中yarn的作用是任务管理和资源调度。（对）
50.HBase和传统数据库的重大区别是，Hbase采用了基于列的存储。（对）

三：填空题

1.搭建hadoop分布式集群时，配置fs.defaultFS参数文件名称是:core-site.xml 。
2.hadoop是一个适合海量数据分布式存储和分布式计算的平台。
3.HDFS中namenode的默认文件系统访问端口是9000 。
4.在Spark生态中适合实时计算的组件是Sparkstreaming 。
5.hive作为大数据数据仓库工具之一，它的文件存储是放在hdfs上。
6.搭建hbase 集群时，需要一个协调框架来记录hbase元信息和监控集群状态是zookeeper。
7.Mapreduce任务在计算时，map任务的数量是由切片大小决定的。
8.在hdfs中，其子节点的进程名称是datanode。
9.hive的元数据库在一般是存放在关系型数据库MySql中。
10. 在hadoop中负责资源管理调度的主节点进程是ResourceMamanger
11. Hadoop三种运行的模式：单机版、伪分布式和分布式。
12.HDFS 默认 Block Size是 128 MB。
13. MapReduce任务过程分为两个处理阶段：map阶段和reduce阶段。
15.Map/Reduce框架由一个单独的master JobTracker 和每个集群节点一个slave TaskTracker共同组成。
16.MapReduce确保每个reducer的输入都是按键排序的。系统执行排序的过程（即将map输出作为输入传给reducer）称为 shuffle 。

四：问答题

问题一、简述hadoop的架构和各个组件的作用？
参考答案：
hadoop是一个统称，目前hadoop2.x主要包含三大组件
hdfs：是一个分布式存储框架，适合海量数据存储
mapreduce：是一个分布式计算框架，适合海量数据计算
yarn：是一个资源调度平台，负责给计算框架分配计算资源
。

问题二、叙述hadoop的特点
参考答案：
1扩容能力(Scalable)：能可靠(reliably)地存储和处理PB级别的数据。如果数据量更大，存储不下了,再增加节点就可以了。
2成本低(Economical):可以通过普通机器组成的服务器集群来分发以及处理数据.这些服务器集群可达数千个节点。
3高效率(Efficient):通过分发计算程序,hadoop可以在数据所在节点上(本地)并行地(parallel)处理他们,这使得处理非常的迅速
4可靠性(Reliable):hadoop能够自动地维护数据的多份副本,并且在任务失败后能够自动地重新部署(redeploy)计算任务.

问题四、列出hive和传统关系型数据库如MYSQL的区别

查询语言。类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。
数据存储位置。所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。
数据格式。Hive 中没有定义专门的数据格式。而在数据库中，所有数据都会按照一定的组织存储，因此，数据库加载数据的过程会比较耗时。
数据更新。Hive 对数据的改写和添加比较弱化，0.14版本之后支持，需要启动配置项。而数据库中的数据通常是需要经常进行修改的。
索引。Hive 在加载数据的过程中不会对数据进行任何处理。因此访问延迟较高。数据库可以有很高的效率，较低的延迟。由于数据的访问延迟较高，决定了 Hive 不适合在线数据查询。
执行计算。Hive 中执行是通过 MapReduce 来实现的而数据库通常有自己的执行引擎。
数据规模。由于 Hive 建立在集群上并可以利用 MapReduce 进行并行计算，因此可以支持很大规模的数据；对应的，数据库可以支持的数据规模较小。

问题五、Linux系统中JDK安装部署步骤？
（1）上传jdk压缩包致Linux系统；
（2）使用tar命令解压jdk压缩包；
（3）将jdk解压目录添加到Linux环境变量/etc/profile文件中；
（4）执行source /etc/profile使环境变量生效。

问题六、hive内部表和外部表的区别？
Hive内部表与外部表的区别：
Hive 创建内部表时，会将数据移动到数据仓库指向的路径；创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。

问题七、如何安装部署Apache开源版Hadoop，请列出主要步骤。
1.修改主机名，主机名映射
2.准备Linux环境，修改IP
3.安装JDK，并配置环境变量
4.上传解压hadoop安装包，配置etc文件夹下的hadoop-env.sh、core-site.xml mapre-site.xml、hdfs-site.xml等文件
5.配置hadoop的环境变量，格式化namenode，启动Hadoop

问题九、启动Hadoop系统过程中，当使用bin/start-all.sh命令启动时，请给出集群各进程启动顺序。
1.namenode
2.Datanode
3.Secondarynamenode
4.Resourcemanager
5.nodemanager

问题十、什么是分布式计算？
一个分布式系统包括若干通过网络互联的计算机。这些计算机互相配合以完成一个共同的目标（我们将这个共同的目标称为“项目”）。具体的过程是：将需要进行大量计算的项目数据分割成小块，由多台计算机分别计算，再上传运算结果后统一合并得出数据结论。在分布式系统上运行的计算机程序称为分布式计算程序；分布式编程就是编写上述程序的过程。

问题11、在Hadoop HDFS中，集群中的DataNode节点需要周期性地向NameNode发送什么信息？
在Hadoop HDFS中，DataNode需要周期性地向集群中的DataNode Master节点发送心跳信息和块报告。接收到心跳信息，说明该DataNode节点工作正常；块报告包含了DataNode节点上所有块的列表以及块id与磁盘文件存储的映射关系。

问题12、简述Mapreduce的shuffle过程
1.每个map有一个环形内存缓冲区，用于存储map的输出。默认大小100MB，一旦达到阀值0.8，一个后台线程把内容溢写到(spill)磁盘的指定目录下的一个新建文件中。
2.写磁盘前，要partition,sort。如果有combiner，combine排序后数据。
3.等最后记录写完，合并全部文件为一个分区且排序的文件。
4.Reducer通过Http方式得到输出文件的特定分区的数据。
5.排序阶段合并map输出。然后走Reduce阶段，reduce执行完之后，写入到HDFS中。

问题13、请简要说明Hadoop YARN的一级调度管理与二级调度管理？
YARN作为分布式集群资源管理框架，可用于集群资源的管理以及应用的调度。YARN的一级调度管理包括计算资源管理和Application生命周期的管理；
二级调度管理包括Application内部计算模型的管理以及多样化计算模型的管理。

问题14、说说对mapreduce中数据倾斜的理解，以及如何解决？
数据倾斜就是数据的key 的分化严重不均，造成一部分数据很多，一部分数据很少。
解决方案：
1、调优参数；
2、在 map 阶段将造成倾斜的key 先分成多组；
3、能先进行 group 操作的时候先进行 group 操作，把 key 先进行一次 reduce,之后再进行 count 或者 distinct count 操作；
4、join操作中，使用 map join 在 map 端就先进行 join。

问题15、MapReduce中是如何定义并行度的？
一个job的map阶段并行度由客户端提交的job决定。
客户端对map阶段并行度的规划逻辑为：
将待处理数据执行逻辑切片。按照一个特定的切片大小，将待处理数据划分成逻辑上的多个split，然后每一个split分配一个maptask实例进行处理。
Reducetask并行度同样影响整个job的执行并发度和执行效率，与maptask的并发度由切片数决定不同，Reducetask 数据的决定是可以直接手动设置：job.setNumReduceTask(4)。

问题16、什么是Hadoop序列化和反序列化?
（1）序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。
（2）反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。
（3）Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输。所以，hadoop自己开发了一套序列化机制（Writable），精简、高效。

问题17、描述mapReduce有几种排序？
（1）部分排序：MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部排序。
（2）全排序：如何用Hadoop产生一个全局排序的文件？最简单的方法是使用一个分区。但该方法在处理大型文件时效率极低，因为一台机器必须处理所有输出文件，从而完全丧失了MapReduce所提供的并行架构。
（3）二次排序：在自定义排序过程中，如果compareTo中的判断条件为两个即为二次排序。

五、操作题

1.Hive操作题

（a）上面有一张Hive数据库表，请写出Hive建表语法，并用一条SQL查出表中每门课都大于80分的同学姓名。
建表：
create table hive1
(name string, course string, score int)
row format delimited fields terminated by ‘,’;

load data local inpath ‘/home/potter/hive1.txt’
into table hive1;

查询语法：
select name from hive1 group by name having min(score) > 80;
（b）请用最简洁的SQL语句查询出表中有不及格成绩的学生姓名
select name from hive1 where score < 60 group by name;

2.Hive进阶操作题
现有一张Hive成绩表：
（a）请使用hive编写一条SQL语句把以上的这张表转换成以下表的格式。

建表：
CREATE TABLE hive2 (
id int(11) NOT NULL AUTO_INCREMENT PRIMARY KEY,
username varchar(255) DEFAULT NULL,
math int(11) DEFAULT NULL,
computer int(11) DEFAULT NULL,
english int(11) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

INSERT INTO hive2 VALUES (1, ‘huangbo’, 34, 58,58);
INSERT INTO hive2 VALUES (2, ‘xuzheng’, 45,87,45);
INSERT INTO hive2 VALUES (3, ‘wangbaoqiang’, 76,34,89);
行转列语句：
SELECT id, username , ‘math’ course ,math AS math FROM hive2
UNION SELECT id ,username,‘computer’ course ,computer as computer FROM hive2
UNION SELECT id ,username,‘english’ course ,english as english FROM hive2
ORDER BY id,username,course;

3、操作题
现需要在HDFS的根路径下创建2个文件夹：test1和test2，然后将本地文件“/tmp/testfile.txt”上传到test2中，再把该文件拷贝到test1中，请依次写出所需执行的命令。

hdfs dfs -mkdir /test1
hdfs dfs -mkdir /test2
hdfs dfs -put /tmp/testfile.txt /test2
hdfs dfs -cp /test2/ testfile.txt /test1

大数据学习日常小练习题汇总收纳相关推荐

大数据学习系列：Hadoop3.0苦命学习（五）
传送门: 大数据学习系列:Hadoop3.0苦命学习(一) 大数据学习系列:Hadoop3.0苦命学习(二) 大数据学习系列:Hadoop3.0苦命学习(三) 大数据学习系列:Hadoop3.0苦命学 ...
大数据面试题及答案汇总版
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/albg_boy/article/det ...
大数据学习规划（新手入门）
前言: 一.背景介绍二.大数据介绍正文: 一.大数据相关的工作介绍二.大数据工程师的技能要求三.大数据学习规划四.持续学习资源推荐(书籍,博客,网站) 五.项目案例分析(批处理+实时处理) ...
免费的大数据学习资料，这一份就足够
朋友不在于多,知心就好;资料不在于多,精致就好.一份专业的大数据学习资料才是学习大数据的利刃.小编分享的这套大数据学习资料将从学习大纲.书籍.视频教程分别分享. 在这里还是要推荐下我自己建的大数据 ...
大数据学习笔记：Hadoop生态系统
文章目录一.Hadoop是什么二.Hadoop生态系统图三.Hadoop生态圈常用组件 (一)Hadoop (二)HDFS (三)MapReduce (四)Hive (五)Hbase (六)Zo ...
【经典】一个大数据学习的解决方案
从0基础小白到架构师,对于一个没入行的小白来说,想都不敢想,它不仅需要时间的磨炼,开发经验的积累,更需要有合适的机遇与平台.对于大数据技术应用方面,无论是传统行业还是互联网行业,经过这几年的发展已经相 ...
大数据学习之路 JUC篇
大数据学习之路 JUC篇(1) 前提说明本人是一名学生,茫茫it行业的一名卑微的小白,这是我第一次写博客.其原因是学着学着知识发现回顾的时候差不多全忘记了!!为了总结.复习自己以往学到过的有关大数据 ...
如何学习大数据？这才是完整的大数据学习体系！！
整理的大数据学习思路第一阶段:linux系统本阶段为大数据学习入门基础课程,帮大家进入大数据领取打好Linux基础,以便更好的学习Hadoop.habse.NoSQL.saprk.storm等众多 ...
大数据下的小媒体——访新蓝网副总监洪永和
[文章概述] <大数据下的小媒体>作者洪永和先生认为,新媒体在广播电视构架内,目前依旧处于始发阶段,一个比较边缘的地位,并未真正进入主流布局.更多只是作为战略布点的需要存在,作为平台延伸的 ...

大数据学习日常小练习题汇总收纳