《大数据基础——基于Hadoop与Spark》课后习题—

仅用于我个人的学习。书籍为人民邮电出版社的《大数据技术基础——基于Hadoop与Spark》。课后习题选择是我个人认为有用的。记录下来是为了督促我学习:)
共好

1.请指出以下术语的基本含义。

元数据；分布式存储；计算机集群；并行计算；DFS；MapReduce；

元数据：Metadata，为描述数据的数据，主要是描述数据属性（property）的信息。简言之，元数据就是关于数据的数据。

分布式存储：分布式存储是一种数据存储技术，通过网络使用企业中的每台机器上的磁盘空间，并将这些分散的存储资源构成一个虚拟的存储设备，数据分散的存储在企业的各个角落。

计算机集群：一种计算机系统，它通过一组松散集成的计算机软件或硬件连接起来高度紧密地协作完成计算工作。在某种意义上，他们可以被看作是一台计算机。

并行计算：并行计算（Parallel Computing）是指同时使用多种计算资源解决计算问题的过程，是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题，即将被求解的问题分解成若干个部分，各部分均由一个独立的处理机来并行计算。

DFS：Distributed File System，分布式文件系统，是指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。DFS使得分布在多个节点上的文件如同位于网络上的一个位置一样便于动态扩展和维护。

MapReduce：处理大量半结构化数据集合的并行编程模型。编程模型是一种处理并结构化特定问题的方式

4.简述大数据含义及其特征

不同的机构或者个人有不同的理解，难以有一个非常定量的定义。

麦肯锡公司：大数据指的是大小超出常规的数据库工具能获取、存取、管理和分析的数据集。
John Rauser ：大数据是任何超出了一台计算机处理能力的数据量。
维基百科：大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策实现更积极目的的信息
《大数据时代的历史机遇》：大数据是在多样的或者大量数据中，迅速获取信息的能力。

特征有以下五大特征

数据量大（volume）
类型繁多（variety）
价值密度低（value）
速度快时效高（velocity）
永远在线（online）

5.请列举大数据的主要来源（至少5个），并简要说明所包含的数据内容

搜索引擎服务：来自世界各地的用户请求
电子商务：在线交易数据（支付数据、查询行为、物流运输、购买喜好、点击顺序、评价行为等）、用户浏览和点击网页数据、购物数据等
社交网络：社交行为数据（语音、图片、视频、短信等）
音视频在线服务：新的音视频数据本身、高并发的在线播放请求以及用户操作记录等
个人数据业务：传感器产生的点击数据、用户行为数据等
地理信息数据：经纬度、道路和地理标识以及用户行为和习惯
传统企业：电信——用户通信数据，金融——银行卡交易数据，电力——电能数据等

7.比较MapReduce和Spark，简述其主要区别

主要区别：
MapReduce：以分布式文件系统为基础的并行计算模式
Spark：以分布式内存缓存为基础的并行计算模式

PS：其它区别在这一章就不详述了：）

10.指出在Hadoop平台中以下产品的核心功能

HDFS、YARN、MapReduce、Hive、HBase、Mahout、Spark、ZooKeeper。

HDFS：提供高可靠性、高可扩展性和高吞吐率的数据存储服务

YARN：负责集群资源的统一管理和调度。

MapReduce：计算框架（离线计算）

Hive：基于MapReduce的数据仓库

HBase：分布式数据库

Mahout：基于Hadoop的机器学习和数据挖掘的分布式计算框架

Spark：计算框架（内存计算）

ZooKeeper：分布式协作服务组件，用于解决分布式环境下的数据管理问题，包括统一命名、数据同步、汲取管理、配置同步等。