《大数据基础——基于Hadoop与Spark》课后习题——第一章部分答案
仅用于我个人的学习。书籍为人民邮电出版社的《大数据技术基础——基于Hadoop与Spark》。课后习题选择是我个人认为有用的。记录下来是为了督促我学习:)
共好
1.请指出以下术语的基本含义。
元数据;分布式存储;计算机集群;并行计算;DFS;MapReduce;
元数据:Metadata,为描述数据的数据,主要是描述数据属性(property)的信息。简言之,元数据就是关于数据的数据。
分布式存储:分布式存储是一种数据存储技术,通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。
计算机集群:一种计算机系统, 它通过一组松散集成的计算机软件或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。
并行计算:并行计算(Parallel Computing)是指同时使用多种计算资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算。
DFS:Distributed File System,分布式文件系统,是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。DFS使得分布在多个节点上的文件如同位于网络上的一个位置一样便于动态扩展和维护。
MapReduce:处理大量半结构化数据集合的并行编程模型。编程模型是一种处理并结构化特定问题的方式
4.简述大数据含义及其特征
不同的机构或者个人有不同的理解,难以有一个非常定量的定义。
- 麦肯锡公司:大数据指的是大小超出常规的数据库工具能获取、存取、管理和分析的数据集。
- John Rauser :大数据是任何超出了一台计算机处理能力的数据量。
- 维基百科:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策实现更积极目的的信息
- 《大数据时代的历史机遇》:大数据是在多样的或者大量数据中,迅速获取信息的能力。
特征有以下五大特征
- 数据量大(volume)
- 类型繁多(variety)
- 价值密度低(value)
- 速度快时效高(velocity)
- 永远在线(online)
5.请列举大数据的主要来源(至少5个),并简要说明所包含的数据内容
- 搜索引擎服务:来自世界各地的用户请求
- 电子商务:在线交易数据(支付数据、查询行为、物流运输、购买喜好、点击顺序、评价行为等)、用户浏览和点击网页数据、购物数据等
- 社交网络:社交行为数据(语音、图片、视频、短信等)
- 音视频在线服务:新的音视频数据本身、高并发的在线播放请求以及用户操作记录等
- 个人数据业务:传感器产生的点击数据、用户行为数据等
- 地理信息数据:经纬度、道路和地理标识以及用户行为和习惯
- 传统企业:电信——用户通信数据,金融——银行卡交易数据,电力——电能数据等
7.比较MapReduce和Spark,简述其主要区别
主要区别:
MapReduce:以分布式文件系统为基础的并行计算模式
Spark:以分布式内存缓存为基础的并行计算模式
PS:其它区别在这一章就不详述了 :)
10.指出在Hadoop平台中以下产品的核心功能
HDFS、YARN、MapReduce、Hive、HBase、Mahout、Spark、ZooKeeper。
HDFS:提供高可靠性、高可扩展性和高吞吐率的数据存储服务
YARN:负责集群资源的统一管理和调度。
MapReduce:计算框架(离线计算)
Hive:基于MapReduce的数据仓库
HBase:分布式数据库
Mahout:基于Hadoop的机器学习和数据挖掘的分布式计算框架
Spark:计算框架(内存计算)
ZooKeeper:分布式协作服务组件,用于解决分布式环境下的数据管理问题,包括统一命名、数据同步、汲取管理、配置同步等。
《大数据基础——基于Hadoop与Spark》课后习题——第一章部分答案相关推荐
- 大数据基础之Hadoop(三)—— MapReduce
作者:duktig 博客:https://duktig.cn (文章首发) 优秀还努力.愿你付出甘之如饴,所得归于欢喜. 本篇文章源码参看:https://github.com/duktig666/b ...
- 大数据基础之Hadoop(一)—— Hadoop概述
Hadoop系列 大数据基础之Hadoop(一)-- Hadoop概述 大数据基础之Hadoop(二)-- HDFS 大数据基础之Hadoop(三)-- MapReduce 大数据基础之Hadoop( ...
- 《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色...
1.2 大数据科学以及Hadoop和Spark在其中承担的角色 数据科学的工作体现在以下这两个方面: 要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统, ...
- 大数据基础架构Hadoop,终于有人讲明白了
导读:大数据正在成为经济社会发展的新的驱动力.随着云计算.移动互联网等网络新技术的应用和发展,社会信息化进程进入大数据时代,海量数据的产生与流转成为常态.而大数据技术也如雨后春笋般正在蓬勃发展中.Ha ...
- 大数据基础(hadoop环境搭建及使用)
大数据 大数据概念 大数据特点(4V) Volume(大量) Velocity(高速) Variety(多样) Value(低价值密度) Hadoop Hadoop是什么 Hadoop 三大发行版本 ...
- 大数据技术之Hadoop(HDFS)第2章 HFDS的Shell操作
1)基本语法 bin/hadoop fs 具体命令 2)命令大全 [atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop fs [-appendToFile < ...
- 大数据从业者必读书籍《数据仓库工具箱》-第一章笔记
第一章:数据仓库.商业智能及维度建模初步 DW/BI系统应该死扣的是业务需求. 第一章讨论的内容: DW/BI系统的业务驱动目标 发布DW/BI系统的隐喻 维度建模的相关词汇与语义 DW/BI架构的组 ...
- 大数据 addthis hydra 九头蛇的学习 第一章
Hydra (九头蛇简介) Hydra(九头蛇),分布式任务处理系统,由社交标签服务提供商AddThis六年前开发,现在已得到Apache的开源许可,就像Hadoop一样,只是还没有Hadoop那样的 ...
- 软件项目管理案例教程第4版课后习题第一章
第一章 一.填空题 二.判断题 三.选择题 四.问答题 一.填空题 1.敏捷模型包括(4)个核心价值,对应(12)个敏捷原则. 详解: 敏捷开发4句宣言: 个体与交互 胜过 过程与工具 可以工作的软件 ...
最新文章
- linux安装64 mysql5.7_Linux安装64位Mysql5.7.22
- ibm服务器imm管理方式简介
- 卷积神经网络CNN总结
- Android Handler、Loop 的简单使用
- pandas 把某一列中字符串变数值_Python学习教程:Python数据分析实战基础 | 初识Pandas...
- python设计模式(五):适配器模式——各种类接口的合并
- LeetCode C语言刷题——day1
- 使用 Composer 为 ThinkPHP(3.2.3)框架添加和管理组件
- 【java】Java 中的 Exchanger 线程同步使用方法 线程之间交换数据
- PostgreSQL的使用-01-创建一个table
- php环境模拟stphp_一个模拟浏览器请求的php类,模拟请求ua设置
- Kubernetes的系统架构与设计理念
- MVC3中Ajax.ActionLink用法
- 赴日游个人签证门槛降低 年薪3万可申请
- opencv图像处理笔记【1】:LBP算法的实现
- uniapp 使用 colorUI
- 【Android智能硬件开发】【009】安卓读写GPIO
- 外贸受用,如何跟进那些报过价又不回复的客户?
- 教程系列 - 用模板快速上线一个HR 服务中心
- 37-基于51单片机智能温控风扇设计
热门文章
- 安卓 修改键盘确定按钮状态,并获取对应点击事件
- The illustrated guide to a Ph.D.
- SpringCloud 学习(一)---- 微服务的概念
- 淘宝商家怎么采集同行淘宝店的技巧?
- 935. 骑士拨号器
- mui弹出提示_dialog(对话框) - MUI 中文文档
- 实验三 字符类型及其操作(新)
- SpringMVC之JSON工具:Jackson Gson 和fastjson通过JSON工具来解决文字乱码和时间格式问题——通过JSON工具生成JSON
- oracle 用户下建表进行加密(redact)实验
- linux创建名字拼音的yum文件,Linux创建yum仓库