大数据技术原理与应用(第二章 大数据处理架构Hadoop)
目录
2.1Hadoop简介
HDFS(分布式文件系统)
MapReduce(分布式并行编程框架)
Hadoop的特点
Hadoop的应用
编辑Hadoop版本的变化
2.2Hadoop项目结构
Tez
Spark
Hive
Pig
Oozie
Zookeeper
HBase
Flume
Sqoop
Ambari
2.3Hadoop集群的部署和使用
NameNode
DataNode
JobTracker,TaskTracker
备份SecondaryNameNode
部署完成后进行Hadoop集群基准测试
云环境使用Hadoop
2.1Hadoop简介
Hadoop是Apache软件基金会旗下的开源软件——分布式计算平台,由Java语言开发,但支持多种编程语言。
Hadoop两大核心:
HDFS(分布式文件系统)
解决了海量数据的存储,顺序读写
MapReduce(分布式并行编程框架)
解决了海量数据的处理
Hadoop的特点
高可靠性:冗余副本机制
高效性:成百上千的机器一起计算,集群处理
可扩展性:可以不断向集群中加入机器
成本低:低端普通pc机
Hadoop的应用
Hadoop版本的变化
Yarn:为上层的计算框架进行底层计算资源的调度功能
NN Federation:NameNode,名称节点做数据目录服务,设置多个名称节点,分区管理
HA:高可用性,对Name Node进行热备份,避免单点失效
2.2Hadoop项目结构
Tez
运行在Yarn之上的下一代Hadoop查询处理框架,对MapReduce上的作业进行分析优化后构建有向无环图,获得最高的工作效率与最优流程(先后顺序,是否重复完成等)。
Spark
类似MapReduce的通用并行框架,基于内存计算,因此效率比MapReduce高出一个数量级。(MapReduce是基于磁盘)
Hive
Hadoop上的数据仓库,存储大量历史数据,用于企业的数据分析。架构于MapReduce之上,因此Hive实际运行时会把SQL语句转换成MapReduce作业去执行。(批量数据处理)
Pig
一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin。(流数据处理,轻量级的脚本语言,和直接使用MapReduce相比大大简化了代码段)。
Oozie
Hadoop上的工作流管理系统。
Zookeeper
提供分布式协调一致性服务,实现分布式锁,集群管理等功能。
HBase
Hadoop上的非关系型的分布式数据库,属于列族数据库,支持随机读写,实时应用。(HDFS是顺序读写)
Flume
日志收集分析框架。一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统。
Sqoop
用于在Hadoop与传统关系型数据库之间进行数据传递。
Ambari
Hadoop快速安装部署工具,支持apache Hadoop集群的供应、管理和监控。
2.3Hadoop集群的部署和使用
HDFS集群硬件配置:
NameNode
总管家角色:管理各种元数据并提供服务, NameNode里面有很多元数据直接保存在内存当中。
DataNode
MapReduce两大核心组件:
JobTracker,TaskTracker
JobTracker相当于大的作业管家。MapReduce的程序开发每次是以一个MapReduce作业的形式去完成具体计算任务。JobTracker将用户的大作业拆分成很多小作业,协调分发到不同机器去执行。在不同的机器上则安装了TaskTracker,每一个TaskTracker负责跟踪和执行被分配给自己所在机器的小作业。
备份SecondaryNameNode
在HDFS上的组件,1.0版本中属于冷备份。在集群较小时可以与NameNode在一起,集群较大时需要单独分配服务器。
部署完成后进行Hadoop集群基准测试
1)Hadoop自带的基准测试程序,被打包在测试程序JAR文件中;
2)用TestDFSIO基准测试,来测试HDFS的IO性能;
3)用排序测试MapReduce:Hadoop自带一个部分排序的程序,整个过程的数据集都会通过洗牌(Shuffle)传输至Reducer,可以充分测试MapReduce的性能。
云环境使用Hadoop
大数据技术原理与应用(第二章 大数据处理架构Hadoop)相关推荐
- 大数据技术原理与应用——第一章 大数据概述
第一章 大数据概述 1.1 大数据时代 1.1.1 第三次信息化浪潮 信息化浪潮 发生时间 标志 解决的问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Intel.AMD.IBM.苹 ...
- 大数据技术原理与应用 第一篇 大数据基础
目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...
- 大数据技术原理与应用——第一章
大数据时代 三次信息化浪潮 信息化浪潮 时间 标志 解决的问题 第一次信息化浪潮 1980 个人计算机 信息处理 第二次信息化浪潮 1995 互联网 信息传输 第三次信息化浪潮 2010 大数据.云计 ...
- 大数据技术原理与应用 实验6 Spark数据处理系统的搭建
目录 一.实验题目 二.实验目的 三.实验平台 四.实验内容和要求 1.Spark RDD部分: 2.Spark SQL部分(分别使用Spark SQL API和Spark DataFrames AP ...
- 大数据技术原理与应用课程建设经验分享
大数据技术原理与应用课程 建设经验分享 林子雨 厦门大学信息科学与技术学院, 福建 厦门 361005 摘要:大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任 ...
- 大数据技术原理与应用—课后题答案(第一章)
大数据技术原理与应用_林子雨版_课后题答案(第一章) 1.试述信息技术发展史上的3次信息化浪潮及具体内容. 信息化浪潮 发生时间 标志 解决问题 ...
- 《大数据技术原理与应用》(第七章 MapReduce 课后答案)
第七章 MapReduce 参考资料 1.林子雨_大数据技术原理与应用课后习题_NPU_阿夏的博客-CSDN博客 2.林子雨编著<大数据技术原理与应用(第3版)>教材官网_厦门大学数据库 ...
- [渝粤教育] 厦门大学 大数据技术原理与应用 参考 资料
教育 -大数据技术原理与应用-章节资料考试资料-厦门大学[] 第1章 大数据概述 单元测验 1.[单选题]第三次信息化浪潮的标志是: A.个人电脑的普及 B.互联网的普及 C.云计算.大数据.物联网技 ...
- 大数据技术原理与应用课后题(林子雨)
大数据技术原理与应用(林子雨) 第1章 大数据概述 1单选(2分) 第三次信息化浪潮的标志是: A.个人电脑的普及 B.云计算.大数据.物联网技术的普及 C.虚拟现实技术的普及 D.互联网的普及 正确 ...
- 大数据技术原理与应用——大数据存储与管理
大数据技术原理与应用--大数据存储与管理 1.分布式文件系统 (1)计算机集群结构 集群的概念 集群是指将多台服务器整合在一起,每台服务器都实现相同的业务,做相同的事情. 每台服务器并不是缺一不可,它 ...
最新文章
- VTK:可视化之Opacity
- .NET6之MiniAPI(二十七):Metrics
- Entity Data Model (EDM) 深入分析, Part 3
- idea的maven project消失解决方案
- 广电总局:清理违规短视频账号38.39万个
- jvm lock低性能分析
- HNU 程序设计课 函数公式题
- wincemobile的GPS开发
- 计算机打印东西怎么横向打印机,打印机横向打印怎么设置,打印机不能横向打印...
- html 列表实现展开和收起,实现列表展开收起效果
- 中国1-4线城市互联网价值分布
- ul li img标签 图片不显示的问题
- php虚拟主机的配置
- Opcode指令解析
- iphone8验证服务器出错,某平台上买的“全新国行正品iphone8手机,支持官方验证”用了不到两个月坏了...
- 高级计算机工程师查询,高级工程师证书查询网站
- 独孤思维:赚钱项目的内卷和躺平
- 《我的团长我的团》:你要让我来啊,那个犊子不愿意来呀!
- php从键盘怎么输入,键盘怎么用?电脑键盘用法图文教程(含指法练习)
- 2017年度 个人工作总结
热门文章
- element-ui el-input-number 输入框不显示数字,默认清空
- 部署k8s 1.18版本及图形管理工具kuboard(十四)
- mysql入门教程——基本操作
- Android 网络开发抓包工具Fiddler、tcpdump和Wireshark的使用
- 智能控制matlab程序,智能算法的Matlab仿真程序及教程
- Python的安装与卸载
- 在线重装Win11系统详细教程
- 阿里云服务器新用户优惠
- 机器学习(十一):FP增长(FP-growth)
- C++:VS2017基本操作、番茄助手的重构功能以及C++的项目工程基本配置