大数据技术原理与应用(第二章 大数据处理架构Hadoop)
目录
2.1Hadoop简介
HDFS(分布式文件系统)
MapReduce(分布式并行编程框架)
Hadoop的特点
Hadoop的应用
编辑Hadoop版本的变化
2.2Hadoop项目结构
Tez
Spark
Hive
Pig
Oozie
Zookeeper
HBase
Flume
Sqoop
Ambari
2.3Hadoop集群的部署和使用
NameNode
DataNode
JobTracker,TaskTracker
备份SecondaryNameNode
部署完成后进行Hadoop集群基准测试
云环境使用Hadoop
2.1Hadoop简介
Hadoop是Apache软件基金会旗下的开源软件——分布式计算平台,由Java语言开发,但支持多种编程语言。
Hadoop两大核心:
HDFS(分布式文件系统)
解决了海量数据的存储,顺序读写
MapReduce(分布式并行编程框架)
解决了海量数据的处理
Hadoop的特点
高可靠性:冗余副本机制
高效性:成百上千的机器一起计算,集群处理
可扩展性:可以不断向集群中加入机器
成本低:低端普通pc机
Hadoop的应用
Hadoop版本的变化
Yarn:为上层的计算框架进行底层计算资源的调度功能
NN Federation:NameNode,名称节点做数据目录服务,设置多个名称节点,分区管理
HA:高可用性,对Name Node进行热备份,避免单点失效
2.2Hadoop项目结构
Tez
运行在Yarn之上的下一代Hadoop查询处理框架,对MapReduce上的作业进行分析优化后构建有向无环图,获得最高的工作效率与最优流程(先后顺序,是否重复完成等)。
Spark
类似MapReduce的通用并行框架,基于内存计算,因此效率比MapReduce高出一个数量级。(MapReduce是基于磁盘)
Hive
Hadoop上的数据仓库,存储大量历史数据,用于企业的数据分析。架构于MapReduce之上,因此Hive实际运行时会把SQL语句转换成MapReduce作业去执行。(批量数据处理)
Pig
一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin。(流数据处理,轻量级的脚本语言,和直接使用MapReduce相比大大简化了代码段)。
Oozie
Hadoop上的工作流管理系统。
Zookeeper
提供分布式协调一致性服务,实现分布式锁,集群管理等功能。
HBase
Hadoop上的非关系型的分布式数据库,属于列族数据库,支持随机读写,实时应用。(HDFS是顺序读写)
Flume
日志收集分析框架。一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统。
Sqoop
用于在Hadoop与传统关系型数据库之间进行数据传递。
Ambari
Hadoop快速安装部署工具,支持apache Hadoop集群的供应、管理和监控。
2.3Hadoop集群的部署和使用
HDFS集群硬件配置:
NameNode
总管家角色:管理各种元数据并提供服务, NameNode里面有很多元数据直接保存在内存当中。
DataNode
MapReduce两大核心组件:
JobTracker,TaskTracker
JobTracker相当于大的作业管家。MapReduce的程序开发每次是以一个MapReduce作业的形式去完成具体计算任务。JobTracker将用户的大作业拆分成很多小作业,协调分发到不同机器去执行。在不同的机器上则安装了TaskTracker,每一个TaskTracker负责跟踪和执行被分配给自己所在机器的小作业。
备份SecondaryNameNode
在HDFS上的组件,1.0版本中属于冷备份。在集群较小时可以与NameNode在一起,集群较大时需要单独分配服务器。
部署完成后进行Hadoop集群基准测试
1)Hadoop自带的基准测试程序,被打包在测试程序JAR文件中;
2)用TestDFSIO基准测试,来测试HDFS的IO性能;
3)用排序测试MapReduce:Hadoop自带一个部分排序的程序,整个过程的数据集都会通过洗牌(Shuffle)传输至Reducer,可以充分测试MapReduce的性能。
云环境使用Hadoop
大数据技术原理与应用(第二章 大数据处理架构Hadoop)相关推荐
- 大数据技术原理与应用——第一章 大数据概述
第一章 大数据概述 1.1 大数据时代 1.1.1 第三次信息化浪潮 信息化浪潮 发生时间 标志 解决的问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Intel.AMD.IBM.苹 ...
- 大数据技术原理与应用 第一篇 大数据基础
目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...
- 大数据技术原理与应用——第一章
大数据时代 三次信息化浪潮 信息化浪潮 时间 标志 解决的问题 第一次信息化浪潮 1980 个人计算机 信息处理 第二次信息化浪潮 1995 互联网 信息传输 第三次信息化浪潮 2010 大数据.云计 ...
- 大数据技术原理与应用 实验6 Spark数据处理系统的搭建
目录 一.实验题目 二.实验目的 三.实验平台 四.实验内容和要求 1.Spark RDD部分: 2.Spark SQL部分(分别使用Spark SQL API和Spark DataFrames AP ...
- 大数据技术原理与应用课程建设经验分享
大数据技术原理与应用课程 建设经验分享 林子雨 厦门大学信息科学与技术学院, 福建 厦门 361005 摘要:大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任 ...
- 大数据技术原理与应用—课后题答案(第一章)
大数据技术原理与应用_林子雨版_课后题答案(第一章) 1.试述信息技术发展史上的3次信息化浪潮及具体内容. 信息化浪潮 发生时间 标志 解决问题 ...
- 《大数据技术原理与应用》(第七章 MapReduce 课后答案)
第七章 MapReduce 参考资料 1.林子雨_大数据技术原理与应用课后习题_NPU_阿夏的博客-CSDN博客 2.林子雨编著<大数据技术原理与应用(第3版)>教材官网_厦门大学数据库 ...
- [渝粤教育] 厦门大学 大数据技术原理与应用 参考 资料
教育 -大数据技术原理与应用-章节资料考试资料-厦门大学[] 第1章 大数据概述 单元测验 1.[单选题]第三次信息化浪潮的标志是: A.个人电脑的普及 B.互联网的普及 C.云计算.大数据.物联网技 ...
- 大数据技术原理与应用课后题(林子雨)
大数据技术原理与应用(林子雨) 第1章 大数据概述 1单选(2分) 第三次信息化浪潮的标志是: A.个人电脑的普及 B.云计算.大数据.物联网技术的普及 C.虚拟现实技术的普及 D.互联网的普及 正确 ...
- 大数据技术原理与应用——大数据存储与管理
大数据技术原理与应用--大数据存储与管理 1.分布式文件系统 (1)计算机集群结构 集群的概念 集群是指将多台服务器整合在一起,每台服务器都实现相同的业务,做相同的事情. 每台服务器并不是缺一不可,它 ...
最新文章
- visual studio 代码提示插件_程序员请收好:10个非常实用的 VS Code 插件
- 猿辅导、作业帮忙“圈钱”,跟谁学、有道、51Talk狂“烧钱”,在线教育钱途在哪?
- 买游戏来运营_「笔吧评测室」双十一快来了,买游戏本要做好心理准备
- MATLAB AppDesigner 设计UI界面中调用自定义函数
- orion sam mysql_JAVA/JSP学习系列之四(Orion App Server的安装)_MySQL
- C#winform可视化(当主窗体不能拖动时)
- Windows10临时关闭数字签名认证
- 螺钉 螺母 硬币三种物体的识别
- 计算机的照相机功能,单反相机各个功能按键的作用,让你彻底熟悉相机-fn键设置...
- [学习笔记]opencv双线性插值法图像放大
- [BZOJ5109]大吉大利,晚上吃鸡!
- python在单词表中查找包含所有元音字母aeiou的单词并打印
- 6.JUC-共享模型之工具
- 计算机登陆后如何防止自动注销,在win7系统中经常自动注销的解决方法介绍
- MacOS Monterey 12.2.1 (21D62) OC 0.7.8 / Cl 5144 / PE 三分区原版黑苹果镜像
- 单芯片快速以太网MAC控制器DM9000介绍
- 爱贝云计费服务端接入
- 在Windows 7下安装U871或U872,在检测组件窗口时,出现MDAC组没有安装的提示的解决办法...
- 写代码好用的截图工具 Snipaste
- 暨南大学计算机专硕考英语一,19级暨南大学计算机考研经验分享贴(非常详细)...
热门文章
- iPhone4s降级过程
- Linux 脚本后台执行
- Eclipse安装SVN插件及使用详细步骤
- ansible字符串的处理
- 量化投资基础学习(1)————常用库 numpy 函数 (2022.7.11)
- 计算机组成与设计答案
- 万能Ghost系统制作教程
- windos10本地安装git工具并使用
- 图书管理开题报告php,基于PHP+SqlServer的图书管理系统,毕业论文设计,答辩ppt,开题报告,外文翻译,苹果,硕士研究生,iphone...
- B2型水面线计算(含python代码)