目录

2.1Hadoop简介

HDFS(分布式文件系统)

MapReduce(分布式并行编程框架)

Hadoop的特点

Hadoop的应用

​编辑Hadoop版本的变化

2.2Hadoop项目结构

Tez

Spark

Hive

Pig

Oozie

Zookeeper

HBase

Flume

Sqoop

Ambari

2.3Hadoop集群的部署和使用

NameNode

DataNode

JobTracker,TaskTracker

备份SecondaryNameNode

部署完成后进行Hadoop集群基准测试

云环境使用Hadoop


2.1Hadoop简介

Hadoop是Apache软件基金会旗下的开源软件——分布式计算平台,由Java语言开发,但支持多种编程语言。

Hadoop两大核心:

HDFS(分布式文件系统)

解决了海量数据的存储,顺序读写

MapReduce(分布式并行编程框架)

解决了海量数据的处理

Hadoop的特点

高可靠性:冗余副本机制

高效性:成百上千的机器一起计算,集群处理

可扩展性:可以不断向集群中加入机器

成本低:低端普通pc机

Hadoop的应用

Hadoop版本的变化

Yarn:为上层的计算框架进行底层计算资源的调度功能

NN Federation:NameNode,名称节点做数据目录服务,设置多个名称节点,分区管理

HA:高可用性,对Name Node进行热备份,避免单点失效

2.2Hadoop项目结构

Tez

运行在Yarn之上的下一代Hadoop查询处理框架,对MapReduce上的作业进行分析优化后构建有向无环图,获得最高的工作效率与最优流程(先后顺序,是否重复完成等)。

Spark

类似MapReduce的通用并行框架,基于内存计算,因此效率比MapReduce高出一个数量级。(MapReduce是基于磁盘)

Hive

Hadoop上的数据仓库,存储大量历史数据,用于企业的数据分析。架构于MapReduce之上,因此Hive实际运行时会把SQL语句转换成MapReduce作业去执行。(批量数据处理)

Pig

一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin。(流数据处理,轻量级的脚本语言,和直接使用MapReduce相比大大简化了代码段)。

Oozie

Hadoop上的工作流管理系统。

Zookeeper

提供分布式协调一致性服务,实现分布式锁,集群管理等功能。

HBase

Hadoop上的非关系型的分布式数据库,属于列族数据库,支持随机读写,实时应用。(HDFS是顺序读写)

Flume

日志收集分析框架。一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统。

Sqoop

用于在Hadoop与传统关系型数据库之间进行数据传递。

Ambari

Hadoop快速安装部署工具,支持apache Hadoop集群的供应、管理和监控。

2.3Hadoop集群的部署和使用

HDFS集群硬件配置:

NameNode

总管家角色:管理各种元数据并提供服务, NameNode里面有很多元数据直接保存在内存当中。

DataNode

MapReduce两大核心组件:

JobTracker,TaskTracker

JobTracker相当于大的作业管家。MapReduce的程序开发每次是以一个MapReduce作业的形式去完成具体计算任务。JobTracker将用户的大作业拆分成很多小作业,协调分发到不同机器去执行。在不同的机器上则安装了TaskTracker,每一个TaskTracker负责跟踪和执行被分配给自己所在机器的小作业。

备份SecondaryNameNode

在HDFS上的组件,1.0版本中属于冷备份。在集群较小时可以与NameNode在一起,集群较大时需要单独分配服务器。

部署完成后进行Hadoop集群基准测试

1)Hadoop自带的基准测试程序,被打包在测试程序JAR文件中;

2)用TestDFSIO基准测试,来测试HDFS的IO性能;

3)用排序测试MapReduce:Hadoop自带一个部分排序的程序,整个过程的数据集都会通过洗牌(Shuffle)传输至Reducer,可以充分测试MapReduce的性能。

云环境使用Hadoop

大数据技术原理与应用(第二章 大数据处理架构Hadoop)相关推荐

  1. 大数据技术原理与应用——第一章 大数据概述

    第一章 大数据概述 1.1 大数据时代 1.1.1 第三次信息化浪潮 信息化浪潮 发生时间 标志 解决的问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Intel.AMD.IBM.苹 ...

  2. 大数据技术原理与应用 第一篇 大数据基础

    目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...

  3. 大数据技术原理与应用——第一章

    大数据时代 三次信息化浪潮 信息化浪潮 时间 标志 解决的问题 第一次信息化浪潮 1980 个人计算机 信息处理 第二次信息化浪潮 1995 互联网 信息传输 第三次信息化浪潮 2010 大数据.云计 ...

  4. 大数据技术原理与应用 实验6 Spark数据处理系统的搭建

    目录 一.实验题目 二.实验目的 三.实验平台 四.实验内容和要求 1.Spark RDD部分: 2.Spark SQL部分(分别使用Spark SQL API和Spark DataFrames AP ...

  5. 大数据技术原理与应用课程建设经验分享

    大数据技术原理与应用课程 建设经验分享 林子雨 厦门大学信息科学与技术学院, 福建 厦门 361005   摘要:大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任 ...

  6. 大数据技术原理与应用—课后题答案(第一章)

    大数据技术原理与应用_林子雨版_课后题答案(第一章) 1.试述信息技术发展史上的3次信息化浪潮及具体内容. 信息化浪潮 发生时间 标志  解决问题                           ...

  7. 《大数据技术原理与应用》(第七章 MapReduce 课后答案)

    第七章 MapReduce  参考资料 1.林子雨_大数据技术原理与应用课后习题_NPU_阿夏的博客-CSDN博客 2.林子雨编著<大数据技术原理与应用(第3版)>教材官网_厦门大学数据库 ...

  8. [渝粤教育] 厦门大学 大数据技术原理与应用 参考 资料

    教育 -大数据技术原理与应用-章节资料考试资料-厦门大学[] 第1章 大数据概述 单元测验 1.[单选题]第三次信息化浪潮的标志是: A.个人电脑的普及 B.互联网的普及 C.云计算.大数据.物联网技 ...

  9. 大数据技术原理与应用课后题(林子雨)

    大数据技术原理与应用(林子雨) 第1章 大数据概述 1单选(2分) 第三次信息化浪潮的标志是: A.个人电脑的普及 B.云计算.大数据.物联网技术的普及 C.虚拟现实技术的普及 D.互联网的普及 正确 ...

  10. 大数据技术原理与应用——大数据存储与管理

    大数据技术原理与应用--大数据存储与管理 1.分布式文件系统 (1)计算机集群结构 集群的概念 集群是指将多台服务器整合在一起,每台服务器都实现相同的业务,做相同的事情. 每台服务器并不是缺一不可,它 ...

最新文章

  1. VTK:可视化之Opacity
  2. .NET6之MiniAPI(二十七):Metrics
  3. Entity Data Model (EDM) 深入分析, Part 3
  4. idea的maven project消失解决方案
  5. 广电总局:清理违规短视频账号38.39万个
  6. jvm lock低性能分析
  7. HNU 程序设计课 函数公式题
  8. wincemobile的GPS开发
  9. 计算机打印东西怎么横向打印机,打印机横向打印怎么设置,打印机不能横向打印...
  10. html 列表实现展开和收起,实现列表展开收起效果
  11. 中国1-4线城市互联网价值分布
  12. ul li img标签 图片不显示的问题
  13. php虚拟主机的配置
  14. Opcode指令解析
  15. iphone8验证服务器出错,某平台上买的“全新国行正品iphone8手机,支持官方验证”用了不到两个月坏了...
  16. 高级计算机工程师查询,高级工程师证书查询网站
  17. 独孤思维:赚钱项目的内卷和躺平
  18. 《我的团长我的团》:你要让我来啊,那个犊子不愿意来呀!
  19. php从键盘怎么输入,键盘怎么用?电脑键盘用法图文教程(含指法练习)
  20. 2017年度 个人工作总结

热门文章

  1. element-ui el-input-number 输入框不显示数字,默认清空
  2. 部署k8s 1.18版本及图形管理工具kuboard(十四)
  3. mysql入门教程——基本操作
  4. Android 网络开发抓包工具Fiddler、tcpdump和Wireshark的使用
  5. 智能控制matlab程序,智能算法的Matlab仿真程序及教程
  6. Python的安装与卸载
  7. 在线重装Win11系统详细教程
  8. 阿里云服务器新用户优惠
  9. 机器学习(十一):FP增长(FP-growth)
  10. C++:VS2017基本操作、番茄助手的重构功能以及C++的项目工程基本配置