目录

2.1Hadoop简介

HDFS(分布式文件系统)

MapReduce(分布式并行编程框架)

Hadoop的特点

Hadoop的应用

​编辑Hadoop版本的变化

2.2Hadoop项目结构

Tez

Spark

Hive

Pig

Oozie

Zookeeper

HBase

Flume

Sqoop

Ambari

2.3Hadoop集群的部署和使用

NameNode

DataNode

JobTracker,TaskTracker

备份SecondaryNameNode

部署完成后进行Hadoop集群基准测试

云环境使用Hadoop


2.1Hadoop简介

Hadoop是Apache软件基金会旗下的开源软件——分布式计算平台,由Java语言开发,但支持多种编程语言。

Hadoop两大核心:

HDFS(分布式文件系统)

解决了海量数据的存储,顺序读写

MapReduce(分布式并行编程框架)

解决了海量数据的处理

Hadoop的特点

高可靠性:冗余副本机制

高效性:成百上千的机器一起计算,集群处理

可扩展性:可以不断向集群中加入机器

成本低:低端普通pc机

Hadoop的应用

Hadoop版本的变化

Yarn:为上层的计算框架进行底层计算资源的调度功能

NN Federation:NameNode,名称节点做数据目录服务,设置多个名称节点,分区管理

HA:高可用性,对Name Node进行热备份,避免单点失效

2.2Hadoop项目结构

Tez

运行在Yarn之上的下一代Hadoop查询处理框架,对MapReduce上的作业进行分析优化后构建有向无环图,获得最高的工作效率与最优流程(先后顺序,是否重复完成等)。

Spark

类似MapReduce的通用并行框架,基于内存计算,因此效率比MapReduce高出一个数量级。(MapReduce是基于磁盘)

Hive

Hadoop上的数据仓库,存储大量历史数据,用于企业的数据分析。架构于MapReduce之上,因此Hive实际运行时会把SQL语句转换成MapReduce作业去执行。(批量数据处理)

Pig

一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin。(流数据处理,轻量级的脚本语言,和直接使用MapReduce相比大大简化了代码段)。

Oozie

Hadoop上的工作流管理系统。

Zookeeper

提供分布式协调一致性服务,实现分布式锁,集群管理等功能。

HBase

Hadoop上的非关系型的分布式数据库,属于列族数据库,支持随机读写,实时应用。(HDFS是顺序读写)

Flume

日志收集分析框架。一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统。

Sqoop

用于在Hadoop与传统关系型数据库之间进行数据传递。

Ambari

Hadoop快速安装部署工具,支持apache Hadoop集群的供应、管理和监控。

2.3Hadoop集群的部署和使用

HDFS集群硬件配置:

NameNode

总管家角色:管理各种元数据并提供服务, NameNode里面有很多元数据直接保存在内存当中。

DataNode

MapReduce两大核心组件:

JobTracker,TaskTracker

JobTracker相当于大的作业管家。MapReduce的程序开发每次是以一个MapReduce作业的形式去完成具体计算任务。JobTracker将用户的大作业拆分成很多小作业,协调分发到不同机器去执行。在不同的机器上则安装了TaskTracker,每一个TaskTracker负责跟踪和执行被分配给自己所在机器的小作业。

备份SecondaryNameNode

在HDFS上的组件,1.0版本中属于冷备份。在集群较小时可以与NameNode在一起,集群较大时需要单独分配服务器。

部署完成后进行Hadoop集群基准测试

1)Hadoop自带的基准测试程序,被打包在测试程序JAR文件中;

2)用TestDFSIO基准测试,来测试HDFS的IO性能;

3)用排序测试MapReduce:Hadoop自带一个部分排序的程序,整个过程的数据集都会通过洗牌(Shuffle)传输至Reducer,可以充分测试MapReduce的性能。

云环境使用Hadoop

大数据技术原理与应用(第二章 大数据处理架构Hadoop)相关推荐

  1. 大数据技术原理与应用——第一章 大数据概述

    第一章 大数据概述 1.1 大数据时代 1.1.1 第三次信息化浪潮 信息化浪潮 发生时间 标志 解决的问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Intel.AMD.IBM.苹 ...

  2. 大数据技术原理与应用 第一篇 大数据基础

    目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...

  3. 大数据技术原理与应用——第一章

    大数据时代 三次信息化浪潮 信息化浪潮 时间 标志 解决的问题 第一次信息化浪潮 1980 个人计算机 信息处理 第二次信息化浪潮 1995 互联网 信息传输 第三次信息化浪潮 2010 大数据.云计 ...

  4. 大数据技术原理与应用 实验6 Spark数据处理系统的搭建

    目录 一.实验题目 二.实验目的 三.实验平台 四.实验内容和要求 1.Spark RDD部分: 2.Spark SQL部分(分别使用Spark SQL API和Spark DataFrames AP ...

  5. 大数据技术原理与应用课程建设经验分享

    大数据技术原理与应用课程 建设经验分享 林子雨 厦门大学信息科学与技术学院, 福建 厦门 361005   摘要:大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任 ...

  6. 大数据技术原理与应用—课后题答案(第一章)

    大数据技术原理与应用_林子雨版_课后题答案(第一章) 1.试述信息技术发展史上的3次信息化浪潮及具体内容. 信息化浪潮 发生时间 标志  解决问题                           ...

  7. 《大数据技术原理与应用》(第七章 MapReduce 课后答案)

    第七章 MapReduce  参考资料 1.林子雨_大数据技术原理与应用课后习题_NPU_阿夏的博客-CSDN博客 2.林子雨编著<大数据技术原理与应用(第3版)>教材官网_厦门大学数据库 ...

  8. [渝粤教育] 厦门大学 大数据技术原理与应用 参考 资料

    教育 -大数据技术原理与应用-章节资料考试资料-厦门大学[] 第1章 大数据概述 单元测验 1.[单选题]第三次信息化浪潮的标志是: A.个人电脑的普及 B.互联网的普及 C.云计算.大数据.物联网技 ...

  9. 大数据技术原理与应用课后题(林子雨)

    大数据技术原理与应用(林子雨) 第1章 大数据概述 1单选(2分) 第三次信息化浪潮的标志是: A.个人电脑的普及 B.云计算.大数据.物联网技术的普及 C.虚拟现实技术的普及 D.互联网的普及 正确 ...

  10. 大数据技术原理与应用——大数据存储与管理

    大数据技术原理与应用--大数据存储与管理 1.分布式文件系统 (1)计算机集群结构 集群的概念 集群是指将多台服务器整合在一起,每台服务器都实现相同的业务,做相同的事情. 每台服务器并不是缺一不可,它 ...

最新文章

  1. visual studio 代码提示插件_程序员请收好:10个非常实用的 VS Code 插件
  2. 猿辅导、作业帮忙“圈钱”,跟谁学、有道、51Talk狂“烧钱”,在线教育钱途在哪?
  3. 买游戏来运营_「笔吧评测室」双十一快来了,买游戏本要做好心理准备
  4. MATLAB AppDesigner 设计UI界面中调用自定义函数
  5. orion sam mysql_JAVA/JSP学习系列之四(Orion App Server的安装)_MySQL
  6. C#winform可视化(当主窗体不能拖动时)
  7. Windows10临时关闭数字签名认证
  8. 螺钉 螺母 硬币三种物体的识别
  9. 计算机的照相机功能,单反相机各个功能按键的作用,让你彻底熟悉相机-fn键设置...
  10. [学习笔记]opencv双线性插值法图像放大
  11. [BZOJ5109]大吉大利,晚上吃鸡!
  12. python在单词表中查找包含所有元音字母aeiou的单词并打印
  13. 6.JUC-共享模型之工具
  14. 计算机登陆后如何防止自动注销,在win7系统中经常自动注销的解决方法介绍
  15. MacOS Monterey 12.2.1 (21D62) OC 0.7.8 / Cl 5144 / PE 三分区原版黑苹果镜像
  16. 单芯片快速以太网MAC控制器DM9000介绍
  17. 爱贝云计费服务端接入
  18. 在Windows 7下安装U871或U872,在检测组件窗口时,出现MDAC组没有安装的提示的解决办法...
  19. 写代码好用的截图工具 Snipaste
  20. 暨南大学计算机专硕考英语一,19级暨南大学计算机考研经验分享贴(非常详细)...

热门文章

  1. iPhone4s降级过程
  2. Linux 脚本后台执行
  3. Eclipse安装SVN插件及使用详细步骤
  4. ansible字符串的处理
  5. 量化投资基础学习(1)————常用库 numpy 函数 (2022.7.11)
  6. 计算机组成与设计答案
  7. 万能Ghost系统制作教程
  8. windos10本地安装git工具并使用
  9. 图书管理开题报告php,基于PHP+SqlServer的图书管理系统,毕业论文设计,答辩ppt,开题报告,外文翻译,苹果,硕士研究生,iphone...
  10. B2型水面线计算(含python代码)