目录

2.1Hadoop简介

HDFS(分布式文件系统)

MapReduce(分布式并行编程框架)

Hadoop的特点

Hadoop的应用

​编辑Hadoop版本的变化

2.2Hadoop项目结构

Tez

Spark

Hive

Pig

Oozie

Zookeeper

HBase

Flume

Sqoop

Ambari

2.3Hadoop集群的部署和使用

NameNode

DataNode

JobTracker,TaskTracker

备份SecondaryNameNode

部署完成后进行Hadoop集群基准测试

云环境使用Hadoop


2.1Hadoop简介

Hadoop是Apache软件基金会旗下的开源软件——分布式计算平台,由Java语言开发,但支持多种编程语言。

Hadoop两大核心:

HDFS(分布式文件系统)

解决了海量数据的存储,顺序读写

MapReduce(分布式并行编程框架)

解决了海量数据的处理

Hadoop的特点

高可靠性:冗余副本机制

高效性:成百上千的机器一起计算,集群处理

可扩展性:可以不断向集群中加入机器

成本低:低端普通pc机

Hadoop的应用

Hadoop版本的变化

Yarn:为上层的计算框架进行底层计算资源的调度功能

NN Federation:NameNode,名称节点做数据目录服务,设置多个名称节点,分区管理

HA:高可用性,对Name Node进行热备份,避免单点失效

2.2Hadoop项目结构

Tez

运行在Yarn之上的下一代Hadoop查询处理框架,对MapReduce上的作业进行分析优化后构建有向无环图,获得最高的工作效率与最优流程(先后顺序,是否重复完成等)。

Spark

类似MapReduce的通用并行框架,基于内存计算,因此效率比MapReduce高出一个数量级。(MapReduce是基于磁盘)

Hive

Hadoop上的数据仓库,存储大量历史数据,用于企业的数据分析。架构于MapReduce之上,因此Hive实际运行时会把SQL语句转换成MapReduce作业去执行。(批量数据处理)

Pig

一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin。(流数据处理,轻量级的脚本语言,和直接使用MapReduce相比大大简化了代码段)。

Oozie

Hadoop上的工作流管理系统。

Zookeeper

提供分布式协调一致性服务,实现分布式锁,集群管理等功能。

HBase

Hadoop上的非关系型的分布式数据库,属于列族数据库,支持随机读写,实时应用。(HDFS是顺序读写)

Flume

日志收集分析框架。一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统。

Sqoop

用于在Hadoop与传统关系型数据库之间进行数据传递。

Ambari

Hadoop快速安装部署工具,支持apache Hadoop集群的供应、管理和监控。

2.3Hadoop集群的部署和使用

HDFS集群硬件配置:

NameNode

总管家角色:管理各种元数据并提供服务, NameNode里面有很多元数据直接保存在内存当中。

DataNode

MapReduce两大核心组件:

JobTracker,TaskTracker

JobTracker相当于大的作业管家。MapReduce的程序开发每次是以一个MapReduce作业的形式去完成具体计算任务。JobTracker将用户的大作业拆分成很多小作业,协调分发到不同机器去执行。在不同的机器上则安装了TaskTracker,每一个TaskTracker负责跟踪和执行被分配给自己所在机器的小作业。

备份SecondaryNameNode

在HDFS上的组件,1.0版本中属于冷备份。在集群较小时可以与NameNode在一起,集群较大时需要单独分配服务器。

部署完成后进行Hadoop集群基准测试

1)Hadoop自带的基准测试程序,被打包在测试程序JAR文件中;

2)用TestDFSIO基准测试,来测试HDFS的IO性能;

3)用排序测试MapReduce:Hadoop自带一个部分排序的程序,整个过程的数据集都会通过洗牌(Shuffle)传输至Reducer,可以充分测试MapReduce的性能。

云环境使用Hadoop

大数据技术原理与应用(第二章 大数据处理架构Hadoop)相关推荐

  1. 大数据技术原理与应用——第一章 大数据概述

    第一章 大数据概述 1.1 大数据时代 1.1.1 第三次信息化浪潮 信息化浪潮 发生时间 标志 解决的问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Intel.AMD.IBM.苹 ...

  2. 大数据技术原理与应用 第一篇 大数据基础

    目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...

  3. 大数据技术原理与应用——第一章

    大数据时代 三次信息化浪潮 信息化浪潮 时间 标志 解决的问题 第一次信息化浪潮 1980 个人计算机 信息处理 第二次信息化浪潮 1995 互联网 信息传输 第三次信息化浪潮 2010 大数据.云计 ...

  4. 大数据技术原理与应用 实验6 Spark数据处理系统的搭建

    目录 一.实验题目 二.实验目的 三.实验平台 四.实验内容和要求 1.Spark RDD部分: 2.Spark SQL部分(分别使用Spark SQL API和Spark DataFrames AP ...

  5. 大数据技术原理与应用课程建设经验分享

    大数据技术原理与应用课程 建设经验分享 林子雨 厦门大学信息科学与技术学院, 福建 厦门 361005   摘要:大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任 ...

  6. 大数据技术原理与应用—课后题答案(第一章)

    大数据技术原理与应用_林子雨版_课后题答案(第一章) 1.试述信息技术发展史上的3次信息化浪潮及具体内容. 信息化浪潮 发生时间 标志  解决问题                           ...

  7. 《大数据技术原理与应用》(第七章 MapReduce 课后答案)

    第七章 MapReduce  参考资料 1.林子雨_大数据技术原理与应用课后习题_NPU_阿夏的博客-CSDN博客 2.林子雨编著<大数据技术原理与应用(第3版)>教材官网_厦门大学数据库 ...

  8. [渝粤教育] 厦门大学 大数据技术原理与应用 参考 资料

    教育 -大数据技术原理与应用-章节资料考试资料-厦门大学[] 第1章 大数据概述 单元测验 1.[单选题]第三次信息化浪潮的标志是: A.个人电脑的普及 B.互联网的普及 C.云计算.大数据.物联网技 ...

  9. 大数据技术原理与应用课后题(林子雨)

    大数据技术原理与应用(林子雨) 第1章 大数据概述 1单选(2分) 第三次信息化浪潮的标志是: A.个人电脑的普及 B.云计算.大数据.物联网技术的普及 C.虚拟现实技术的普及 D.互联网的普及 正确 ...

  10. 大数据技术原理与应用——大数据存储与管理

    大数据技术原理与应用--大数据存储与管理 1.分布式文件系统 (1)计算机集群结构 集群的概念 集群是指将多台服务器整合在一起,每台服务器都实现相同的业务,做相同的事情. 每台服务器并不是缺一不可,它 ...

最新文章

  1. cmd xcopy进行远程复制
  2. python绘制3维图-Python 绘制 3 维以上的高维图
  3. PHP的max_execution_time
  4. Spring对JNDI的支持方法
  5. Tornado報錯AttributeError: Unrecognized option 'port'
  6. 数据结构---B-(B)、B+的总结
  7. python爬虫学习之页面登陆
  8. 图片操作案例:python 批量更改图像尺寸到统一大小的方法
  9. 不会点SQLite,都不好意思说自己是开发的
  10. RS(Regular Singular)隐写分析及实现
  11. python-socket作业
  12. 漫谈 Clustering (番外篇): Vector Quantization
  13. 详解boost库中的Message Queue
  14. 201671010415+词频统计软件项目报告
  15. 正则表达式数字匹配规则整理
  16. multi-key map passed in for ordered parameter sort
  17. 制作u盘版的kail linux 系统,即插即用,用于破解邻居妹子家的wifi
  18. Cad二次开发小工具
  19. Pnadas学习day-01
  20. 基于FPGA的VGA时序控制器

热门文章

  1. 《金融行业应用解决方案白皮书》发布,金融自主创新未来可期!
  2. C++ 每日一题13:数字金字塔
  3. 做邮件服务系统的一点心得
  4. 中科院高分区盘点:1区新刊,影响因子即将突破7分(含IEEE)
  5. 清理SONY D-NE10 的线控器
  6. exe4j生成的exe文件反编译
  7. 北大ACM暑期培训课程目录
  8. visio第一次作业
  9. opencv入门跟踪算法(3)之camshift
  10. TROPOMI(哨兵5P)数据介绍及下载方法