hadoop环境搭建视频:https://www.cniao5.com/course/lessons/10244

1.1Hadoop简介

1.1.1Hadoop的诞生
Hadoop是由Apache Lucene创始人Doug Cutting创建的。它起源于开源搜索引擎Apache Nutch。Nutch项目开始于2002年,是一个可以运行的网页爬取工具和搜索引擎系统,但是这个系统无法解决数十亿的搜索问题。

三篇划时代论文的诞生对Hadoop的诞生起到了决定性作用。

第一篇论文:GFS
2003年谷歌发表了 “The Google File System(谷歌文件系统,简称GFS)”的论文,GFS的架构能够满足在网页爬取和索引过程中产生的超大文件的存储需求。于是,在2004年Nutch团队开始做GFS的开源版本实现,也就是Nutch分布式文件系统(NDFS)。

第二篇论文:MapReduce
2004年谷歌发表了“MapReduce:Simplified Data Processing on Large Cluster(大型集群的数据简化处理)”的论文。2005年,Nutch团队在Nutch上实现了MapReduce。

2006年2月,Nutch开发人员将NDFS和MapReduce移除Nutch形成一个独立的项目,命名为Hadoop。这个名字不是缩写,是生造出来的。

第三篇:BigTable
2006年谷歌发表了“BigTable:A Distributed Storage System for Structured Data(一个结构化数据的分布式存储系统)”的论文。Powerset公司根据BigTable的思想,发起了HBase,即Hadoop Database。

1.1.2Hadoop重要里程碑
2008年1月,Hadoop成为Apache的顶级项目。背后主要的公司为雅虎,主要用Hadoop来支撑雅虎的搜索引擎系统。

2013年 Hadoop 2.0发布
2017年 Hadoop 3.0 发布

1.1.3Hadoop主要发行版本
Apache Hadoop原始版本
Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”)
Hortonworks版本(Hortonworks Data Platform,简称“HDP”)
MapR
此外,还有一些其他的发行版,如华为、Intel等。

1.2Hadoop生态系统

Hadoop从最开始的HDFS和MapReduce发展至今,已经形成一个庞大的生态系统。主要包括:
HDFS:分布式文件系统
YARN:资源管理与调度系统
MapReduce:分布式处理框架
Pig、Hive:类SQL的数据查询
Mahout、Spark MLib:机器学习库
HBase:分布式列数据库
Zookeeper:集群管理
Oozie:任务调度
Flume、Sqoop:数据导入导出
Solr&Lucene:搜索与索引
Ambari:集群监控与维护


参考:
[1] https://www.edureka.co/blog/hadoop-ecosystem

[2] https://data-flair.training/blogs/hadoop-ecosystem-components/

1.3Hadoop主要模块

1.3.1 Hadoop Common
为其他Hadoop模块提供基础支持,可以看做是一个公共库。

1.3.2HDFS
高吞吐量、高可用的分布式文件系统。

图片来源:http://hadoop.apache.org/docs/r2.7.7/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
HDSF集群有两类节点,以管理节点(NameNode)-工作节点(DataNode)模式运行。

1.3.2.1 NameNode
管理文件系统的命名空间,维护着文件系统树上及整棵树内所有的文件和目录。

1.3.2.2DataNode
文件系统的工作节点,负责存储和检索数据,并将存储的块的列表定期发送给NameNode管理节点。

1.3.2.3 ondaryNameNode
也叫辅助NameNode,主要作用就是定期合并编辑日志与命名空间镜像,以防止编辑日志过大。

1.3.2.4 YARN
集群资源管理与任务调度框架

图片来源:http://hadoop.apache.org/docs/r2.7.6/hadoop-yarn/hadoop-yarn-site/YARN.html

YARN也包含两个核心服务:资源管理器(ResourceManager)和节点管理器(NodeManager)。

1.3.3.1 ResourceManager
管理集群上资源的使用

1.3.3.2 NodeManager
运行在集群中所有节点上并启动和监控容器。

1.3.4 MapReduce
大数据并行处理框架

1.4 虚拟机环境准备

1.4.1 基础软件准备
基础软件主要包括:

链接:https://pan.baidu.com/s/1qQxIoR985XxKIj8zzIFH7g 提取码:wayj

1.4.2 操作系统安装
参见Linux基础视频课程:https://www.cniao5.com/course/10244

1.5 Hadoop环境搭建

[1] http://dicoding.site/archives/388 伪分布式安装

[2] http://dicoding.site/archives/209 分布式安装

1.5.1 Hadoop安装包
这里采用Hadoop2.7.7 版本,可以在官网http://mirrors.shu.edu.cn/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz 或者我的百度网盘:https://pan.baidu.com/s/1qQxIoR985XxKIj8zzIFH7g 提取码:wayj

1.5.2 核心配置文件
Hadoop主要有四个核心配置文件,如下:

n core-site.xml:配置通用属性

n hdfs-site.xml:配置HDFS的属性

n mapred-site.xml:配置MapReduce的属性

n yarn-site.xml:配置YARN的属性

hadoop环境搭建视频:https://www.cniao5.com/course/lessons/10244



学习交流可勾搭weixin:BT474849 ,加入大数据学习交流内部社群~

【菜鸟窝】Hadoop生态系统、Hadoop虚拟机环境准备、Hadoop环境搭建(含安装包和教程)相关推荐

  1. Hadoop生态系统框架详解(一):Hadoop框架

    Hadoop框架 简述:Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 主要解决海量数据的存储和海量数据的分析计算问题. 广义上来说,HADOOP通常是指一个更广泛的概念--HAD ...

  2. Hadoop学习笔记(一)从官网下载安装包

    Hadoop是一个分布式系统基础架构,由Apache基金会所开发.用户能够在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行快速运算和存储.要学习Hadoop从下载安装包開始 打开 ...

  3. Hadoop发行版 Cloudera CDH 6.3.2及CM 安装包下载(阿里云盘 不限速)

    CDH(全称Cloudera's Distribution, including Apache Hadoop)是由Cloudera公司构建的Hadoop稳定发行版,不仅含有Apache Hadoop, ...

  4. Linux常用环境软件安装(提供对应安装包)

    文章目录 0.关闭防火墙 1.gitlab安装 2.JDK安装 3.Maven安装 4.nexus安装 5.MySQL源码安装 6.sonarqube安装 7.Tomcat安装 8.Jenkins安装 ...

  5. 星外php mysql_PHP环境自动安装|星外PHP一键安装包下载 v5.0 For IIS_最火软件站

    星外PHP自动安装程序v5.0,推荐使用独立服务器的站长使用,自动化安装,卸载更容易.另外对PHP环境配置不太熟悉的朋友,也可以使用,必竟安装完成就可以拥有PHP环境了. 软件介绍 星外php下载(p ...

  6. 离线安装nginx(包括离线安装gcc-g++环境,免费下载gcc离线安装包)

    离线安装nginx(包括离线安装gcc-g++环境) 有些时候我们的linux服务器无法连接公网的情况下就需要离线安装应用 检查电脑是否有gcc和gcc-c++环境 gcc -v g++ -v # 如 ...

  7. Keil开发环境的搭建送安装包

    文章目录 交叉编译简介 编译工具链MDK 安装MDK 安装软件keil 激活keil 安装固件库 交叉编译简介 在开发ARM应用程序时,产生的目标代码是要运行在ARM指令架构的CPU/MCU 上的,但 ...

  8. 【Unity】安卓打包环境搭建-通过安装包离线搭建

    安装JDK配置环境变量 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html unity需要jdk-8u241 ...

  9. newifi mini固件_如何在vmware虚拟机中安装OpenWrt系统,含x86固件编译教程

    "OpenWrt项目是针对嵌入式设备的Linux操作系统", 这是官方给出的定义.OpenWrt确实是一个非常好的嵌入式学习系统,目前市面上上千款设备支持运行OpenWrt,如小米 ...

最新文章

  1. Logminer实战
  2. 特斯拉提升安全监控等级,推出“哨兵模式”
  3. C++Primer 中文版第5版 习题3.26
  4. Python基础篇【第6篇】: Python模块subprocess
  5. spring和redis的整合-超越昨天的自己系列(7)
  6. 中小企业 DevOps 从 0 到 1
  7. Android开发笔记(三十四)Excel文件的读写
  8. linux中使用u盘和光驱的命令_linux命令详解之挂载光驱的方法
  9. c# 使用winform内嵌浏览器
  10. 我的MIT代数拓扑笔记
  11. sublime text3格式化代码快捷键
  12. 在线生成透明ICO图标神器
  13. 【Unity】U3D ARPG游戏制作实例(一)EasyTouch5完整示例
  14. android 9 vxp 闪退,XPrivacyLua限制了权限的应用无法打开
  15. 为什么蓝牙小音箱会经常断开连接?
  16. 大数据Spark(三十九):SparkStreaming实战案例四 窗口函数
  17. 09 关于 lzf 压缩
  18. 爬虫实战——爬取杭电就业信息网招聘信息
  19. 智能尘埃及Dust Networks介绍
  20. python画行向日葵,基于matplotlib的向日葵散点图

热门文章

  1. 卷积神经网络常用模型,卷积神经网络数学建模
  2. 深入了解W3C标准及规范
  3. DeepMind新AI可生成逼真视频
  4. pap认证失败_pap chap认证配置
  5. 【深一点学习】BP网络,结合数学推导的代码实现
  6. 邻接表-建立无向图、无向网、有向图、有向网
  7. 信数金服决策引擎分享(二):灰度发布-冠军/挑战者试验的另一个应用
  8. 全国信息化和软件服务业工作座谈会召开
  9. gifcam使用缩小内存_GifCam怎么用?GifCam使用教程
  10. dbms_lob 方法总结