文章目录

  • Hadoop
    • 1.Hadoop的介绍
    • 2.Hadoop的历史版本和发行版公司
      • 2.1 Hadoop历史版本
      • 2.2 Hadoop三大发行版公司
    • 3.hadoop的架构模型
      • 1.x的版本架构模型介绍
      • 2.x的版本架构模型介绍
        • 第一种:NameNode与ResourceManager单节点架构模型
        • 第二种:NameNode单节点与ResourceManager高可用架构模型
        • 第三种:NameNode与ResourceManager高可用架构模型

Hadoop

1.Hadoop的介绍

  1. Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

  2. 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。

    ——分布式文件系统(GFS),可用于处理海量网页的存储

    ——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。

  3. Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目.

狭义上来说,hadoop就是单独指代hadoop这个软件,

  • HDFS:分布式文件系统
  • MapReduce:分布式计算系统
  • Yarn:分布式样集群资源管理

广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件

[外链图片转存失败(img-OnDf83N4-1566447678040)(assets/1558225014064.png)]

2.Hadoop的历史版本和发行版公司

2.1 Hadoop历史版本

​ 1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等

​ 2.x版本系列:架构产生重大变化,引入了yarn平台等许多新特性

​ 3.x版本系列:加入多namenoode新特性

2.2 Hadoop三大发行版公司

  • 免费开源版本apache:

    http://hadoop.apache.org/

    优点:拥有全世界的开源贡献者,代码更新迭代版本比较快,

    缺点:版本的升级,版本的维护,版本的兼容性,版本的补丁都可能考虑不太周到,

    apache所有软件的下载地址(包括各种历史版本):

    http://archive.apache.org/dist/

  • 免费开源版本hortonWorks:

    https://hortonworks.com/

    hortonworks主要是雅虎主导Hadoop开发的副总裁,带领二十几个核心成员成立Hortonworks,核心产品软件HDP(ambari),HDF免费开源,并且提供一整套的web管理界面,供我们可以通过web界面管理我们的集群状态,web管理界面软件HDF网址(http://ambari.apache.org/)

  • 软件收费版本ClouderaManager:

    https://www.cloudera.com/

    cloudera主要是美国一家大数据公司在apache开源hadoop的版本上,通过自己公司内部的各种补丁,实现版本之间的稳定运行,大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的升级困难,版本兼容性等各种问题

3.hadoop的架构模型

1.x的版本架构模型介绍


文件系统核心模块:

  • NameNode:集群当中的主节点,管理元数据(文件的大小,文件的位置,文件的权限),主要用于管理集群当中的各种数据
  • secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理
  • DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

数据计算核心模块:

  • JobTracker:接收用户的计算请求任务,并分配任务给从节点
  • TaskTracker:负责执行主节点JobTracker分配的任务

2.x的版本架构模型介绍

第一种:NameNode与ResourceManager单节点架构模型


文件系统核心模块:

  • NameNode:集群当中的主节点,主要用于管理集群当中的各种数据

  • secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理

  • DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

数据计算核心模块:

  • ResourceManager:接收用户的计算请求任务,并负责集群的资源分配

  • NodeManager:负责执行主节点APPmaster分配的任务

第二种:NameNode单节点与ResourceManager高可用架构模型

文件系统核心模块:

  • NameNode:集群当中的主节点,主要用于管理集群当中的各种数据

  • secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理

  • DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

数据计算核心模块:

  • ResourceManager:接收用户的计算请求任务,并负责集群的资源分配,以及计算任务的划分,通过zookeeper实现ResourceManager的高可用

  • NodeManager:负责执行主节点ResourceManager分配的任务

第三种:NameNode与ResourceManager高可用架构模型

文件系统核心模块-HDFS:

  • NameNode:集群当中的主节点,主要用于管理集群当中的各种数据,一般都是使用两个,实现HA高可用

  • JournalNode:元数据信息管理进程,一般都是奇数个.同时防止脑裂

  • DataNode:从节点,用于数据的存储

数据计算核心模块-MapReduce:

  • ResourceManager:Yarn平台的主节点,主要用于接收各种任务,通过两个,构建成高可用

  • NodeManager:Yarn平台的从节点,主要用于处理ResourceManager分配的任务

Hadoop的架构模型相关推荐

  1. Hadoop架构模型

    1.Hadoop的模块组成 1.HDFS:一个高可靠.高吞吐量的分布式文件系统. 2.MapReduce:一个分布式的离线并行计算框架. 3.YARN:作业调度与集群资源管理的框架. 4.Common ...

  2. Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

    编者按:HDFS和MapReduce是Hadoop的两大核心,除此之外Hbase.Hive这两个核心工具也随着Hadoop发展变得越来越重要.本文作者张震的博文<Thinking in BigD ...

  3. Spark精华问答 | Spark和Hadoop的架构区别解读

    总的来说,Spark采用更先进的架构,使得灵活性.易用性.性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高.我总结,具体表现在如下几个方面. 1 Q:Spark和 ...

  4. Hadoop MapReduce编程模型

    MapReduce编程模型 目录 MapReduce编程模型 1.MapReduce编程模型简介 2.什么是MapReduce 3.MapReduce的优缺点 4.MapReduce程序设计方法 5. ...

  5. Thinking in BigData(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

          纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解. 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS.MapReduce.Hbase.H ...

  6. Hadoop基本架构

    Hadoop基本架构 什么是Hadoop? Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.有高容错性的特点,并且设计用来部署在低廉 ...

  7. Dubble 01 架构模型start project

    Dubbo 01 架构模型 传统架构 All in One 测试麻烦,微小修改 全都得重新测 单体架构也称之为单体系统或者是单体应用.就是一种把系统中所有的功能.模块耦合在一个应用中的架构方式.其优点 ...

  8. 浅谈Chatbot的架构模型和响应机制

    不知您是否已注意到:人工智能已经不再是少数科技公司的初级原型产品了.在许多服务类行业中,带有人工智能的聊天机器人(Chatbot)正在逐步取代人工客服,提供及时.周到.互动的服务.通过机器学习的相关技 ...

  9. ETSI MEC — 参考架构模型

    目录 文章目录 目录 ETSI MEC 参考架构模型 架构设计原则 分层架构 系统架构 CFS portal UE app User app LCM proxy OSS MEAO MEPM MEP V ...

最新文章

  1. 点云配准的端到端深度神经网络:ICCV2019论文解读
  2. Centos6.0 64位MySQL 5.5.20 CMake 安装部署
  3. 简明天线理论与设计应用_天线理论与设计笔记5--(宽带天线、口径天线)
  4. 题目1470:调整方阵
  5. 动态规划/贪心总结(一)
  6. 剖析数据库中重要而又常被曲解的概念
  7. 点击panel滚动条滚动到底部
  8. 口袋操作系统_全自动阀口袋包装机的发展
  9. STM32H743+Cube-Keil上移植RTX5实时系统
  10. hadoop jar
  11. Nginx的accept_mutex配置
  12. Transformations on DStreams之updateStateByKey 的使用和状态累加
  13. 算法篇---java算法应用
  14. 那些年陪伴我的老师+我期待的师生关系
  15. Python——Pycharm基本设置
  16. 渗透测试思路 - 关于黑灰产的那些事(番外篇)
  17. FCC算法:十三、过滤数组假值--Falsy Bouncer
  18. Halcon深度学习目标检测例程学习经验(1)
  19. 物联网:GPRS和NB-IOT
  20. type Vector takes type parameters

热门文章

  1. android 网易视频无法播放器,没错,这就是目前功能最强第三方播放器
  2. 真正的征途从这里开始~~
  3. linux日志分析步骤,关于linux:graylog日志分析系统上手教程
  4. Android中调用ANE获取设备ID
  5. 饿了么移动App 演进
  6. matlab中的零矩阵创建2021-05-19
  7. BUUCTF——[GXYCTF2019]BabySQli
  8. zblog php 手机模板,Zblog主题模板自适应手机响应式ZblogPHP简洁博客主题
  9. 平稳过程的各态历经性、谱密度及其例题分析
  10. [论文阅读]《how to share a secret》