Hadoop基本架构

什么是Hadoop?

   Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

Hadoop的历史及特点

1.Hadoop的历史

2.Hadoop的特点

扩容能力(Scalable)
能可靠地(reliably)存储和处理千兆字节(PB)数据
成本低(Economical)
可以通过普通机器组成的服务器集群来分发以及处理数据。这些服务器几圈总计可以达到千个节点。
高效率(Efficient)
通过分发数据,hadoop 可以在数据所在的节点上并行的(parallel)处理它们,这使得处理非常快。
可靠性(Reliable)
hadoop 能自动地维护数据的多份副本,并且在任务失败后能自动重新部署(redeploy)计算任务
Hadoop的组成

1.Hadoop的核心组件

分析:Hadoop的核心组件分为:HDFS(分布式文件系统)、MapRuduce(分布式运算编程框架)、YARN(运算资源调度系统)

2.HDFS的文件系统

HDFS

1.定义

整个Hadoop的体系结构主要是通过HDFS(Hadoop分布式文件系统)来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持。
HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
2.组成

HDFS采用主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。NameNode作为主服务器,管理文件系统命名空间和客户端对文件的访问操作。DataNode管理存储的数据。HDFS支持文件形式的数据。
从内部来看,文件被分成若干个数据块,这若干个数据块存放在一组DataNode上。NameNode执行文件系统的命名空间,如打开、关闭、重命名文件或目录等,也负责数据块到具体DataNode的映射。DataNode负责处理文件系统客户端的文件读写,并在NameNode的统一调度下进行数据库的创建、删除和复制工作。NameNode是所有HDFS元数据的管理者,用户数据永远不会经过NameNode。
图解

分析:NameNode是管理者,DataNode是文件存储者、Client是需要获取分布式文件系统的应用程序。

MapReduce

1.定义

Hadoop MapReduce是google MapReduce 克隆版。
MapReduce是一种计算模型,用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。
2.组成

YARN

1)ResourceManager(rm) : 处理客户端请求Request、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度;2)NodeManager(nm): 单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令;3)ApplicationMaster(App Mstr):数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错;4)Container:对任务运行环境的抽象,封装了CPU 、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。

Hadoop基本架构相关推荐

  1. Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

    编者按:HDFS和MapReduce是Hadoop的两大核心,除此之外Hbase.Hive这两个核心工具也随着Hadoop发展变得越来越重要.本文作者张震的博文<Thinking in BigD ...

  2. Spark精华问答 | Spark和Hadoop的架构区别解读

    总的来说,Spark采用更先进的架构,使得灵活性.易用性.性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高.我总结,具体表现在如下几个方面. 1 Q:Spark和 ...

  3. R语言和Hadoop系统架构在大数据分析中的应用

    也许正在喝着咖啡的你,看着阳光从玻璃窗蹦进来,回忆近日的美好,惬意的享受这个"温暖"的暑假.而SupStat已经为你准备了一份暑期数据盛宴. R是什么?               ...

  4. Thinking in BigData(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

          纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解. 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS.MapReduce.Hbase.H ...

  5. Hadoop的架构模型

    文章目录 Hadoop 1.Hadoop的介绍 2.Hadoop的历史版本和发行版公司 2.1 Hadoop历史版本 2.2 Hadoop三大发行版公司 3.hadoop的架构模型 1.x的版本架构模 ...

  6. Hadoop系统架构

    一.Hadoop系统架构图 Hadoop1.0与hadoop2.0架构对比图 YARN架构: ResourceManager –处理客户端请求 –启动/监控ApplicationMaster –监控N ...

  7. hadoop lambda_Delta架构:统一Lambda架构并利用Hadoop / REST中的Storm

    hadoop lambda 最近,一群人要求我详细介绍我为我们的书<分布式实时计算的风暴蓝图>撰写的Druid / Storm集成. 德鲁伊很棒. 风暴很棒. 两者一起解决了实时维查询/聚 ...

  8. Hadoop核心架构(1)

    在大数据的发展过程中,出现了一批专门应用与大数据的处理分析工具,如Hadoop,Hbase,Hive,Spark等,我们先从最基础的Hadoop开始进行介绍 Hadoop是apache基金会下所开发的 ...

  9. Hadoop YARN架构设计要点

    YARN是开源项目Hadoop的一个资源管理系统,最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题,但是现在它已经是一个更加通用的资源管理系统,可以把MapReduce计算框 ...

最新文章

  1. ltrim($str);
  2. nrf52832 之 gpio配置方法
  3. IIS6.0,Apache低版本,PHP CGI 解析漏洞
  4. 【渝粤教育】国家开放大学2018年春季 0676-22T物流成本管理 参考试题
  5. 腾讯云2019年全年营收超170亿元,腾讯健康码累计访问量达80亿次
  6. python的全局变量 local variable ‘xxx‘ referenced before assignment
  7. 几种经典的hash算法
  8. 台式计算机颜色如何矫正,台式机怎么颜色校正操作教程
  9. 算法 | golang 实现 key有序map
  10. 怎么建立局域网_用ZeroTier搭建属于自己的虚拟局域网(VLAN)
  11. 用计算机怎么计算税率表,个税计算器2016年税率表公式
  12. Linear-gradient()
  13. 【转载】MiniGUI输入法词库更新
  14. 8.绘制统计图形——直方图
  15. 菱形是一种特殊的平行四边形,是四条边均相等的平行四边形。题目给出菱形的边长n,用*画出菱形。如n=1,输出:
  16. PHP--extract 从数组中将变量导入到当前的符号表
  17. 哈哈...汗汗...
  18. 三足鼎立写博赚钱之道--献给2010年初互联网扫黄运动被错杀的兄弟
  19. 记一次失败的实战渗透
  20. 2019-2020 10th BSUIR Open Programming Championship. Semifinal 补题

热门文章

  1. Android问题11: ListView 单行记录刷新
  2. 反复拨打电话,电话测试小程序,紧急电话与普通电话分枝判断
  3. UC浏览器QQ浏览器欧朋浏览器使用体会
  4. 数据结构(顺序结构、链式结构、索引结构、散列结构)
  5. 初识java--1.1 java历史
  6. IP协议(IP地址的数量限制 | NAT机制)
  7. 喜讯 | 标贝科技入选腾讯AI加速器三期,加速AI语音场景落地产业
  8. RPG游戏高性能特效是怎么练成的?文末送福利
  9. 5978 Problem F 【递归入门】走迷宫
  10. linux桌面的文件夹,桌面应用|在 Ubuntu 桌面中使用文件和文件夹