什么是Hadoop?

  Apache Hadoop是一个开放源代码软件框架,用于开发在分布式计算环境中执行的数据处理应用程序。

  使用HADOOP构建的应用程序可在分布在商用计算机群集上的大型数据集上运行。商品计算机便宜且可广泛获得。这些主要用于以低成本实现更大的计算能力。
  与驻留在个人计算机系统的本地文件系统中的数据类似,在Hadoop中,数据驻留在称为 Hadoop分布式文件系统的分布式文件系统中。处理模型基于 “数据局部性” 概念,其中计算逻辑被发送到包含数据的群集节点(服务器)。这种计算逻辑无非是用高级语言(例如Java)编写的程序的编译版本。这样的程序可以处理存储在Hadoop HDFS中的数据。

  你知道吗?计算机集群由一组相互连接并充当单个系统的多个处理单元(存储磁盘+处理器)组成。

  在本教程中,您将学习

  一、Hadoop生态系统和组件

  二、Hadoop架构

  三、Hadoop的功能

  四、Hadoop中的网络拓扑

一、Hadoop生态系统和组件

  下图显示了Hadoop生态系统中的各个组件-

Apache Hadoop由两个子项目组成–

  Hadoop MapReduce: MapReduce是用于编写在Hadoop上运行的应用程序的计算模型和软件框架。这些MapReduce程序能够在大型计算节点群集上并行处理大量数据。

  HDFS (Hadoop分布式文件系统):HDFS负责Hadoop应用程序的存储部分。MapReduce应用程序使用HDFS中的数据。HDFS创建数据块的多个副本,并将它们分布在群集中的计算节点上。这种分布实现了可靠且快速的计算。

  尽管Hadoop以MapReduce及其分布式文件系统HDFS而闻名,但该术语还用于一系列相关项目,这些项目属于分布式计算和大规模数据处理的范畴。Apache的其他与Hadoop相关的项目包括 Hive,HBase,Mahout,Sqoop,Flume和ZooKeeper。

二、Hadoop架构

高级Hadoop架构

  Hadoop具有使用MapReduce和HDFS方法进行数据存储和分布式数据处理的主从结构。

  NameNode:

  NameNode表示名称空间中使用的每个文件和目录

  数据节点:

  DataNode可帮助您管理HDFS节点的状态,并允许您与块进行交互

  主节点:

  主节点允许您使用Hadoop MapReduce进行数据并行处理。

  从节点:

  从节点是Hadoop集群中的其他计算机,可让您存储数据以进行复杂的计算。此外,所有从属节点都随附有Task Tracker和一个DataNode。这使您可以分别与NameNode和Job Tracker同步进程。

  在Hadoop中,可以在云或本地中设置主系统或从系统

三、Hadoop的功能

  •适用于大数据分析

  由于大数据实际上倾向于分布和非结构化,因此HADOOP群集最适合分析大数据。由于流向计算节点的是处理逻辑(不是实际数据),因此消耗的网络带宽更少。该概念称为 数据局部性概念 ,它有助于提高基于Hadoop的应用程序的效率。

  •可扩展性

  通过添加其他群集节点,可以轻松地将HADOOP群集扩展到任何程度,从而实现大数据的增长。同样,扩展不需要修改应用程序逻辑。

  容错

  HADOOP生态系统提供了将输入数据复制到其他群集节点的规定。这样,在群集节点发生故障的情况下,仍然可以通过使用存储在另一个群集节点上的数据来进行数据处理。

四、Hadoop中的网络拓扑

  当Hadoop群集的大小增长时,网络的拓扑(安排)会影响Hadoop群集的性能。除了性能之外,还需要关注高可用性和故障处理。为了实现此Hadoop,集群形成利用了网络拓扑。

  通常,网络带宽是组成任何网络时要考虑的重要因素。但是,由于测量带宽可能很困难,因此在Hadoop中,网络被表示为一棵树,并且该树的节点之间的距离(跳数)被视为Hadoop集群形成的重要因素。在此,两个节点之间的距离等于它们到其最接近的共同祖先的距离之和。

Hadoop在大数据分析中的意义和作用​www.aaa-cg.com.cn

  Hadoop集群由一个数据中心,机架和实际执行作业的节点组成。在这里,数据中心由机架组成,而机架由节点组成。进程可用的网络带宽取决于进程的位置。也就是说,随着我们远离-

  1、在同一节点上处理;

  2、同一机架上的不同节点;

  3、同一数据中心不同机架上的节点;

  4、不同数据中心中的节点。
相关推荐

IT互联网职业培训:文科生学大数据分析吃力吗​zhuanlan.zhihu.com

IT互联网职业培训:大数据分析Python生成气候温度螺旋模型​zhuanlan.zhihu.com

IT互联网职业培训:大数据分析Python正则表达式有哪些​zhuanlan.zhihu.com

试述hadoop生态系统以及每个部分的具体功能_Hadoop在大数据分析中的意义和作用...相关推荐

  1. R语言和Hadoop系统架构在大数据分析中的应用

    也许正在喝着咖啡的你,看着阳光从玻璃窗蹦进来,回忆近日的美好,惬意的享受这个"温暖"的暑假.而SupStat已经为你准备了一份暑期数据盛宴. R是什么?               ...

  2. Hadoop生态系统详解

    4.1 Hadoop生态系统 狭义的Hadoop VS 广义的Hadoop 广义的Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,hadoop是其中最重要最基础的一个 ...

  3. Hadoop 生态系统

    当下 Hadoop 已经成长为一个庞大的生态体系,只要和海量数据相关的领域,都有 Hadoop 的身影.下图是一个 Hadoop 生态系统的图谱,详细列举了在 Hadoop 这个生态系统中出现的各种数 ...

  4. 计算机美术与设计方案,试述电脑美术及其在现代设计教学与创作中的作用2200字...

    试述电脑 当前,电脑不断地融入人们的生活,电脑的普及和广泛应用开始发展迅猛.无论是在教学中还是在生活中都会出现开始运用技术来提高美术创作的精准度,这也是提高了整个美术设计作品的质量. 1 电脑美术设计 ...

  5. GitChat · 大数据 | 一步一步学习大数据:Hadoop 生态系统与场景

    目录(?)[-] Hadoop概要 Hadoop相关组件介绍 HDFS Yarn Hive HBase Spark Other Tools Hadoop集群硬件和拓扑规划 硬件配置 软件配置 Hado ...

  6. Hadoop概念学习系列之Hadoop 生态系统

    当下 Hadoop 已经成长为一个庞大的生态体系,只要和海量数据相关的领域,都有 Hadoop 的身影.下图是一个 Hadoop 生态系统的图谱,详细列举了在 Hadoop 这个生态系统中出现的各种数 ...

  7. 手把手教你搭建Hadoop生态系统伪分布式集群

    Hello,我是 Alex 007,一个热爱计算机编程和硬件设计的小白,为啥是007呢?因为叫 Alex 的人太多了,再加上每天007的生活,Alex 007就诞生了. 手把手教你搭建Hadoop生态 ...

  8. Hadoop生态系统的详细介绍

    hadoop生态系统的详细介绍 简介 Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.今 ...

  9. Hadoop生态系统学习路线

    主要介绍Hadoop家族产品,经常使用的项目包含Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa.新添加 ...

最新文章

  1. javabean属性的类型选择包装类还是基本数据类型
  2. 再说spring比较重,臃肿的看此文!!!!!
  3. 记录一下增加标定评价标准的过程
  4. adobe photoshop cc 复制css链接
  5. 计算机应用属不属于科技股,哪些股票属于科技股
  6. 大型项目使用Automake/Autoconf完成编译配置
  7. php整站防注入程序,php通用防注入程序 推荐
  8. MySQL 数据备份与还原
  9. androidstudio 日历视图怎么显示农历_ipad自带的日历程序
  10. android标题栏不被顶上去,Android仿微信QQ聊天顶起输入法不顶起标题栏的问题
  11. 如何让计算机自动锁屏,怎样设置电脑自动锁屏
  12. Apq.Threading.js
  13. BZOJ1022 [SHOI2008]小约翰的游戏John
  14. 安卓内存监控工具,2021年Android面试心得,系列教学
  15. 微信jssdk已无力吐槽
  16. 关于机器人状态估计(10)-VSLAM与VIO的3D建图,重定位与世界观综述
  17. 读书百客:《浣溪沙·谁念西风独自凉》赏析
  18. 在游戏策划中应用SCAMPER创新
  19. div浮动到另一个div上面或者浮动到img图片上面
  20. android编辑框最大字数,(转)Android中EditText的输入字数限制

热门文章

  1. 一招教你玩转SQL:通过找出数据的共同属性实现SQL需求
  2. 用了这个评估优化LiteOS镜像利器,我有点飘...
  3. 看这里!带你快速体验MindSpore V1.0(For ubuntu 18.04)
  4. 云图说 | 通过Helm模板快速部署中间件应用
  5. 鲲鹏性能优化十板斧——鲲鹏处理器NUMA简介与性能调优五步法
  6. html 修改按回退键的url,location.hash保存页面状态的技巧
  7. 远程Service(AIDL)的简单使用
  8. dynamicparams java_spring-dynamic-params
  9. 数据库MySQL安装
  10. WORD如何插入域编号?