Hadoop生态系统

相关视频内容可在b站观看https://m.bilibili.com/video/BV1bZ4y1F7w5?p=1&share_medium=android&share_plat=android&share_source=COPY&share_tag=s_i&timestamp=1619318095&unique_k=ddvpDF&share_times=2&

hadoop简介

说到hadoop不得不提起一个人——Doug Cutting ,他是hadoop之父、Apache Lucene项目的创始人。

Hadoop是Apache旗下的开源的分布式计算平台,它可以运行在计算机集群之上,提供可靠的、可扩展的分布式计算功能。Hadoop的核心是分布式文件系统(HDFS)和并行编程框架MapReduce。

Hadoop与三遍论文密不可分:
① 2003年,谷歌发布的分布式文件系统GFS的论文,可以用于解决海量数据存储的问题。
② 2004年,谷歌发布了MapReduce的论文,可以用于解决海量数据计算的问题。
③ 2006年,谷歌发布了BigTable的论文,它是以GFS为底层数据存储的分布式存储系统。
GFS、MapReduce、BigTable就是我们经常说的“三辆马车”。

Hadoop中的HDFS是GFS的开源实现;MapReduce是谷歌MapReduce的开源实现,Hbase是谷歌BigTable的开源实现。

Hadoop的特点

① 跨平台性:hadoop是基于java语言开发的,有很好的跨平台性,可以运行在Linux平台上;
② 高可靠性:hadoop中的HDFS是分布式文件系统,可以将海量数据分布冗余存储在不同的机器节点上,即使是某个机器副本上发生故障,其他的机器副本也能正常运行;
③ 高容错性:HDFS把把文件分布存储在很多不同的机器节点上,能实现自动保存多个副本,因此某个节点上的任务失败后也能实现自动重新分配;
④ 高效性:hadoop的核心组件HDFS和MapReduce,一个负责分布式存储一个负责分布式处理,能够处理PB级别的数据;
⑤ 低成本与高扩展:hadoop在廉价的计算机集群上就可以运行,因此成本比较低,并且可以扩展到几千个计算机节点上,完成海量数据的存储和计算。

Hadoop1.0和2.0的区别

①Hadoop1.0的组成包含:hdfs、MapReduce和其他组件。
Hdfs负责数据存储,MapReduce负责数据计算以及资源调度(在进行数据处理的时候是要进行资源分配的,比如用多少CPU、内存、磁盘等等)
②Hadoop2.0的组成包含:hdfs、MapReduce、yarn和其他组件。
Hdfs负责数据存储,MapReduce负责数据计算,yarn负责资源调度

Hadoop生态系统的组成

Hadoop除了有两大核心组件HDFS 和MapReduce之外,还包括yarn、hbase、hive、pig、mahout、zookeeper、sqoop、flume、Apache Ambari等功能组件。

① HDFS:hadoop分布式文件系统,可以运行在大型的廉价计算机集群上,并以流的方式读取和处理海量文件。HDFS要掌握的概念有NameNode、DataNode和Secondary Namenode,后面会有专门章节为大家讲解。
② Yarn:资源调度和管理框架,其中包含ResourceManager、ApplicationMaster和NodeManager。ResourceManager负责资源管理,ApplicationMaster负责任务调度和监控,NodeManager 负责执行任务。
③ MapReduce:分布式并行编程框架,核心思想是“分而治之”。MapReduce=Map+Reduce。Map函数负责分片的工作,reduce函数负责整合归约。
④ HBase:是谷歌bigtable的开源实现。它区别于传统关系数据库的一点是:基于列式存储。传统数据库是基于行的存储,而HBase是基于列的存储,具有高效可靠的处理非结构化数据的能力。
⑤ Hive:是基于hadoop的数据仓库工具,能对数据集进行简单处理,它拥有类似SQL语言的查询语言hive-sql。
⑥ Pig:是一种数据流语言,提供了类似sql的语言pig latin,可以用来查询半结构化数据集。
⑦ Mahout:是Apache的一个开源项目,提供一些分类、聚类、过滤等等机器学习领域经典算法。
⑧ Zookeeper:是个高效的可靠的分布式协同工作系统
⑨ Sqoop:sql-to-hadoop的缩写,意思就是在关系数据库与hadoop之间做数据交换。
⑩ Flume:海量日志收集、聚合、传输系统。它也能对数据进行简单的处理。
⑪ Apache Ambari:是一种支持Apache Hadoop集群的安装、部署、配置和管理的工具。

橙子02-Hadoop生态系统相关推荐

  1. 大数据学习笔记:Hadoop生态系统

    文章目录 一.Hadoop是什么 二.Hadoop生态系统图 三.Hadoop生态圈常用组件 (一)Hadoop (二)HDFS (三)MapReduce (四)Hive (五)Hbase (六)Zo ...

  2. 大数据系统架构-Hadoop生态系统

    Hadoop是较早用于处理大数据集合的分布式存储计算基础架构,通过Hadoop,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的为例执行告诉运算和存储.简单来说,Hadoop是一 ...

  3. Hadoop 生态系统

    当下 Hadoop 已经成长为一个庞大的生态体系,只要和海量数据相关的领域,都有 Hadoop 的身影.下图是一个 Hadoop 生态系统的图谱,详细列举了在 Hadoop 这个生态系统中出现的各种数 ...

  4. GitChat · 大数据 | 一步一步学习大数据:Hadoop 生态系统与场景

    目录(?)[-] Hadoop概要 Hadoop相关组件介绍 HDFS Yarn Hive HBase Spark Other Tools Hadoop集群硬件和拓扑规划 硬件配置 软件配置 Hado ...

  5. Hadoop概念学习系列之Hadoop 生态系统

    当下 Hadoop 已经成长为一个庞大的生态体系,只要和海量数据相关的领域,都有 Hadoop 的身影.下图是一个 Hadoop 生态系统的图谱,详细列举了在 Hadoop 这个生态系统中出现的各种数 ...

  6. 手把手教你搭建Hadoop生态系统伪分布式集群

    Hello,我是 Alex 007,一个热爱计算机编程和硬件设计的小白,为啥是007呢?因为叫 Alex 的人太多了,再加上每天007的生活,Alex 007就诞生了. 手把手教你搭建Hadoop生态 ...

  7. Hadoop生态系统的详细介绍

    hadoop生态系统的详细介绍 简介 Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.今 ...

  8. 阿里巴巴飞天大数据架构体系与Hadoop生态系统

    很多人问阿里的飞天大数据平台.云梯2.MaxCompute.实时计算到底是什么,和自建Hadoop平台有什么区别. 先说Hadoop 什么是Hadoop? Hadoop是一个开源.高可靠.可扩展的分布 ...

  9. 试述hadoop生态系统以及每个部分的具体功能_Hadoop在大数据分析中的意义和作用...

    什么是Hadoop? Apache Hadoop是一个开放源代码软件框架,用于开发在分布式计算环境中执行的数据处理应用程序. 使用HADOOP构建的应用程序可在分布在商用计算机群集上的大型数据集上运行 ...

  10. Hadoop生态系统常用组件导图

    Hadoop生态系统主要组件导图: 看大图

最新文章

  1. Visual Stodio 2010 待熟悉技巧
  2. linux下的网络管理命令,常用linux网络管理命令(下)
  3. 宏定义中有浮点数_GEO是什么?还可以定义新的数据类型吗?
  4. UML建模【转http://www.cnblogs.com/gaojun/archive/2010/04/27/1721802.html】
  5. Javascript对象扩展 - JsPoint类
  6. WireGuard 教程:使用 DNS-SD 进行 NAT-to-NAT 穿透
  7. 年薪和月薪有什么区别
  8. Cocos2dx中Lua游戏性能优化指南
  9. 安装d3dx9 43.dll后显示 请确保该二进制存储在指定的路径中
  10. linux卸载飞行模式驱动,解决:Ubuntu飞行模式 使用硬件开关关闭
  11. php 集成 spss,〖SPSS Modeler〗 IBM SPSS Modeler 整合不同数据库之间的数据
  12. 手机订货系统的基本原理 帮助经销商卖货
  13. 设计模式05——结构型模式
  14. 00815 计算机基础,国开(山东)00815-计算机应用基础-模块1 windows 7 操作系统——客观题-辅导资料...
  15. jsp实现简单的购物车系统
  16. 【Delphi】Android 桌面图标添加快捷菜单功能
  17. 【蓝桥杯集训100题】scratch生日蛋糕 蓝桥杯scratch比赛专项预测编程题 模拟练习题第03题
  18. JavaScript 简单学习
  19. matlab中的锐度测量,锐度(解析度)MTF定义及测试
  20. frp连接Linux客户端

热门文章

  1. 3000美元造后空翻机器狗,设计与代码全开源
  2. 不讲战略的努力,都是扯淡!
  3. 关于IDEA开发Post数据报404错误的一种情况
  4. 东南大学成贤c语言试卷,东南大学2008C++上试卷
  5. 3Dmax云渲染平台哪个好?渲染100,炫云2022年实测数据对比
  6. 用python求黑洞数
  7. 青岛电子学校中美计算机班分数线,青岛中考分数线出炉:二中普通班324.5分,五十八中普通班318分...
  8. 大数据“比你更懂你”,会有不怕失业的专业?
  9. 怎么修改html中的内容,HTML DOM 修改 HTML 内容
  10. 如何更换程控交换机的人工铃声