本小节 jacky 分享的是:

Hadoop 核心的组成模块,依赖于 Hadoop 的其他的生态系统。随着jacky后面逐步的分享,会对本小节 Hadoop 概况中的这些概念有更好的加深与了解。

(一)Hadoop 四大核心模块

在 Hadoop 官网就告诉了我们 Hadoop 有4大核心模块:

  • Hadoop Common

    • 一般 common 包的都是工具类,这个工具主要是支撑其他 hadoop 模块,它是一个辅助的模块;
  • Hadoop Distributed File System(HDFS):

    • Hadoop 分布式的文件系统,它提供了一个对数据存储的接口访问
  • Hadoop YARN

    • Hadoop YARN 是一个框架(framework),这个框架干什么:用于作业(job)和集群资源(cluster resource)的管理。
  • Hadoop MapReduce

    • MapReduce 是一个基于YARN 系统的并行的一个进程,大数据并行处理的一个进程。本质是 MapReduce 就是一个计算框架

如果我们狭义上说Hadoop ,那 Hadoop 就是只上面得核心模块;

如果我们广义上说 Hadoop,我们说得是 Hadoop 的生态系统, 有些领域项目会依赖于 Hadoop,

(二)Hadoop 发展的三个阶段

  • 1.X
  • 2.X
  • 3.X

jackyi 分享的是 Hadoop 的三代

(三)Hadoop 的生态环境

jacky 在分享 Hadoop 的时候,在 MapReduce 这个模块中代码会演示的比较多,MapReduce 这个框架计算写的也会比较多,但在真正用的时候,有可能一行代码都不写,为什么呢?因为就是这些生态系统的存在,比如说Hadoop生态系统中的 Hive, Hive 的原理就是把一堆MR的内容转化成了 SQL 的形式,大家学的大数据阶段了,就肯定熟练掌握 SQL 了,SQL是什么,SQL是结构化的查询语言,我们可以不用写 Api 了,这样不用写API , 我们很多人就都可以学习大数据了,不用再去学相关的编程,成本很低,这是 Hive 存在的意义。

HBase 来自于谷歌的一篇论文,HBase 就是一张大表(scalable),这张表里行无限,列也无限,而且是动态的,每个列的类型要准确,HBase 可以无限的增加,它跟你执行一行的速度是一样的,不会因为你执行行增加而降低速度,这一点关系型数据库是做不到的。但是HBase 能够查询数据的途径是有限的,需要使用 rowkey;

那既然有HIve ,有 HBase ,我们实际上使用可能不会写那么多代码,而是改成写 hive 类型的SQL 语句,那为什么还要学 MapRedue 框架?因为我们后面还有一个大数据最重要的生态:Spark,这个Spark 是做计算处理的,只不过Spark的效率相对于Hadoop来说要快;MapReduce 只能处理离线计算,是非常稳定的,但是MapReduce 它强依赖于IO,频繁的与磁盘进行交互,这里有一个常识:频繁与磁盘交互,效率都高不了。Spark 是基于内存迭代的,它速度很快,但是Spark 有可能会造成各种各样的问题,所以Spark的最大优势是给用户暴露了一个更加友好的编程接口。hadoop 就是 mapreduce 框架加几个关联接口,可spark 能给你暴露一堆接口,完全简化了程序构建的复杂度,因为上面mapreduce 你要基于原生代码模拟各种数据结构,成本比较高;

还有一个zookeeper ,也依赖于hadoop 项目,zookeeper 是一个分布式的协调系统,换句话说,它是给分布式应用程序提供的协调服务。

大数据实战之hadoop生态概况和官网文档解读相关推荐

  1. 基于Java毕业设计大数据文章发布系统源码+系统+mysql+lw文档+部署软件

    基于Java毕业设计大数据文章发布系统源码+系统+mysql+lw文档+部署软件 基于Java毕业设计大数据文章发布系统源码+系统+mysql+lw文档+部署软件 本源码技术栈: 项目架构:B/S架构 ...

  2. 【知识梳理】白话一下大数据治理、Hadoop生态的事情,给只想浅了解的同学参考下

    声明 本文仅整理给需要了解的同学,从业人士想要的更多细节,统统没有: 本文以常聊的HADOOP生态纯白话为主,就不扯Postgre.Oracl这些了: 内容整理出视频教程和社区,如有手误,烦请指正哦: ...

  3. 基于阿里云官网文档-大数据开发治理平台 DataWorks研读+数据质量扩展+相应的大数据组件知识扩展

    网址:阿里DataWorkers网址:数据集成概述 - 大数据开发治理平台 DataWorks - 阿里云 目录 网址:阿里DataWorkers网址:数据集成概述 - 大数据开发治理平台 DataW ...

  4. 考研大数据爬取与分析工具3.0需求分析文档

    3.0开发文档 3.0需求分析文档 3.0运行结果 2.0及1.0 文章目录 1. 版本信息(徐可可) 2. 文档说明(王玮娟) 2.1. 文档简介 2.2. 文档读者 3. 产品简介(王玮娟) 3. ...

  5. 基于大数据的模型预测用户是否会进行交易 文档+答辩PPT+Python源码及数据

    资源下载地址:https://download.csdn.net/download/sheziqiong/85622054 摘要 关键词: PCA 降维 特征相关性分析 欠采样.过采样全连接神经网络 ...

  6. (大数据工程师学习路径)第二步 Vim编辑器----Vim文档编辑

    一.vim重复命令 1.重复执行上次命令 在普通模式下.(小数点)表示重复上一次的命令操作 拷贝测试文件到本地目录 $ cp /etc/protocols . 打开文件进行编辑 $ vim proto ...

  7. 大数据技术之Hadoop(快速入门)

    目录 第一章 Hadoop概述 1.1 什么是Hadoop 1.2  Hadoop 产生背景 Hadoop之父:Doug cutting 1.3  Hadoop 三大发行版本 Hadoop 三大发行版 ...

  8. 《OD大数据实战》驴妈妈旅游网大型离线数据电商分析平台

    一.环境搭建 1. <OD大数据实战>Hadoop伪分布式环境搭建 2. <OD大数据实战>Hive环境搭建 3. <OD大数据实战>Sqoop入门实例 4. &l ...

  9. 大数据基础(hadoop环境搭建及使用)

    大数据 大数据概念 大数据特点(4V) Volume(大量) Velocity(高速) Variety(多样) Value(低价值密度) Hadoop Hadoop是什么 Hadoop 三大发行版本 ...

最新文章

  1. json qbytearray 串 转_如何通过QByteArray在JSON中存储QPixmap?
  2. 菜鸟成长之路05/06/07
  3. c++求区间第k大数_数组中求第K大数的实现方法
  4. 网站能拿到其他网站的cookie_如何设计网站能让网站建设的更有吸引力
  5. 常用正则表达式和shell命令列表
  6. SPEC-RFC3261总述
  7. 括号匹配问题(九度教程第 26 题)
  8. nyoj1058部分和问题(简单基础易上手的dfs)
  9. 怎么用计算机弹电脑病毒音乐,怎么制作电脑病毒?简单电脑病毒制作方法
  10. SpringBoot利用ELK实现日志收集
  11. 解决注册表被禁用的问题
  12. 交大计算机技术非全日制,上海交通大学非全日制研究生的区别
  13. Centos配置阿里云yum源及epel源
  14. @http工作原理及使用
  15. 优酷视频 刘尚堃 - 《深度学习在视频搜索领域的实践》
  16. 评测三款最流行的txt阅读器(Mac适用)
  17. 小鹿妹眼中的三亚。告诉你怎么玩三亚
  18. 一些有用的Google Hack
  19. 戴尔服务器前置信息屏报错CPU1 mem vtt pg voltage is outside of range
  20. Postgresql源码(34)Btree索引读——_bt_first搜索部分分析

热门文章

  1. 【echarts记录 -- 3d 饼状图实现】
  2. 【MM小贴士】关于MR21修改物料价格与账期的关系
  3. OFsuite亮相SDNFV Fest测试论坛 控制器性能测试成看点
  4. 「SDOI 2008」山贼集团
  5. 使用Google浏览器做真机页面调试
  6. 图解 RNN, LSTM, GRU
  7. 选择进入IT行业,会后悔吗?
  8. Teen Readers【青少年读者】
  9. C++11初篇(快速了解)
  10. Windows与macOS水火不容?有了它一切搞定