橙子02-Hadoop生态系统
Hadoop生态系统
相关视频内容可在b站观看https://m.bilibili.com/video/BV1bZ4y1F7w5?p=1&share_medium=android&share_plat=android&share_source=COPY&share_tag=s_i×tamp=1619318095&unique_k=ddvpDF&share_times=2&
hadoop简介
说到hadoop不得不提起一个人——Doug Cutting ,他是hadoop之父、Apache Lucene项目的创始人。
Hadoop是Apache旗下的开源的分布式计算平台,它可以运行在计算机集群之上,提供可靠的、可扩展的分布式计算功能。Hadoop的核心是分布式文件系统(HDFS)和并行编程框架MapReduce。
Hadoop与三遍论文密不可分:
① 2003年,谷歌发布的分布式文件系统GFS的论文,可以用于解决海量数据存储的问题。
② 2004年,谷歌发布了MapReduce的论文,可以用于解决海量数据计算的问题。
③ 2006年,谷歌发布了BigTable的论文,它是以GFS为底层数据存储的分布式存储系统。
GFS、MapReduce、BigTable就是我们经常说的“三辆马车”。
Hadoop中的HDFS是GFS的开源实现;MapReduce是谷歌MapReduce的开源实现,Hbase是谷歌BigTable的开源实现。
Hadoop的特点
① 跨平台性:hadoop是基于java语言开发的,有很好的跨平台性,可以运行在Linux平台上;
② 高可靠性:hadoop中的HDFS是分布式文件系统,可以将海量数据分布冗余存储在不同的机器节点上,即使是某个机器副本上发生故障,其他的机器副本也能正常运行;
③ 高容错性:HDFS把把文件分布存储在很多不同的机器节点上,能实现自动保存多个副本,因此某个节点上的任务失败后也能实现自动重新分配;
④ 高效性:hadoop的核心组件HDFS和MapReduce,一个负责分布式存储一个负责分布式处理,能够处理PB级别的数据;
⑤ 低成本与高扩展:hadoop在廉价的计算机集群上就可以运行,因此成本比较低,并且可以扩展到几千个计算机节点上,完成海量数据的存储和计算。
Hadoop1.0和2.0的区别
①Hadoop1.0的组成包含:hdfs、MapReduce和其他组件。
Hdfs负责数据存储,MapReduce负责数据计算以及资源调度(在进行数据处理的时候是要进行资源分配的,比如用多少CPU、内存、磁盘等等)
②Hadoop2.0的组成包含:hdfs、MapReduce、yarn和其他组件。
Hdfs负责数据存储,MapReduce负责数据计算,yarn负责资源调度
Hadoop生态系统的组成
Hadoop除了有两大核心组件HDFS 和MapReduce之外,还包括yarn、hbase、hive、pig、mahout、zookeeper、sqoop、flume、Apache Ambari等功能组件。
① HDFS:hadoop分布式文件系统,可以运行在大型的廉价计算机集群上,并以流的方式读取和处理海量文件。HDFS要掌握的概念有NameNode、DataNode和Secondary Namenode,后面会有专门章节为大家讲解。
② Yarn:资源调度和管理框架,其中包含ResourceManager、ApplicationMaster和NodeManager。ResourceManager负责资源管理,ApplicationMaster负责任务调度和监控,NodeManager 负责执行任务。
③ MapReduce:分布式并行编程框架,核心思想是“分而治之”。MapReduce=Map+Reduce。Map函数负责分片的工作,reduce函数负责整合归约。
④ HBase:是谷歌bigtable的开源实现。它区别于传统关系数据库的一点是:基于列式存储。传统数据库是基于行的存储,而HBase是基于列的存储,具有高效可靠的处理非结构化数据的能力。
⑤ Hive:是基于hadoop的数据仓库工具,能对数据集进行简单处理,它拥有类似SQL语言的查询语言hive-sql。
⑥ Pig:是一种数据流语言,提供了类似sql的语言pig latin,可以用来查询半结构化数据集。
⑦ Mahout:是Apache的一个开源项目,提供一些分类、聚类、过滤等等机器学习领域经典算法。
⑧ Zookeeper:是个高效的可靠的分布式协同工作系统
⑨ Sqoop:sql-to-hadoop的缩写,意思就是在关系数据库与hadoop之间做数据交换。
⑩ Flume:海量日志收集、聚合、传输系统。它也能对数据进行简单的处理。
⑪ Apache Ambari:是一种支持Apache Hadoop集群的安装、部署、配置和管理的工具。
橙子02-Hadoop生态系统相关推荐
- 大数据学习笔记:Hadoop生态系统
文章目录 一.Hadoop是什么 二.Hadoop生态系统图 三.Hadoop生态圈常用组件 (一)Hadoop (二)HDFS (三)MapReduce (四)Hive (五)Hbase (六)Zo ...
- 大数据系统架构-Hadoop生态系统
Hadoop是较早用于处理大数据集合的分布式存储计算基础架构,通过Hadoop,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的为例执行告诉运算和存储.简单来说,Hadoop是一 ...
- Hadoop 生态系统
当下 Hadoop 已经成长为一个庞大的生态体系,只要和海量数据相关的领域,都有 Hadoop 的身影.下图是一个 Hadoop 生态系统的图谱,详细列举了在 Hadoop 这个生态系统中出现的各种数 ...
- GitChat · 大数据 | 一步一步学习大数据:Hadoop 生态系统与场景
目录(?)[-] Hadoop概要 Hadoop相关组件介绍 HDFS Yarn Hive HBase Spark Other Tools Hadoop集群硬件和拓扑规划 硬件配置 软件配置 Hado ...
- Hadoop概念学习系列之Hadoop 生态系统
当下 Hadoop 已经成长为一个庞大的生态体系,只要和海量数据相关的领域,都有 Hadoop 的身影.下图是一个 Hadoop 生态系统的图谱,详细列举了在 Hadoop 这个生态系统中出现的各种数 ...
- 手把手教你搭建Hadoop生态系统伪分布式集群
Hello,我是 Alex 007,一个热爱计算机编程和硬件设计的小白,为啥是007呢?因为叫 Alex 的人太多了,再加上每天007的生活,Alex 007就诞生了. 手把手教你搭建Hadoop生态 ...
- Hadoop生态系统的详细介绍
hadoop生态系统的详细介绍 简介 Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.今 ...
- 阿里巴巴飞天大数据架构体系与Hadoop生态系统
很多人问阿里的飞天大数据平台.云梯2.MaxCompute.实时计算到底是什么,和自建Hadoop平台有什么区别. 先说Hadoop 什么是Hadoop? Hadoop是一个开源.高可靠.可扩展的分布 ...
- 试述hadoop生态系统以及每个部分的具体功能_Hadoop在大数据分析中的意义和作用...
什么是Hadoop? Apache Hadoop是一个开放源代码软件框架,用于开发在分布式计算环境中执行的数据处理应用程序. 使用HADOOP构建的应用程序可在分布在商用计算机群集上的大型数据集上运行 ...
- Hadoop生态系统常用组件导图
Hadoop生态系统主要组件导图: 看大图
最新文章
- Visual Stodio 2010 待熟悉技巧
- linux下的网络管理命令,常用linux网络管理命令(下)
- 宏定义中有浮点数_GEO是什么?还可以定义新的数据类型吗?
- UML建模【转http://www.cnblogs.com/gaojun/archive/2010/04/27/1721802.html】
- Javascript对象扩展 - JsPoint类
- WireGuard 教程:使用 DNS-SD 进行 NAT-to-NAT 穿透
- 年薪和月薪有什么区别
- Cocos2dx中Lua游戏性能优化指南
- 安装d3dx9 43.dll后显示 请确保该二进制存储在指定的路径中
- linux卸载飞行模式驱动,解决:Ubuntu飞行模式 使用硬件开关关闭
- php 集成 spss,〖SPSS Modeler〗 IBM SPSS Modeler 整合不同数据库之间的数据
- 手机订货系统的基本原理 帮助经销商卖货
- 设计模式05——结构型模式
- 00815 计算机基础,国开(山东)00815-计算机应用基础-模块1 windows 7 操作系统——客观题-辅导资料...
- jsp实现简单的购物车系统
- 【Delphi】Android 桌面图标添加快捷菜单功能
- 【蓝桥杯集训100题】scratch生日蛋糕 蓝桥杯scratch比赛专项预测编程题 模拟练习题第03题
- JavaScript 简单学习
- matlab中的锐度测量,锐度(解析度)MTF定义及测试
- frp连接Linux客户端
热门文章
- 3000美元造后空翻机器狗,设计与代码全开源
- 不讲战略的努力,都是扯淡!
- 关于IDEA开发Post数据报404错误的一种情况
- 东南大学成贤c语言试卷,东南大学2008C++上试卷
- 3Dmax云渲染平台哪个好?渲染100,炫云2022年实测数据对比
- 用python求黑洞数
- 青岛电子学校中美计算机班分数线,青岛中考分数线出炉:二中普通班324.5分,五十八中普通班318分...
- 大数据“比你更懂你”,会有不怕失业的专业?
- 怎么修改html中的内容,HTML DOM 修改 HTML 内容
- 如何更换程控交换机的人工铃声