Hadoop介绍

一. Hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要就是解决数据存储和数据分析计算的问题(通过HDFS和MapReduce实现)。分布式就是多个服务器做同样的一件事。

广义上来说,hadoop通常指hadoop生态圈。

二. Hadoop的三大发行版本:

  • Apache版本: 最原始(基础)的版本,对于入门学习最好
  • Cloudera在大型互联网企业中用得最多
  • Hortonworks文档较好

三. Hadoop的优势:

  1. 高可靠性:维护多个数据副本,在出现故障时会对失败的节点重新分布处理。
  2. 高扩展性:在集群之间分配任务数据,可方便地扩展数以千计的节点。
  3. 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
  4. 高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配。

四. Hadoop的组成:

  1. Hadoop HDFS:一个高可靠,高吞吐量的分布式文件系统(相当于磁盘)
  2. Hadoop MapReduce:一个分布式的离线并行计算框架。(形象理解就相当于跑的一个个应用程序,比如QQ)
  3. Hadoop Yarn:作业调度与集群资源管理的框架(相当于电脑系统)
  4. Hadoop Common:支持其他模块的工具模块,就是辅助前三个能正常运行的一些工具包。

  1. ResourceMnager(rm):处理客户端请求,启动/监控ApplicationMaster,监控NodeMnager,资源分配和调度。(监控总体,起领头人作用)
  2. NodeManager(nm):单个节点上的资源管理,处理来自ResourceManager的命令,处理来自ApplicationMaster的命令。(为每个Node服务)
  3. ApplicationMaster:数据切分,为应用程序申请资源,并分配给内部任务,任务监控与容错。(为应用Application服务)
  4. Container:对任务运行环境的抽象,封装了CPU,内存等多维资源以及环境变量,启动命令等任务运行相关的信息

五. 大数据技术生态体系


Spark Core内存计算比MapReduce离线计算快,因为MapReduce是基于磁盘计算。Spark Core是基于内存计算。

  1. Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递,可以将关系型数据库中的数据导进Hadoop的HDFS中,也可以将HDFS的数据导进关系型数据库中

  2. Flume:Flume是Cloudera提供的一个高可用,高可靠的,分布式的海量日志采集,聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于采集数据,同时,Flume提供对数据进行简单处理,并写到各种数据接收方的能力。

  3. Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统,特点如下:

    1. 通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能保持长时间的稳定性能。
    2. 高吞吐量:即使是非常普通的硬件,Kafka也可以支持每秒数百万的消息
    3. 支持通过Kafka服务器和消费机集群来分区消息
    4. 支持Hadoop并行数据加载
  4. Storm:Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。Storm也可被用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户

  5. Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

  6. Oozie:Oozie是一个管理Hadoop作业(job)的工作流程调度管理系统。Oozie协调作业就是通过时间(频率)和有效数据触发当前的Oozie工作流程

  7. Hbase:Hbase是一个分布式的,面向列的开源数据库。Hbase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库

  8. Hive: hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类似SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

  9. R语言:R是用于统计分析,绘图的语言和操作环境。R是属于GNU系统的一个自由,免费,源代码开放的软件,它是一个用于统计计算和统计制图的优秀软件

  10. Mahout:Apache Mahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用例:

    1. 推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物
    2. 聚集:收集文件并进行相关文件分组
    3. 分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确的归类
    4. 频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现
  11. ZooKeeper: ZooKeeper是Google的Chubby的一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护,名字服务,分布式同步,组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效,功能稳定的系统提供给用户。

片转存中…(img-wUVqlE3D-1587305771710)]

(一)Hadoop介绍相关推荐

  1. 2021年大数据Hadoop(一):​​​​​​​Hadoop介绍

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 Hadoop介绍 Hadoo ...

  2. [Hadoop入门] - 1 Ubuntu系统 Hadoop介绍 MapReduce编程思想

    Ubuntu系统 (我用到版本号是140.4) ubuntu系统是一个以桌面应用为主的Linux操作系统,Ubuntu基于Debian发行版和GNOME桌面环境.Ubuntu的目标在于为一般用户提供一 ...

  3. Hadoop介绍及最新稳定版Hadoop 2.4.1下载地址及单节点安装

     Hadoop介绍 Hadoop是一个能对大量数据进行分布式处理的软件框架.其基本的组成包括hdfs分布式文件系统和可以运行在hdfs文件系统上的MapReduce编程模型,以及基于hdfs和MapR ...

  4. 大数据系列(一)之hadoop介绍及集群搭建

    大数据系列(一)之hadoop介绍及集群搭建 文章最早发布来源,来源本人原创初版,同一个作者: https://mp.weixin.qq.com/s/fKuKRrpmHrKtxlCPY9rEYg 系列 ...

  5. Hadoop -- hadoop介绍

    Hadoop hadoop介绍 hadoop核心组件 hadoop特性优点 hadoop发展 hadoop介绍 hadoop底层是Java语言实现 是Apache软件基金会的一款开源软件 允许用户使用 ...

  6. Hadoop学习----Hadoop介绍

    Hadoop介绍 Hadoop是Apache软件基金会的一款开源软件.底层是由java语言实现. 功能:允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理. Hadoop核心组件: ...

  7. 大数据介绍、集群环境搭建、Hadoop介绍、HDFS入门介绍

    大数据介绍.集群环境搭建.Hadoop介绍.HDFS入门介绍 文章目录 大数据介绍.集群环境搭建.Hadoop介绍.HDFS入门介绍 1.课前资料 2.课程整体介绍 3.大数据介绍 3.1 什么是大数 ...

  8. 大数据概念及Hadoop介绍

    大数据概念及Hadoop介绍 大数据概念 数据存储单位 大数据定义 大数据的特点(5V特征) 大数据部门组织架构 分布式技术 负载均衡 故障转移 伸缩性 分布式技术总结 分布式和集群的区别 Hadoo ...

  9. Hadoop学习(1)--Hadoop介绍

    1. Hadoop的简单介绍 1.1 狭义 Hadoop指的是Apache软件基金会的一款开源软件,允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理. Hadoop核心组件 Had ...

最新文章

  1. SURF算法与源码分析、上
  2. 在 k8s 上最小化安装 KubeSphere
  3. [react] render函数中return如果没有使用()会有什么问题?
  4. 中标麒麟共享win7打印机_Win7系统添加网络共享打印机
  5. 关于推送系统设计的一些总结与思考(一)
  6. .Net程序员学习Linux最简单的方法
  7. .NET序列化与反序列化(转)
  8. 单片机实验--单片机IO口实验
  9. iPad,下载迅雷电影,迅雷HD出现“应版权方要求,文件无法下载”解决方法!
  10. http://www.cnblogs.com/qianmojing/p/6142178.html
  11. bzoj5369loj6433 [Pkusc2018]最大前缀和
  12. 三星s8 android版本,三星S8有几个版本?三星S8和三星S8+(plus)各个版本详细区别对比评测...
  13. 中间商只会赚差价?论接口的重要性
  14. react CSS实现箭头图标
  15. 面试题19/leetcode10:正则表达式匹配 C++
  16. Laravel5.4中文分词搜索-使用 Laravel Scout,Elasticsearch,ik 分词(二)
  17. 墨觉、韶音、南卡哪个品牌好?三款骨传导耳机全方位实测对比
  18. latex IEEE单栏文章图片双栏目排列
  19. 果糖SAAS开源社交电商小程序,全开源,无加密
  20. 风雨砥砺,岁月如歌——Ts之箭头函数

热门文章

  1. 零基础入门UI设计必备实用技巧!
  2. Matlab学习笔记(1) - 符号变量及其运算
  3. 字符串相乘——大整数乘法
  4. java数组找出重复元素及次数_Java查找数组重复元素,并打印重复元素、重复次数、重复元素位置...
  5. 每个开发人员都应该学习的 10 种算法
  6. linux最大文件名,linux和windows文件名长度限制
  7. java获取图片相对路径_相对路径和绝对路径的区别,java获取项目访问路径的方法...
  8. iphone html5 浏览器缓存文件,html5中localStorage 在苹果设备上总结
  9. ACM-ICPC国际大学生程序设计竞赛亚洲区大连赛区(2016)地区赛——花开花落终有时
  10. 弱监督学习框架 Detectron2/DRN-WSOD-pytorch 在服务器/windows上配置安装及使用