hadoop介绍

​ apache hadoop软件是一个使用简单编程模型跨计算机群分布式处理大型数据集的框架。能够从单个服务器扩展到数千台机器,每一台机器都可以提供本地计算和存储。hadoop本身不是依靠硬件来提供高可用,而是设计用于检测和处理应用层的故障,因此在计算机集群上提供高可用服务每一台机器都容易出现故障。

apache hadoop 模块

1、hadoop common 支持其他 Hadoop 模块的通用实用程序。

2、Hadoop 分布式文件系统 (HDFS™) 一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。

3、Hadoop YARN:作业调度和集群资源管理的框架。

4、Hadoop MapReduce**:基于 YARN 的系统,用于并行处理大型数据集。

apache hadoop 相关的项目包括

​ Ambari:一个基于 Web 的工具,用于配置、管理和监控 Apache Hadoop 集群,包括对 Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig 和 Sqoop 的支持。Ambari 还提供了一个仪表板,用于查看集群健康状况,例如热图,并能够直观地查看MapReduce、Pig 和 Hive 应用程序以及以用户友好的方式诊断其性能特征的功能。

1、Avro:数据序列化系统。

2、Cassandra:一个可扩展的多主数据库,没有单点故障。

3、Chukwa:用于管理大型分布式系统的数据收集系统。

4、HBase: 一个可扩展的分布式数据库,支持大型表的结构化数据存储。

5、HIve: 提供数据汇总和即席查询的数据仓库基础设施。

6、Mahout: 可扩展的机器学习和数据挖掘库。

7、Ozone:Hadoop 的可扩展、冗余和分布式对象存储。

8、Pig:用于并行计算的高级数据流语言和执行框架。

9、Spark:用于 Hadoop 数据的快速通用计算引擎。Spark 提供了一个简单而富有表现力的编程模型,支持广泛的应用程序,包括 ETL、机器学习、流处理和图形计算。

10、Submarine:一个统一的 AI 平台,允许工程师和数据科学家在分布式集群中运行机器学习和深度学习工作负载。

11、Tez :基于 Hadoop YARN 构建的通用数据流编程框架,它提供了一个强大而灵活的引擎来执行任意 DAG 任务来处理批处理和交互式用例的数据。Tez 正在被 Hadoop 生态系统中的 Hive™、Pig™ 和其他框架以及其他商业软件(例如 ETL 工具)采用,以取代 Hadoop™ MapReduce 作为底层执行引擎。

12、Zookeeper:分布式应用程序的高性能协调服务。

apache hadoop版本功能介绍

1.X,2.X区别:

HDFS:

1:Hadoop2.0新增了HDFS HA机制,HA增加了standbynamenode进行热备份,解决了1.0的单点故障问题。

2:Hadoop2.0新增了HDFS federation,解决了HDFS水平可扩展能力。
​ 允许有多个namenode独立运行组成联邦。每个datanode向所有name进行注册。
​ 每个namenode维护一个命名空间卷(互相独立)上层通过一个挂载表组织来访问数据。
​ 命名空间卷:包括池块和命名空间元数据
​ 块池:逻辑概念,该命名空间文件的所有块;可能在不同机器上。
命名空间元数据: 命名空间元数据

mapreduce:
​ 1、2.0相比于1.0 新增了YARN框架,Mapreduce的运行环境发生了变化

​ 2、在1.0中:由一个JobTracker和若干个TaskTracker两类服务组成,其中JobTracker负责资源管理和所有作业的控制,TaskTracker负责接收来自JobTracker的命令并执行它。所以MapReduce即是任务调度框架又是计算框架,1.0中会出现JobTracker大包大揽任务过重,而且存在单点故障问题,并且容易出现OOM问题,资源分配不合理等问题

3、在2.0中:MASTER端由ResourceManager进行资源管理调度,有ApplicationMaster进行任务管理和任务监控。SLAVE端由NodeManager替代TaskTracker进行具体任务的执行,所以MapReduce2.0只是一个计算框架,具体资源调度全部交给Yarn框架。

2.X和3.X最主要区别

1、Java运行环境升级为1.8;

2、HDFS支持纠删码:

纠删码相比于副本机制节省了一半以上的存储空间,普通副本机制需要3倍存储空间而这种机制只需1.4倍即可。

3、YARN时间线服务

4、支持多余2个以上的NameNodes

​ 3.0支持单active namenode+多standby namenode部署方式进一步提升了可用性。

5、MapReduce本地优化,性能提升了30%。

最后相比于1.0和2.0,3.0在实际使用过程中比较不稳定

hadoop下载地址:
https://dlcdn.apache.org/hadoop/common/

ahache技术栈文件下载
https://dlcdn.apache.org/

hadoop框架介绍相关推荐

  1. 一、Hadoop框架介绍

    OK~从今天开始,我们就开始我们的破茧成蝶--大数据篇系列的博客编写,今天是第一篇,开篇为<Hadoop框架介绍>,Hadoop系列将会收录在<破茧成蝶--大数据篇>专栏中.下 ...

  2. 大数据分布式计算开源框架Hadoop的介绍和运用

    Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊.Facebook和Yahoo等等.对于我来说,最近的一个使用点就是服务集成平台的日志分析.服务集 ...

  3. hadoop 单机单间_零基础入门hadoop大数据四——Hadoop框架前奏,JDK环境配置

    ~~~~~~~~~一天更新两篇~~~~~~ 一.本章节完成的内容 1.使用secureCRT工具连接linux主机(配置非常方便,方便粘贴) 2.上传安装包到linux上(用filezilla) 3. ...

  4. 从hadoop框架与MapReduce模式中谈海量数据处理

    前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是 ...

  5. MongoDB之Hadoop驱动介绍

    http://blog.csdn.net/amuseme_lu/article/details/6584661 MongoDB之Hadoop驱动介绍 ------------------------ ...

  6. 从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)

    从hadoop框架与MapReduce模式中谈海量数据处理 前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起 ...

  7. hadoop简单介绍_Hadoop:简单介绍

    hadoop简单介绍 什么是Hadoop: Hadoop是用Java编写的框架,用于在大型商品硬件群集上运行应用程序,并具有类似于Google File System和MapReduce的功能 . H ...

  8. hadoop框架详细分析

    2019独角兽企业重金招聘Python工程师标准>>> 如下图所示,mapreduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方 ...

  9. hadoop框架分析

    mapreduce是一种模式,一种什么模式呢?一种云计算的核心计算模式,一种分布式运算技术,也是简化的分布式编程模式,它主要用于解决问题的程序开发模型,也是开发人员拆解问题的方法. 如下图所示,map ...

  10. Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍

    一.大数据的基本概念 1.1.什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据.大数据是以TB级别起步的.在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空 ...

最新文章

  1. 一篇关于java变量定义的文章
  2. Oracle 入面既一d函数
  3. 性能测试的概念及其分类
  4. 密码学 / 哈希算法
  5. CRM和ERP的Sales Organization的映射关系
  6. Linux poll
  7. html5从基础到入门,Html5从入门到精通系列2:Html5基础
  8. Postgresql数据库体系结构-存储结构
  9. 树莓派64位系统_玩转树莓派之安装系统
  10. ubuntu 下openkore的运行
  11. 站在搜索引擎的视角看ASO,aso商店搜索引擎优化
  12. Python的下载安装(手把手教学)
  13. XJOI一级二段题解(g++,即C++),也可视作C++算法竞赛教程
  14. Mathpix Snip--图片中识别公式
  15. HTML5期末大作业:网站设计——天天生鲜水果蔬菜商城网站静态模板 (10个页面) HTML+CSS+JavaScript...
  16. spring配置事务
  17. 计算机没有显卡驱动,电脑没有显卡怎么办
  18. 都没滤网质量重要 细数净化器鸡肋功能
  19. 神经科学探索脑第二十二章
  20. 银行贷款,求每月等额还款金额

热门文章

  1. Android:根据日期计算星期几
  2. 【资源分享】云计算 CRM 等网上搜集资料
  3. UVM-phase机制
  4. 使用JLINK和Jscope遇到的一些问题
  5. molten php 上传,molten:PHP 应用透明链路追踪工具
  6. 解决Android打包Entry name ‘res/animator/linear_indeterminate_line1_head_interpolator.xml‘ collided
  7. Web前端之响应式 Gulp 中文网
  8. Laravel和Doctrine的测试驱动开发
  9. gis可达性分析步骤_【极简】城乡规划新技术GIS应用厦大李渊(1)
  10. win7台式计算机怎么连热点,怎么用台式电脑开热点,电脑怎么开热点win7