Hadoop学习----Hadoop介绍
Hadoop介绍
Hadoop是Apache软件基金会的一款开源软件。底层是由java语言实现。
功能:允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理。
Hadoop核心组件:
Hadoop HDFS(分布式文件存储系统):解决海量数据存储
Haqdoop YARN(集群资源管理和任务调度框架):解决资源任务调用
Hadoop MapReduce(分布式计算框架):解决海量数据计算
官网:http://hadoop.apache.org/
Hadoop现状
HDFS作为分布式文件存储系统,处于生态圈的底层与核心地位;
YARN作为分布式通用的集群资源管理系统和任务调度平台,支撑各种计算引擎运行,保证了Hadoop地位;
MapReduce作为大数据生态圈第一代分布式计算引擎,由于自身设计的模型所产生的弊端,导致企业一线几乎不再直接使用MapReduce进行编程处理,但是很多软件底层依然在使用MapReduce引擎来处理数据。
Hadoop特性优点
1、扩容能力
Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可方便灵活的方式扩展到数以千计的节点。集群调整非常灵活,不需要停机。
2、成本低
Hadoop集群允许通过部署普通廉价的机器组成集群来处理大数据,以至于成本很低。看重的是集群整体能力。
3、效率高
通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。
4、可靠性
能自动维护数据的多份复制,并且在任务失败后自动地重新部署(redeplay)计算认为有,所以Hadoop的按为存储和处理数据的能力值得信赖。
Hadoop架构变迁
Hadoop 1.0
HDFS(分布式文件存储)
MapReduce(资源管理和分布式数据处理)
Hadoop 2.0
HDFS(分布式文件存储)
MapReduce(资源管理和分布式数据处理)
YARN(集群资源管理、任务调度)
Hadoop 3.0架构组件和Hadoop 2.0类似, 3.0着重于性能优化
通用方面:精简内核,类路径隔离,shell脚本重构
Hadoop HDFS:EC纠删码,多NameNode支持
Hadoop MapReduce:任务本地优化,内存参数自动推断
Hadoop YARN:Timeline Service V2,队列配置
Hadoop集群整体概述
Hadoop集群包括两个集群:HDFS集群,YARN集群
两个集群逻辑上分离,通常物理上在一起
两个集群都是标准的主从架构集群
HDFS集群介绍
主角色:NameNode 从角色:DataNode 主角色辅助角色:SecondaryNameNode
YARN集群介绍
主角色:ResourceManager 从角色:NodeManager
HDFS 一主加三从,额外再配一个秘书
YARN 一主加三从
MapReduce没有集群,MapReduce是计算框架,代码层面的组件,没有集群之说。
Hadoop学习----Hadoop介绍相关推荐
- hadoop学习——Hadoop核心组件
hadoop学习--Hadoop核心组件 下图展示了hadoop生态系统的核心组件. 下面来简单介绍各个组件的作用: HDFS(Hadoop distribute file system)--Hado ...
- Hadoop学习——Hadoop概述
目录 (一)Hadoop概念 (二)Apache Hadoop下载网址 (三)Hadoop优势 (四)Hadoop架构 1.HDFS(NameNode(nn).DataNode(dn).Seconda ...
- hadoop学习记录
一.Hadoop学习 Hadoop由hdfs和MapReducer组成,hadoop是主流的大数据基础架构 Hdfs是hadoop的一种分布式文件系统 MapReducer是hadoop的分布式计算方 ...
- Hadoop学习笔记一 简要介绍
Hadoop学习笔记一 简要介绍 这里先大致介绍一下Hadoop. 本文大部分内容都是从官网Hadoop上来的.其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了.我的这一 ...
- Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍
Hadoop学习笔记-20.网站日志分析项目案例(一)项目介绍 网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edis ...
- Hadoop学习之整体介绍及环境搭建
Hadoop学习之整体介绍及环境搭建 1 大数据概述 1.1 什么是大数据 数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加 工的的原始素材. 大数据:传统处理方 ...
- Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍
一.大数据的基本概念 1.1.什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据.大数据是以TB级别起步的.在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空 ...
- 学习笔记Hadoop(八)—— Hadoop集群的安装与部署(5)—— Hadoop配置参数介绍、Hadoop集群启动与监控
五.Hadoop配置参数介绍 Hadoop集群配置文件主要有: 它们的默认参数配置可以看: core-default.xml :https://hadoop.apache.org/docs/stabl ...
- 什么是HADOOP、产生背景、在大数据、云计算中的位置和关系、国内外HADOOP应用案例介绍、就业方向、生态圈以及各组成部分的简介(学习资料中的文档材料)
1. HADOOP背景介绍 1. 1.1 什么是HADOOP 1. HADOOP是apache旗下的一套开源软件平台 2. HADOOP提供的功能:利用服务器集群,根据用户 ...
最新文章
- flaash-ACC_LSMOOTH2: Cannot continue with smoothing calculation
- hashmap大小_调整HashMap的大小:未来的危险
- jenkins java常用插件下载,Jenkins简单介绍以及插件入门
- jenkins——部署java项目(2)
- 赚钱的方法地推拉新一定算一个
- 软Raid5,LVM,3T大硬盘纠缠操作的问题
- 【常用表】线性代数公式
- C++多线程之_beginthread与_beginthreadex
- word怎么删除参考文献的横线_Word2010利用尾注做参考文献时如何删除尾注中的横线...
- android表情功能开发
- 常见信息安全威胁与经典案例
- 【Ubuntu】解决ubuntu无法上网问题
- MySql作业练习题
- 密码:大写字母 小写字母 数字 特殊字符(四种里至少三种)
- 【BBF系列协议】TR104 VoIP CPE的配置参数
- .NET 针对465加密端口 加密协议SSL(Implicit SSL)进行的邮件发送
- 明星热图|欧阳娜娜、张艺兴代言新品牌;吴彦祖、高圆圆、全智贤演绎服装新品;关晓彤、欧阳靖、张云龙出席品牌活动...
- HIVE的搭建配置及关联MySQL
- jQuery 中的 end 方法
- VS code安装和使用技巧