hadoop安装和基本知识
安装教程:/home/yu/develop/hadoop-2.7.1/bin:/home/yu/develop/hadoop-2.7.1/sbin
hadoop组成
hadoop主要包括HDFS系统和MapReduce两个部分。
HDFS文件系统
hdfs文件系统特点:1.数据冗余,硬件容错
2.流式数据访问。不允许修改,写一次读多次,想修改只能删除再写
3.适合大容量文件,不适合大量小文件,因为文件每次读取都需要访问NameNode,NameNode会产生过大的负载
4.不适合交互式,延迟较大
5.不支持多个用户同时写一个文件
hdfs文件被分成块进行存储,hdfs系统块默认大小为64MB块是文件存储的逻辑单元
NameNode是管理节点,存放元数据。
元数据主要存储两种表:1.文件与数据块的映射表 2.数据块与数据节点的映射表
还存在二级NameNode定期元同步数据映像文件、修改日志,NameNode发生故障时二级NameNode转正
DataNode是HDFS的工作节点,存放数据块
1.HDFS中每个数块存三份,分布在两个机架的三个节点
2.心跳检测:DataNode定期向NameNode放心跳消息
MapReduce并行计算模型
1.MapReduce概念
Map:将一个大的任务分解成许多小任务,进行并行处理
Reduce:将结果合并
2..job和task
一个作业成为job,一个job完成过程要拆分成多个task,task又分为JobTask和MapTask两类
3..hadoop Mapreduce体系结构
(1)Jobtracker
a.作业调度
b.分配任务、监控任务执行进度
c.监控Tasktracker运行情况
(2)TaskTracker
a.执行任务
b.汇报任务状态
4.MapReduce作业执行过程
4.容错机制
a.重复执行
b.推测执行
当一个节点执行过慢时会使用另一个节点与其共同计算相同的任务,当有一个节点完成时,另一个节点不在进行计算。
转载于:https://www.cnblogs.com/2017Crown/p/7339853.html
hadoop安装和基本知识相关推荐
- 学习hadoop需要具备基础知识
学习hadoop需要具备基础知识 首先整体上了解Hadoop,包括hadoop是什么,能够做什么,使用场景等,不需要考虑细节问题.在有了整体上的了解后,就开始准备系统地学习hadoop.建议:勿一味学 ...
- Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04
给力星 追逐内心的平和 首页 笔记 搜藏 代码 音乐 关于 Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04 2014-08-09 (updated: 2016 ...
- Hadoop安装教4程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.0
Hadoop安装教4程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.0 当开始着手实践 Hadoop 时,安装 Hadoop 往往会成为新手的一道门槛.尽管安装其实很简单,书上有写到 ...
- 最详细的Hadoop安装教程
最详细的Hadoop安装教程 前言 Hadoop 在大数据技术体系中的地位至关重要,Hadoop 是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远. 这是一篇 ...
- Hadoop安装及eclipse配置
Hadoop安装 彻底关闭防火墙 chkconfig iptables off 查看主机名 hostname 修改主机名 vim /etc/sysconfig/network 修改之后不会立即执行需要 ...
- Hadoop安装与配置问题说明
说明:本博客对Hadoop安装与配置过程中可能存在的问题做简单记录 启动Hadoop hadoop@ubuntu16:/usr/local/java/hadoop/hadoop-2.7.1$ ./sb ...
- Hadoop 安装详解--新手必备
准备: 这次学习,我使用的是虚拟机vmware,安装了3台虚拟机,系统为centos 5(其它版本亦可),主机名依次命名为hdfs1.hdfs2.hdfs3,ip地址一次为:172.16.16.1.1 ...
- Hadoop之Yarn面试知识复习
Hadoop之Yarn面试知识复习 目录 简述hadoop1与hadoop2 的架构异同 为什么会产生 yarn,它解决了什么问题,有什么优势? Hadoop之Yarn工作机制详解 HDFS的数据压缩 ...
- Hadoop之MapReduce面试知识复习
Hadoop之MapReduce面试知识复习 目录 谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化? FileInputFormat切片机制 在一个运行的Hadoop 任务中,什么是I ...
- Hadoop之HDFS面试知识复习
Hadoop之HDFS面试知识复习 目录 HDFS的存储机制 secondary namenode工作机制 NameNode与SecondaryNameNode 的区别与联系? hdfs整体架构介绍 ...
最新文章
- 【CSS3】好玩的动画线框
- python封装方法有几种_Python打包exe文件方法汇总【4种】
- sql:无法解决 equal to 操作中 Chinese_PRC_CI_AS 和 Chinese_Taiwan_Stroke_CI_AS 之间的排序规则冲突。...
- 用计算机弹可惜不是你,可惜不是你 还是幸亏不是你
- Code-First Development with Entity Framework 4
- MATLAB三维散点图的绘制(scatter3、plot3)
- 2020年信工所考研经验分享
- 教学信息管理系统+SQL
- 职业综合英语 章节答案考试答案 深圳职业技术学院[渝粤教育]
- linux查找不到kde桌面,观点|KDE Plasma 5 —— 给尚未确定桌面环境的 Linux 用户指明道路...
- VTK(The Visualization Toolkit)加载stl模型
- 移动客户端与服务器通信方式一
- Android Studio中layout_gravity与gravity
- 免费的crm系统部署在自己的服务器,CRM软件的三种部署方式
- 小程序开发页面跳转传参问题
- python爬虫获取代理免费ip并检测
- 网页中嵌入电视直播代码
- 网络通信过程-非常详细
- 私有化部署,为企业知识管理保驾护航
- mt5_MetaTrader5_模块下载备忘。