Hadoop学习笔记
1.Hadoop安装
Apache的国内镜像地址:
地址1:http://mirror.bit.edu.cn/apache/
地址2:https://mirrors.tuna.tsinghua.edu.cn/apache
Fuck CSDN,谁给你的权利把开源的东西作为商品(下载积分)售卖?
Hadoop安装教程
2.HDFS(Hadoop Distributed File System)
2.1 HDFS基本概念
HDFS的文件被分成块(Block)进行存储,HDFS块默认大小是64MB,块是整个文件存储处理的逻辑单元
HDFS中有两类节点NameNode和DataNode
namenode:
是管理节点,存放文件元数据
元数据包含两个部分:
文件与数据块的映射表
数据块与数据节点的映射表
datanode:
是hdfs的工作节点,存放数据块
2.2 数据管理策略
1.每个数据保留三份,两份存储在一台机器上,另外一份存储在另一台机器上。确保数据安全可靠
2.心跳检测
DataNode定期向NameNode发送心跳检测,是否宕机,挂掉,作为安全检测;
3.二级NameNode
当NameNode挂掉SecondaryNameNode会替代其位置
2.3 HDFS读取文件流程
客户端发送文件读请求——>namenode返回元数据(从哪些datanode找到)——>客户端读取block,下载下来之后组装;
客户端文件拆分成block——>通知namenode返回可用的、有足够磁盘空间的datanode——>客户端对block进行写入——>流水线复制——>更新元数据 ;
3.MapReduce
3.1 MapReduce的原理
mapReduce:分而治之的原理,既将大的任务分解成各个小的任务,既所谓的map,然后将各个小任务的处理结果进行合并,合并汇总称之为reduce.
1、mapreduce是一个并行计算的框架;
2、map将任务分解成多个子任务,reduce将子任务并行执行后合并结果;
3、mapreduce的过程:input split->shuffle->output。
4、shuffle机制
- map task是由并发数决定的,有多少个切片就启动多少个map task
- 切片是逻辑概念,指文件中数据偏移量的范围
- 切片的具体大小应该根据文件的大小来调整
3.2 MapReduce的运行流程
MapReduce作业执行过程
MapReduce 容错机制
- 重复执行,一次任务失败,会进行重试,4次
- 推测执行,单个任务执行慢时,推测其可能出现故障,再另起一个同样的任务,并行执行,哪个先执行完使用哪个
JobTracker 功能职责
- 作业调度
- 分配任务,监控任务执行进度
- 监控TaskTracker的状态
4.YARN
(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
5.Hadpoop生态
转载于:https://www.cnblogs.com/Java-Starter/p/9842631.html
Hadoop学习笔记相关推荐
- Hadoop学习笔记一 简要介绍
Hadoop学习笔记一 简要介绍 这里先大致介绍一下Hadoop. 本文大部分内容都是从官网Hadoop上来的.其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了.我的这一 ...
- Hadoop学习笔记(1) ——菜鸟入门
Hadoop学习笔记(1) --菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户能够在不了解分布式底层细节的情况下.开发分布式 ...
- Hadoop学习笔记(1)
原文:http://www.cnblogs.com/zjfstudio/p/3859704.html Hadoop学习笔记(1) --菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分 ...
- Hadoop学习笔记—18.Sqoop框架学习
Hadoop学习笔记-18.Sqoop框架学习 一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据 ...
- Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍
Hadoop学习笔记-20.网站日志分析项目案例(一)项目介绍 网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edis ...
- Hadoop学习笔记(8) ——实战 做个倒排索引
Hadoop学习笔记(8) --实战 做个倒排索引 倒排索引是文档检索系统中最常用数据结构.根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index).结构如 ...
- Hadoop学习笔记—4.初识MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个 编程模型 ,用以进行大数据量的计算.对于大 数据量的计算,通常采用的处理手法就是并行计算.但对许多开 ...
- Hadoop学习笔记—11.MapReduce中的排序和分组
Hadoop学习笔记-11.MapReduce中的排序和分组 一.写在之前的 1.1 回顾Map阶段四大步骤 首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出 ...
- Hadoop学习笔记—15.HBase框架学习(基础知识篇)
Hadoop学习笔记-15.HBase框架学习(基础知识篇) HBase是Apache Hadoop的数据库,能够对大型数据提供随机.实时的读写访问.HBase的目标是存储并处理大型的数据.HBase ...
- Hadoop学习笔记—10.Shuffle过程那点事儿
Hadoop学习笔记-10.Shuffle过程那点事儿 一.回顾Reduce阶段三大步骤 在第四篇博文<初识MapReduce>中,我们认识了MapReduce的八大步骤,其中在Reduc ...
最新文章
- 在线用户管理--ESFramework 4.0 进阶(05)
- SSM综合练习表结构介绍
- C++ COM编程之什么是组件
- Vs + Qt 编译 .ui 文件
- UVa11549计算器谜题[floyd判圈]
- java retry 设置上限_java-如何设置Spring Retry模板重试最大尝试次数:无限
- 货币量化宽松的投资机会-郎咸平
- C# 设置Word文档背景(纯色/渐变/图片背景)
- Loading动画加载素材模板,UI设计师好帮手
- 华为2288hv5服务器安装ESXI 6.7(三):安装ESXI(转)
- 有了 Git 这个操作,我再也不怕代码混乱了!
- linux 编码转换-转
- 拓端tecdat:R语言STAN贝叶斯线性回归模型分析气候变化影响北半球海冰范围和可视化检查模型收敛性
- linux cpu load命令,Linux性能检测常用的10个基本命令
- 关于水滴舆情监测、服务项目特点介绍
- 【小程序开发模板】微信小程序开发模板平台
- 论文解读笔记:基于深度学习的行为分析综述
- 鸿鹄元数正式加入openGauss社区
- matlab DSB-AM与SSB-AM的调制与解调
- PPT模板制作如何添加动画?