Hadoop,the definitive guide 学习
文章目录
- hadoop基础知识
- 初始hadoop
- 关于MapReduce
- Hadoop分布式文件系统
- hdfs的设计
- HDFS的数据块
- namenode和datanode
- 联邦HDFS
- 关于YARN
- Hadoop的IO操作
- 关于MapReduce
- Hadoop操作
- Hadoop相关开源项目
hadoop基础知识
初始hadoop
Hadoop是用于数据存储和分析的分布式系统
MapReduce与关系型数据库的比较
MapReduce:一次写入,多次读取
关系型数据库:多次读/写
数据分为
- 结构化数据
- 具有既定格式的实体化数据,XML文件等
- 半结构化数据
- 电子表格,但是表格的数据格式不一定一样
- 非结构化数据
- 文本,图像
Hadoop适合处理半结构化数据和非结构化数据,因为Hadoop的核心假设之一就是可以进行高速的流读写操作
关于MapReduce
MapReduce是一种可用于数据处理的编程模型,MapReduce程序本质上是并行的,因此可以将大规模的数据分析任务分发给任何一个数据中心
我们可以使用Hadoop来分析数据,为了充分利用Hadoop提供的并行数据处理优势,我们需要将查询表示为MapReduce作业,完成某种本地端的小规模测试之后,就可以把MapReduce作业部署到集群上运行
MapReduce任务过程分为两个处理阶段:map阶段和reduce阶段
每阶段都以键-值对作为输出和输出
程序猿需要写两个函数:map函数和reduce函数
map函数的输出经由MapReduce框架处理后,最后发送到reduce函数
Java MapReduce 编程
Hadoop分布式文件系统
hdfs的设计
- 流式数据访问
- 大量的小文件
- 由于namenode将文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于namenode的内存总量
- HDFS中的文件写入只支持单个写入,而且写操作总是以“只添加”方式在文件末尾写数据
HDFS的数据块
好处
- 文件的所有块不需要存储在同一磁盘上,文件可以比磁盘大
- 以块为存储单位,大大简化了存储子系统的设计
namenode和datanode
namenode为管理节点,datanode为工作节点,namenode管理文件系统的命名空间
客户端client代表用户通过与namenode和datanode交互来访问整个文件系统
没有namenode,文件系统将无法使用,我们有两种机制来处理这种问题
- 备份那些组成文件系统元数据持久状态的文件
- 运行一个辅助namenode
联邦HDFS
联邦HDFS允许系统通过添加namenode实现拓展,使得拥有大量文件的超大集群可以存在
在联邦环境下,每个namenode维护一个命名空间卷(命名空间的元数据+数据块池),数据块池包含该命名空间下文件的所有数据块
命名空间卷之间相互独立,所以集群中的datanode需要在所有namenode上登记
关于YARN
Hadoop的IO操作
关于MapReduce
Hadoop操作
Hadoop相关开源项目
摆烂了,有亿点不想更新了
Hadoop,the definitive guide 学习相关推荐
- 《Hadoop.The.Definitive.Guide.4th.Edition.2015.3》学习笔记
一.读后感 最近读完了<Hadoop.The.Definitive.Guide.4th.Edition.2015.3>英文第4版,个人感觉这本书是hadoop目前最权威.最全面.最靠谱的书 ...
- Hadoop: The Definitive Guide (3rd Edition)
chapter 1 解决计算能力不足的问题,不是去制造更大的计算机,而是用更多的计算机来解决问题. 我们生活在一个数据的时代."大数据"的到来不仅仅是影响到那些科研和金融机构,对小 ...
- 读书笔记《Hadoop权威指南第4版(Hadoop The Definitive Guide 4th)》
Chapter 1 Meet Hadoop Data Storage and Analysis The problem is simple: although the storage capaciti ...
- 《Spark -- The Definitive Guide》学习笔记Note.1
华罗庚先生说过,"把薄书读厚,把厚书读薄".厚书读薄是梳理脉络,让整体结构变清晰.薄书读厚则是通过查证思考,对原文加以扩增,甚至达到批驳原文的程度.自小偏爱闲书,但在" ...
- 《Spark The Definitive Guide》Spark 权威指南学习计划
本书出自OReilly的<Spark: The Definitive Guide Big Data Processing Made Simple>,由Matei Zaharia, Bill ...
- 《Spark -- The Definitive Guide》学习笔记Note.2
上一期中,通过翻译与凝练<Spark – The Definitive Guide>,我们初步解决了Spark是什么的问题,今天我们将继续学习Spark的基本架构,应用程序,结构化AP ...
- 《Presto(Trino)——The Definitive Guide》CHAPTER 6 Connectors Advanced CHAPTER 7 Connector Examples
Presto(暂译:普雷斯托)系列文章目录-CHAPTER 6 Connectors This book provides a great introduction to Presto and tea ...
- 《Spark The Definitive Guide》Chapter 6:处理不同类型的数据
前言 更多内容,参见:<Spark The Definitive Guide>Spark 权威指南学习计划 Chapter 6:处理不同类型的数据 这一章如题所示讲的就是如何使用DataF ...
- 《A Definitive Guide to Apache ShardingSphere》海外正式上市
近日,由 Apache ShardingSphere 核心成员潘娟.张亮.亚幸共同撰写的<A Definitive Guide to Apache ShardingSphere>技术书籍, ...
最新文章
- 三维点云去噪无监督学习:ICCV2019论文分析
- SAP HUM LT27可以看一个HU相关的TO单历史
- Warning:date():It is not safe to rely on the syste
- MTK android flash配置
- php jsonp实例 mip无限滚动组件接口注意事项
- APP性能之终端兼容
- 遍历文件夹_使用JavaScript遍历本地文件夹的文件
- (十五)算法设计思想之“回溯算法”
- python切换消息窗_用Python切换窗口
- 翻译的一篇关于学习编程语言的小文章
- MongoDB分析工具之三:db.currentOp()
- Android 监听开机完成广播,完成监听SIM卡功能
- [SQL Server 2014] SQL Server 2014新特性探秘
- 【Android】spannableStringBuilder
- hive血缘关系之输入表与目标表的解析
- SQL Server触发器更新原理
- springboot异常处理机制之统一异常处理和自定义异常类
- 乾颐堂现任明教教主(2014年课程)TCPIP协议详解卷一 第三节课笔记
- mysql 树形结构表设计与优化
- 明源云与华为联合发起828 B2B企业节,共同成就好生意!