笔记:Hadoop权威指南 第4章 Hadoop I/O
一、HDFS数据完整性保证
1、DataNode在读取和写入的时候验校验和
2、后台线程DataBlockScanner 也会检查校验和
3、若检查到检验和错误,则报告namenode,自动进行删除、复制、恢复操作。
二、压缩
1、好处:减少存储的磁盘空间;加速数据在网络和磁盘上的传输。
2、支持切分的压缩:bzip2 (LZO不支持)
3、Map任务中进行压缩,可以减少数据量,提升性能。
三、序列化
1、序列化用途:远程通信、持久存储。
2、Writable接口:实现 write (DataOutput out), readFields(DataInput in) 方法。
3、WriteComparable 接口:
4、Writable 类:IntWritable、VintWritable、LongWritable、VlongWritable、FloatWritable、DoubleWritable、BooleanWritable、Text、BytesWritable、NullWritable、ObjectWritable
5、Writable集合:ArrayWritable、TwoDArrayWritable、MapWritable、SortedMapWritable
四、基于文件的数据结构
1、SequenceFile
用途:(1)、记录二进制类型;(2)、将小文件包装起来,获得更高效率的存储和处理。
2、MapFile
MapFile 就是已经排序的SequenceFile,加入了用于搜索键的索引。
转载于:https://www.cnblogs.com/leeeee/p/7276215.html
笔记:Hadoop权威指南 第4章 Hadoop I/O相关推荐
- 《Hadoop权威指南》第二章 关于MapReduce
<Hadoop权威指南>第二章 关于MapReduce 目录 使用Hadoop来数据分析 横向扩展 注:<Hadoop权威指南>重点学习摘要笔记 1. 使用Hadoop来数据分 ...
- 笔记:Hadoop权威指南 第1章 初识Hadoop
大数据处理遇到问题: (1).磁盘存储容量快速增加,但是访问速度进步不大:用户乐意使用磁盘共享访问. (2).硬件故障,可以使用备份解决. (3).分布式系统,需要可靠性. 关系数据库与MapRedu ...
- 读书笔记《Hadoop权威指南第4版(Hadoop The Definitive Guide 4th)》
Chapter 1 Meet Hadoop Data Storage and Analysis The problem is simple: although the storage capaciti ...
- 《Hadoop权威指南》第三章 Hadoop分布式文件系统
<Hadoop权威指南>第三章 Hadoop分布式文件系统 目录 前言 HDFS的设计 HDFS的概念 命令行接口 Hadoop文件系统 Java接口 数据流 通过distcp并行复制 注 ...
- 《Hadoop权威指南》读书笔记1
<Hadoop权威指南>读书笔记 Day1 第一章 1.MapReduce适合一次写入.多次读取数据的应用,关系型数据库则更适合持续更新的数据集. 2.MapReduce是一种线性的可伸缩 ...
- 《Hadoop 权威指南》读书笔记之七 — chapter7
<Hadoop 权威指南>读书笔记之七 - chapter7[updating-] The whole process of MapReduce at the highes level,t ...
- Hadoop权威指南学习笔记三
HDFS简单介绍 声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考.有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.net/my ...
- Hadoop权威指南学习笔记一
Hadoop简单介绍 声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出.一起学习一起进步. 转载请注明:http://blog.csdn.net/ ...
- 《Hadoop权威指南》学习笔记(一)
本博文是我学习<Hadoop权威指南>3.5节的笔记,主要是里面范例程序的实现,部分实现有修改 1 从Hadoop读取数据 首先新建一个文本文件test.txt作为测试 hadoop fs ...
最新文章
- CentOS7.2中NFS1.3 安装
- Mac Pro 开机自启动 PHP-FPM,Nginx,MySql 等软件
- BZOJ 3994: [SDOI2015]约数个数和 [莫比乌斯反演 转化]
- java.security_Java开发网 - java.security.NoSuchAlgorithmException 问题的一些解决
- 【BZOJ】 3238: [Ahoi2013]差异
- 通过shell脚本实现批量更改密码
- .net动态控件的使用(listview ,treeview,tabControl)
- python文件的分类
- 大数据之-Hadoop3.x_MapReduce_HashPartitioner分区---大数据之hadoop3.x工作笔记0111
- tensorflow has no attribute logging
- 撞击测试软件,碰撞检测用什么软件?你会用Navisworks做碰撞检测吗?
- centos7 yum安装mysql后启动不起来问题
- 【转】mysql多表关联查询
- Activiti7 + Spring Boot + mybatis Plus + Oracle 数据库整合-学习篇(一)
- c语言延时函数的理解
- Android 9.0 开启飞行模式
- 第九周 练习判断闰年和平年
- RIPS user guide for fresh
- Excel中提取单元格(括号)内的信息
- 通过ajax记录打印信息
热门文章
- python初学者代码-Python-为什么Python是初学者的完美选择?
- python从入门到精通书-Python从入门到精通(资源汇总)
- python语音在线编辑-Python实时语音识别控制
- python的快速入门-Python快速入门,你想要的就在这里了!
- python代码大全o-Python 文件I/O
- 成都python工作-在成都学习Python能做什么?到底有没有发展前途?
- python使用什么来表示不同级别的语句块-python通过什么来区分不同的语句块?
- python零基础怎么学-零基础如何自学成为Python高手?
- python数字类型-Python Number(数字)
- python编程题-基本编程题 --python