一、HDFS数据完整性保证

1、DataNode在读取和写入的时候验校验和

2、后台线程DataBlockScanner 也会检查校验和

3、若检查到检验和错误,则报告namenode,自动进行删除、复制、恢复操作。

二、压缩

1、好处:减少存储的磁盘空间;加速数据在网络和磁盘上的传输。

2、支持切分的压缩:bzip2 (LZO不支持)

3、Map任务中进行压缩,可以减少数据量,提升性能。

三、序列化

1、序列化用途:远程通信、持久存储。

2、Writable接口:实现 write (DataOutput out), readFields(DataInput in) 方法。

3、WriteComparable 接口:

4、Writable 类:IntWritable、VintWritable、LongWritable、VlongWritable、FloatWritable、DoubleWritable、BooleanWritable、Text、BytesWritable、NullWritable、ObjectWritable

5、Writable集合:ArrayWritable、TwoDArrayWritable、MapWritableSortedMapWritable

四、基于文件的数据结构

1、SequenceFile

用途:(1)、记录二进制类型;(2)、将小文件包装起来,获得更高效率的存储和处理。

2、MapFile

MapFile 就是已经排序的SequenceFile,加入了用于搜索键的索引。

转载于:https://www.cnblogs.com/leeeee/p/7276215.html

笔记:Hadoop权威指南 第4章 Hadoop I/O相关推荐

  1. 《Hadoop权威指南》第二章 关于MapReduce

    <Hadoop权威指南>第二章 关于MapReduce 目录 使用Hadoop来数据分析 横向扩展 注:<Hadoop权威指南>重点学习摘要笔记 1. 使用Hadoop来数据分 ...

  2. 笔记:Hadoop权威指南 第1章 初识Hadoop

    大数据处理遇到问题: (1).磁盘存储容量快速增加,但是访问速度进步不大:用户乐意使用磁盘共享访问. (2).硬件故障,可以使用备份解决. (3).分布式系统,需要可靠性. 关系数据库与MapRedu ...

  3. 读书笔记《Hadoop权威指南第4版(Hadoop The Definitive Guide 4th)》

    Chapter 1 Meet Hadoop Data Storage and Analysis The problem is simple: although the storage capaciti ...

  4. 《Hadoop权威指南》第三章 Hadoop分布式文件系统

    <Hadoop权威指南>第三章 Hadoop分布式文件系统 目录 前言 HDFS的设计 HDFS的概念 命令行接口 Hadoop文件系统 Java接口 数据流 通过distcp并行复制 注 ...

  5. 《Hadoop权威指南》读书笔记1

    <Hadoop权威指南>读书笔记 Day1 第一章 1.MapReduce适合一次写入.多次读取数据的应用,关系型数据库则更适合持续更新的数据集. 2.MapReduce是一种线性的可伸缩 ...

  6. 《Hadoop 权威指南》读书笔记之七 — chapter7

    <Hadoop 权威指南>读书笔记之七 - chapter7[updating-] The whole process of MapReduce at the highes level,t ...

  7. Hadoop权威指南学习笔记三

    HDFS简单介绍 声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考.有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.net/my ...

  8. Hadoop权威指南学习笔记一

    Hadoop简单介绍 声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出.一起学习一起进步. 转载请注明:http://blog.csdn.net/ ...

  9. 《Hadoop权威指南》学习笔记(一)

    本博文是我学习<Hadoop权威指南>3.5节的笔记,主要是里面范例程序的实现,部分实现有修改 1 从Hadoop读取数据 首先新建一个文本文件test.txt作为测试 hadoop fs ...

最新文章

  1. CentOS7.2中NFS1.3 安装
  2. Mac Pro 开机自启动 PHP-FPM,Nginx,MySql 等软件
  3. BZOJ 3994: [SDOI2015]约数个数和 [莫比乌斯反演 转化]
  4. java.security_Java开发网 - java.security.NoSuchAlgorithmException 问题的一些解决
  5. 【BZOJ】 3238: [Ahoi2013]差异
  6. 通过shell脚本实现批量更改密码
  7. .net动态控件的使用(listview ,treeview,tabControl)
  8. python文件的分类
  9. 大数据之-Hadoop3.x_MapReduce_HashPartitioner分区---大数据之hadoop3.x工作笔记0111
  10. tensorflow has no attribute logging
  11. 撞击测试软件,碰撞检测用什么软件?你会用Navisworks做碰撞检测吗?
  12. centos7 yum安装mysql后启动不起来问题
  13. 【转】mysql多表关联查询
  14. Activiti7 + Spring Boot + mybatis Plus + Oracle 数据库整合-学习篇(一)
  15. c语言延时函数的理解
  16. Android 9.0 开启飞行模式
  17. 第九周 练习判断闰年和平年
  18. RIPS user guide for fresh
  19. Excel中提取单元格(括号)内的信息
  20. 通过ajax记录打印信息

热门文章

  1. python初学者代码-Python-为什么Python是初学者的完美选择?
  2. python从入门到精通书-Python从入门到精通(资源汇总)
  3. python语音在线编辑-Python实时语音识别控制
  4. python的快速入门-Python快速入门,你想要的就在这里了!
  5. python代码大全o-Python 文件I/O
  6. 成都python工作-在成都学习Python能做什么?到底有没有发展前途?
  7. python使用什么来表示不同级别的语句块-python通过什么来区分不同的语句块?
  8. python零基础怎么学-零基础如何自学成为Python高手?
  9. python数字类型-Python Number(数字)
  10. python编程题-基本编程题 --python