Hadoop之Hadoop序列化

Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输。所以，hadoop自己开发了一套序列化机制（Writable），特点如下：

紧凑
紧凑的格式能让我们充分利用网络带宽，而带宽是数据中心最稀缺的资源
快速
进程通信形成了分布式系统的骨架，所以需要尽量减少序列化和反序列化的性能开销，这是基本的；
可扩展
协议为了满足新的需求变化，所以控制客户端和服务器过程中，需要直接引进相应的协议，这些是新协议，原序列化方式能支持新的协议报文；
互操作
能支持不同语言写的客户端和服务端进行交互；

4. 常用数据序列化类型

Java类型	Hadoop Writable类型
boolean	BooleanWritable
byte	ByteWritable
int	IntWritable
float	FloatWritable
long	LongWritable
double	DoubleWritable
String	Text
map	MapWritable
array	ArrayWritable

5. 自定义bean对象实现序列化接口（Writable）

自定义bean对象要想序列化传输，必须实现序列化接口，需要注意以下7项。

必须实现Writable接口
反序列化时，需要反射调用空参构造函数，所以必须有空参构造

public FlowBean() {super();
}

重写序列化方法

@Overridepublic void write(DataOutput out) throws IOException {out.writeLong(upFlow);out.writeLong(downFlow);out.writeLong(sumFlow);}

重写反序列化方法

@Override
public void readFields(DataInput in) throws IOException {upFlow = in.readLong();downFlow = in.readLong();sumFlow = in.readLong();
}

注意反序列化的顺序和序列化的顺序完全一致
要想把结果显示在文件中，需要重写toString()，可用”\t”分开，方便后续用。
如果需要将自定义的bean放在key中传输，则还需要实现comparable接口，因为mapreduce框中的shuffle过程一定会对key进行排序。

@Override
public int compareTo(FlowBean o) {// 倒序排列，从大到小return this.sumFlow > o.getSumFlow() ? -1 : 1;
}

Hadoop之Hadoop序列化相关推荐

Java拾遗：004 - JDK、Hadoop、Hessian序列化
2019独角兽企业重金招聘Python工程师标准>>> JDK序列化在分布式架构中,序列化是分布式的基础构成之一,我们需要把单台设备上的数据通过序列化(编码.压缩)后通过网络传输给 ...
【云计算 Hadoop】Hadoop 版本生态圈 MapReduce模型
忘的差不多了, 先补概念, 然后开始搭建集群实战 ... . 一 Hadoop版本和生态圈 1. Hadoop版本 (1) Apache Hadoop版本介绍 Apache的开源项目开发流程 : ...
Hadoop——（Hadoop框架，Hadoop的优缺点，Hadoop1.x和2.x的版本区别，Hadoop架构，Hadoop目录结构）
文章目录大数据的简介 Hadoop框架 Hadoop的优缺点 Hadoop1.x和2.x的版本区别 Hadoop架构 Hadoop目录结构正常工作的Hadoop集群中Hadoop都分别需要启动哪些 ...
零基础linux安装hadoop步骤,hadoop的Linux下简单安装步骤
首先安装Hadoop cluster版本: $ curl -O http://archive.cloudera.com/cdh/3/hadoop-0.20.2-cdh3u6.tar.gz $ cd / ...
「hadoop」hadoop启动需要相关的命令（仅供本人使用）
#拷贝配置文件 cp -R /mnt/hgfs/D/SharedFiles/etc/hadoop/* /usr/hadoop/etc/hadoop #拷贝日志到win7 cp -R /usr/hado ...
[Linux][Hadoop] 将hadoop跑起来
前面安装过程待补充,安装完成hadoop安装之后,开始执行相关命令,让hadoop跑起来使用命令启动所有服务: hadoop@ubuntu:/usr/local/gz/hadoop-2.4.1$ . ...
BigData之Hadoop：Hadoop的简介、深入理解、下载、案例应用之详细攻略
BigData之Hadoop:Hadoop的简介.深入理解.下载.案例应用之详细攻略目录 Hadoop的简介 1.HDFS体系结构图 Hadoop的深入理解 0.深入了解Hadoop的其它相关基础知 ...
Hadoop之Hadoop企业优化（HDFS小文件优化）
Hadoop之Hadoop企业优化目录 MapReduce 跑的慢的原因 MapReduce优化方法之数据输入 MapReduce优化方法之Map阶段 MapReduce优化方法之Reduce阶段 ...
Hadoop之Hadoop数据压缩
Hadoop之Hadoop数据压缩目录概述 MR支持的压缩编码 Gzip压缩 Bzip2压缩 Lzo压缩 Snappy压缩压缩位置选择压缩参数配置 1. 概述压缩技术能够有效减少底层存储系统 ...

Hadoop之Hadoop序列化

Hadoop之Hadoop序列化

目录

1. 什么是序列化

2. 为什么要序列化

3. 为什么不用Java的序列化

4. 常用数据序列化类型

5. 自定义bean对象实现序列化接口（Writable）

Hadoop之Hadoop序列化相关推荐

最新文章

热门文章