Hadoop中的压缩Codec

作为输入

当压缩文件作为MapReduce的输入时，MapReduce将自动通过扩展名找到相应的Codec对其解压。

作为输出

当MapReduce的输出文件需要压缩时，可以更改mapred.output.compress为true，mapred.output.compression.codec为想要使用的codec的类名称，当然你可以可以在代码中指定，通过调用FileOutputFormt的静态方法去设置这两个属性：

package com.hadoop.codecs;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.compress.GzipCodec;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class CodecDemo {

public static void main(String[] args) throws Exception {

if (args.length!=2){

System.exit(-1);

}

Job job=new Job();

job.setJarByClass(CodecDemo.class);

job.setJobName("CodecDemo");

FileInputFormat.addInputPath(job, new Path(args[0]));

FileOutputFormat.setOutputPath(job, new Path(args[1]));

job.setMapperClass(MyMapper.class);

job.setCombinerClass(MyReducer.class);

job.setReducerClass(MyReducer.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(LongWritable.class);

//设置输出压缩开启

FileOutputFormat.setCompressOutput(job, true);

//设置压缩类:GzipCodec

FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);

System.exit(job.waitForCompletion(true)?0:1);

}

使用CompressionCodes解压缩

/*

使用CompressionCodes解压缩CompressionCodec有两个方法可以方便的压缩和解压。

压缩：通过createOutputStream(OutputStream out)方法获得CompressionOutputStream对象

解压：通过createInputStream(InputStream in)方法获得CompressionInputStream对象

从命令行接受一个CompressionCodec实现类的参数，然后通过ReflectionUtils把实例化这个类，调用CompressionCodec的接口方法对标准输出流进行封装，封装成一个压缩流，通过IOUtils类的copyBytes方法把标准输入流拷贝到压缩流中，最后调用CompressionCodec的finish方法，完成压缩。

*/

package com.hadoop.codecs;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.io.IOUtils;

import org.apache.hadoop.io.compress.CompressionCodec;

import org.apache.hadoop.io.compress.CompressionOutputStream;

import org.apache.hadoop.util.ReflectionUtils;

public class Compressors {

public static void main(String[] args) throws Exception {

String codecClassName = args[0];

Class<?> codecClass = Class.forName(codecClassName);

Configuration conf = new Configuration();

CompressionCodec codec = (CompressionCodec) ReflectionUtils.newInstance(codecClass, conf);

CompressionOutputStream out = codec.createOutputStream(System.out);

IOUtils.copyBytes(System.in, out, 4096, false);

out.finish();

}

使用CompressionCodecFactory解压缩

/*

如果你想读取一个被压缩的文件的话，首先你得先通过扩展名判断该用哪种codec，当然有更简便得办法，CompressionCodecFactory已经帮你把这件事做了，通过传入一个Path调用它得getCodec方法,即可获得相应得codec。

注意看下removeSuffix方法，这是一个静态方法，它可以将文件的后缀去掉，然后我们将这个路径做为解压的输出路径。CompressionCodecFactory能找到的codec也是有限的，默认只有三种org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.DefaultCodec,如果想添加其他的codec你需要更改io.compression.codecs属性，并注册codec。

*/

package com.hadoop.codecs;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

import org.apache.hadoop.io.compress.CompressionCodec;

import org.apache.hadoop.io.compress.CompressionCodecFactory;

import java.io.IOException;

import java.io.InputStream;

import java.io.OutputStream;

import java.net.URI;

public class FileDecompressor {

public static void main(String[] args) throws Exception {

String uri = args[0];

Configuration conf = new Configuration();

FileSystem fs = FileSystem.get(URI.create(uri), conf);

Path inputPath = new Path(uri);

CompressionCodecFactory factory = new CompressionCodecFactory(conf);

CompressionCodec codec = factory.getCodec(inputPath);

if (codec == null) {

System.out.println("No codec found:" + uri);

System.exit(1);

}

String outputUri = CompressionCodecFactory.removeSuffix(uri, codec.getDefaultExtension());

InputStream in = null;

OutputStream out = null;

try {

in = codec.createInputStream(fs.open(inputPath));

out = fs.create(new Path(outputUri));

IOUtils.copyBytes(in,out,conf);

} finally {

IOUtils.closeStream(in);

IOUtils.closeStream(out);

}

Hadoop中的压缩Codec相关推荐

hadoop中MapReduce中压缩的使用及4种压缩格式的特征的比较
在比较四中压缩方法之前,先来点干的,说一下在MapReduce的job中怎么使用压缩. MapReduce的压缩分为map端输出内容的压缩和reduce端输出的压缩,配置很简单,只要在作业的conf中 ...
关于几种压缩算法以及hadoop和hbase中的压缩配置说明
Hadoop中常用的压缩算法有bzip2.gzip.lzo.snappy,其中lzo.snappy需要操作系统安装native库才可以支持下面这张表,是比较官方一点的统计,不同的场合用不同的压缩算法 ...
Hadoop在MapReduce中使用压缩详解
Hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,Hadoop能够自动为我们将压缩的文件解压,而不用我们去关心. AD:51CTO学院:IT精品课程在线看! Hadoo ...
4种常用压缩格式在hadoop中的应用
目前在hadoop中用得比较多的有lzo,gzip,snappy,bzip2这4种压缩格式,笔者根据实践经验介绍一下这4种压缩格式的优缺点和应用场景,以便大家在实践中根据实际情况选择不同的压缩格式. ...
Hadoop SequnceFile.Writer 压缩模式及压缩库浅析
2019独角兽企业重金招聘Python工程师标准>>> 先说明SequnceFile的压缩类型(Compression Type)分为三种NONE,RECORD,BLOCK,通过配置 ...
hadoop中使用lzo压缩算法
在hadoop中使用lzo的压缩算法可以减小数据的大小和数据的磁盘读写时间,不仅如此,lzo是基于block分块的,这样他就允许数据被分解成chunk,并行的被hadoop处理.这样的特点,就可以让l ...
Hadoop之Lzo压缩配置
Hadoop之Lzo压缩配置一.hadoop-lzo编译 hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件.hadoop-lzo需依赖hadoop和lz ...
hadoop 实现文件压缩
hadoop 实现文件压缩转载http://blog.csdn.net/u011491148/article/details/9966369# 感谢转载的博主分享! cd /home/xm/com ...
MapReduce中的压缩和解压缩
在MR中,压缩是个可选项,是为了减少IO流次数一.概述压缩技术能够有效减少底层存储系统(HDFS)读写字节数.压缩提高了网络带宽和磁盘空间的效率.在运行MR程序时,I/O操作.网络数据传输. Sh ...

Hadoop中的压缩Codec

Hadoop中的压缩Codec相关推荐

最新文章

热门文章