1. 功能说明


使用snappy压缩来提升mapreduce和hbase的性能。其实就是用CPU换IO吞吐量和磁盘空间。配置并使用snappy有如下几点要求:

  • 首先需要hadoop集群的native库已经收到编译好,并且添加了对snappy的支持。编译hadoop源码之前安装了snappy并且编译时指定-Drequire.snappy参数。(我使用的版本是hadoop-2.5.0-cdh5.3.3伪分布式)
  • 安装了maven(我使用的版本是3.0.5)
  • jdk已经成功安装并设置了JAVA_HOME(我使用的版本是1.7.0_75)

2. MapReduce配置snappy


配置过程参考官网(但是有所区别)

https://github.com/electrum/hadoop-snappy

2.1 测试MR


为了与后期配置完成snappy后进行对比我们先测试一个简单mapreduce程序,然后记录map的输出bytes大小

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.3.jar wordcount /wordcount/in /wordcount/out

2.2 安装依赖


首先在服务器上安装snappy,而安装snappy需要一系列的依赖,为了避免麻烦我们首先安装好这些依赖

$ sudo yum -y install gcc c++ autoconf automake libtool

2.3 下载snappy安装包


从官网下载snappy的安装包

http://pkgs.fedoraproject.org/repo/pkgs/snappy/snappy-1.1.1.tar.gz/8887e3b7253b22a31f5486bca3cbc1c2/snappy-1.1.1.tar.gz

2.4 上传部署


将snappy-1.1.1.tar.gz上传到服务器解压重命名为snappy-1.1.1,【SNAPPY_HOME】为【/usr/local/cdh-5.3.3/snappy-1.1.1】

2.5 安装snappy


进入【SNAPPY_HOME】目录下安装snappy

$ sudo ./configure
$ sudo make
$ sudo make install

注:一定要确保全程无Error!

如果安装成功的话进入【/usr/local/lib】目录下(默认位置),可以看到已经生成了snappy的库文件

$ cd /usr/local/lib
$ ll

2.6 下载hadoop-snappy


从github上将hadoop-snappy压缩包下载下来

https://github.com/electrum/hadoop-snappy

2.7 上传部署


将hadoop-snappy-master.zip部署到服务器解压重命名为hadoop-snappy-master

$ unzip hadoop-snappy-master.zip

2.8 编译hadoop-snappy


进入hadoop-snappy-master,使用maven进行编译

$ cd hadoop-snappy-master
$ mvn clean package

注:如果你的snappy是使用其他方式安装的请一定找到snappy的安装路径,并在编译的时候添加参数-Dsnappy.prefix=SNAPPY_INSTALLATION_DIR,不指定的话默认为【/usr/local】目录。

编译好的tar包在当前目录下的target目录下(hadoop-snappy-0.0.1-SNAPSHOT.tar.gz)

2.9 配置


2.9.1 配置native


将2.7中编译得到的hadoop-snappy-0.0.1-SNAPSHOT.tar.gz解压,拷贝需要的jar包和native到hadoop的lib目录下

$ tar -zxvf hadoop-snappy-0.0.1-SNAPSHOT.tar.gz
$ cp hadoop-snappy-0.0.1-SNAPSHOT/lib/hadoop-snappy-0.0.1-SNAPSHOT.jar $HADOOP_HOME/lib
$ cp hadoop-snappy-0.0.1-SNAPSHOT/lib/native/Linux-amd64-64/* $HADOOP_HOME/lib/native/

2.9.2 配置core-site.xml


配置hadoop集群的的core-site.xml文件,添加如下参数:

<property><name>io.compression.codecs</name><value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec
,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.SnappyCodec</value>
</property>

2.9.3 配置mapred-site.xml


配置hadoop集群的mapred-site.xml,添加如下参数:

<property><name>mapreduce.map.output.compress</name><value>true</value>
</property>
<property><name>mapreduce.map.output.compress.codec</name><value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>

注:为了测试方便我们只配置map的输出压缩。

2.9.4 重启hadoop集群


修改完core-site.xml和mapred-site.xml文件后重启hadoop集群。

2.10 验证MapReduce


重新运行2.1节中的mapreduce程序

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.3.jar wordcount /wordcount/in /wordcount/out2

2.11 错误记录


问题描述

在2.9.1节中配置native库时按照官方文档是将整个编译解压后的snappy lib目录下的所有内容都拷贝到HADOOP_HOME/lib目录下

$ cp -r hadoop-snappy-0.0.1-SNAPSHOT/lib/* $HADOOP_HOME/lib

但是在测试MR的时候提示无法加载到snappy的library

Caused by: java.lang.RuntimeException: native snappy library not available: SnappyCompressor has not been loaded.at org.apache.hadoop.io.compress.SnappyCodec.checkNativeCodeLoaded(SnappyCodec.java:69)at org.apache.hadoop.io.compress.SnappyCodec.getCompressorType(SnappyCodec.java:132)at org.apache.hadoop.io.compress.CodecPool.getCompressor(CodecPool.java:148)at org.apache.hadoop.io.compress.CodecPool.getCompressor(CodecPool.java:163)at org.apache.hadoop.mapred.IFile$Writer.<init>(IFile.java:114)at org.apache.hadoop.mapred.IFile$Writer.<init>(IFile.java:97)at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1602)at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$900(MapTask.java:873)at org.apache.hadoop.mapred.MapTask$MapOutputBuffer$SpillThread.run(MapTask.java:1525)

解决办法

按照2.9.1节中配置native库即可,其实就是将Linux-amd64-64文件夹下的snappy库文件都直接放到$HADOOP_HOME/lib/native目录下。网上说的各种配置环境变量什么的都试过了,没有起到作用。

3. HBase配置snappy


3.1 配置native


参照2.9.1中步骤将hadoop-snappy-0.0.1-SNAPSHOT.jar和snappy的library拷贝到HBASE_HOME/lib目录下即可

$ cp hadoop-snappy-0.0.1-SNAPSHOT/lib/hadoop-snappy-0.0.1-SNAPSHOT.jar $HBASE_HOME/lib
$ mkdir $HBASE_HOME/lib/native
$ cp -r hadoop-snappy-0.0.1-SNAPSHOT/lib/native/Linux-amd64-64/* $HBASE_HOME/lib/native/

注: 如果创建失败则使用如下命令

$ cp hadoop-snappy-0.0.1-SNAPSHOT/lib/hadoop-snappy-0.0.1-SNAPSHOT.jar $HBASE_HOME/lib
$ mkdir $HBASE_HOME/lib/native/Linux-amd64-64
$ cp -r hadoop-snappy-0.0.1-SNAPSHOT/lib/native/Linux-amd64-64/* $HBASE_HOME/lib/native/Linux-amd64-64/

3.2 重启HBase集群


重启HBase集群

3.3 验证


先使用以下命令测试snappy对hbase是否可用

$ bin/hbase org.apache.hadoop.hbase.util.CompressionTest hdfs://hadoop-main.dimensoft.com.cn:8020/wordcount/out2/part-r-00000 snappy

注:hdfs://hadoop-main.dimensoft.com.cn:8020/wordcount/put2/part-r-00000是在2.10节中验证MapReduce使用snappy时候的输出文件

进入HBase的CLI创建数据表,指定压缩方式

> create 'company', { NAME => 'department', COMPRESSION => 'snappy'}
> describe 'company'

插入数据

> put 'company', '001', 'department:name', 'develop'
> put 'company', '001', 'department:address', 'sz'

查询

> scan 'company'

4. Uber模式使用Snappy


配置了uber模式后使用上述的snappy压缩配置方法后mapreduce程序运行报错:

2015-06-17 04:27:48,905 FATAL [uber-SubtaskRunner] org.apache.hadoop.mapred.LocalContainerLauncher: Error running local (uberized) 'child' : java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Zat org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy(Native Method)at org.apache.hadoop.io.compress.SnappyCodec.checkNativeCodeLoaded(SnappyCodec.java:63)at org.apache.hadoop.io.compress.SnappyCodec.getCompressorType(SnappyCodec.java:132)at org.apache.hadoop.io.compress.CodecPool.getCompressor(CodecPool.java:148)at org.apache.hadoop.io.compress.CodecPool.getCompressor(CodecPool.java:163)at org.apache.hadoop.mapred.IFile$Writer.<init>(IFile.java:114)at org.apache.hadoop.mapred.IFile$Writer.<init>(IFile.java:97)at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1602)at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.flush(MapTask.java:1482)at org.apache.hadoop.mapred.MapTask$NewOutputCollector.close(MapTask.java:720)at org.apache.hadoop.mapred.MapTask.closeQuietly(MapTask.java:2012)at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:794)at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)at org.apache.hadoop.mapred.LocalContainerLauncher$EventHandler.runSubtask(LocalContainerLauncher.java:370)at org.apache.hadoop.mapred.LocalContainerLauncher$EventHandler.runTask(LocalContainerLauncher.java:295)at org.apache.hadoop.mapred.LocalContainerLauncher$EventHandler.access$200(LocalContainerLauncher.java:181)at org.apache.hadoop.mapred.LocalContainerLauncher$EventHandler$1.run(LocalContainerLauncher.java:224)at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)at java.util.concurrent.FutureTask.run(FutureTask.java:262)at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)at java.lang.Thread.run(Thread.java:745)

这是因为在uber模式下无法加载到snappy的native,解决办法是在mapred-site.xml中添加如下配置:

<property><name>yarn.app.mapreduce.am.env</name><value>LD_LIBRARY_PATH=$HADOOP_HOME/lib/native</value>
</property>

https://issues.apache.org/jira/browse/MAPREDUCE-5799

注:如果是CM安装的CDH版本hadoop则snappy的native在【/opt/cloudera/parcels/CDH/lib/hadoop/lib/native】目录下。

配置Snappy压缩相关推荐

  1. 单机hbase-2.4.15配置snappy压缩

    单机hbase配置snappy压缩 前言 1. 过程比较坎坷,网上帖子说法不一,以下过程是参考几个帖子亲自走过一遍,并最终可以成功建表.2. 本人安装的所有目录均为/data/test-hbase,涉 ...

  2. Hadoop/HBase 配置snappy压缩

    Hadoop/HBase 开启snappy压缩 参考链接 hadoop-snappy Google Code snappy.compression hbase docs cnblogs参考资料 ins ...

  3. hadoopsnappy解压_Hadoop Snappy 压缩的安装和配置

    snappy是google的一个开源的压缩库,在合理的压缩率的前提下提供了提供了一个很高的压缩/解压的速度,利用单颗Intel Corei7处理器内核处理达到每秒处理250MB~500MB的数据流.s ...

  4. HDFS和Spark配置LZO压缩,Spark读取LZO创建正常Task数量

    1.说明 为了解决,数据日益增长并且目前使用Snappy压缩导致的Spark读取时会出现OOM,并且处理起来速度过慢的问题,决定使用LZO+Index来解决问题. 线上Hadoop版本3.2.1,Sp ...

  5. Hadoop配置lzo压缩

    前言 OS:CentOS 7 hadoop:2.7.7 lzo:lzo-2.10 Apache Maven:3.6.0 JDK:1.8.0_221 hadoop-lzo是一个围绕lzo压缩算法实现的M ...

  6. python使用snappy压缩

    今天在网上找了很久,终于找到1个snappy压缩命令行,记录下来: 1.wget https://bootstrap.pypa.io/get-pip.py 2.python ./get-pip.py ...

  7. Spark读取HDFS上的Snappy压缩文件所导致的内存溢出问题 java.lang.OutOfMemoryError: GC overhead limit exceeded

    报错java.lang.OutOfMemoryError: GC overhead limit exceeded HDFS上有一些每天增长的文件,使用Snappy压缩,突然某天OOM了 1.原因: 因 ...

  8. 【hive】hive常见的几种文件存储格式与压缩方式的结合-------Parquet格式+snappy压缩 以及ORC格式+snappy压缩文件的方式

    一.使用Parquet存储数据 数据使用列存储之前是普通的行存储,下面是行存储的的文件大小,这个HDFS上的数据 使用parquet列存储,可以将文件的大小减小化.下面具体讲parquet存储数据的代 ...

  9. [转载]IIS 6.0配置HTTP压缩的步骤

    [转载]IIS 6.0配置HTTP压缩的步骤 原文: http://zlei12.go.nease.net/ 1. HTTP压缩概述 HTTP压缩是在Web服务器和浏览器间传输压缩文本内容的方法.HT ...

  10. Snappy压缩库安装和使用之一

     近日需要在毕业设计中引入一个压缩库,要求压缩与解压缩速度快,但是压缩率可以不那么苛刻.查找资料发现Google的snappy库比较合适,而且该库开源,由C++写成.所以就拿来使用一下,下面权作记 ...

最新文章

  1. 云终端处理器——Atom
  2. overlapped I/O的学习笔记
  3. 思科交换机和路由器的远程配置
  4. docker-macvlan网络
  5. lua-nginx-module directives 中文版
  6. ubuntu下数据库的导入导出
  7. 查看回调函数执行在那个线程中的方法
  8. TClientDataSet[1]: 浏览测试数据
  9. 一步一步学习Servlet输出HelloServlet详解
  10. 《恋上数据结构第1季》动态数组实现栈
  11. Harmony OS — ToastDialog提示对话框
  12. 8. jQuery 效果 - 动画
  13. 电脑突然出现成功连接网络但不能上网、网络受限(解决办法)
  14. vss服务器状态失败_VSS常犯错误(转载)
  15. 《塞尔达传说:旷野之息》中设计元素的分析
  16. K8S YAML 详解
  17. 【最大似然估计】详解概率论之最大似然估计
  18. DISM命令使用小结
  19. 对element多级联动键盘移动会被隐藏bug解决-感觉不太好但也实现了-看有没有爸爸优化下
  20. 作为一个普通本科学生我大学四年到底走了多少弯路

热门文章

  1. coredump 瘦身风云
  2. 计算机网络 路由协议的配置_瑞尔森大学计算机网络专业
  3. 使用腾讯 CDN,结果网站现在出现您的连接不是私密连接”“,”隐私设置错误”如何解决?
  4. seurat质控Warning: Feature names cannot have underscores (‘_‘), replacing with dashes (‘-‘)
  5. 使用JLINK和Jscope遇到的一些问题
  6. 厦大计算机考研学硕,2021厦大计算机考研招生、复试、书目专业大解析!
  7. 计算机电缆的最小弯曲半径,电缆最小弯曲半径-知道电缆长度直径弯曲半径,怎么计算出电缆盘大小-电工基础 - 电工屋...
  8. 一键生成表白页面,个人网站,在线制作生成网站php源码
  9. 前端学习之路, 记录前端小白成长历程, 学习总结, 工具汇总, 打造开箱即用的学习体验
  10. 计算机网络体系结构中协议和服务的差别,第3章 计算机网络体系结构及协议 -4-2...