1 tez介绍

tez是一个apache的开源项目,意在构建一个应用框架,能通过复杂任务的DAG来处理数据。它是基于当前的hadoop yarn之上,换句话就是yarn为其提供资源。

tez主要的两个设计目标:

增强终端用户使用:

灵活的数据流定义API

灵活的输入输出运行时模型(强调处理模型)

数据类型无关

简洁部署

高性能执行:

通过mapreduce提高性能

资源优化管理

执行时计划重定义

物理数据流的动态决策

tez可以像Apache Hive和Apache Pig这样的项目运行复杂的任务DAG,Tez可以用于处理数据,早期使用了多个MR作业,现在在单个Tez作业中

注:

天蓝色方块为map,绿色方块为reduce,云状的为输出隐藏,绿色的圆圈为一个mr。

参考官网:http://tez.apache.org/

2 tez的安装

2.1 tez下载

tez提供咯二进制包和源码包,二者官网下载路径:
https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.9.2/

注:
官方提供咯源码包和二进制包,我这儿就不在下载源码来编译,而是直接使用其二进制包来安装。

我直接下载的apache-tez-0.9.2-bin.tar.gz这个

2.2 tez源码编译

暂时不下载源码包来编译,费时,可以自行参考官网编译。参考官网编译地址:
http://tez.apache.org/install.html

2.3 tez的安装

1.解压重命名:

1.解压重命名:
[root@hadoop01 ~]# tar -zxvf /home/apache-tez-0.9.2-bin.tar.gz -C /usr/local/
[root@hadoop01 ~]# mv /usr/local/apache-tez-0.9.2-bin/ /usr/local/tez-0.9.2/

2.上传tez.tar.gz到hdfs中一个目录

注意要提前开启hadoop集群

上传tez.tar.gz到hdfs中一个目录中:
[root@hadoop01 tez-0.9.0]# hdfs dfs -mkdir /tez-0.9.2
[root@hadoop01 tez-0.9.0]# hdfs dfs -put /usr/local/tez-0.9.2/share/tez.tar.gz /tez-0.9.2

1.tez.tar.gz 就是tez-0.9.2/share/ 下的

3.配置环境变量

配置环境:
[root@hadoop01 ~]# vi /etc/profile
增加内容如下:
```shell
export TEZ_CONF_DIR=/usr/local/hadoop-2.7.1/etc/hadoop
export TEZ_JARS=/usr/local/tez-0.9.2
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$TEZ_CONF_DIR:${TEZ_JARS}/*::${TEZ_JARS}/lib/*


然后保存退出,source一下,验证环境变量即可。

[root@hadoop01 ~]# source /etc/profile

4.配置配置文件tez-site.xml

在hadoop的配置目录下创建tez-site.xml配置文件,内容如下: 这个配置文件记得分发到其他两台!

[root@hadoop01 tez-0.9.0]# vi /usr/local/hadoop-2.7.1/etc/hadoop/tez-site.xml
文件中添加如下内容:<configuration><property><name>tez.lib.uris</name><value>${fs.defaultFS}/tez-0.9.2/tez.tar.gz</value></property><property><name>tez.container.max.java.heap.fraction</name><value>0.2</value></property>
</configuration>

5. tez和hadoop的兼容

tez下的lib目录中的hadoop包的版本和真实安装的hadoop版本不一致,需要将其jar包换成一致.
删除不符合版本的jar:
[root@hadoop01 tez-0.9.2]# rm -rf ./lib/hadoop-mapreduce-client-core-2.7.0.jar ./lib/hadoop-mapreduce-client-common-2.7.0.jar
重新再hadoop目录中拷贝:
[root@hadoop01 tez-0.9.2]# cp /usr/local/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-client-common-2.7.1.jar /usr/local/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.7.1.jar /usr/local/tez-0.9.2/lib/

就这5步 tez就配置好了

然后重启hadoop集群即可

注意

1.只在hadoop01配置了tez 所以只能在第一台使用hive跑tez 若想三台都用 同样的方法配置其他几台即可

2.若安装tez前安装了lzo压缩,第一次运行会报错 找不到lzo的jar包

只要在hive的conf下的hive.env.sh上加一下该jar包的位置 重启hive即可

若hive的hive.env.sh还有后缀.template记得去掉
如下
我的lzo的包在hadoop的share的common下

export HIVE_AUX_JARS_PATH=/usr/local/hadoop-2.7.1/share/hadoop/common/hadoop-lzo-0.4.21-SNAPSHOT.jar

找不到lzo的报错信息Compression codec com.hadoop.compression.lzo.LzoCodec not found.

java.io.IOException: Cannot create an instance of InputFormat class org.apache.hadoop.mapred.TextInputFormat as specified in mapredWork!
Caused by: java.lang.RuntimeException: Error in configuring object
Caused by: java.lang.reflect.InvocationTargetException
Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo.LzoCodec not found.
Caused by: java.lang.ClassNotFoundException: Class com.hadoop.compression.lzo.LzoCodec not found

6. tez和hive结合

如果要将hive的执行引擎更换成tez,则只需要设置执行引擎即可。
set hive.execution.engine=tez;

临时的是

若想hive默认走tez引擎
改hive的配置文件 默认走tez

vi /usr/local/hive-1.2.1/conf/hive-site.xml<property><name>hive.execution.engine</name><value>tez</value><description>Expects on of [mr tez spark]</description>
</property>

注意:

1、jar包冲突问题。

2、tez引擎不能使用,需要测试判断。

7.tez与hadoop

请参考这篇博客,解决lzo错误 也是出自这篇博客
Hive2.3.6更换TEZ引擎
按照其方法试了
可以跑任务

但在hadoop上运行没有进度条

查看聚合日志 mr记录 会有yarn运行时异常

Caused by: java.lang.InterruptedExceptionat java.util.concurrent.locks.AbstractQueuedSynchronizer.acquireInterruptibly(AbstractQueuedSynchronizer.java:1220)at java.util.concurrent.locks.ReentrantLock.lockInterruptibly(ReentrantLock.java:335)at java.util.concurrent.LinkedBlockingQueue.put(LinkedBlockingQueue.java:339)at org.apache.tez.common.AsyncDispatcher$GenericEventHandler.handle(AsyncDispatcher.java:347)... 6 more
2019-09-20 09:32:51,490 [ERROR] [ContainerLauncher #4] |yarn.YarnUncaughtExceptionHandler|: Thread Thread[ContainerLauncher #4,5,main] threw an Exception.
org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.lang.InterruptedException

所以我就没有用
只是配置了hive默认走tez引擎 然后启动 hive --service metastore & 元数据服务 进入hive 有炫酷的进度条

但是查看8088 聚合日志 虽然任务可以跑 但是日志最后一直报异常 不知道咋回事

3 tez案例

3.1 tez执行

我执行insert前已经set hive.execution.engine=tez;设置了引擎了
以前默认是mr
将引擎临时替换成tez

创建表:
create table if not exists tz(
id int,
age int
)
row format delimited fields terminated by '\t'
;create table if not exists tz_par(
age int,
age_cnt int
)
partitioned by(dt string)
row format delimited fields terminated by '\t'
;数据:
vi /home/tz
zs  16
ls  18
ww  18
goudan  18
mazi    16加载数据:
load data local inpath "/home/tz" into table tz;执行查询:insert into tz_par partition(dt="2019-08-12")
select
age,
count(*)
from tz
group by age
;
执行状态和查看结果,如下图:

mr的

tez的(这是hivesever2的界面 没有那个进度条 但查看8088是用的tez引擎)

这是开启元数据服务的界面 挺炫酷的

3.2 还原mr执行

一般情况下,除非整个项目以tez执行,如果仅仅是一部分,则需要两个执行引擎随时切换。执行查询:set hive.execution.engine=mr;

到此为止,证明真的可以使用tez引擎来计算咯。

4 tez优化

一、AM、Container大小设置
1、tez.am.resource.memory.mb  #设置 tez AM容器内存默认值:1024  配置文件:tez-site.xml建议:不小于或者等于yarn.scheduler.minimum-allocation-mb值。2、hive.tez.container.size  #设置 tez container内存默认值:-1默认情况下,Tez将生成一个mapper大小的容器。这可以用来覆盖默认值。配置文件:hive-site-xml建议:不小于或者是yarn.scheduler.minimum-allocation-mb的倍数二、AM、Container JVM参数设置
1、tez.am.launch.cmd-opts  #设置 AM jvm,启动TEZ任务进程期间提供的命令行选项。默认值:-XX:+PrintGCDetails -verbose:gc -XX:+PrintGCTimeStamps -XX:+UseNUMA -XX:+UseParallelGC(用于GC),默认的大小:80%*tez.am.resource.memory.mb配置文件:tez-site.xml建议:不要在这些启动选项中设置任何xmx或xms,以便tez可以自动确定它们。2、hive.tez.java.ops  #设置 container jvm默认值:Hortonworks建议“–server –Djava.net.preferIPv4Stack=true–XX:NewRatio=8 –XX:+UseNUMA –XX:UseG1G”,默认大小:80%*hive.tez.container.size说明:在hive 2.x的官方文档中没有找到这个参数。看有些博客里面有这个值。配置文件:hive-site.xml3、tez.container.max.java.heap.fraction  #设置task/AM占用jvm内存大小的比例。默认值:0.8配置文件:tez-site.xml说明:这个值按具体需要调整,当内存不足时,一般都要调小。三、Hive内存Map Join参数设置
1、tez.runtime.io.sort.mb  #设置输出排序内存大小默认值:100配置文件:tez-site.xml建议:40%*hive.tez.container.size,一般不超过2G
2、hive.auto.convert.join.noconditionaltask  #是否将多个mapjoin合并为一个默认值:true建议使用默认值。配置文件:hive-site.xml
3、hive.auto.convert.join.noconditionaltask.size  默认值:10000000  (10M)说明:这个参数使用的前提是hive.auto.convert.join.noconditionaltask值为true,多个mapjoin转换为1个时,所有小表的文件大小总和小于这个值,这个值只是限制输入的表文件的大小,并不代表实际mapjoin时hashtable的大小。 建议值:1/3* hive.tez.container.size配置文件:hive-site.xml
4、tez.runtime.unordered.output.buffer.size-mb  #如果不直接写入磁盘,使用的缓冲区大小默认值:100M建议:10%* hive.tez.container.size配置文件:tez-site.xml5、tez.am.container.reuse.enabled  #容器重用默认值:true配置文件:tez-ste.xml参考网址:https://www.cnblogs.com/yjt1993/p/11050791.html

有关日志的配置
yarn-site.xml


mared-site.xml

下面我的有关hadoop整合tez的部分记录 不完整

现在想让tez运行在hadoop

所以

1.环境变量 都配一下

vi /etc/profile

2.tez-site.xml 是不是三台机子都有

cd /usr/local/hadoop-2.7.1/etc/hadoop/tez-site.xmlexport TEZ_CONF_DIR=/usr/local/hadoop-2.7.1/etc/hadoop/
export TEZ_JARS=/usr/local/tez-0.9.2/
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$TEZ_CONF_DIR:${TEZ_JARS}/*::${TEZ_JARS}/lib/*

3.tez的文件夹 分发一下

scp -r /usr/local/tez-0.9.2/ hadoop02:/usr/local/

4.hive的env都发一下

cat /usr/local/hive-1.2.1/conf/hive-env.shexport HIVE_AUX_JARS_PATH=/usr/local/hadoop-2.7.1/share/hadoop/common/hadoop-lzo-0.4.21-SNAPSHOT.jar
这个路径三台机子都有吗 有cd /usr/local/hadoop-2.7.1/share/hadoop/common/

5.改hive的配置文件 默认走tez

vi /usr/local/hive-1.2.1/conf/hive-site.xml<property><name>hive.execution.engine</name><value>tez</value><description>Expects on of [mr tez spark]</description>
</property>

5.改mapred-site.xml 加yarn-tez

vi /usr/local/hadoop-2.7.1/etc/hadoop/mapred-site.xml <!--指定MapReduce的运行框架-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn-tez</value>
<final>true</final>
</property>

6.改hadoop-env.sh

vi /usr/local/hadoop-2.7.1/etc/hadoop/hadoop-env.sh# 运行tez新增以下内容
#是你的tez的解压安装目录
export TEZ_HOME=/usr/local/tez-0.9.2
for jar in `ls $TEZ_HOME |grep jar`; doexport HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$TEZ_HOME/$jar
done
for jar in `ls $TEZ_HOME/lib`; doexport HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$TEZ_HOME/lib/$jar
done

7.可以跑任务

但在hadoop上运行没有进度条

查看聚合日志 mr记录 会有yarn运行时异常

Caused by: java.lang.InterruptedExceptionat java.util.concurrent.locks.AbstractQueuedSynchronizer.acquireInterruptibly(AbstractQueuedSynchronizer.java:1220)at java.util.concurrent.locks.ReentrantLock.lockInterruptibly(ReentrantLock.java:335)at java.util.concurrent.LinkedBlockingQueue.put(LinkedBlockingQueue.java:339)at org.apache.tez.common.AsyncDispatcher$GenericEventHandler.handle(AsyncDispatcher.java:347)... 6 more
2019-09-20 09:32:51,490 [ERROR] [ContainerLauncher #4] |yarn.YarnUncaughtExceptionHandler|: Thread Thread[ContainerLauncher #4,5,main] threw an Exception.
org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.lang.InterruptedException

so 以 不用

将文件备份

恢复

只有hive默认使用tez即可

所以 hadoop-env.sh mapred-sited.xml 恢复

cd /usr/local/hadoop-2.7.1/etc/hadoop/[root@hadoop01 hadoop]# cp mapred-site.xml mapred-site.xml.tezbak
[root@hadoop01 hadoop]# vi mapred-site.xml[root@hadoop02 ~]# rm -rf /usr/local/hadoop-2.7.1/etc/hadoop/mapred-site.xml /usr/local/hadoop-2.7.1/etc/hadoop/hadoop-env.sh[root@hadoop01 hadoop]# scp -r /usr/local/hadoop-2.7.1/etc/hadoop/mapred-site.xml hadoop03:/usr/local/hadoop-2.7.1/etc/hadoop/scp -r /usr/local/hadoop-2.7.1/etc/hadoop/hadoop-env.sh hadoop03:/usr/local/hadoop-2.7.1/etc/hadoop/

Tez安装与使用(与hive配合使用)及lzo.jar报错错误解决相关推荐

  1. K8S 1.18.0 以及KubeEdge 1.10.3 三机安装部署(含过程记录及遇到的报错和解决方法)

    因为网络上大多数教程只有部署相关的命令,而无输入命令后正确界面的显示样例,因此在参考网络上教程并跟随实现的过程中,我将过程进行截图记录,供大家参考.希望对大家有帮助~ 一. K8S部署 选用了三台虚拟 ...

  2. 记sqoop导入hive时的一次报错

    记sqoop导入hive时的一次报错 Cannot inspect org.apache.hadoop.io.IntWritable 脚本如下: #sqoop安装路径 SQOOP_HOME=/opt/ ...

  3. 记一次用pip安装docker-compose报错及解决方法

    记一次用pip安装docker-compose报错及解决方法 参考文章: (1)记一次用pip安装docker-compose报错及解决方法 (2)https://www.cnblogs.com/fe ...

  4. Xamarin开发安装Visual Studio 2015 update2报错的解决办法

    Xamarin开发安装Visual Studio 2015 update2报错的解决办法 错误信息:update 2 requires a member of the visual studio 20 ...

  5. 已安装Anaconda情况下,命令行pip,python报错(详细 已解决)

    已安装Anaconda情况下,命令行pip,python报错(已解决) 这是报错截图 解决方案如下: 1.首先可以去找到anaconda文件夹,并打开该文件目录下的Script文件夹,查看是否有pip ...

  6. mysql 安装1364_安装完MySQL,在配置最后一步报错error Nr.1364

    [原文:http://www.mysqlperformanceblog.com/2014/01/28/10-mysql-settings-to-tune-after-installation/基本配置 ...

  7. hp打印机没有右键扫描_安装HP打印机报错 0x000006be解决方法,图文操作步骤详解...

    安装HP打印机报错 0x000006be解决方法,图文操作步骤详解 1. 首先打开控制面板 2.在程序和功能窗口中找是否有HP的打印机驱动,卸载掉 3.打开C:WindowsSystem32spool ...

  8. php安装xmlwriter遇到报错及解决方法

    php安装xmlwriter遇到报错及解决方法 参考文章: (1)php安装xmlwriter遇到报错及解决方法 (2)https://www.cnblogs.com/gy1010/p/6513792 ...

  9. win11u盘安装报错怎么办 windows11u盘安装报错的解决方法

    现在安装系统的方式有很多种,U盘就是其中一种,最近有用户在使用U盘安装Win11系统的时候,在安装的途中出现系统报错的情况,那么我们遇到u盘安装win11系统报错怎么办呢?很多用户都不清楚该如何解决, ...

最新文章

  1. Vue:对象更改检测注意事项
  2. Android应用程序开发环境的建立
  3. 将亚型多态性与通用多态性相关联的危险
  4. bytebuf池_PooledByteBuf内存池-------这个我现在不太懂
  5. 修复ie浏览器主页被360篡改
  6. 人脸识别项目的测试用例
  7. 单维度量表验证性因子分析_验证性因子分析.ppt
  8. mysql 未找到 WinSxS_清理WinSxs释放 Win7 C盘所占的空间
  9. 关于RHCE考证的那些事
  10. 数据库服务器如何备份详细教程!
  11. win2003控制面板不见了,打开“控制面板”的方法,安全策略
  12. 从0开始的编程学习计划
  13. 操作系统学习-1. 操作系统的目标和作用
  14. win10自带vc运行库吗?
  15. 新浪微博2020界校招笔试-算法工程师
  16. 手机计算机藏应用,手机“计算器”隐藏功能,一键把隐私照片加密
  17. opencv学习【绘图】多边形polylinesfillPoly
  18. 系统重构的未来:重构工具 Coca 一周年
  19. 2009年4月开发语言排行榜
  20. 推荐25个免费下载精美网站模板的网站

热门文章

  1. video画中画(小窗口)
  2. webshell之一句话木马变形
  3. 超详细图文保姆级教程:App开发新手入门(二)
  4. 【算法】动态规划 背包问题 python
  5. php安装教程 win10,nvme ssd 安装win10 方法
  6. Linux下密码恢复及免密登录
  7. 南邮 起名字真难
  8. 给南开大学礼鹤同学的回信----关于开源的思考
  9. CSS鼠标悬停图片上图片变灰 变色 半透明
  10. word操作小技巧之插入多行与重复操作以及高级查找功能