【原创】大叔经验分享（6）Oozie如何查看提交到Yarn上的任务日志

通过oozie job id可以查看流程详细信息，命令如下：

oozie job -info 0012077-180830142722522-oozie-hado-W

流程详细信息如下：

Job ID : 0012077-180830142722522-oozie-hado-W

------------------------------------------------------------------------------------------------------------------------------------

Workflow Name : test_wf

App Path      : hdfs://hdfs_name/oozie/test_wf.xml

Status        : KILLED

Run           : 0

User          : hadoop

Group         : -

Created       : 2018-09-25 02:51 GMT

Started       : 2018-09-25 02:51 GMT

Last Modified : 2018-09-25 02:53 GMT

Ended         : 2018-09-25 02:53 GMT

CoordAction ID: -

Actions

------------------------------------------------------------------------------------------------------------------------------------

ID                                                                            Status    Ext ID                 Ext Status Err Code

------------------------------------------------------------------------------------------------------------------------------------

0012077-180830142722522-oozie-hado-W@:start:                                  OK        -                      OK         -

------------------------------------------------------------------------------------------------------------------------------------

0012077-180830142722522-oozie-hado-W@test_spark_task ERROR     application_1537326594090_5663FAILED/KILLEDJA018

------------------------------------------------------------------------------------------------------------------------------------

0012077-180830142722522-oozie-hado-W@Kill                                     OK       -                      OK         E0729

------------------------------------------------------------------------------------------------------------------------------------

失败的任务定义如下

<action name="test_spark_task">

<spark xmlns="uri:oozie:spark-action:0.1">

<job-tracker>${job_tracker}</job-tracker>

<name-node>${name_node}</name-node>

<master>${jobmaster}</master>

<mode>${jobmode}</mode>

<name>${jobname}</name>

<class>${jarclass}</class>

<jar>${jarpath}</jar>

<spark-opts>--executor-memory 4g --executor-cores 2 --num-executors 4 --driver-memory 4g</spark-opts>

</spark>

在yarn上可以看到application_1537326594090_5663对应的application如下

application_1537326594090_5663 hadoop oozie:launcher:T=spark:W=test_wf:A=test_spark_task:ID=0012077-180830142722522-oozie-hado-W Oozie Launcher

查看application_1537326594090_5663日志发现

2018-09-25 10:52:05,237 [main] INFO org.apache.hadoop.yarn.client.api.impl.YarnClientImpl - Submitted application application_1537326594090_5664

yarn上application_1537326594090_5664对应的application如下

application_1537326594090_5664 hadoop TestSparkTask SPARK

即application_1537326594090_5664才是Action对应的spark任务，为什么中间会多一步，类结构和核心代码详见 https://www.cnblogs.com/barneywill/p/9895225.html

简要来说，Oozie执行Action时，即ActionExecutor（最主要的子类是JavaActionExecutor，hive、spark等action都是这个类的子类），JavaActionExecutor首先会提交一个LauncherMapper（map任务）到yarn，其中会执行LauncherMain（具体的action是其子类，比如JavaMain、SparkMain等），spark任务会执行SparkMain，在SparkMain中会调用org.apache.spark.deploy.SparkSubmit来提交任务

如果提交的是spark任务，那么按照上边的方法就可以跟踪到实际任务的applicationId；
如果你提交的hive2任务，实际是用beeline启动，从hive2开始，beeline命令的日志已经简化，不像hive命令可以看到详细的applicationId和进度，这时有两种方法：

1）修改hive代码，使得beeline命令和hive命令一样有详细日志输出

详见：https://www.cnblogs.com/barneywill/p/10185949.html

2）根据application tag手工查找任务

oozie在使用beeline提交任务时，会添加一个mapreduce.job.tags参数，比如

--hiveconf
mapreduce.job.tags=oozie-9f896ad3d40c261235dc6858cadb885c

但是这个tag从yarn application命令中查不到，只能手工逐个查找（实际启动的任务会在当前LuancherMapper的applicationId上递增），

然后就可以看到实际启动的applicationId了

另外还可以从job history server上看到application的详细信息，比如configuration、task等

查看hive任务执行的完整sql详见：https://www.cnblogs.com/barneywill/p/10083731.html

转载于:https://www.cnblogs.com/barneywill/p/10109487.html

【原创】大叔经验分享（6）Oozie如何查看提交到Yarn上的任务日志相关推荐

【原创】经验分享：一个小小emoji尽然牵扯出来这么多东西？
前言之前也分享过很多工作中踩坑的经验: 一个线上问题的思考:Eureka注册中心集群如何实现客户端请求负载及故障转移? [原创]经验分享:一个Content-Length引发的血案(almost-) ...
【原创】大叔经验分享（33）hive select count为0
hive建表后直接将数据文件拷贝到table目录下,select * 可以查到数据,但是select count(1) 一直返回0,这个是因为hive中有个配置 hive.stats.autogath ...
【原创】大叔经验分享（27）linux服务器升级glibc故障恢复
redhat6系统默认安装的glibc-2.12,有的软件依赖的是glibc-2.14,这时需要升级glibc,下载安装 http://ftp.gnu.org/gnu/glibc/glibc-2.14 ...
python no module named pandas_【原创】大叔经验分享（11）python引入模块报错ImportError: No module named pandas numpy...
python应用通常需要一些库,比如numpy.pandas等,安装也很简单,直接通过pip # pip install numpy Requirement already satisfied: nu ...
hue访问mysql,【原创】大叔经验分享（50）hue访问mysql（librdbms）
cloudera manager安装hue后想开启访问mysql(librdbms)需要在这里配置(hue_safety_valve.ini) 添加配置如下 [librdbms]#The RDBMS ...
【原创】大叔经验分享（30）CM开启kerberos
kerberos安装详见:https://www.cnblogs.com/barneywill/p/10394164.html 一为CM创建用户 # kadmin.local -q "ad ...
【原创】大叔经验分享（65）spark读取不到hive表
spark 2.4.3 spark读取hive表,步骤: 1)hive-site.xml hive-site.xml放到$SPARK_HOME/conf下 2)enableHiveSupport Sp ...
【原创】大叔经验分享（25）hive通过外部表读写hbase数据
在hive中创建外部表: CREATE EXTERNAL TABLE hive_hbase_table( key string, name string, desc string ) STORED B ...
CS的陋室60w字原创算法经验分享-2022版
哈喽,在此给大家带来我的文章合集2022版. 相比上次更新,有如下更新点: 新系列和老系列做了切分,分成新系列和老系列两本合集. 新增近期更新的左右内容,2022年5月及前所有的"前沿重器& ...

【原创】大叔经验分享（6）Oozie如何查看提交到Yarn上的任务日志

【原创】大叔经验分享（6）Oozie如何查看提交到Yarn上的任务日志相关推荐

最新文章

热门文章