专题：大数据单机学习环境搭建和使用

1.登录和密码修改
2.新建工程
- 2.1新建工程
- 2.2创建zip文件
- 2.3添加文件到项目
3.任务执行
- 3.1立即执行
- 3.2.设置定时任务
4.依赖任务建立

大数据单机学习环境搭建(12)Azkaban的简单使用

写在前面：
Azkaban单机部署教程地址
百度网盘个人分享资源

1.登录和密码修改

Azkaban安装后登录 http://node1:8081/index（node1改为），原始账号：azkaban，密码：azkaban

用户名和密码修改，进入conf文件夹编辑xml文件即可
cd /opt/azkaban-solo-server/conf
vim azkaban.properties

2.新建工程

2.1新建工程

2.2创建zip文件

1.job文件 type=command 指明执行方式是command，command=sh date_save.sh 指明要执行的内容，执行内容不一定是文件，也可以是单独的命令，例如：hive -e 'select current_date();'。

# command.jobtype=command
command=sh date_save.sh

2.date_save.sh文件简单写个例子，内容无所谓只有正确就行

date >> /home/azkaban测试.txt

3.文件打包压缩为zip

2.3添加文件到项目

3.任务执行

添加完文件后点击Execute Flow进入任务执行设置界面

3.1立即执行

1.点击Execute 再点击弹出的Continue即可立即执行

2.如下提示即执行成功，进入History可以查看更过执行信息

3.查看sh的重定向文件即可看的执行结果

3.2.设置定时任务

1.重新点击Execute Flow进入任务执行设置界面，点击Schedule 进入定时任务设置

2.Azkaban提供的任务设置非常简单易用，具体见下图。再点击弹出的Continue即可

3.设置完成既有任务执行计划

4.执行结果查看同立即执行一样不再赘述。

4.依赖任务建立

依赖关系如图所示，task2依赖task1执行，task3依赖task1和task2执行。任务执行与第3部分设置完全一致，不再赘述。具体文件设置见下方，懒人链接下载task.zip（本人会陆续更新更多免费资源，请点赞关注收藏）

dependencies后接依赖的任务，不加job后缀，多依赖逗号间隔即可
task1.job

# command.jobtype=command
command=sh date_save.sh

task2.job

# command.jobtype=command
dependencies=task1
command=hive -e 'select current_date()'

task3.job

# command.jobtype=command
dependencies=task1,task2
command = python df_save.py

date_save.sh

date >> /home/azkaban测试.txt

df_save.py

import numpy as np
import pandas as pddf = pd.DataFrame(np.array(range(1, 100, 2)).reshape((5, 10)))df.to_csv('/home/df.csv')

懒人链接下载task.zip（本人会陆续更新更多免费资源，请点赞关注收藏）

声明：本文所载信息不保证准确性和完整性。文中所述内容和意见仅供参考，不构成实际商业建议，如有雷同纯属巧合。

大数据单机学习环境搭建(12)Azkaban的简单使用相关推荐

大数据单机学习环境搭建(5)Hive建表DDL详解
专题:大数据单机学习环境搭建和使用 1. Hive建表简单示例 1.1.Hive建表语句 1.2.表详细信息 1.3.数据展示 2. Hive建表语法详解 3.拓展1:复杂数据分割 4.拓展2:事务表 ...
大数据单机学习环境搭建(9)Spark单节点安装与pyspark使用
包含sparksql的完整使用案例,请务必耐心看完专题:大数据单机学习环境搭建和使用 1.Spark安装 2.Spark配置 2.1配置环境变量 2.2spark客户端 3.Spark使用 3.1环 ...
大数据----2.基础环境搭建
大数据hadoop环境搭建一.linux环境搭建 1.linux环境 1.hadoop是运行在linux系统之上: 但是也有windows版本的hadoop: 学习的时候使用linux来进行学习: ...
（非常详细）大数据平台学习·环境安装配置（一）（RockyLinux9版）
一.文章简介着手搭建大数据平台时,配置虚拟机环境是成为新手的第一道门槛.虽然各种视频和网站上也有很多虚拟机安装配置教程,但由于对 Linux 环境不熟悉,同时加上网上不少教程都是五花八门的cento ...
大数据实战之环境搭建(七)
本节我给大家测试一下Linux环境的Solr,通过增删改查的实例demo看看Solr环境是否已经OK.记得有哥们留言,问到只看见Solr和Cassandra的单独环境搭建,却不见它们的协同.我想说这两 ...
大数据实战之环境搭建(十)
Html5, 云计算,移动互联网,大数据你知道多少,如果不知道多少,请抓紧时间学习. 今天要说的是消息队列ActiveMQ,这个和cassandra一样也是apache的产品,开源的,支持很多客户端, ...
大数据实战之环境搭建(三)
今天不小心下载了一个VMPLayer和CenterOS-5.所以我决定后面的demo全部使用linux作为大数据的载体来进行讲解.今天主要就是讲一下CenterOS的安装准备我们安装好VMPlaye ...
大数据之-Hadoop环境搭建_hadoop官网手册---大数据之hadoop工作笔记0020
本地运行模式,和伪分布式模式是,在测试学习的时候用,然后完全分布式模式是真正开发中要用的, 要配置hadoop的集群,至少要3个虚拟机,加上自己的电脑,4台,每个虚拟机要分配2G内存,至少,所以内存 ...
大数据-Hadoop（环境搭建）
1 虚拟机环境准备 1.1准备三台虚拟机,虚拟机配置要求如下: (1)单台虚拟机:内存4G,硬盘50G,安装必要环境 sudo yum install -y epel-release sudo yum ...