datax与datax-web安装部署
目录
第一章:datax概述
第二章:核心模块介绍
第三章:安装datax
1、datax下载地址
2、将datax.tar.gz放到服务器,并解压
3、运行自检脚本
4、报错处理
5、出现下图结果,则表示datax安装成功
第四章 datax-web的安装
1、下载datax-web
2、将下载好的datax-web-2.1.2.tar.gz放到服务器并解压
3、进入解压后的目录,进行安装
4、修改控制器datax-admin配置文件
5、修改执行器配置文件
6、导入datax-web.sql进MySQL
7、启动datax-web
8、登录界面
第一章:datax概述
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。
Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。
Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。
Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。
第二章:核心模块介绍
- DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。
- DataXJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作。
- 切分多个Task之后,DataX Job会调用Scheduler模块,根据配置的并发数据量,将拆分成的Task重新组合,组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task,默认单个任务组的并发数量为5。
- 每一个Task都由TaskGroup负责启动,Task启动后,会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。
- DataX作业运行起来之后, Job监控并等待多个TaskGroup模块任务完成,等待所有TaskGroup任务完成后Job成功退出。否则,异常退出,进程退出值非0 DataX调度流程:
- 举例来说,用户提交了一个DataX作业,并且配置了20个并发,目的是将一个100张分表的mysql数据同步到odps里面。 DataX的调度决策思路是:DataXJob根据分库分表切分成了100个Task。 根据20个并发,DataX计算共需要分配4个TaskGroup。 4个TaskGroup平分切分好的100个Task,每一个TaskGroup负责以5个并发共计运行25个Task。
第三章:安装datax
1、datax下载地址
http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
源码地址: https://github.com/alibaba/DataX
2、将datax.tar.gz放到服务器,并解压
tar -zxvf datax.tar.gz #解压到当前目录
tar -zxvf datax.tar.gz -C /usr/local/ #解压到指导目录-C 后面的参数为想要解压到的目录
3、运行自检脚本
cd bin./datax.py ../job/job.json
4、报错处理
[main] WARN ConfigParser - 插件[streamreader,streamwriter]加载失败,1s后重试... Exception:Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的作业配置 .]如果需要这个错误,请进入plugin/reader 和 plugin/writer,使用ls -al 命令查看目录,删除里面所有以点开头的文件
rm -rf ./._*
再次执行步骤3)中的命令
5、出现下图结果,则表示datax安装成功
第四章 datax-web的安装
1、下载datax-web
下载官方提供的版本tar版本包
https://pan.baidu.com/s/13yoqhGpD00I82K4lOYtQhg
提取码:cpsk
2、将下载好的datax-web-2.1.2.tar.gz放到服务器并解压
tar -zxvf datax-web-2.1.2.tar.gz
3、进入解压后的目录,进行安装
进入解压后的目录,找到bin目录下面的install.sh文件,如果选择交互式的安装,则直接执行
./bin/install.sh
在交互过程中,如果服务器上存在MySQL则会出现填写MySQL信息的交互语句;如果服务器上没有安装MySQL则不显示。
在交互模式下,对各个模块的package压缩包的解压以及configure配置脚本的调用,都会请求用户确认,可根据提示查看是否安装成功,如果没有安装成功,可以重复尝试; 如果不想使用交互模式,跳过确认过程,则执行以下命令安装
./bin/install.sh --force
4、修改控制器datax-admin配置文件
首先修改./datax-web-2.1.2/modules/datax-admin/conf/application.yml
cd ./datax-web-master/datax-admin/src/main/resources
vi application.ymlserver:port: 18010#port: ${server.port}
spring:#数据源datasource:username: dataxpassword: 111111url: jdbc:mysql://127.0.0.1:19013/datax_web?serverTimezone=Asia/Shanghai&useLegacyDatetimeCode=false&useSSL=false&nullNamePatternMatchesAll=true&useUnicode=true&characterEncoding=UTF-8
再修改./datax-web-2.1.2/modules/datax-admin/bin/env.properties
修改SERVER_PORT=端口,和application.yml中的保持一致即可
5、修改执行器配置文件
首先修改./datax-web-2.1.2/modules/datax-executor/conf/application.yml
执行器配置文件原文:
cd ./datax-web-master/datax-executor/src/main/resources
vi application.yml
# web port
server:#port: ${server.port}port: 18011# log config
logging:config: classpath:logback.xmlpath: ${data.path}/applogs/executor/jobhandler#path: ./data/applogs/executor/jobhandlerdatax:job:admin:### datax admin address list, such as "http://address" or "http://address01,http://address02"addresses: http://127.0.0.1:18010#addresses: http://127.0.0.1:${datax.admin.port}executor:appname: datax-executorip:#port: 9999port: ${executor.port:9999}### job log pathlogpath: ./data/applogs/executor/jobhandler#logpath: ${data.path}/applogs/executor/jobhandler### job log retention dayslogretentiondays: 30### job, access tokenaccessToken:executor:jsonpath: /data/datax/script#jsonpath: ${json.path}pypath: /data/datax/bin/datax.py#pypath: ${python.path}
再修改./datax-web-2.1.2/modules/datax-executor/bin/env.properties
## 保持和datax-admin端口一致
DATAX_ADMIN_PORT=端口号
## PYTHON脚本执行位置
PYTHON_PATH=/data/datax/bin/datax.py
6、导入datax-web.sql进MySQL
在datax-web.sql文件所在目录执行
mysql -u用户名 -p密码 数据库<./datax_web.sql
如果安装数据库后还没有创建数据库和授权可以使用下面的方法
MySQL8.0及以上版本创建数据库并分配用户授权
1)create database `datax-web` character set utf8mb4;
2)CREATE USER 'datax'@'%' IDENTIFIED BY '111111';
3)flush privileges;
4)grant all privileges on *.* to datax@'%' with grant option;
5)ALTER USER 'datax'@'%' IDENTIFIED WITH mysql_native_password BY '111111';
6)flush privileges;
7、启动datax-web
cd ./datax-web-2.1.2/bin
./start-all.sh #同时启动控制器和执行器,如果想单独启动,则使用命令 ./start.sh -m datax-admin 或 ./start.sh -m datax-executor
启动后使用jps命令查看,是否存在DataXAdminApplication和DataXExecutorApplication进程,存在则表示启动成功
如果存在启动失败的情况,可以进入./datax-web-2.1.2/modules/对应的目录中查看log,有详细的报错信息
8、登录界面
部署完成后,在浏览器中输入 http://ip:port/index.html 就可以访问对应的主界面
(ip为datax-admin部署所在服务器ip,port为为datax-admin 指定的运行端口)输入用户名 admin 密码 123456 就可以直接访问系统
datax与datax-web安装部署相关推荐
- 异构数据源离线同步工具之DataX的安装部署
异构数据源离线同步工具之DataX的安装部署
- DataX安装部署-Reader插件二次开发
DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlServer.Postgre.HDFS.Hive.ADS.HBase.TableS ...
- DataX 工具安装部署及使用
一. DataX的安装 1.环境准备 操作系统为CentOS 7.2及以上版本或RedHat 7.2及以上版本,暂不支持SUSE操作系统.python为2.x版本,java为1.8版本. 新建操作系统 ...
- datax 模板_dataX3.0安装使用手册.docx
DataX3.0使用手册目录一.dataX概述11dataX作用12DataX3.0框架设计23DataX3.0插件体系2二.dataX安装31创建用户组及用户32环境变量配置43安装python4三 ...
- Nginx实战基础篇一 源码包编译安装部署web服务器
Nginx实战基础篇一 源码包编译安装部署web服务器 版权声明: 本文遵循"署名非商业性使用相同方式共享 2.5 中国大陆"协议 您可以自由复制.发行.展览.表演.放映.广播或通 ...
- 大数据项目之电商数仓DataX、DataX简介、DataX支持的数据源、DataX架构原理、DataX部署
文章目录 1. DataX简介 1.1 DataX概述 1.2 DataX支持的数据源 2. DataX架构原理 2.1 DataX设计理念 2.2 DataX框架设计 2.3 DataX运行流程 2 ...
- office web apps安装部署 Win 2008 安装
office web apps安装部署 Win 2008 安装 https://blog.csdn.net/qq_36267404/article/details/100657304office we ...
- Office Web Apps安装部署
尝试安装成功office web apps 就不重复过程了 参照以下文章即可, 转载自:http://www.cnblogs.com/poissonnotes/p/3238238.html 我安装的环 ...
- 【OWA】03安装部署:OWA(Office Web Apps)安装和部署
前言 在上一篇咱们把owa服务器加入到了域控中,可参考[OWA]02加入域控:将owa服务器加入域控(把计算机加入到域中), 接下来就在这台服务器上安装和配置OWA相关服务 [OWA]01环境准备:通 ...
- StarRocks 集群安装部署文档
下表为规划的集群组件分配 域名 starrocks1 starrocks2 starrocks3 组件 mysql.FE(follower).BE1.datax-executor.datax FE(l ...
最新文章
- “最粉嫩”的JVM垃圾回收器及算法,王者笔记!
- ajax提交数据服务端返回报错
- 华为2013校园招聘上机笔试题
- rust(34)-Rust and WebAssembly(2)
- c语言枚举入门,C语言入门之枚举与位运算(1)
- dubbo consumer 端口_Dubbo普普通通9问
- python开发程序员应该知道的面试技巧和注意事项
- 60秒ICO募资2.35亿,AI+区块链概念,这个风口上的公司有点怪
- vue draggable 火狐拖拽搜索bug解决
- 4.Jenkins 权威指南 --- 自动化测试
- 国内统一Android应用市场,最全最干净的安卓应用市场
- 3DMAX渲染了很久还是黑的或有部分黑​屏?
- HDU-2669 Romantic (欧几里得定理)
- 算法入侵,不如拥抱、打造更好的个性化推荐系统?
- Bentley 软件公司发起 2021 基础设施数字化光辉大奖赛项目征集活动
- 动态壁纸制作工具哪个好用
- pandas中如何提取DataFrame的某些列
- 转 -- Zynga:从Amazon公共云到zCloud私有云
- 七十七.ags4-1.1.15
- Webcam.getWebcamByName(“XXX“)的用法/Webcam调用摄像头的方法
热门文章
- android barchart设置标题,在MPAndroidChart库的BarChart栏中显示轴值
- android oppo 模拟器,小姚Android构建VIVO华为魅族OPPO小米联想手游Android模拟器
- Vue项目实现web端飘窗
- c#之字符串,列表,接口,队列,栈,多态
- 什么是局域网?什么是广域网?CCNP是什么证书?电信能提供长途数据线路吗?
- 56: Recv failure: Connection was reset和55错误解决办法
- PID控制,matlab/simulink
- 宏碁电脑重装win10系统教程,宏碁怎么重装系统win10
- 关闭OneNote从浏览器复制粘贴时包含链接的方法
- IC授权卡和复制卡的区别_DIY电脑——A卡和N卡有区别吗