目录

第一章:datax概述

第二章:核心模块介绍

第三章:安装datax

1、datax下载地址

2、将datax.tar.gz放到服务器,并解压

3、运行自检脚本

4、报错处理

5、出现下图结果,则表示datax安装成功

第四章 datax-web的安装

1、下载datax-web

2、将下载好的datax-web-2.1.2.tar.gz放到服务器并解压

3、进入解压后的目录,进行安装

4、修改控制器datax-admin配置文件

5、修改执行器配置文件

6、导入datax-web.sql进MySQL

7、启动datax-web

8、登录界面

第一章:datax概述

DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。

Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。
Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。
Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。

第二章:核心模块介绍

  1. DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。
  2. DataXJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作。
  3. 切分多个Task之后,DataX Job会调用Scheduler模块,根据配置的并发数据量,将拆分成的Task重新组合,组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task,默认单个任务组的并发数量为5。
  4. 每一个Task都由TaskGroup负责启动,Task启动后,会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。
  5. DataX作业运行起来之后, Job监控并等待多个TaskGroup模块任务完成,等待所有TaskGroup任务完成后Job成功退出。否则,异常退出,进程退出值非0 DataX调度流程:
  6. 举例来说,用户提交了一个DataX作业,并且配置了20个并发,目的是将一个100张分表的mysql数据同步到odps里面。 DataX的调度决策思路是:DataXJob根据分库分表切分成了100个Task。 根据20个并发,DataX计算共需要分配4个TaskGroup。 4个TaskGroup平分切分好的100个Task,每一个TaskGroup负责以5个并发共计运行25个Task。

第三章:安装datax

1、datax下载地址

http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
源码地址: https://github.com/alibaba/DataX

2、将datax.tar.gz放到服务器,并解压

tar -zxvf datax.tar.gz #解压到当前目录
tar -zxvf datax.tar.gz -C /usr/local/ #解压到指导目录-C 后面的参数为想要解压到的目录

3、运行自检脚本

cd bin./datax.py ../job/job.json

4、报错处理

[main] WARN  ConfigParser - 插件[streamreader,streamwriter]加载失败,1s后重试... Exception:Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的作业配置 .]如果需要这个错误,请进入plugin/reader 和 plugin/writer,使用ls -al 命令查看目录,删除里面所有以点开头的文件
rm -rf ./._*
再次执行步骤3)中的命令

5、出现下图结果,则表示datax安装成功

第四章 datax-web的安装

1、下载datax-web

下载官方提供的版本tar版本包
https://pan.baidu.com/s/13yoqhGpD00I82K4lOYtQhg
提取码:cpsk

2、将下载好的datax-web-2.1.2.tar.gz放到服务器并解压

tar -zxvf datax-web-2.1.2.tar.gz

3、进入解压后的目录,进行安装

进入解压后的目录,找到bin目录下面的install.sh文件,如果选择交互式的安装,则直接执行
./bin/install.sh
在交互过程中,如果服务器上存在MySQL则会出现填写MySQL信息的交互语句;如果服务器上没有安装MySQL则不显示。
在交互模式下,对各个模块的package压缩包的解压以及configure配置脚本的调用,都会请求用户确认,可根据提示查看是否安装成功,如果没有安装成功,可以重复尝试; 如果不想使用交互模式,跳过确认过程,则执行以下命令安装
./bin/install.sh --force

4、修改控制器datax-admin配置文件

首先修改./datax-web-2.1.2/modules/datax-admin/conf/application.yml

cd ./datax-web-master/datax-admin/src/main/resources
vi application.ymlserver:port: 18010#port: ${server.port}
spring:#数据源datasource:username: dataxpassword: 111111url: jdbc:mysql://127.0.0.1:19013/datax_web?serverTimezone=Asia/Shanghai&useLegacyDatetimeCode=false&useSSL=false&nullNamePatternMatchesAll=true&useUnicode=true&characterEncoding=UTF-8
再修改./datax-web-2.1.2/modules/datax-admin/bin/env.properties
修改SERVER_PORT=端口,和application.yml中的保持一致即可

5、修改执行器配置文件

首先修改./datax-web-2.1.2/modules/datax-executor/conf/application.yml

执行器配置文件原文:

cd ./datax-web-master/datax-executor/src/main/resources
vi application.yml
# web port
server:#port: ${server.port}port: 18011# log config
logging:config: classpath:logback.xmlpath: ${data.path}/applogs/executor/jobhandler#path: ./data/applogs/executor/jobhandlerdatax:job:admin:### datax admin address list, such as "http://address" or "http://address01,http://address02"addresses: http://127.0.0.1:18010#addresses: http://127.0.0.1:${datax.admin.port}executor:appname: datax-executorip:#port: 9999port: ${executor.port:9999}### job log pathlogpath: ./data/applogs/executor/jobhandler#logpath: ${data.path}/applogs/executor/jobhandler### job log retention dayslogretentiondays: 30### job, access tokenaccessToken:executor:jsonpath: /data/datax/script#jsonpath: ${json.path}pypath: /data/datax/bin/datax.py#pypath: ${python.path}
再修改./datax-web-2.1.2/modules/datax-executor/bin/env.properties
## 保持和datax-admin端口一致
DATAX_ADMIN_PORT=端口号
## PYTHON脚本执行位置
PYTHON_PATH=/data/datax/bin/datax.py

6、导入datax-web.sql进MySQL

在datax-web.sql文件所在目录执行
mysql -u用户名 -p密码 数据库<./datax_web.sql

如果安装数据库后还没有创建数据库和授权可以使用下面的方法

MySQL8.0及以上版本创建数据库并分配用户授权
1)create database `datax-web` character set utf8mb4;
2)CREATE USER 'datax'@'%' IDENTIFIED BY '111111';
3)flush privileges;
4)grant all privileges on *.* to datax@'%' with grant option;
5)ALTER USER 'datax'@'%' IDENTIFIED WITH mysql_native_password BY '111111';
6)flush privileges;

7、启动datax-web

cd ./datax-web-2.1.2/bin
./start-all.sh #同时启动控制器和执行器,如果想单独启动,则使用命令 ./start.sh -m datax-admin 或 ./start.sh -m datax-executor

启动后使用jps命令查看,是否存在DataXAdminApplication和DataXExecutorApplication进程,存在则表示启动成功
如果存在启动失败的情况,可以进入./datax-web-2.1.2/modules/对应的目录中查看log,有详细的报错信息

8、登录界面

部署完成后,在浏览器中输入 http://ip:port/index.html 就可以访问对应的主界面
(ip为datax-admin部署所在服务器ip,port为为datax-admin 指定的运行端口)输入用户名 admin 密码 123456 就可以直接访问系统

datax与datax-web安装部署相关推荐

  1. 异构数据源离线同步工具之DataX的安装部署

    异构数据源离线同步工具之DataX的安装部署

  2. DataX安装部署-Reader插件二次开发

    DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlServer.Postgre.HDFS.Hive.ADS.HBase.TableS ...

  3. DataX 工具安装部署及使用

    一. DataX的安装 1.环境准备 操作系统为CentOS 7.2及以上版本或RedHat 7.2及以上版本,暂不支持SUSE操作系统.python为2.x版本,java为1.8版本. 新建操作系统 ...

  4. datax 模板_dataX3.0安装使用手册.docx

    DataX3.0使用手册目录一.dataX概述11dataX作用12DataX3.0框架设计23DataX3.0插件体系2二.dataX安装31创建用户组及用户32环境变量配置43安装python4三 ...

  5. Nginx实战基础篇一 源码包编译安装部署web服务器

    Nginx实战基础篇一 源码包编译安装部署web服务器 版权声明: 本文遵循"署名非商业性使用相同方式共享 2.5 中国大陆"协议 您可以自由复制.发行.展览.表演.放映.广播或通 ...

  6. 大数据项目之电商数仓DataX、DataX简介、DataX支持的数据源、DataX架构原理、DataX部署

    文章目录 1. DataX简介 1.1 DataX概述 1.2 DataX支持的数据源 2. DataX架构原理 2.1 DataX设计理念 2.2 DataX框架设计 2.3 DataX运行流程 2 ...

  7. office web apps安装部署 Win 2008 安装

    office web apps安装部署 Win 2008 安装 https://blog.csdn.net/qq_36267404/article/details/100657304office we ...

  8. Office Web Apps安装部署

    尝试安装成功office web apps 就不重复过程了 参照以下文章即可, 转载自:http://www.cnblogs.com/poissonnotes/p/3238238.html 我安装的环 ...

  9. 【OWA】03安装部署:OWA(Office Web Apps)安装和部署

    前言 在上一篇咱们把owa服务器加入到了域控中,可参考[OWA]02加入域控:将owa服务器加入域控(把计算机加入到域中), 接下来就在这台服务器上安装和配置OWA相关服务 [OWA]01环境准备:通 ...

  10. StarRocks 集群安装部署文档

    下表为规划的集群组件分配 域名 starrocks1 starrocks2 starrocks3 组件 mysql.FE(follower).BE1.datax-executor.datax FE(l ...

最新文章

  1. “最粉嫩”的JVM垃圾回收器及算法,王者笔记!
  2. ajax提交数据服务端返回报错
  3. 华为2013校园招聘上机笔试题
  4. rust(34)-Rust and WebAssembly(2)
  5. c语言枚举入门,C语言入门之枚举与位运算(1)
  6. dubbo consumer 端口_Dubbo普普通通9问
  7. python开发程序员应该知道的面试技巧和注意事项
  8. 60秒ICO募资2.35亿,AI+区块链概念,这个风口上的公司有点怪
  9. vue draggable 火狐拖拽搜索bug解决
  10. 4.Jenkins 权威指南 --- 自动化测试
  11. 国内统一Android应用市场,最全最干净的安卓应用市场
  12. 3DMAX渲染了很久还是黑的或有部分黑​屏?
  13. HDU-2669 Romantic (欧几里得定理)
  14. 算法入侵,不如拥抱、打造更好的个性化推荐系统?
  15. Bentley 软件公司发起 2021 基础设施数字化光辉大奖赛项目征集活动
  16. 动态壁纸制作工具哪个好用
  17. pandas中如何提取DataFrame的某些列
  18. 转 -- Zynga:从Amazon公共云到zCloud私有云
  19. 七十七.ags4-1.1.15
  20. Webcam.getWebcamByName(“XXX“)的用法/Webcam调用摄像头的方法

热门文章

  1. android barchart设置标题,在MPAndroidChart库的BarChart栏中显示轴值
  2. android oppo 模拟器,小姚Android构建VIVO华为魅族OPPO小米联想手游Android模拟器
  3. Vue项目实现web端飘窗
  4. c#之字符串,列表,接口,队列,栈,多态
  5. 什么是局域网?什么是广域网?CCNP是什么证书?电信能提供长途数据线路吗?
  6. 56: Recv failure: Connection was reset和55错误解决办法
  7. PID控制,matlab/simulink
  8. 宏碁电脑重装win10系统教程,宏碁怎么重装系统win10
  9. 关闭OneNote从浏览器复制粘贴时包含链接的方法
  10. IC授权卡和复制卡的区别_DIY电脑——A卡和N卡有区别吗