接上一篇:(企业内部) ETL异构数据源Datax_部署前置环境_01
https://gblfy.blog.csdn.net/article/details/118081253

文章目录

  • 一、直接下载DataX
  • 二、下载DataX源码,自己编译
    • 2.1.下载DataX源码
    • 2.2. 通过maven打包
  • 三、配置示例
    • 3.1. 创建作业的配置文件(json格式)
    • 3.2. 根据模板配置json
    • 3.3. 执行测试
一、直接下载DataX

:DataX下载地址

下载后解压至本地某个目录,进入bin目录,即可运行同步作业:

tar zxvf datax.tar.gz
cd  {YOUR_DATAX_HOME}/bin
python datax.py {YOUR_JOB.json}

自检脚本:

 python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json
二、下载DataX源码,自己编译

DataX源码

2.1.下载DataX源码
git clone git@github.com:alibaba/DataX.git
2.2. 通过maven打包
cd  {DataX_source_code_home}
mvn -U clean package assembly:assembly -Dmaven.test.skip=true

打包成功,日志显示如下:

[INFO] BUILD SUCCESS
[INFO] -----------------------------------------------------------------
[INFO] Total time: 08:12 min
[INFO] Finished at: 2021-12-13T16:26:48+08:00
[INFO] Final Memory: 133M/960M
[INFO] -----------------------------------------------------------------

打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/ ,结构如下:

bin      conf        job     lib     log     log_perf    plugin      script      tmp
三、配置示例

从stream读取数据并打印到控制台

3.1. 创建作业的配置文件(json格式)
可以通过命令查看配置模板:
python datax.py -r {YOUR_READER} -w {YOUR_WRITER}
cd  {YOUR_DATAX_HOME}/bin
python datax.py -r streamreader -w streamwriter----------------------------------------------------------
# 查看常用作业的配置文件模板python datax.py -r streamreader -w streamwriter
python datax.py -r oraclereader -w mysqlwriter
python datax.py -r mysqlreader -w oraclewriter控制台输出
```bash
DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.Please refer to the streamreader document:https://github.com/alibaba/DataX/blob/master/streamreader/doc/streamreader.md Please refer to the streamwriter document:https://github.com/alibaba/DataX/blob/master/streamwriter/doc/streamwriter.md Please save the following configuration as a json file and  usepython {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json
to run the job.{"job": {"content": [{"reader": {"name": "streamreader", "parameter": {"column": [], "sliceRecordCount": ""}}, "writer": {"name": "streamwriter", "parameter": {"encoding": "", "print": true}}}], "setting": {"speed": {"channel": ""}}}
}
3.2. 根据模板配置json
vim stream2stream.json添加内容如下:{"job": {"content": [{"reader": {"name": "streamreader","parameter": {"sliceRecordCount": 10,"column": [{"type": "long","value": "10"},{"type": "string","value": "hello,你好,世界-DataX"}]}},"writer": {"name": "streamwriter","parameter": {"encoding": "UTF-8","print": true}}}],"setting": {"speed": {"channel": 5}}}
}
3.3. 执行测试

启动DataX

cd {YOUR_DATAX_DIR_BIN}
python datax.py ./stream2stream.json
同步结束,显示日志如下:...
2021-06-23 09:43:14.869 [job-0] INFO  StandAloneJobContainerCommunicator - Total 50 records, 950 bytes | Speed 95B/s, 5 records/s | Error 0 records, 0 bytes |  All Task WaitWriterTime 0.000s |  All Task WaitReaderTime 0.000s | Percentage 100.00%
2021-06-23 09:43:14.872 [job-0] INFO  JobContainer -
任务启动时刻                    : 2021-06-23 09:43:04
任务结束时刻                    : 2021-06-23 09:43:14
任务总计耗时                    :                 10s
任务平均流量                    :               95B/s
记录写入速度                    :              5rec/s
读出记录总数                    :                  50
读写失败总数                    :                   0

ETL异构数据源Datax_工具部署_02相关推荐

  1. ETL异构数据源Datax_部署前置环境_01

    文章目录 一.概述 1. 是什么? 2. 开源地址 二.简介 2.1. 设计架构 2.2. 框架结构 三.检查环境 3.1. 检验是否安装JDK(1.8以上,推荐1.8) 3.2. 检验是否安装pyt ...

  2. ETL异构数据源Datax_图形化数据同步_11

    数据同步全量增量知识SQL和执行频次不一样,其他的都一样 文章目录 一.Oracle同步Mysql(全量) 1. 添加项目 2. 添加数据源 3. 添加任务 4. 构建json 5. 任务执行 6. ...

  3. ETL异构数据源Datax_日期增量同步_13

    文章目录 一.全量同步 1. 增量同步SQL 2. 构建reader 3. 构建writer 4. 字段对应关系映射 5. 构建json 6. 选择同步模板 7. 查询最早时间 8. 修改任务信息 9 ...

  4. ETL异构数据源Datax_自增ID增量同步_12

    文章目录 增量同步方法 1.先同步存量数据 2.再同步增量数据(根据自增ID.日期条件) 前提条件: 1.只针对数据增长,如果老数据被update/delete则无法使用增量同步方式. 基于主键自增I ...

  5. ETL异构数据源Datax_datax-web安装部署_10

    文章目录 1. 解压 2. 一键安装 3. 修改执行器py地址 4. 一键启动 5. 查看启动日志 6. 访问地址+登录 7. 操作记录 1. 解压 tar -zxvf datax-web-2.1.2 ...

  6. ETL异构数据源Datax_使用querySql_08

    使用说明 当用户配置了这一项之后,DataX系统就会忽略table,column 这些配置型,直接使用这个配置项的内容对数据进行筛选,例 如需要进行多表join后同步数据,使用select a,b f ...

  7. ETL异构数据源Datax_限速设置_06

    文章目录 一.提升job内Channel并发有几种配置方式 二.配置简述 三.案例 3.1. 第一种 3.2. 第二种 3.3. 第三种 3.4. 第四种 3.5. 案例实战 3.6. 总结 前言: ...

  8. ETL异构数据源Datax_使用数据分片提升同步速度_05

    文章目录 1. 构建json,添加数据分片 2. Mysql数据清除 3. 数据分片前后对比 1. 构建json,添加数据分片 {"job": {"setting&quo ...

  9. ETL异构数据源Datax_数据准备_03

    文章目录 一.Oracle数据库准备 1. 初始化表结构 2. 生成测试数据 二.使用docker创建mysql 2.1. 构建mysql容器 2.1. 创建datax数据库 2.3. 初始化表结构 ...

最新文章

  1. File ipython-input-20-ac8d4b51998e
  2. 绘画软件优动漫PAINT系统要求
  3. VC++初步实现保存数据为音频WAV文件
  4. MySQL 优化原理(一)
  5. redux 和 mobX对比
  6. 免费发短信(仅限美国国内)How to Send Free Text Messages Using PHP
  7. Mysql 在DOS窗口下的操作
  8. 数据科学入门的5个技巧
  9. 服务器虚拟化性能,企业级服务器虚拟化性能评估方法
  10. mysql数据库之间的转移
  11. armv6、armv7、armv7s、arm64 与开发静态库(.a)
  12. Word复制表格样式变化问题
  13. UE4 本地化多语言
  14. ANC主动降噪蓝牙耳机南A2测评:日常通勤降噪亲民之选!
  15. ASP+ACCESS注入—主要靠猜实现
  16. python中 [:],[::]的用法
  17. 使用saltstack批量修改密码
  18. xshell 绿色字体黑色背景主题
  19. Android扫描识别身份证识别SDK
  20. ubuntu下eclipse运行代码出错undefined reference to ...

热门文章

  1. linux线程间同步(1)互斥锁与条件变量
  2. keepalived的安装与添加服务
  3. 网络爬虫-获取网页中的数据加伪装头,伪装成浏览器多次访问,避免单次访问导致ip被封
  4. node.js util全局变量和事件驱动events
  5. C/C++字符串输入方法比较(带回车不带回车输入)
  6. Mobius函数计算 定义+代码模板
  7. socket网络编程实现远程备份
  8. 面向对象设计之CRC卡片
  9. 这样才是代码管理和 Commit 的正确姿势 | 研发效能提升36计
  10. 设计模式在业务系统中的应用