DataX离线数据同步工具/平台

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。

二、环境要求

1、Linux

2、JDK(1.6以上,推荐1.6)

3、Python(推荐Python2.6.X)

4、Apache Maven 3.x (若不编译DataX源码,则不需要)

三、工具部署

方法一、直接下载DataX工具包:DataX

下载后解压至本地某个目录,进入bin目录,即可运行同步作业:

$ cd  {YOUR_DATAX_HOME}/bin
$ python datax.py {YOUR_JOB.json}

同步作业配置模板,请参考DataX各个插件配置模板和参数说明

方法二、下载DataX源码,自己编译:DataX源码

(1)、下载DataX源码:

$ git clone git@github.com:alibaba/DataX.git

(2)、通过maven打包:

$ cd  {DataX_source_code_home}
$ mvn -U clean package assembly:assembly -Dmaven.test.skip=true

打包成功,日志显示如下:

[INFO] BUILD SUCCESS
[INFO] -----------------------------------------------------------------
[INFO] Total time: 08:12 min
[INFO] Finished at: 2015-12-13T16:26:48+08:00
[INFO] Final Memory: 133M/960M
[INFO] -----------------------------------------------------------------

打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/ ,结构如下:

$ cd  {DataX_source_code_home}
$ ls ./target/datax/datax/
bin        conf        job        lib        log        log_perf    plugin        script        tmp

四、配置示例

例:从stream读取数据并打印到控制台

第一步、创建创业的配置文件(json格式)

#stream2stream.json
{"job": {"setting": {"speed": {"channel": 5}},"content": [{"reader": {"name": "streamreader","parameter": {"sliceRecordCount": 10,"column": [{"type": "long","value": "10"},{"type": "string","value": "hello,你好,世界-DataX"},{"type": "double","value": "3.141592653"},{"type": "bytes","value": "image"},{"type": "bool","value": "true"},{"type": "bool","value": "5678true"},{"type": "date","value": "2014-10-10","dateFormat": "yyyy-MM-dd"}]}},"writer": {"name": "streamwriter","parameter": {"encoding": "UTF-8","print": true}}}]}
}

第二步:启动DataX

$ cd {YOUR_DATAX_DIR_BIN}
$ python datax.py ./stream2stream.json

同步结束,显示日志如下:

...
2015-12-17 11:20:25.263 [job-0] INFO  JobContainer -
任务启动时刻                    : 2015-12-17 11:20:15
任务结束时刻                    : 2015-12-17 11:20:25
任务总计耗时                    :                 10s
任务平均流量                    :              205B/s
记录写入速度                    :              5rec/s
读出记录总数                    :                  50
读写失败总数                    :                   0

五、了解更多

Datax开源地址

DataX各个插件配置模板和参数说明

DataX离线数据同步工具/平台相关推荐

  1. DataX离线数据同步

    目录 1 DataX 2 ODPS同步数据到HDFS HA 配置 Kerberos 配置 域外访问配置 3 HDFS同步数据到另一个HDFS 4 MongoDB同步数据到HDFS 5 带 Kerber ...

  2. 离线数据同步平台datax+报表可视化平台metabase

    datax DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlServer.Postgre.HDFS.Hive.ADS.HBase.TableS ...

  3. 离线数据同步神器:DataX,支持几乎所有异构数据源的离线同步到MaxCompute

    2019独角兽企业重金招聘Python工程师标准>>> 摘要: 概述 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlSer ...

  4. 数据同步工具—DataX 初识

    DataX 初识 DataX 是阿里云 DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台.DataX 实现了包括 MySQL.Oracle.OceanBase. ...

  5. 异构数据库数据同步工具DataX教程,安装、数据同步、java执行

    前言 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlServer.Postgre.HDFS.Hive.ADS.HBase.TableStor ...

  6. datax 持续数据同步_DataX数据同步

    因为选择了ElasticSearch做全文检索,需要把数据从数据库同步到es,此处选择开源方案DataX作为数据同步工具. 官方文档很详细,可以直接参考. DataXDataX 是一个异构数据源离线同 ...

  7. 高效数据同步工具DataX的使用

    一.DataX 简介 DataX 是阿里云 DataWorks 数据集成 的开源版本,主要就是用于实现数据间的离线同步. DataX 致力于实现包括关系型数据库(MySQL.Oracle 等).HDF ...

  8. 基于dataX的数据同步平台搭建

    前言 基于Java和DataX工具实现数据同步的后台管理,包括数据同步任务的生成,任务的管理,查看任务的执行日志,解析任务的执行结果等功能. 内含一些技术实现方案.心得体会和填坑经验等干货. 阅读本文 ...

  9. 开源oracle同步图形工具,阿里开源数据同步工具--DataX

    阿里开源数据同步工具--DataX 是啥?: 是异构数据源离线同步工具 能干啥?: 能够将MySQL sqlServer Oracle Hive HBase  FTP 之间进行稳定高效的数据同步. 设 ...

最新文章

  1. win8数据源设置mysql_Win8系统ODBC数据源有何重要功能?
  2. 在内网中使用maven_搭建私有maven仓库并在项目中使用
  3. html中设置父盒子的高度,【CSS】设置浮动元素高度等于父元素
  4. wp8.1 Study11:APP里文件读写和使用XML和Json序列化
  5. SpringBoot+Redis 搞定搜索栏热搜、不雅文字过滤功能
  6. 即使在微软 Azure 上,Linux 也大有一统天下之势!
  7. 计算机网络考研辅导谁的好,计算机网络考研辅导哪个好
  8. unity cube自转的同时公转
  9. 字符串是通过“引用”传递的
  10. 基于鸢尾花卉数据集的Fisher分类器设计
  11. Paraview源码解析5:vtkPolyDataAlgorithm类
  12. 使用词和图嵌入来衡量统一医学语言系统概念之间的语义相关性
  13. 怎样把word文档里的html格式去掉,word文档去除格式
  14. 机器人零力拖动技术路线
  15. IOS OC UIKit基本使用
  16. 每天一个linux命令(33):atq命令
  17. ipad android开迅视频播放器,迅课视频播放器
  18. python权限_无法执行python脚本,权限被拒绝?
  19. 《14天动手学深度学习》——语言模型
  20. 【科创人】慧安金科马宇翔:人生级决策总会选择有趣的选项,如今最在意平衡的生活...

热门文章

  1. 使用 jQuery Mobile 与 HTML5 开发 Web App (十六) —— HTML5 Web Storage
  2. php gizp压缩传输js和css文件 - PHP
  3. Perl 第三章 操作符
  4. 匿名内部类编译时生成多个class文件
  5. 【AI视野·今日CV 计算机视觉论文速览 第242期】Mon, 14 Feb 2022
  6. 【AI视野·今日CV 计算机视觉论文速览 第197期】Thu, 13 May 2021
  7. 【CVPR2019】 教程 Tutorials List
  8. 草稿 12月第2周 排课
  9. win10操做系统恢复操做
  10. 1910101811