DataX离线数据同步工具/平台
DataX离线数据同步工具/平台
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。
二、环境要求
1、Linux
2、JDK(1.6以上,推荐1.6)
3、Python(推荐Python2.6.X)
4、Apache Maven 3.x (若不编译DataX源码,则不需要)
三、工具部署
方法一、直接下载DataX工具包:DataX
下载后解压至本地某个目录,进入bin目录,即可运行同步作业:
$ cd {YOUR_DATAX_HOME}/bin
$ python datax.py {YOUR_JOB.json}
同步作业配置模板,请参考DataX各个插件配置模板和参数说明
方法二、下载DataX源码,自己编译:DataX源码
(1)、下载DataX源码:
$ git clone git@github.com:alibaba/DataX.git
(2)、通过maven打包:
$ cd {DataX_source_code_home}
$ mvn -U clean package assembly:assembly -Dmaven.test.skip=true
打包成功,日志显示如下:
[INFO] BUILD SUCCESS
[INFO] -----------------------------------------------------------------
[INFO] Total time: 08:12 min
[INFO] Finished at: 2015-12-13T16:26:48+08:00
[INFO] Final Memory: 133M/960M
[INFO] -----------------------------------------------------------------
打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/ ,结构如下:
$ cd {DataX_source_code_home}
$ ls ./target/datax/datax/
bin conf job lib log log_perf plugin script tmp
四、配置示例
例:从stream读取数据并打印到控制台
第一步、创建创业的配置文件(json格式)
#stream2stream.json
{"job": {"setting": {"speed": {"channel": 5}},"content": [{"reader": {"name": "streamreader","parameter": {"sliceRecordCount": 10,"column": [{"type": "long","value": "10"},{"type": "string","value": "hello,你好,世界-DataX"},{"type": "double","value": "3.141592653"},{"type": "bytes","value": "image"},{"type": "bool","value": "true"},{"type": "bool","value": "5678true"},{"type": "date","value": "2014-10-10","dateFormat": "yyyy-MM-dd"}]}},"writer": {"name": "streamwriter","parameter": {"encoding": "UTF-8","print": true}}}]}
}
第二步:启动DataX
$ cd {YOUR_DATAX_DIR_BIN}
$ python datax.py ./stream2stream.json
同步结束,显示日志如下:
...
2015-12-17 11:20:25.263 [job-0] INFO JobContainer -
任务启动时刻 : 2015-12-17 11:20:15
任务结束时刻 : 2015-12-17 11:20:25
任务总计耗时 : 10s
任务平均流量 : 205B/s
记录写入速度 : 5rec/s
读出记录总数 : 50
读写失败总数 : 0
五、了解更多
Datax开源地址
DataX各个插件配置模板和参数说明
DataX离线数据同步工具/平台相关推荐
- DataX离线数据同步
目录 1 DataX 2 ODPS同步数据到HDFS HA 配置 Kerberos 配置 域外访问配置 3 HDFS同步数据到另一个HDFS 4 MongoDB同步数据到HDFS 5 带 Kerber ...
- 离线数据同步平台datax+报表可视化平台metabase
datax DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlServer.Postgre.HDFS.Hive.ADS.HBase.TableS ...
- 离线数据同步神器:DataX,支持几乎所有异构数据源的离线同步到MaxCompute
2019独角兽企业重金招聘Python工程师标准>>> 摘要: 概述 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlSer ...
- 数据同步工具—DataX 初识
DataX 初识 DataX 是阿里云 DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台.DataX 实现了包括 MySQL.Oracle.OceanBase. ...
- 异构数据库数据同步工具DataX教程,安装、数据同步、java执行
前言 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlServer.Postgre.HDFS.Hive.ADS.HBase.TableStor ...
- datax 持续数据同步_DataX数据同步
因为选择了ElasticSearch做全文检索,需要把数据从数据库同步到es,此处选择开源方案DataX作为数据同步工具. 官方文档很详细,可以直接参考. DataXDataX 是一个异构数据源离线同 ...
- 高效数据同步工具DataX的使用
一.DataX 简介 DataX 是阿里云 DataWorks 数据集成 的开源版本,主要就是用于实现数据间的离线同步. DataX 致力于实现包括关系型数据库(MySQL.Oracle 等).HDF ...
- 基于dataX的数据同步平台搭建
前言 基于Java和DataX工具实现数据同步的后台管理,包括数据同步任务的生成,任务的管理,查看任务的执行日志,解析任务的执行结果等功能. 内含一些技术实现方案.心得体会和填坑经验等干货. 阅读本文 ...
- 开源oracle同步图形工具,阿里开源数据同步工具--DataX
阿里开源数据同步工具--DataX 是啥?: 是异构数据源离线同步工具 能干啥?: 能够将MySQL sqlServer Oracle Hive HBase FTP 之间进行稳定高效的数据同步. 设 ...
最新文章
- win8数据源设置mysql_Win8系统ODBC数据源有何重要功能?
- 在内网中使用maven_搭建私有maven仓库并在项目中使用
- html中设置父盒子的高度,【CSS】设置浮动元素高度等于父元素
- wp8.1 Study11:APP里文件读写和使用XML和Json序列化
- SpringBoot+Redis 搞定搜索栏热搜、不雅文字过滤功能
- 即使在微软 Azure 上,Linux 也大有一统天下之势!
- 计算机网络考研辅导谁的好,计算机网络考研辅导哪个好
- unity cube自转的同时公转
- 字符串是通过“引用”传递的
- 基于鸢尾花卉数据集的Fisher分类器设计
- Paraview源码解析5:vtkPolyDataAlgorithm类
- 使用词和图嵌入来衡量统一医学语言系统概念之间的语义相关性
- 怎样把word文档里的html格式去掉,word文档去除格式
- 机器人零力拖动技术路线
- IOS OC UIKit基本使用
- 每天一个linux命令(33):atq命令
- ipad android开迅视频播放器,迅课视频播放器
- python权限_无法执行python脚本,权限被拒绝?
- 《14天动手学深度学习》——语言模型
- 【科创人】慧安金科马宇翔:人生级决策总会选择有趣的选项,如今最在意平衡的生活...
热门文章
- 使用 jQuery Mobile 与 HTML5 开发 Web App (十六) —— HTML5 Web Storage
- php gizp压缩传输js和css文件 - PHP
- Perl 第三章 操作符
- 匿名内部类编译时生成多个class文件
- 【AI视野·今日CV 计算机视觉论文速览 第242期】Mon, 14 Feb 2022
- 【AI视野·今日CV 计算机视觉论文速览 第197期】Thu, 13 May 2021
- 【CVPR2019】 教程 Tutorials List
- 草稿 12月第2周 排课
- win10操做系统恢复操做
- 1910101811