简介

ETL,使用ETL工具将数据从数据源端(Extracting,Transform,Loading),抽取,传输,加载同步到目标端的过程。
dataX是阿里巴巴内部被广泛使用的离线数据同步工具,实现包括MySQL,Oracle,SqlServer,PostgreSQL,HDFS,Hive,ADS,HBase,TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作,可以自己扩展Reader和Writer。同时DataX插件体系作为一套生态系统, 每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。

Quick Start

下载:DataX
运行DataX工具,需要

  • Linux
  • JDK(1.8以上,推荐1.8)
  • Python(推荐Python2.6.X)
  • Apache Maven 3.x (Compile DataX)如果编译源码的话,需要Maven
    下载后解压至本地某个目录,进入bin目录,即可运行同步作业:
$ tar -zxvf datax.tar.gz
$ cd  {YOUR_DATAX_HOME}/bin
$ python datax.py {YOUR_JOB.json}

示例

从stream读取数据,并打印到控制台。需要首先指定任务配置,任务配置是一个Json格式的数据,Json的具体格式或者模板可以通过命令查看。如:

$ cd  {YOUR_DATAX_HOME}/bin
$  python datax.py -r streamreader -w streamwriter
DataX (UNKNOWN_DATAX_VERSION), From Alibaba !
Copyright (C) 2010-2015, Alibaba Group. All Rights Reserved.
Please refer to the streamreader document:https://github.com/alibaba/DataX/blob/master/streamreader/doc/streamreader.md Please refer to the streamwriter document:https://github.com/alibaba/DataX/blob/master/streamwriter/doc/streamwriter.md Please save the following configuration as a json file and  usepython {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json
to run the job.{"job": {"content": [{"reader": {"name": "streamreader", "parameter": {"column": [], "sliceRecordCount": ""}}, "writer": {"name": "streamwriter", "parameter": {"encoding": "", "print": true}}}], "setting": {"speed": {"channel": ""}}}
}

根据Json的模板,配置任务的Json配置如下:

#stream2stream.json
{"job": {"content": [{"reader": {"name": "streamreader","parameter": {"sliceRecordCount": 10,"column": [{"type": "long","value": "10"},{"type": "string","value": "hello,你好,世界-DataX"}]}},"writer": {"name": "streamwriter","parameter": {"encoding": "UTF-8","print": true}}}],"setting": {"speed": {"channel": 5}}}
}

启动datax,开始同步

$ cd {YOUR_DATAX_DIR_BIN}
$ python datax.py ./stream2stream.json

同步显示日志如下

2015-12-17 11:20:25.263 [job-0] INFO  JobContainer -
任务启动时刻                    : 2015-12-17 11:20:15
任务结束时刻                    : 2015-12-17 11:20:25
任务总计耗时                    :                 10s
任务平均流量                    :              205B/s
记录写入速度                    :              5rec/s
读出记录总数                    :                  50
读写失败总数                    :                   0

(完^_^)

数据仓库ETL之DataX(一)简介相关推荐

  1. 阿里出品的ETL工具dataX初体验

    我的毕设选择了大数据方向的题目.大数据的第一步就是要拿到足够的数据源.现实情况中我们需要的数据源分布在不同的业务系统中,而这些系统往往是异构的,而且我们的分析过程不能影响原有业务系统的运行.为了把不同 ...

  2. java etl工具_一文带你入门ETL工具-datax的简单使用

    什么是ETL? ETL负责将分布的.异构数据源中的数据如关系数据.平面数据文件等抽取到临时中间层后进行清洗.转换.集成,最后加载到数据仓库或数据集市中,成为联机分析处理.数据挖掘的基础. ETL是数据 ...

  3. 字节大数据手册火了 ! 离线数据/实时数据/数据仓库ETL/实时交易系统/啥都有 !...

    最近有幸在一位字节跳动大数据高级工程师手里扒到了这份学习笔记,将部分知识章节发布到了在B站上竟然获得了5000+点赞! 本来想将文件上传到github上,但由于文件太大有的都无法显示所以直接整理成多个 ...

  4. python名词解释数据仓库_python实现数据仓库ETL

    通常讲的数据仓库ETL, 可以分为ETL和ELT两种实现方式.  ELT是在加载到仓库后, 再做数据转换.  ETL 是在加载之前完成转换, 落地的数据就是转换后的样子了. ELT多使用在MPP架构的 ...

  5. 数据仓库ETL工具箱——实时ETL系统

    建立实时ETL数据仓库的解决方案需要理解不同的整合技术,这个领域体现了具有新技术.新方法.新词汇的全新理念.通过选择合适的实时ETL技术.特征.方法来指导专业实验数据仓库构建实时ETL的四个过程: 调 ...

  6. 清晰的数据仓库ETL流程(有干货)

    数据仓库ETL流程 整体思路 具体步骤 1.工具 2.流程 3.小结 总结 整体思路 要想开发一个完整的数据仓库etl流程必须先从整个项目的结构层次入手,逐个剖析每一层的程序,在纸上画出整个的流程图, ...

  7. 大数据学习——基于大数据平台的数据仓库ETL基本思路

    大数据平台数据仓库ETL基本思路 ETL工具 开源工具: Sqoop:Hadoop(hive)和关系型数据库之间传输数据的开源ETL工具. Beeline:hive客户端工具,基于SQLline的JD ...

  8. 数据仓库etl编程_莱牛教育:浅谈大数据ETL大数据工程师所需具备的能力

    ​ 在当今这个数据大爆炸的时代,海量的数据存储.处理.分析.管理成为各大企业在数字经济时代的新的挑战.大数据工程师作为对海量数据进行处理.分析的专业型技能人才,对各大企业迅速转型到数字经济领域都起到非 ...

  9. 数据仓库ETL(二)基本概念

    数据治理领域有一些基本名词,数据仓库,数据挖掘,商业智能,数据同步,联机计算等等,下面一起看一下专有的名词. DB(DataBase) 数据库,一般指支撑应用的数据库,包括MySQL,Oracle,P ...

最新文章

  1. 大白话讲解 零拷贝技术
  2. 生活中的算法---公交换乘
  3. ThreadLocal原理及用法详解
  4. 学长的求职经验 记录【就业创业信息网、求职流程、求职小细节】
  5. Weblogic - Failed to bind remote object 错误解决方法
  6. 再说共识性算法Raft
  7. echart data放入数组_线性表(数组、链表、队列、栈)详细总结
  8. SAP License:SAP信用控制
  9. Java-包、权限修饰符final、static
  10. 百度竞价排名曝光_企业入驻百度爱采购必须选好本地运营服务商
  11. 【16年浙江省赛H ZOJ 3965】Binary Tree Restoring 【两个dfs序还原】
  12. VS 2015专业版密钥
  13. 负一的n次方c语言,c语言 10 负次方
  14. 向日葵远程调用Visual studio2019时白屏透明黑屏解决方案
  15. 如何自动生成目录,并设置目录格式(一看就懂)
  16. Dojo Shifter 2 for Mac(ae效果图层处理插件)
  17. echarts中国省份地图加城市定位(打点)
  18. 奇技淫巧(二)—— 不使用中间变量交换两个值
  19. android飞机大战功能,安卓飞机大战(二) SurfaceView实现自制背景
  20. Curling 2.0 - POJ 3009

热门文章

  1. Android轩辕剑之ActionBar之四
  2. Android中使用shape来定义控件的显示属性
  3. Firefox 技巧
  4. Eclipse创建资源文件
  5. gdiplustypes min max找不到标识符_当年月销过万的比亚迪宋MAX,为何突然不香了?...
  6. 计算机考研哪个专业代码少,考研专业代码到底是什么意思
  7. win10 html css,Win10创造者更新:Edge支持CSS自定义属性
  8. linux配置iscsi无账号密码,linux4 如何配置iscsi启动器
  9. 购物网站注册页面html,电商购物网站 - 实现注册
  10. 古风手机壁纸,国潮的你不可错过!