为什么要用ETL工具?
1.当数据来自不同的物理主机,这时候如使用SQL语句去处理的话,就显得比较吃力且开销也更大。
2.数据来源可以是各种不同的数据库或者文件,这时候需要先把他们整理成统一的格式后才可以进行数据的处理,这一过程用代码实现显然有些麻烦。
3.在数据库中我们当然可以使用存储过程去处理数据,但是处理海量数据的时候存储过程显然比较吃力,而且会占用较多数据库的资源,这可能会导致数据资源不足,进而影响数据库的性能。
上面所说的问题,我们用ETL工具就可以解决。它的优点有:
● 支持多种异构数据源的连接。(部分)
● 图形化的界面操作十分方便。
● 处理海量数据速度快、流程更清晰等。

=============================================================================================================
市面上常用的ETL工具:
datastage,最专业,ibm商业软件,收费
imformatica,收费
kettle,水壶,免费
Informatica和Datastage占据国内市场的大部分的份额。

它们的异同
1.操作
Informatica没有ctrl+z的功能,如果对job作了改变之后,想要撤销,返回到改变前是不可能的,相比Kettle跟Datastage在测试调试的时候不太方便
Datastage全部的操作在同一个界面中,不用切换界面,能够看到数据的来源,整个job的情况,在找bug的时候会比Informatica方便。

2.部署
Kettle只需要JVM环境,Informatica需要服务器和客户端安装,而Datastage的部署比较耗费时间,有一点难度

3.数据处理的速度
大数据量下Informatica 与Datastage的处理速度是比较快的,比较稳定。Kettle的处理速度相比之下稍慢。

4.服务
Informatica与Datastage有很好的商业化的技术支持,而Kettle则没有。商业软件的售后服务上会比免费的开源软件好很多。

5.扩展
Kettle的扩展性无疑是最好,因为是开源代码,可以自己开发拓展它的功能,而Informatica和Datastage由于是商业软件,基本上没有。

6.Job的监控
三者都有监控和日志工具。在数据的监控上,个人觉得Datastage的实时监控做的更加好,可以直观看到数据抽取的情况,运行到哪一个控件上。这对于调优来说,我们可以更快的定位到处理速度太慢的控件并进行处理,而informatica也有相应的功能,但是并不直观,需要通过两个界面的对比才可以定位到处理速度缓慢的控件。有时候还需要通过一些方法去查找。

7.网上的技术文档
Datastage < Informatica < kettle,相对来说,Datastage跟Informatica在遇到问题去网上找到解决方法的概率比较低,kettle则比较多

8.增量表:
在做增量表的时候,每次运行后都需要把将最新的一条数据操作时间存到数据库中,下次运行我们就取大于这个时间的数据。
Kettle有控件可以直接读取数据库中的这个时间置为变量;
对于没有类似功能控件的informatica,我们的做法是先读取的数据库中的这个时间存到文件,
然后主程序运行的时候指定这个文件为参数文件,也可以得到同样的效果。

【?】多张表同步、重复的操作:在项目中,很多时候我们都需要同步生产库的表到数据仓库中。一百多张表同步、重复的操作,对开发人员来说是细心和耐心的考验。
在这种情况下,开发人员最喜欢的工具无疑是kettle,多个表的同步都可以用同一个程序运行,不必每一张表的同步都建一个程序,
而informatica虽然有提供工具去批量设计,但还是需要生成多个程序进行一一配置,而datastage在这方面就显得比较笨拙。

Datastage,Informatica,Kettle相关推荐

  1. ETL常用的三种工具介绍及对比 Datastage,Informatica 和 Kettle

    大家好,我是梦想家 Alex ~ ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步.ETL负责将分布的.异构数据源中的数据如关系数据.平面数据文件等抽取到临时中间层后进行清洗.转换.集成,最 ...

  2. 六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)...

    六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate) 比较维度\产品 DataPipeline ...

  3. ETL常用的三种工具介绍及对比Datastage,Informatica

    ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步.ETL负责将分布的.异构数据源中的数据如关系数据.平面数据文件等抽取到临时中间层后进行清洗.转换.集成,最后加载到数据仓库或数据集市中,成为 ...

  4. job kettle 导出_kettle从hive2导出数据正常,但是用kettle manager启动就报错

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 kettle连接hive2,并导出hive2数据,在kettle运行正常,但是用kettle manager启动job就报错: 2017/03/31 14 ...

  5. “数”说风“云”丨强强联合,Informatica发布业界首个混合集成平台

    数据正变成企业的血液 在内部无缝地流动 它借助技术催生 新的客户接触点.创造新的业务商机.优化运营 助力企业算力提升 成功实现数字化转型 Informatica前瞻布局 持续领先 早早就从由单一的数据 ...

  6. 商业智能,数据仓库,ETL,数仓调度工具informatica介绍手账(二)

    数据仓库 数据仓库定义:数据仓库是面向主题的.集成的.稳定的.反应历史变化的.随着时间的历史吧反应变化的数据集合. 数据仓库的特点: (1)面向主题:常规数据库主要是面向事务性处理,比如增删改查.数仓 ...

  7. 商业智能,数据仓库,ETL,数仓调度工具informatica介绍手账(三)

    数据抽取.转换和加载,装载(ETL) (1)数据抽取:抽取是源数据进入数仓的第一步,每个业务系统不同,因此需建立不同的抽取.并进行下一步清洗.抽取目的,提供批处理服务(抽取流程启动,监控,作业调度抽取 ...

  8. 商业智能,数据仓库,ETL,数仓调度工具informatica介绍手账(一)

    商业智能 什么是商业智能?什么样的企业需要商业智能?大家知道商业银行所涉及的系统非常之多,银行网点也非常之多,每家网点现金流入.流出每天都是不一样的,那么银行面临的问题出现了,如何平衡各网点现金流? ...

  9. 从单机架构------》到现在复杂的微服务,分布式,集群,云平台途中是遇到了什么问题,又如何解决的?

    本文转载地址服务端高并发分布式架构演进之路  写的很清楚,全面,顺序的话,肯定不是完全正确,如Docker,redis 等 但不重要,过程就是这莫个过程,根据公司业务不同,架构演变自然不同.转载记录一 ...

最新文章

  1. 计算机的c盘是硬盘吗,c盘是硬盘吗
  2. python二维表转一维表_Excel、Power BI及Python系列:使用Power BI转化一维表与二维表...
  3. 【安全工具】浅谈编写Java代码审计工具
  4. 统计数组中每个数字出现的次数_剑指Offer(二十八) 数组中次数出现超过一半的数字...
  5. 求字符串的不重复字符的最长子串长度的问题
  6. spring学习(40):注入数组类型
  7. C语言编程 简单展开扫雷游戏
  8. lstm 做多分类loss完全不下降_使用Induction Network做Few-Shot Text分类
  9. python 复制列表内容_python 复制列表的六种方法
  10. 在Arcgis地图中插入表格
  11. UVA1589 象棋 Xiangqi
  12. vba formula 公式的引用
  13. Android Studio中使用android:src=quot;@drawable/ic_launcherquot;报错
  14. 名帖63 欧阳询 楷书《九成宫醴泉铭》
  15. 寄云一站式平台支持起医疗大数据的构建与运营
  16. QT学习11:clicked和toggled信号
  17. svn提示没有设置冲突_SVN出现叹号文件冲突解决办法
  18. Nginx无法启动 遇见unknown directive if(!-f in E:\xiangmu\nginx-1.14.0/conf/nginx.conf:28
  19. C++实现动态定义三维内的数组定义赋值释放
  20. 白乔原创:图数据在线交互框架InteractiveGraph

热门文章

  1. Matlab Fmincon 解决带积分的二元非线性规划问题
  2. 某某文学网站小说爬虫
  3. 用 Windows 的 diskpart 命令修复U盘
  4. tomcat是什么?简单解释
  5. 【线性代数】四、二次型
  6. [POI2008]BLO-Blockade,洛谷之提高历练地,强连通分量
  7. 组合数学(三)鸽巢原理
  8. 手机失窃个人信息泄露彻底
  9. Rocket MQ 问题集
  10. 智能车校内赛图像处理