商业智能平台研究 (十) ETL 选型

ETL (Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%~80%,这是国内外从众多实践中得到的普遍共识。

ETL工具从厂商来分为两种,一种是数据库厂商自带的ETL工具,Oracle warehouse builder 就是这种,另外一种是第三方工具提供商.开源世界也有一大票的ETL工具,功能各异,强弱不一,你可以从一下地址找到开源ETL工具的列表 http://www.manageability.org/blog/stuff/open-source-etl/view  , 提醒一句,选用工具的时候要慎重,真的,千万要慎重,不管你是选用商业的ETL工具(一般比较贵),还是开源的工具,都要在你充分了解产品的特性才去选择,千万不要听某某人说什么这个工具好,就购买了那个工具,一定要自己了解产品.

开源的ETL工具的列表 (排名是乱排的)
kettle  http://kettle.pentaho.org/  ,pentaho官方的ETL工具,是一个metadata-driven 的ETL工具,不需要自己写code .
talend  http://www.talend.com/    talend是talend自己公司的产品,宣传的是全功能的Data Integration 解决方案,基于eclipse 平台,包括很多的模块来实现商业流程建模,数据流程建模,最后输出的是perl 和 Java code
jasperETL  http://www.jaspersoft.com/   JasperETL是基于talend的平台,不太清楚有什么区别,jaspersoft开发的ETL产品.
Octopus   http://www.enhydra.org/tech/octopus/index.html    octopuc是enhydra 的一个ETL工具,enhydra是一个产品跨度非常大的开源站点,它有个开源的Workflow ,Shark ,pentaho就是使用的这个Workflow ,这个组织从workflow 到application server , 从ETL工具到application framework ,还有一些其他的中间件,octopus非常的原始,支持任何的JDBC数据源,用XML语言来定义的.也支持JDBC-DOBC ,和excel 和 access ,csv-files, XML files ,用Ant 和 JUnit 来创建表和测试.
CloverETL http://cloveretl.berlios.de/   CloverETL是提供给你一组API,用XML来定义ETL过程,同样支持JDBC数据源, CloverETL是开源的,但是它是没有图形界面的,它提供一个有图形界面的CloverGUI 来进行ETL的图形化开发过程,但是不是开源的,需要购买商业许可证.
KETL   http://www.ketl.org/    听说是几个前IBM员工做出来的ETL产品,
另外还有很多.不一一写介绍了,只列个表吧,
Joost        http://joost.sourceforge.net/    最近有个web2.0 网站也叫Joost,名字相同而已.
Xineo        http://software.xineo.net/xil.jspx
BabelDoc        http://sourceforge.net/projects/babeldoc
CB2XML        http://sourceforge.net/projects/cb2xml
mec-eagle        http://sourceforge.net/projects/mec-eagle/
Transmorpher        http://transmorpher.inrialpes.fr/
XPipe        http://xpipe.sourceforge.net/Articles/Miscellaneous/fog0000000018.html
DataSift        http://www.datasift.org/
Xephyrus Flume        http://www.xephyrus.com/flume/flume-intro.Prlx
Smallx        https://smallx.dev.java.net/
Nux        http://dsd.lbl.gov/nux/index.html
Netflux        http://www.netflux.org/
OpenDigger       https://opendigger.dev.java.net/
ServingXML        http://servingxml.sourceforge.net/
Scriptella        http://scriptella.javaforge.com/
ETL Integrator        http://www.glassfishwiki.org/jbiwiki/Wiki.jsp?page=ETLSE
Jitterbit        http://www.jitterbit.com/
Apatar        http://www.apatar.com/
Spring Batch       http://static.springframework.org/spring-batch/

大多数站点都是在sf.net上的.其中最后一个是Spring的,大名鼎鼎的Spring 也往ETL插一脚.实在是..........
根据talend官方介绍的数据,ETL工具的市场份额在2006好像是有160多亿美元.由于BI项目的成功,ETL的这一市场份额还会扩大,这也不难理解,为什么这么多的公司都在做ETL工具了.开源世界也免不了想要分一杯羹.再次废话一句,开源的东西你可以免费得到和使用,但是当你想应用到企业级开发的时候,省钱可不是唯一应该考虑的因素.还是那句话,慎重呀慎重.

下一篇介绍BI的基本概念.

商业智能平台研究 (十) ETL 选型相关推荐

  1. [转]四大开源商业智能平台大比拼[http://database.ctocio.com.cn/analysis/289/7610289.shtml]

    本文从对方面对四大开源商业智能平台进行了比较-- 首先看一下它们各自的网站 openI openI的 站点就是属于典型的开源站点,简洁,不像是一个商业公司的站点.但有一件很有意思的地方,看到左上角的图 ...

  2. 商业智能平台BI 商业智能分析平台 如何选择合适的商业智能平台BI

    作为国内一流商业智能平台开发的人员,今天就和大家分析一下有关商业智能平台.商业智能分析平台,以及如何选择合适的商业智能平台,商业智能平台.商业智能分析平台是未来所有企业发展中必不可少的一环的.这并非危 ...

  3. 创办智能车竞赛平台,十五年无间断,育人数十万

    ➤01 初稿 一.竞赛简介   全国大学生智能汽车竞赛是以智能汽车为研究对象,面向全国大学生开展的复杂工程探索类别的科技竞赛,目标是提高学生的动手实践能力.探索创新兴趣.团队协作精神.它起源于2005 ...

  4. 全球及中国梦幻体育软件和平台行业十四五规模展望及应用价值分析报告2021-2027年

    全球及中国梦幻体育软件和平台行业十四五规模展望及应用价值分析报告2021-2027年 目录 2020年,全球梦幻体育软件和平台市场规模达到了 百万美元,预计2027年将达到 百万美元,年复合增长率(C ...

  5. 如何商业智能平台BI的成本

    如果在选择商业智能平台时只考虑购买价格,那么这一决策是缺少全局观念的.人们通常说的总拥有成本(TCO),涵盖了购买软件和基础设施.部署和集成以及支持和维护等等方面,您在选择商业智能平台时,至少要考虑到 ...

  6. 企业级监控平台,监控系统选型

    企业级监控平台,监控系统选型 一.监控基础知识 1.1 监控系统的7大作用 1.2 使用监控系统的正确姿势 1.3 监控的对象和指标都有哪些? 1.4 监控系统的基本流程 1.5 监控目标 1.6 监 ...

  7. 重磅 | Stratifyd入选“数据分析与商业智能平台典型供应商”

    近日,中国领先的数字化产品与服务信息平台--字母点评发布了<2022中国数据分析与商业智能平台采购指南>,Stratifyd凭借硬核的产品实力和商业实践成功入选为该领域的典型供应商. 随着 ...

  8. 烟草物流信息综合管理平台研究与应用——以H市卷烟厂烟草物流配送中心为例

    烟草物流信息综合管理平台研究与应用 --以H市卷烟厂烟草物流配送中心 摘 要 自我国正式加入世界贸易组织(WTO)以来,我国卷烟与外国卷烟之间对零售终端市场的竞争日益激烈,中国烟草目前正面临前所未有的 ...

  9. 每日新闻 | Gartner分析和商业智能平台魔力象限公布,阿里云Quick BI入选

    | IDC:2020金融行业将在云.大数据.AI研发投入更多 IDC于近日发布<IDC FutureScape:2020年全球金融行业十大预测--中国启示>,报告包括:到2021年,中国3 ...

最新文章

  1. ansible自动化运维(一)——基本架构简介
  2. VS2005右键点击转到定义后出现“未定义符号”的提示及其解决
  3. asp.net mvc @RenderBody()的问题
  4. 《Adobe Flash Professional CC经典教程》——1.3 使用“库”面板
  5. java找哪一天是星期几_七夕节是几月几日农历时间 2019年七夕情人节哪一天星期几...
  6. H.264专利费不受FRAND限制 Android设备商受影响
  7. 有个需求mybatis 插入的时候不知道有哪些字段,需要动态的传入值和字段
  8. 计算机考研计划时间,2019计算机考研时间安排:复习时间规划
  9. VMware相关产品下载(随时更新)
  10. C#调用系统的复制、移动、删除文件对话框
  11. excel的常用公式
  12. 基于node.js的express连接数据库
  13. 微服务架构实战篇(三):Spring boot2.0 + Mybatis + PageHelper实现增删改查和分页查询功能
  14. 好用的在线开发辅助工具
  15. C#笔记——自动关机or定时关机小程序
  16. #程序员健康 如何解救你的鼠标手
  17. OCR手写数字识别什么软件好用?介绍一种
  18. 初学者入门阿里云haas510开板式DTU(2.0版本)--510-AS
  19. IBM ThinkPad F11系统恢复完全技巧
  20. melis系统c800_Dell bilgisayarda HDMI bağlantı noktasıyla ilgili Sık Sorulan Sorular (SSS)

热门文章

  1. linux系统日志的查看和采集
  2. TeXstudio安装和运行
  3. Python 获得摄像头捕捉的图像
  4. 无法安装Windows 7的几种原因——思齐博客
  5. mysql外网访问设置
  6. labview视觉学习日记(一):插件及工具包的安装
  7. Python 3 学习笔记(二)----数据类型
  8. 解读P问题、NP问题、NPC问题的概念
  9. Modemcu上传 mysql_nodemcu 连接domoticz上传自定义的传感器采集交流电压
  10. 【前端面试知识点】- 1. httphttps