一、各种ETL工具对比

目前,ETL工具的典型代表有:

  1. 商业软件:
  • 国外:Informatica PowerCenter,IBM InfoSphere DataStage,Oracle Data Integrator,Microsoft SQL Server Integration Services等
  • 国内:基于KETTLE研发的HaoheDI、DataPipeline、Ckettle等

中国通服工业互联网(大数据)研究院 CKettle - 源于开源 强于开源

  1. 开源软件:Pentaho(习惯还是称为Kettle),Talend,Apatar,Scriptella等

纯java编写,可以跨平台运行,绿色无需安装,数据抽取高效稳定。

相对于传统的商业软件,Kettle是一个易于使用的,低成本的解决方案。

二、Kettle起源

  1. Kettle是一个Java编写的ETL工具,主作者是Matt Casters,2003年就开始了这个项目。
  2. 2005年12月,Kettle从2.1版本开始进入了开源领域,一直到4.1版本遵守LGPL协议,从4.2版本开始遵守Apache Licence 2.0协议。
  3. Kettle在2006年初加入了开源的BI公司Pentaho, 正式命名为:Pentaho Data Integeration,简称“PDI”。
  4. 自2017年9月20日起,Pentaho已经被合并于日立集团下的新公司: Hitachi Vantara。
  5. 总之,Kettle可以简化数据仓库的创建,更新和维护,使用Kettle可以构建一套开源的ETL解决方案。

三、Kettle使用场景

  1. Migrating data between applications or databases 在应用程序或数据库之间进行数据迁移
  2. Exporting data from databases to flat files 从数据库导出数据到文件
  3. Loading data massively into databases 导入大规模数据到数据库
  4. Data cleansing 数据清洗
  5. Integrating applications 集成应用程序

四、Kettle架构

Kettle是一个组件化的集成系统,包括如下几个主要部分:

  1. Spoon:图形化界面工具(GUI方式),Spoon允许你通过图形界面来设计Job和 Transformation,可以保存为文件或者保存在数据库中。也可以直接在Spoon图形化界面中运行Job和Transformation,
  2. Pan:Transformation执行器(命令行方式),Pan用于在终端执行Transformation,没有图形界面。
  3. Kitchen:Job执行器(命令行方式),Kitchen用于在终端执行Job,没有图形界面。
  4. Carte:嵌入式Web服务,用于远程执行Job或Transformation,Kettle通过Carte建立集群。

五、Kettle基本概念

  1. Transformation:定义对数据操作的容器,数据操作就是数据从输入到输出的一个过程,可以理解为比Job粒度更小一级的容器,我们将任务分解成Job,然后需要将Job分解成一个或多个Transformation,每个Transformation只完成一部分工作。
  2. Step:是Transformation内部的最小单元,每一个Step完成一个特定的功能。
  3. Job:负责将Transformation组织在一起进而完成某一工作,通常我们需要把一个大的任务分解成几个逻辑上隔离的Job,当这几个Job都完成了,也就说明这项任务完成了。
  4. Job Entry:Job Entry是Job内部的执行单元,每一个Job Entry用于实现特定的功能,如:验证表是否存在,发送邮件等。可以通过Job来执行另一个Job或者Transformation,也就是说Transformation和Job都可以作为Job Entry。
  5. Hop:用于在Transformation中连接Step,或者在Job中连接Job Entry,是一个数据流的图形化表示。

需要注意的是在Kettle中Job中的JobEntry是串行执行的,是有顺序编排的,故Job中必须有一个Start的JobEntry;而Transformation中的Step是并行执行的,这一点很多人容易忽略。

六、Pentaho社区版的安装

社区版下载地址:Pentaho from Hitachi Vantara - Browse Files at SourceForge.net

百度网盘连接:

链接:https://pan.baidu.com/s/18in3Bhy1yVKpc82xIgIvVQ 
提取码:j744

百度网盘中有客户端和pentaho server端两个安装包!

目前最新版本是9.2版本PDI,下载量最多的那个就是!

下图是9.1版本的示例

下载后直接解压缩安装就可以使用了,Windows下启动文件是data-integration目录下的Spoon.bat,Linux系统下启动文件是data-integration目录下的Spoon.sh

打开后的界面如下:

Pentaho除了PDI外还有Pentaho server,Pentahoserver 包含repository数据存储库、用户权限管理,Server安装后访问IP:8080就是用户控制台界面,如下所示:

注:

9.1版本的有bug,建议用8.3或者目前最新的9.2版本

问题:

启动提示:WARNING:  no libwebkitgtk-1.0 detected, some features will be unavailab

安装webkitgtk-2.4.9-1.el7.x86_64.rpm包,或者看以下链接安装

安装libwebkitgtk的问题&rpm包的下载地址_大宇进阶之路的博客-CSDN博客_libwebkitgtk rpm

参考文章:

商业智能BI-ETL工具-Kettle的介绍与安装 - 知乎

六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)_huryer的专栏-CSDN博客

kettle的基本介绍 - 左正 - 博客园

Kettle/Pentaho的安装与配置相关推荐

  1. Kettle/Pentaho的Carte集群配置和使用

    以下配置和记录只为学习使用,查看了网上资料进行的实践,这是文档记录的一个章节,提供给大家学习. 目录 1.Carte的配置 2.Carte的启动 3.Carte的停止 4.Carte的使用 4.1配置 ...

  2. ETL工具Kettle简介和安装配置基本使用

    什么是Kettle Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行,绿色无需安装,数据抽取高效稳定. Kettle 中文名称叫水壶,该项目的主程 ...

  3. kettle安装与配置

    一.kettle下载 kettle官网地址:Home | Kettle 二.安装配置java环境 参考:java环境配置 三.配置kettle 1.解压 2.双击Spoon.bat出现错误提示: 说明 ...

  4. kettle的下载安装以及问题点

    1.kettle下载以安装 1)kettle的官网下载地址:Pentaho from Hitachi Vantara - Browse Files at SourceForge.net 2)如果需要下 ...

  5. 01-PDI(Kettle)简介与安装

    文章目录 01-PDI(Kettle)简介与安装 PDI(Kettle)简介 Kettle安装 Kettle核心知识点 01-PDI(Kettle)简介与安装 最好的学习资料就是官网,附上官网文档地址 ...

  6. Maven安装与配置(最实用!!!)eclipse中配置maven

    Maven安装与配置 一.需要准备的东西 JDK Eclipse(本章主要是在eclipse中进行配置maven) Maven程序包 二.下载与安装 1. 前往maven下载最新版的Maven程序: ...

  7. Portainer 安装与配置

    文章目录 Portainer 安装与配置 一.介绍 二.安装使用 1.单机运行 2.基于swarm集群方式运行 Portainer 安装与配置 一.介绍 ​ Portainer 是一个开源.轻量级Do ...

  8. Myeclipse安装、配置、测试

    Myeclipse安装.配置.测试(win7_64bit) 目录 1.概述 2.本文用到的工具 3.安装与激活 4.JavaSE开发测试(确保JDK已正确安装) 5.JavaEE开发测试(确保服务器和 ...

  9. [网摘学习]在Ubuntu上安装和配置OpenStack Nova之二

    再收藏一份Openstack的文章,这两天的操作与此相同.但其中出现的问题还需要查找原因.待个人继续学习研究. 原文参考:http://www.linuxde.net/2011/11/1599.htm ...

  10. centos6.5 php5.2,Linux中PHP安装与配置(CentOS-6.5:php-5.2.13)

    1 PHP简介     PHP(PHP: Hypertext Preprocessor的缩写,中文名:"超文本预处理器")是一种通用开源脚本语言.语法吸收了C语言.Java和Per ...

最新文章

  1. mysql default unix_timestamp_mysql中的unix_timestamp函数
  2. 半监督分类算法_用图网络进行半监督分类
  3. oj1500(Message Flood)字典树
  4. Django内置数据表
  5. 关于TP5-微信H5支付
  6. MYSQL UPDATE使用子查询
  7. 智能爆炸的真实(下)
  8. 实用主义当道——GitHub 热点速览 Vol.48
  9. [BZOJ3717] [PA2014] Pakowanie [状态压缩][dp]
  10. vs2019无法启动程序 系统找不到指定文件
  11. 《今日简史》谈到的生物技术和人工智能技术
  12. 【自动驾驶】高级驾驶辅助系统(ADAS)
  13. 沙盘游戏让我变成“诗人”
  14. 无法联网的情况下,dbeaver离线安装数据库驱动-clickhouse
  15. 服务器显示器多少寸合适,购买别冲动!先看多大的显示器适合你
  16. Linux clock子系统【3】-i2c控制器打开时钟的流程分析(devm_clk_get)(consumer侧)
  17. Solr之——配置中文分词IKAnalyzer和拼音分词pinyinAnalyzer
  18. SpringBoot(读取配值文件里面的属性)
  19. 大数据平台安全培训.ppt
  20. verdi仿真中看波形经常犯的错误

热门文章

  1. Excel 如何用万元单位表示,并且保留两位小数点,亲测真实有效!自定义格式即可解决!如:100.25万---但是此方法会导致最后一位永远都是0
  2. 互联网未来十年发展趋势
  3. GB2312区位码、编码表与编码规则
  4. ASCII码表 256位
  5. Oracle中的数据类型---NUMBER
  6. 推荐一个统计英语词频的软件:replace pioneer
  7. 编写矩阵运算程序(C语言)
  8. 在word中如何对图片进行编辑
  9. 华为php工程师待遇,【博士Offer求比较】211vs华为vs半导体设备商 - 找工作啦(Job)版 - 北大未名BBS...
  10. GCF(3)---GCF简介