Kettle/Pentaho的安装与配置
一、各种ETL工具对比
目前,ETL工具的典型代表有:
- 商业软件:
- 国外:Informatica PowerCenter,IBM InfoSphere DataStage,Oracle Data Integrator,Microsoft SQL Server Integration Services等
- 国内:基于KETTLE研发的HaoheDI、DataPipeline、Ckettle等
中国通服工业互联网(大数据)研究院 CKettle - 源于开源 强于开源
- 开源软件:Pentaho(习惯还是称为Kettle),Talend,Apatar,Scriptella等
纯java编写,可以跨平台运行,绿色无需安装,数据抽取高效稳定。
相对于传统的商业软件,Kettle是一个易于使用的,低成本的解决方案。
二、Kettle起源
- Kettle是一个Java编写的ETL工具,主作者是Matt Casters,2003年就开始了这个项目。
- 2005年12月,Kettle从2.1版本开始进入了开源领域,一直到4.1版本遵守LGPL协议,从4.2版本开始遵守Apache Licence 2.0协议。
- Kettle在2006年初加入了开源的BI公司Pentaho, 正式命名为:Pentaho Data Integeration,简称“PDI”。
- 自2017年9月20日起,Pentaho已经被合并于日立集团下的新公司: Hitachi Vantara。
- 总之,Kettle可以简化数据仓库的创建,更新和维护,使用Kettle可以构建一套开源的ETL解决方案。
三、Kettle使用场景
- Migrating data between applications or databases 在应用程序或数据库之间进行数据迁移
- Exporting data from databases to flat files 从数据库导出数据到文件
- Loading data massively into databases 导入大规模数据到数据库
- Data cleansing 数据清洗
- Integrating applications 集成应用程序
四、Kettle架构
Kettle是一个组件化的集成系统,包括如下几个主要部分:
- Spoon:图形化界面工具(GUI方式),Spoon允许你通过图形界面来设计Job和 Transformation,可以保存为文件或者保存在数据库中。也可以直接在Spoon图形化界面中运行Job和Transformation,
- Pan:Transformation执行器(命令行方式),Pan用于在终端执行Transformation,没有图形界面。
- Kitchen:Job执行器(命令行方式),Kitchen用于在终端执行Job,没有图形界面。
- Carte:嵌入式Web服务,用于远程执行Job或Transformation,Kettle通过Carte建立集群。
五、Kettle基本概念
- Transformation:定义对数据操作的容器,数据操作就是数据从输入到输出的一个过程,可以理解为比Job粒度更小一级的容器,我们将任务分解成Job,然后需要将Job分解成一个或多个Transformation,每个Transformation只完成一部分工作。
- Step:是Transformation内部的最小单元,每一个Step完成一个特定的功能。
- Job:负责将Transformation组织在一起进而完成某一工作,通常我们需要把一个大的任务分解成几个逻辑上隔离的Job,当这几个Job都完成了,也就说明这项任务完成了。
- Job Entry:Job Entry是Job内部的执行单元,每一个Job Entry用于实现特定的功能,如:验证表是否存在,发送邮件等。可以通过Job来执行另一个Job或者Transformation,也就是说Transformation和Job都可以作为Job Entry。
- Hop:用于在Transformation中连接Step,或者在Job中连接Job Entry,是一个数据流的图形化表示。
需要注意的是在Kettle中Job中的JobEntry是串行执行的,是有顺序编排的,故Job中必须有一个Start的JobEntry;而Transformation中的Step是并行执行的,这一点很多人容易忽略。
六、Pentaho社区版的安装
社区版下载地址:Pentaho from Hitachi Vantara - Browse Files at SourceForge.net
百度网盘连接:
链接:https://pan.baidu.com/s/18in3Bhy1yVKpc82xIgIvVQ
提取码:j744
百度网盘中有客户端和pentaho server端两个安装包!
目前最新版本是9.2版本PDI,下载量最多的那个就是!
下图是9.1版本的示例
下载后直接解压缩安装就可以使用了,Windows下启动文件是data-integration目录下的Spoon.bat,Linux系统下启动文件是data-integration目录下的Spoon.sh
打开后的界面如下:
Pentaho除了PDI外还有Pentaho server,Pentahoserver 包含repository数据存储库、用户权限管理,Server安装后访问IP:8080就是用户控制台界面,如下所示:
注:
9.1版本的有bug,建议用8.3或者目前最新的9.2版本
问题:
启动提示:WARNING: no libwebkitgtk-1.0 detected, some features will be unavailab
安装webkitgtk-2.4.9-1.el7.x86_64.rpm包,或者看以下链接安装
安装libwebkitgtk的问题&rpm包的下载地址_大宇进阶之路的博客-CSDN博客_libwebkitgtk rpm
参考文章:
商业智能BI-ETL工具-Kettle的介绍与安装 - 知乎
六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)_huryer的专栏-CSDN博客
kettle的基本介绍 - 左正 - 博客园
Kettle/Pentaho的安装与配置相关推荐
- Kettle/Pentaho的Carte集群配置和使用
以下配置和记录只为学习使用,查看了网上资料进行的实践,这是文档记录的一个章节,提供给大家学习. 目录 1.Carte的配置 2.Carte的启动 3.Carte的停止 4.Carte的使用 4.1配置 ...
- ETL工具Kettle简介和安装配置基本使用
什么是Kettle Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行,绿色无需安装,数据抽取高效稳定. Kettle 中文名称叫水壶,该项目的主程 ...
- kettle安装与配置
一.kettle下载 kettle官网地址:Home | Kettle 二.安装配置java环境 参考:java环境配置 三.配置kettle 1.解压 2.双击Spoon.bat出现错误提示: 说明 ...
- kettle的下载安装以及问题点
1.kettle下载以安装 1)kettle的官网下载地址:Pentaho from Hitachi Vantara - Browse Files at SourceForge.net 2)如果需要下 ...
- 01-PDI(Kettle)简介与安装
文章目录 01-PDI(Kettle)简介与安装 PDI(Kettle)简介 Kettle安装 Kettle核心知识点 01-PDI(Kettle)简介与安装 最好的学习资料就是官网,附上官网文档地址 ...
- Maven安装与配置(最实用!!!)eclipse中配置maven
Maven安装与配置 一.需要准备的东西 JDK Eclipse(本章主要是在eclipse中进行配置maven) Maven程序包 二.下载与安装 1. 前往maven下载最新版的Maven程序: ...
- Portainer 安装与配置
文章目录 Portainer 安装与配置 一.介绍 二.安装使用 1.单机运行 2.基于swarm集群方式运行 Portainer 安装与配置 一.介绍 Portainer 是一个开源.轻量级Do ...
- Myeclipse安装、配置、测试
Myeclipse安装.配置.测试(win7_64bit) 目录 1.概述 2.本文用到的工具 3.安装与激活 4.JavaSE开发测试(确保JDK已正确安装) 5.JavaEE开发测试(确保服务器和 ...
- [网摘学习]在Ubuntu上安装和配置OpenStack Nova之二
再收藏一份Openstack的文章,这两天的操作与此相同.但其中出现的问题还需要查找原因.待个人继续学习研究. 原文参考:http://www.linuxde.net/2011/11/1599.htm ...
- centos6.5 php5.2,Linux中PHP安装与配置(CentOS-6.5:php-5.2.13)
1 PHP简介 PHP(PHP: Hypertext Preprocessor的缩写,中文名:"超文本预处理器")是一种通用开源脚本语言.语法吸收了C语言.Java和Per ...
最新文章
- mysql default unix_timestamp_mysql中的unix_timestamp函数
- 半监督分类算法_用图网络进行半监督分类
- oj1500(Message Flood)字典树
- Django内置数据表
- 关于TP5-微信H5支付
- MYSQL UPDATE使用子查询
- 智能爆炸的真实(下)
- 实用主义当道——GitHub 热点速览 Vol.48
- [BZOJ3717] [PA2014] Pakowanie [状态压缩][dp]
- vs2019无法启动程序 系统找不到指定文件
- 《今日简史》谈到的生物技术和人工智能技术
- 【自动驾驶】高级驾驶辅助系统(ADAS)
- 沙盘游戏让我变成“诗人”
- 无法联网的情况下,dbeaver离线安装数据库驱动-clickhouse
- 服务器显示器多少寸合适,购买别冲动!先看多大的显示器适合你
- Linux clock子系统【3】-i2c控制器打开时钟的流程分析(devm_clk_get)(consumer侧)
- Solr之——配置中文分词IKAnalyzer和拼音分词pinyinAnalyzer
- SpringBoot(读取配值文件里面的属性)
- 大数据平台安全培训.ppt
- verdi仿真中看波形经常犯的错误
热门文章
- Excel 如何用万元单位表示,并且保留两位小数点,亲测真实有效!自定义格式即可解决!如:100.25万---但是此方法会导致最后一位永远都是0
- 互联网未来十年发展趋势
- GB2312区位码、编码表与编码规则
- ASCII码表 256位
- Oracle中的数据类型---NUMBER
- 推荐一个统计英语词频的软件:replace pioneer
- 编写矩阵运算程序(C语言)
- 在word中如何对图片进行编辑
- 华为php工程师待遇,【博士Offer求比较】211vs华为vs半导体设备商 - 找工作啦(Job)版 - 北大未名BBS...
- GCF(3)---GCF简介