介绍

ETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环,也是工作量较大的一块。Kettle是ETL中其中一个开源工具,基于纯Java开发。

kettle有两种脚本transformation(转换)和Job(作业)

Kettle有三个主要组件:Spoon、Kitchen、Pan

Spoon:是一个图形化的界面,可以让我们用图形化的方式开发转换和作业。windows选择Spoon.bat;Linux选择Spoon.sh

Kitchen:利用Kitchen可以使用命令行调用Job

Pan:利用Pan可以用命令行的形式调用Trans

Carte:Carte是一个轻量级的Web容器,用于建立专用、远程的ETL Server。

声明

1.Kettle最早叫做Kettle,后来该名为PDI,不过大多数人还是习惯于叫Kettle

2.我们这里使用的版本是最新的Kettle 8.1的版本

3.说明一下Kettle的帮助文档可以在Spoon中找到,如果有任何问题可以去帮组文档中查找

运行PDI Client(Spoon)

PDI Client启动分为两种:一种是安装包方式安装,然后在菜单栏中启动,这种方式并不是我们想要的。另外一种是通过解压zip包,然后通过启动脚本spoon.bat或者spoon.sh启动Spoon。

如果正确启动,则出现的主界面应该是下面这样的。

界面整体功能的介绍在Spoon的帮助文档中有详细的介绍,下图中的章节。

Kettle的使用流程

1.创建一个简单的转换

首先这个转换的事例是把testdb数据库中的t_user表的数据拷贝到test表数据库中的user表。

1)创建一个转换

2)连接到testdb和test数据库

连接好以后应该会在DB连接中出现两个数据库连接。

3)在核心对象中拖入一个表输入

并对表输入进行属性设置。

4)然后在核心对象中拖入插入/更新组件

5)按住shift从表输入到插入/更新

6)然后在对插入/更新进行配置,在用来查询的关键字中需要设置连接的字段。

7)最后保存,并运行这个转换,看看是否正确。

2.创建一个简单的作业

这个作业就是将之前的转换以定时执行的方式运行。

1)拖入开始组件,这里设置的间隔时间的3分钟

2)拖入转换组件,将刚刚保存的转换文件配置到Transformation属性中。

3)点击运行按钮,运行配置的作业。

3.连接资源库

在实际的团队开发过程中,不可能将自己的转换、作业和调度等配置存放在自己的电脑中。而Kettle的资源库正可以将我们的转换、作业等存储下来,构成一种协作平台。

转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。Kettle支持连接的资源库类型有三种:

1.Pentaho Repository:使用的是Kettle公司自己的服务器,一般自己公司不会使用

2.Database Repository:保存在数据库的资源库,通过用户名密码访问

3.File Repository:保存的服务器硬盘的资源库,不用密码就可以使用

1)连接资源库

点击右侧的Connect按钮,打开资源连接的Dialog,这里我们需要选择Other Repository

然后在选择Database Repository,如下所示。

2)配置数据库连接,点击Database Connection进行配置

3)完成配置后,点击finish即可。配置完成后,数据库中会多出一些表,选择Connect Now。

4)选择连接后,我们需要输入用户名密码,即可连接到指定的资源库。注意,这里的用户名密码默认是admin/admin(管理员)或者guest/guest(访问者)。然后在title上会显示连接的资源库。

注意:上面的连接配置不要使用中文,包括资源名等等。不然会出现资源库配置为灰色,而且没有Connect按钮。解决方案见Kettle常见错误。

4.使用资源库进行协作开发

1.转换或作业的导入导出

1)导入

当我们有转换或作业在外部需要导入到资源库时,我们可以选择文件—从XML文件导入,选择我们需要导入的文件。

然后将文件保存,会弹出Save界面,选择保存的目录和文件名即可。

2)导出

当我们需要将资源库中的作业和转换保存到本地使用时,我们可以选择文件—导出,进行导出。

2.探索资源库

选择工具—资源库—探索资源库,可以连接到当前连接的资源库。

下面就连接上的资源库。浏览Tab主要是资源库中存在的转换和作业

在浏览的目录或者文件上可以进行以下的各种操作。在这里我实在是没有找不到access controll和历史版本查看的功能。

3.资源连接库管理

在右侧的显示个人信息地方我们可以管理资源库。

Kettle — 使用手册相关推荐

  1. Kettle操作手册

    Kettle操作手册(当前使用版本为:Pentaho Data Integration version 7.1.0.0-12) 1.kettle安装 1.1 下载压缩包(data-integratio ...

  2. Kettle操作手册-Kettle常用脚本步骤

    常用脚本步骤 直接通过代码完成复杂的操作 JavaScript脚本 JavaScript脚本就是使用JavaScript语言通过代码编程来完成对数据流的操作. 获取字段 兼容模式:根据字段类型的不同, ...

  3. 大数据:Kettle导入数据到HDFS

    由于之前一直负责大数据项目,之前用Kettle(pdi)7.1把SQL Server的数据导入到HDFS系统中一直失败,期间由于其他项目中断,就没有继续往下研究,最近因为其他项目完结,继续在网上找了很 ...

  4. kettle 笛卡尔_Kettle用户操作手册1

    Kettle 用户操作手册 1. kettle 介绍 1.1 什么是 kettle Kettle 是 " Kettle E.T.T.L. Envirnonment " 只取首字母的 ...

  5. kettle大于0的转换成1_第一期实训周:基于Python+MySQL+Kettle+R的某网站数据采集分析...

    ↓ 基于Python+MySQL+Kettle+R的 某网站数据采集分析 哈喽!各位学员们 咱们第一期课程就要开始了 下面划重点! 一 高校院系 齐鲁工业大学数学与统计学院应用统计系 二 实训日期 2 ...

  6. 开源ETL工具kettle系列

    开源ETL工具kettle系列之常见问题 摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. J ...

  7. KETTLE常见问题和优化

    http://www.cnblogs.com/jifeng/p/4741498.html 这篇介绍KETTLE的博文可以经常阅读 下面是我自己开发的一些体会: 1.创建MySQL空资源库报错问题:因为 ...

  8. kettle详细使用oracle教程,Kettle入门教程(详细介绍控件使用方法)_kettle详细使用教程,kettle控件介绍...

    Kettle入门教程(详细介绍控件使用方法)本手册主要是对Kettle工具的功能进行详细说明以及如何操作该系统,适合所有使用该系统的人员. 服务查询 数据库查询 数据库连接 流查询 调用存储过程 转换 ...

  9. Kettle的一些常见问题

    摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. Join 我得到A 数据流(不管是基于文件或 ...

  10. kettle 插入更新 数据增量_使用Kettle实现数据实时增量同步

    2018-09-28: 示例job已上传至github,地址见文末 0. 前言 本文介绍了使用Kettle对一张业务表数据(500万条数据以上)进行实时(10秒)同步,采用了时间戳增量回滚同步的方法. ...

最新文章

  1. Node.js:Windows7下搭建的Node.js服务(来玩玩服务器端的javascript吧,这可不是前端js插件)...
  2. C++STL常用简洁版
  3. 完工后的决算书范本_工程决算书范本
  4. 远场语音是什么鬼?和人工智能有什么关系?
  5. 9.PHP核心技术与最佳实践 --- memcache
  6. Ceph添加、删除osd及故障硬盘更换
  7. cad完全卸载教程_完全卸载CAD2012的步骤教程--系统之家
  8. 最小二乘法拟合直线-C++实现
  9. 什么是重载?有什么作用?
  10. 解决微信图标在任务栏显示白纸的方法
  11. NOI OJ 1.3 11:计算浮点数相除的余数 C语言
  12. BZOJ 3470 Freda’s Walk (期望)
  13. 软件测试 Web自动化测试 基础知识 HTML CSS JavaScript
  14. 查看计算机的硬盘的命令,电脑怎么看配置,查看电脑配置命令
  15. 拒绝拖延症的8种方法
  16. 拆解----可充电LED小台灯
  17. 论文阅读——用于脑机接口的运动意图和运动想象脑电数据分析研究
  18. 单目运算符和双目运算符
  19. 意念云分发是干嘛的?
  20. 【ubuntu】【chrome_r197497】编译

热门文章

  1. excel VBA编程入门教程
  2. 异速联客户端可以删除服务器文件,异速联客户端怎么连接服务器
  3. 常用xshell5命令
  4. 数据库的常用操作语句
  5. Mysql常用函数大全(分类汇总讲解)
  6. oracle12c如何完全卸载_如何卸载oracle12c
  7. java将乱码转换成中文_转:java中文乱码的解决
  8. gis等时圈怎么做_ArcGIS中输入风格一致的带圈数字
  9. HighTec、S32 Design Studio等编译器如何修改字体大小
  10. 金毅泓:10.6美元持续上涨,金价萎靡关注晚间ADP数据