PDI(KETTLE)学习笔记
PDI(KETTLE)学习笔记
- 简介
- 主要文件
- 组件树介绍
- 转换
- 作业
- 组件
- 简单流程
- 转换
- 作业
简介
一款ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)工具,可以做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等数据处理。
主要文件
1.转换文件,后缀krt。
2.作业文件,后缀kjb。
组件树介绍
DB连接:双击创建/显示数据库连接信息。显示当前transformation中的数据库连接,每一个transformation的数据库连接都需要单独配置。
Steps:一个transformation中应用到的环节列表。
Hops:一个transformation中应用到的节点连接列表。
转换
类别 | 操作 | 说明 |
---|---|---|
输入 | 文本输入 | 从本地文本文件输入数据 |
表输入 | 从数据库表中输入数据 | |
输出 | 文本文件输出 | 将处理结果输出到文本文件 |
表输出 | 将处理结果输出到数据库表 | |
插入/更新 | 根据处理结果对数据库表机型插入更新,如果数据库中不存在相关记录则插入,否则为更新。会根据查询条件中字段进行判断 | |
更新 | 根据处理结果对数据库进行更新,若需要更新的数据在数据库表中无记录,则会报错停止 | |
删除 | 根据处理结果对数据库记录进行删除,若需要删除的数据在数据库表中无记录,则会报错停止 | |
转换 | 字段选择 | 选择需要的字段,过滤掉不要的字段,也可做数据库字段对应 |
过滤记录 | 根据条件对记录进行分类 | |
排序记录 | 将数据根据某以条件,进行排序 |
作业
类别 | 操作 | 说明 |
---|---|---|
job | START | 开始 |
DUMMY | 结束 | |
转换 | 引用转换流程 |
组件
1.spoon
spoon.bat/spoon.sh,图形化界面,用户开发转换或作业。
2.pan
pan.bat/pan.sh,使用命令调用转换文件,后台运行。
3.kitchen
kitchen.bat/kitchen.sh,使用命令调用作业文件,后台运行。
简单流程
转换
1.双击转换按钮,创建一个转换。
2.双击DB连接,输入数据库信息
3.进入核心对象,分别将表输入和表输出拖拽到右侧转换窗口
编辑表输入
按住shift,指针从表输入拖拽至表输出,将两个操作进行连接(其他类似步骤均用此方法)
编辑表输出
勾选指定数据库字段,然后选择数据库字段窗口,点击获取字段,就可以获取从表输入查询到的字段(流字段列表示从表输入读取的字段名,表字段列表示将要写入到的表的字段名,可以编辑表字段列的名称,实现不同字段名之间的映射)。
若想从一个表读数据,将结果集生成到新建的一个表中,可以在目标表处输入新表名,然后获取完字段后,点击SQL按钮,会弹出窗口,并且创建语句已经写好,点击执行就可以完成新建表结构的创建。
4.然后保存当前转换
5.执行转换文件
执行成功后操作区域的表输入和表输出会有对勾标志,日志区域也会提示。
然后登陆目标数据库查询目标表,发现数据已经转换成功。
如果想要从一个数据库抽取数据到另一个数据库,只需要将表输出的数据库设置为你想要的数据库就行。这就是PDI(kettle)的强大之处。
作业
我们的工作中,有时事需要多个步骤的,也就是一个转换作业无法一次性完成的,而作业就可以将多个转换操作按顺序连接起来,形成一个转换链,从而执行一次,就可以完成一系列转换操作。
1.双击作业按钮,创建一个作业文件
2.从核心对象中,将开始,转换,结束和成功组件拖拽至作业工作窗口,并依次连接。
3.双击转换组件,选择绑定的转换文件
建议将作业项名称和选择的文件名保持统一,便于确认每个步骤。
可以设置每个步骤的输出到指定日志,便于查看单独步骤的记录。(通常工作中都是后台跑进程,是没有界面化的日志的)
4.保存作业并执行
日志显示任务完成,并且显示每个步骤的结果是true,说明每个转换都成功执行了。
刚才我们设置了转换1输出日志到指定文件,方便查看单独步骤的日志记录。
PDI(KETTLE)学习笔记相关推荐
- kettle学习笔记(三)——kettle资源库、运行方式与日志
kettle学习笔记(三)--kettle资源库.运行方式与日志 一.kettle资源库 资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中. 资源库可以使多用户共享转换任 ...
- kettle学习笔记
kettle的学习笔记 谨以此记录学习kettle的过程,文中将会记录所有我遇到过得问题,如果有能帮助你到的地方,那真是再好不过了. 附上kettle中文官网:http://www.kettle.ne ...
- 【Kettle学习笔记】从Hbase导入数据至Mysql
1.连接Hadoop集群与MySQL 1-1 下载当前集群的Hbase配置文件 1-2 解压改配置文件至cdh510目录下 1-3 修改D:\kettle\data-integration\plugi ...
- kettle学习笔记(二)——kettle基本使用
一.子程序功能和启动方式介绍 Spoon.bat: 图形界面方式启动作业和转换设计器. Pan.bat: 命令行方式执行转换. Kitchen.bat: 命令行方式执行作业. Carte.bat: 启 ...
- Kettle 学习笔记 — 资源库
版权声明:本文为博主原创文章,于2021年4月17日首发于CSDN,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/u011046671/article/deta ...
- 【Kettle】学习笔记
学习笔记 一.简介 1.1.ETL简介 1.2.Kettle简介 1.2.1.Kettle 1.2.2.Kettle的两种设计 1.2.3.Kettle的核心组件 二.安装部署 三.Kettle核心概 ...
- Windows保护模式学习笔记(九)—— 2-9-9-12分页
Windows保护模式学习笔记(九)-- 2-9-9-12分页 要点回顾 10-10-12分页 原理 环境配置 2-9-9-12分页 原理 PDPTE PDE PTE XD/NX标志位 环境配置 实验 ...
- Windows保护模式学习笔记(八)—— 页目录表基址/页表基址
Windows保护模式学习笔记(八)-- 页目录表基址/页表基址 要点回顾 一.页目录表基址 实验:拆分线性地址C0300000,并查看其对应的物理页 第一步:打开一个进程,获得它的Cr3 第二步:查 ...
- 校园课程 ·学习笔记 ·导航目录
文章目录 前言 目录 大二(下) <编码规范和测试方法--C/C++版> <SQL高级应用和数据仓库基础(MySQL版)> 大三(上) <计算机网络> <计算 ...
- 几何光学学习笔记(34)- 7.5 颜色的匹配
几何光学学习笔记(34)- 7.4 色度学基础 7.4 色度学基础 1.三刺激值 2. 光谱三剌激值或颜色匹配函数 3. 色品坐标及色品图 4.色度学中常用的三个光学物理量 4.1 光谱反射因数和光谱 ...
最新文章
- python中文编码-python中文编码json中文输出问题
- java agent_GitHub - dingjs/javaagent: 基于javaagent开发的APM工具,收集方法的执行次数和执行时间,定时输出成json格式的日志。...
- Netcdf中多变量导出代码示例
- 基于rocketMq秒杀系统demo
- Qt场景中图形项的删除
- 如何高效地进行敏捷开发管理
- flex----其他交互设计
- Windows监听进程的两个函数
- 互联网女皇报告:拼多多美团崛起,支付宝微信同台竞技!
- 46muduo库使用示例(五)
- hdu 1540 Tunnel Warfare (线段树维护左右最长连续区间)
- SVPWM算法理解(一)——基本原理
- 软件设计 基础篇(一) 开发文档
- matlab空间复杂度测试,NSGA2算法matlab实现(多个测试函数)
- 计算机中没有我的电脑桌面,桌面上我的电脑图标没了怎么办
- 网络新闻媒体舆情信息收集统计的三点解决方法
- php pwuj 挂马,网站挂马原理及实战
- Mac VMWare键盘鼠标失灵
- TMS320C6748_PWM_ECAP
- SQL获取两个日期之间的天数