PDI(KETTLE)学习笔记

  • 简介
    • 主要文件
    • 组件树介绍
    • 转换
    • 作业
    • 组件
    • 简单流程
      • 转换
      • 作业

简介

一款ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)工具,可以做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等数据处理。

主要文件

1.转换文件,后缀krt。
2.作业文件,后缀kjb。

组件树介绍


DB连接:双击创建/显示数据库连接信息。显示当前transformation中的数据库连接,每一个transformation的数据库连接都需要单独配置。
Steps:一个transformation中应用到的环节列表。
Hops:一个transformation中应用到的节点连接列表。

转换

类别 操作 说明
输入 文本输入 从本地文本文件输入数据
表输入 从数据库表中输入数据
输出 文本文件输出 将处理结果输出到文本文件
表输出 将处理结果输出到数据库表
插入/更新 根据处理结果对数据库表机型插入更新,如果数据库中不存在相关记录则插入,否则为更新。会根据查询条件中字段进行判断
更新 根据处理结果对数据库进行更新,若需要更新的数据在数据库表中无记录,则会报错停止
删除 根据处理结果对数据库记录进行删除,若需要删除的数据在数据库表中无记录,则会报错停止
转换 字段选择 选择需要的字段,过滤掉不要的字段,也可做数据库字段对应
过滤记录 根据条件对记录进行分类
排序记录 将数据根据某以条件,进行排序

作业

类别 操作 说明
job START 开始
DUMMY 结束
转换 引用转换流程

组件

1.spoon
spoon.bat/spoon.sh,图形化界面,用户开发转换或作业。
2.pan
pan.bat/pan.sh,使用命令调用转换文件,后台运行。
3.kitchen
kitchen.bat/kitchen.sh,使用命令调用作业文件,后台运行。

简单流程

转换

1.双击转换按钮,创建一个转换。

2.双击DB连接,输入数据库信息


3.进入核心对象,分别将表输入和表输出拖拽到右侧转换窗口


编辑表输入

按住shift,指针从表输入拖拽至表输出,将两个操作进行连接(其他类似步骤均用此方法)

编辑表输出

勾选指定数据库字段,然后选择数据库字段窗口,点击获取字段,就可以获取从表输入查询到的字段(流字段列表示从表输入读取的字段名,表字段列表示将要写入到的表的字段名,可以编辑表字段列的名称,实现不同字段名之间的映射)。
若想从一个表读数据,将结果集生成到新建的一个表中,可以在目标表处输入新表名,然后获取完字段后,点击SQL按钮,会弹出窗口,并且创建语句已经写好,点击执行就可以完成新建表结构的创建。



4.然后保存当前转换

5.执行转换文件


执行成功后操作区域的表输入和表输出会有对勾标志,日志区域也会提示。
然后登陆目标数据库查询目标表,发现数据已经转换成功。

如果想要从一个数据库抽取数据到另一个数据库,只需要将表输出的数据库设置为你想要的数据库就行。这就是PDI(kettle)的强大之处。

作业

我们的工作中,有时事需要多个步骤的,也就是一个转换作业无法一次性完成的,而作业就可以将多个转换操作按顺序连接起来,形成一个转换链,从而执行一次,就可以完成一系列转换操作。
1.双击作业按钮,创建一个作业文件
2.从核心对象中,将开始,转换,结束和成功组件拖拽至作业工作窗口,并依次连接。

3.双击转换组件,选择绑定的转换文件

建议将作业项名称和选择的文件名保持统一,便于确认每个步骤。
可以设置每个步骤的输出到指定日志,便于查看单独步骤的记录。(通常工作中都是后台跑进程,是没有界面化的日志的)

4.保存作业并执行


日志显示任务完成,并且显示每个步骤的结果是true,说明每个转换都成功执行了。

刚才我们设置了转换1输出日志到指定文件,方便查看单独步骤的日志记录。

PDI(KETTLE)学习笔记相关推荐

  1. kettle学习笔记(三)——kettle资源库、运行方式与日志

    kettle学习笔记(三)--kettle资源库.运行方式与日志 一.kettle资源库 资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中. 资源库可以使多用户共享转换任 ...

  2. kettle学习笔记

    kettle的学习笔记 谨以此记录学习kettle的过程,文中将会记录所有我遇到过得问题,如果有能帮助你到的地方,那真是再好不过了. 附上kettle中文官网:http://www.kettle.ne ...

  3. 【Kettle学习笔记】从Hbase导入数据至Mysql

    1.连接Hadoop集群与MySQL 1-1 下载当前集群的Hbase配置文件 1-2 解压改配置文件至cdh510目录下 1-3 修改D:\kettle\data-integration\plugi ...

  4. kettle学习笔记(二)——kettle基本使用

    一.子程序功能和启动方式介绍 Spoon.bat: 图形界面方式启动作业和转换设计器. Pan.bat: 命令行方式执行转换. Kitchen.bat: 命令行方式执行作业. Carte.bat: 启 ...

  5. Kettle 学习笔记 — 资源库

    版权声明:本文为博主原创文章,于2021年4月17日首发于CSDN,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/u011046671/article/deta ...

  6. 【Kettle】学习笔记

    学习笔记 一.简介 1.1.ETL简介 1.2.Kettle简介 1.2.1.Kettle 1.2.2.Kettle的两种设计 1.2.3.Kettle的核心组件 二.安装部署 三.Kettle核心概 ...

  7. Windows保护模式学习笔记(九)—— 2-9-9-12分页

    Windows保护模式学习笔记(九)-- 2-9-9-12分页 要点回顾 10-10-12分页 原理 环境配置 2-9-9-12分页 原理 PDPTE PDE PTE XD/NX标志位 环境配置 实验 ...

  8. Windows保护模式学习笔记(八)—— 页目录表基址/页表基址

    Windows保护模式学习笔记(八)-- 页目录表基址/页表基址 要点回顾 一.页目录表基址 实验:拆分线性地址C0300000,并查看其对应的物理页 第一步:打开一个进程,获得它的Cr3 第二步:查 ...

  9. 校园课程 ·学习笔记 ·导航目录

    文章目录 前言 目录 大二(下) <编码规范和测试方法--C/C++版> <SQL高级应用和数据仓库基础(MySQL版)> 大三(上) <计算机网络> <计算 ...

  10. 几何光学学习笔记(34)- 7.5 颜色的匹配

    几何光学学习笔记(34)- 7.4 色度学基础 7.4 色度学基础 1.三刺激值 2. 光谱三剌激值或颜色匹配函数 3. 色品坐标及色品图 4.色度学中常用的三个光学物理量 4.1 光谱反射因数和光谱 ...

最新文章

  1. python中文编码-python中文编码json中文输出问题
  2. java agent_GitHub - dingjs/javaagent: 基于javaagent开发的APM工具,收集方法的执行次数和执行时间,定时输出成json格式的日志。...
  3. Netcdf中多变量导出代码示例
  4. 基于rocketMq秒杀系统demo
  5. Qt场景中图形项的删除
  6. 如何高效地进行敏捷开发管理
  7. flex----其他交互设计
  8. Windows监听进程的两个函数
  9. 互联网女皇报告:拼多多美团崛起,支付宝微信同台竞技!
  10. 46muduo库使用示例(五)
  11. hdu 1540 Tunnel Warfare (线段树维护左右最长连续区间)
  12. SVPWM算法理解(一)——基本原理
  13. 软件设计 基础篇(一) 开发文档
  14. matlab空间复杂度测试,NSGA2算法matlab实现(多个测试函数)
  15. 计算机中没有我的电脑桌面,桌面上我的电脑图标没了怎么办
  16. 网络新闻媒体舆情信息收集统计的三点解决方法
  17. php pwuj 挂马,网站挂马原理及实战
  18. Mac VMWare键盘鼠标失灵
  19. TMS320C6748_PWM_ECAP
  20. SQL获取两个日期之间的天数

热门文章

  1. 分子动力学模拟AMBER参数意义
  2. 简化企业CMMI5认证过程?
  3. .bat批处理命令常用操作
  4. win10 android 手机驱动下载,win10手机刷机包驱动
  5. mysql sql自动优化_SQL语句的自动优化_MySQL
  6. linux 报警级别,linux PMBus总线驱动设计分析
  7. .md文件好用编辑软件分享Typora
  8. MD9 入门 制作衣服 笔记
  9. 小白程序员该看什么书?书单推荐
  10. seqkit根据基因id_AgriSeq 靶向测序法基因分型技术