kettle实现颗粒度转换
一、对文本文件进行数据粒度转换,即将文本文件personnel_data.txt中字段household_register的数据统一成省份,并且输出到文本文档personnel_data_new.txt中。
1.打开Kettle工具,新建转换使用Kettle工具->创建一个转换generalization->添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线。
2.配置文本文件输入控件,双击“文本文件输入”控件,进入“文本文件输入”界面,单击【浏览】按钮,选择要抽取personnel_data.txt文件;单击【增加】按钮,将要抽取的personnel_data.txt文件添加到generalization转换中。
3.单击“内容”选项卡,在分隔符处清除默认分隔符“;”,然后单击【Insert TAB】按钮,在分隔符处插入一个制表符;取消勾选“头部”复选框。
4.单击“字段”选项卡,根据personnel_data.txt文件的内容添加对应的字段名称,并指定数据类型。“字段”选项卡的配置。
6.配置字段选择控件,双击“字段选择”控件,进入“选择/改名值”界面,在“选择和修改”选项卡处添加字段名称,单击”确认“按钮完成配置。
7.配置排序记录控件,双击“排序记录”控件,进入“排序记录”界面,并在“字段”框中添加字段household_register,对其进行排序,单击【确定】按钮,完成“排序记录”控件的配置。
8.配置表输入控件,双击“表输入”控件,进入“表输入”界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮
9.配置记录集连接控件。双击“记录集连接”控件,进入“合并排序”界面,在“第一个步骤”处的下拉框中选择“排序记录”,“第二个步骤”处的下拉框中选择“排序记录2”;在“第一个步骤的连接字段”和“第二个步骤的连接字段”处添加连接字段,这里添加的连接字段是household_register和city;在“连接类型”处的下拉框选择连接类型,这里选择的LEFT OUTER,即左外连接,单击【确定】按钮,完成记录集连接控件的配置。
10.配置字段选择2控件,双击“字段选择2”控件,进入“选择/改名值”界面,在“选择和修改”选项卡处添加字段名称,这里添加的是记录集连接流中的字段household_register和pid,单击【确定】按钮,完成“字段选择2”控件的配置。
11.配置排序记录3控件,双击“排序记录 3”控件,进入“排序记录”界面,在“字段”框中添加字段pid,并对其进行排序,单击【确定】按钮,完成排序记录3控件的配置。
12.配置表输入2控件,双击“表输入2”控件,进入“表输入2”界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮
13.配置排序记录4控件,双击“排序记录 4”控件,进入“排序记录”界面,在“字段”框中添加字段pid,并对其进行排序,单击【确定】按钮,完成“排序记录4”控件的配置。
14.配置记录集连接2控件,双击“记录集连接2”控件,进入“合并排序”界面,在“第一个步骤”处的下拉框中选择“排序记录3”,“第二个步骤”处的下拉框中选择“排序记录4”;在“第一个步骤的连接字段”和“第二个步骤的连接字段”处添加连接字段,这里添加的连接字段是pid;在“连接类型”处的下拉框选择连接类型,这里选择的LEFT OUTER,即左外连接。
15.配置字段选择3控件,双击“字段选择3”控件,进入“选择/改名值”界面,在“选择和修改”选项卡处添加字段名称,这里添加的是记录集连接2流中的字段household_register和Provincial。
16.配置表输出控件
1)双击“表输出”控件,进入“表输出”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。
2) 单击目标表右侧的【浏览】按钮,选择输出的目标表,即临时数据表personnel;勾选“指定数据库字段”的复选框。单击【输入字段映射】按钮,弹出“映射匹配”对话框,依次选中“源字段”选项框的字段和“目标字段”选项框的字段,再单击【Add】按钮,将一对映射字段添加至“映射”选项框中,若“源字段”选项框的字段和“目标字段”选项框的字段相同,则可以单击【猜一猜】按钮,让Kettle自动实现映射。单击映射匹配对话框的【确定】按钮,“表输出”界面最终显示的效果如图所示,单击【确定】按钮,完成“表输出”控件的配置。
17.打开Kettle工具,新建转换,使用Kettle工具,创建一个转换generalization_merge,并添加表输入控件、字段选择控件、排序记录控件、记录集连接控件、文本文件输出控件。
18. 配置表输入控件,双击“表输入”控件,进入“表输入”界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。在SQL框中编写SQL语句,用于查询数据表personnel中的数据
19..配置字段选择控件,双击“字段选择”控件,进入“选择/改名值”界面,在“选择和修改”选项卡处添加字段名称。
20.配置排序记录控件,双击“排序记录”控件,进入“排序记录”界面,并在“字段”框中添加字段id,对其进行排序。
21.
配置文本文件输入控件
1)双击“文本文件输入”控件,进入“文本文件输入”界面,单击【浏览】按钮,选择要抽取personnel_data.txt文件;单击【增加】按钮,将要抽取的personnel_data.txt文件添加到generalization_merge转换中。
2)单击“内容”选项卡,在分隔符处清除默认分隔符“;”,单击【Insert TAB】按钮,在分隔符处插入一个制表符;取消勾选“头部”复选框。
3)单击“字段”选项卡,根据personnel_data.txt文件的内容添加对应的字段名称,并指定数据类型。“字段”选项卡的配置。
22.配置字段选择2控件,双击“字段选择2”控件,进入“选择/改名值”界面,在“选择和修改”选项卡处添加字段名称。
23.配置排序记录2控件,双击“排序记录”控件,进入“排序记录”界面,并在“字段”框中添加字段id,对其进行排序。
24. 双击“记录集连接”控件,进入“合并排序”界面,在“第一个步骤”处的下拉框中选择“排序记录”,“第二个步骤”处的下拉框中选择“排序记录2”;在“第一个步骤的连接字段”和“第二个步骤的连接字段”处添加连接字段,这里添加的连接字段是id;在“连接类型”处的下拉框选择连接类型,这里选择的LEFT OUTER,即左外连接。
25.配置字段选择3控件,双击“字段选择3”控件,进入“字段选择”界面,在“选择和修改”选项卡处添加字段名称,并将字段household_register_new改为household_register。
26.双击“文本文件输出”控件,进入“文本文件输出”界面,单击“文件名称”右侧的【浏览】按钮,选择输出文件,即文本文件personnel_data_new,单击“内容”选项卡,进入“内容”界面,清除分隔符处的默认分隔符,单击【插入Tab】按钮,插入Tab分隔符。并在编码处的下拉框选择“UTF-8”编码,单击“字段”选项卡,进入“字段”界面,添加要输出的字段。
27.
27.打开Kettle工具,新建作业,使用Kettle工具,创建一个作业generalization,并添加Start控件、转换控件、成功控件。
28.配置转换控件,双击“转换”控件,进入“转换”界面,单击“Transformations”处的【浏览】按钮,选择添加转换generalization。
29.配置转换2控件,双击“转换2”控件,进入“转换”界面,单击“Transformations”处的【浏览】按钮,选择添加转generalization_merge
30. 运行作业generalization,单击作业工作区顶部的start按钮,运行作业generalization,实现将文本文件personnel_data.txt中字段为household_register的数据统一成省份(直辖市),并输出到文本文件personnel_data_new.txt中。
31.查看文本文件personnel_data_new.txt中的数据通过文本编辑器工具,查看文本文件personnel_data_new.txt中的数据。
二、对文本文件personnel_data_new.txt中字段为salary的数据进行商务规则计算,即计算每个人的月薪(以22天工作日计算),最终输出到文本文件personnel_data_monthly_salary.txt中。
1.打开Kettle工具,新建转换,使用Kettle工具,创建一个转换monthly_salary,并添加文本文件输入控件、增加常量控件、计算器控件、文本文件输出控件。
2.配置文本文件输入控件
1)双击“文本文件输入”控件,进入“文本文件输入”界面,单击【浏览】按钮,选择要抽取personnel_data_new.txt文件;单击【增加】按钮,将要抽取的personnel_data_new.txt文件添加到转换monthly_salary中。
2)单击“内容”选项卡,在分隔符处清除默认分隔符“;”,单击【Insert TAB】按钮,在分隔符处插入一个制表符;取消勾选“头部”复选框。
3.单击“字段”选项卡,根据personnel_data.txt文件的内容添加对应的字段名称,并指定数据类型。“字段”选项卡的配置。
3.配置增加常量控件
双击“增加常量”控件,进入“增加常量”界面,在字段框中添加一个字段days,并给定一个值22。
4.双击“计算器”控件,进入“计算器”界面,在字段框中添加一个字段monthly_salary,用于存储月薪,该字段是由字段days和salary进行相乘所得。
5.配置文本文件输出控件
双击“文本文件输出”控件,进入“文本文件输出”界面,单击“文件名称”右侧的【浏览】按钮,选择输出文件,即文本文件personnel_data_monthly_salary,如图6-52所示;单击“内容”选项卡,进入“内容”界面,清除分隔符处的默认分隔符,单击【插入Tab】按钮,插入Tab分隔符,并在编码处的下拉框选择“UTF-8”编码,单击“字段”选项卡,进入“字段”界面,添加要输出的字段。
6.运行转换monthly_salary
单击转换工作区顶部的start按钮,运行转换monthly_salary,实现将文本文件personnel_data_new.txt中字段为salary的数据进行商务规则计算,即计算每个人的月薪(以22天工作日计算),最终输出到文本文件personnel_data_monthly_salary.txt中。
7.查看文本文件personnel_data_monthly_salary.txt中的数据通过文本编辑器工具,查看文本文件personnel_data_monthly_salary.txt中的数据。
kettle实现颗粒度转换相关推荐
- 经典算法之,细化时间颗粒度24*7细化为48*7颗粒度
经典算法之,细化时间颗粒度247细化为487颗粒度 文章目录 经典算法之,细化时间颗粒度24*7细化为48*7颗粒度 前言 一.什么时间颗粒度24*7? 二.代码实现 2.效果截图 总结 前言 就算法 ...
- 细颗粒度Singleton模式实现
作为一个很典型的设计模式,Singleton模式常常被用来展示设计模式的技巧,并且随着技术的演进,.NET语言和Java都已经把经典<Design Patterns : Elements of ...
- 需求用例分析之八:用例颗粒度
作者:张克强 作者微博:张克强-敏捷307 RUP系的考虑 在RUP中,没有对用例的颗粒度给出清晰的指导.2004年Rational 中国区技术销售经理 傅纯一发表一文<用例建模指南> ...
- AAAI 2019 | 基于不同颗粒度语言联合训练的表示学习
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
- kettle大于0的转换成1_第一期实训周:基于Python+MySQL+Kettle+R的某网站数据采集分析...
↓ 基于Python+MySQL+Kettle+R的 某网站数据采集分析 哈喽!各位学员们 咱们第一期课程就要开始了 下面划重点! 一 高校院系 齐鲁工业大学数学与统计学院应用统计系 二 实训日期 2 ...
- 乐观锁的颗粒度_MySql数据库锁机制详解
概述 数据库锁定机制简单的来说,就是数据库为了保证数据的一致性与完整性,而使各种共享资源在被并发访问时变得有序所设计的一种规则.对于任何一种数据库来说都需要有相应的锁机制,所以MySQL也不能例外.M ...
- uat测试用例和sit测试用例_软件测试用例设计时的颗粒度
很多工作了好几年的测试工程师初次听到"用例的颗粒度"的时候会感觉很惊讶,这是个什么东西?我们工作里用到过?其实在实际的工作当中已经有意无意的涉及到了"颗粒度". ...
- 乐观锁的颗粒度_mysql「锁」
表锁:表级别的锁定是mysql各存储引擎中最大粒度的锁定机制,该锁定机制最大的特点是实现逻辑非常简单,带来的系统负面影响最小,所以获取锁释放锁的速度很快,由于表级锁一次会将整个表锁定,所以可以很好的避 ...
- 敏捷开发中史诗故事与用户故事的颗粒度
作者:陈勇 出处:blog.csdn.net/cheny_com 用户故事的颗粒度一直是一个谈论已久的话题,但参加了很多研讨会,搜索了很多网络资源后发现一直没有定论,只好在这里原创一下. 前言:为何需 ...
- 玩转木浪云数据管理免费版使用篇之内容搜索与颗粒度恢复
通过木浪云数据管理平台备份后的虚拟机可以任意搜索任意一个时间点的内容,并根据需要进行快速的颗粒度恢复或提取.接下来就告诉大家如何进行操作. 进入虚拟化保护页面,找到我们需要进行操作的一个虚拟机,直接点 ...
最新文章
- 阿里P9大佬总结必备的算法和工具,被10万算法工程师点赞
- Node.js学习之路09——Path基本介绍
- oracle视图失效,ORACLE 11Gr2 V$ARCHIVED_LOG视图过期信息
- java同步锁synchronized_synchronized、锁、多线程同步的原理是咋样的?
- Idea 创建 web.xml 文件
- 留言系统 php 防攻击,php 留言板防刷新
- 特斯拉又熬过破产危机后,马斯克说自动驾驶芯片已经准备好了
- Android 开发工具下载
- 如何软件项目电子投标
- 一款自动生成唯一头像的开源代码库
- 离散数学 第一章 命题逻辑 1-5重言式与蕴含式
- Vue如何监视屏幕尺寸变化
- EnjoyingSoft之Mule ESB开发教程第五篇:控制消息的流向-数据路由
- 资治通鉴-6 听的智慧
- Springboot定时任务【多线程处理】
- 挑战微软 + GitHub!谷歌联手 Replit,升级 AI 编程“神器”:曾拒绝微软 10 亿美元的收购...
- M1芯片的mac下的Xcode12以上版本编译报错 this target. for architecture arm64等问题解决方案
- RK G87机械键盘使用指南
- Xperi 宣布阿里巴巴天猫精灵方糖智能音箱将搭载DTS Sound 技术
- 【AI面试】L1 loss、L2 loss和Smooth L1 Loss,L1正则化和L2正则化
热门文章
- simulink单位转换小迈步
- 在龙芯1c上使用rt-thread统一标准的spi接口
- TCP服务器端与多个客户端连接的C#代码实现
- win7计算机管理没有用户模块,Win7系统下安装ipx协议提示找不到相应的模块如何解决...
- 【转载】扫描渗透等工具介绍
- 变速齿轮Delphi实现
- 网络工程师考试历年真题汇总及教程第5版pdf
- 磁盘分区怎么恢复回去?易我分区大师恢复丢失分区
- w ndows10图标,Windows10系统图标怎样提取
- jmail mysql_Jmail组件使用方法及注意事项 | 域名频道