kettle数据清洗
Excel文件采用表格的形式,数据显示直观,操作方便。 与文本文件不同,Excel文件中采用工作表存储数据,一个文件有多张不同名称的工作表,分别存放相同字段或不同字段的数据。 为方便浏览和统计学生的考试成绩,需要通过Excel输入抽取物理成绩数据。
一、Excel文件输入
1、使用Ctrl+N快捷键,创建【Excel输入】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【Excel输入】组件,并拖曳拖曳到右边工作区中,如图所示。
2、双击【Excel输入】组件,弹出【Excel输入】对话框,其中显示默认的【文件】对话框,如图所示。需要注意的是,【Excel输入】对话框下方的【预览记录】按钮是灰色的,表示不能单击。
浏览导入Excel文件。单击【浏览(B)…】按钮,在计算机上浏览并导入“物理成绩.xls”文件,如图所示。
3、获取字段。单击【获取头部数据的字段…】按钮,添加字段到【字段】表中设置字段参数,如图所示。
设置字段参数。对字段参数进行设置,如图所示,此时完成【字段】选项卡参数的设置。
4、设置好字段参数后,单击【预览记录】按钮,弹出【预览数据数量】对话框,要预览的行数采用默认值,并单击【确定】按钮。 弹出【预览数据】对话框,展示Excel输入的数据,如图所示。
二、生成记录
1、在数据统计中,往往要生成固定行数和列数的记录,用于存放统计总数。 为方便记录1~12月份商品的销售总额,需要通过生成记录,生成一个月销售总额的数据表,包括商品名称和销售总额两个字段,记录销售的商品和当月商品统计销售总额,共生成12条记录。
2、双击【生成记录】组件,弹出创建【生成记录】对话框,如图所示。
在生成记录】对话框中,设置有关参数,生成12条记录的商品销售总额表,步骤如下。 (1) 确定组件名称。【步骤名称】参数保留默认值。 (2) 确定表的记录数。【限制】参数设置为“12”。
设置字段参数。在【字段】表中,对各字段的参数进行设置,如与所示,此时完成【生成记录】组件参数的设置。
3、单击【预览(P)】按钮,弹出【输入预览记录数】对话框,预览记录数采用默认值,单击【确定】按钮。弹出【预览数据】对话框,展示生成记录的如图所示。
三、生成随机数
4、在工作中,往往需要生成随机数验证码,作为数据或文件的验证码。 为方便给授权用户验证文件,需要通过生成随机数,生成一组MD5信息授权码,作为数据文件的认证授权码。
使用Ctrl+N快捷键,创建【生成随机数】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【生成随机数】组件,并拖曳到右边工作区中,如图所示。
5、双击生成随机数】组件,弹出【生成随机值】对话框,如图所示,
在【生成随机值】对话框中,设置参数,随机生成一组MD5信息授权码,步骤如下。 (1) 确定组件名称。【步骤名称】参数保留默认值“生成随机值”。 (2) 设置字段参数。在【字段】表中第1行,设置字段名称和类型。 ① 单击【名称】参数输入框,键盘键入“授权码”。
单击【类型】参数输入框,弹出【选择数据类型】对话框,选择【Random Message Authentication Code(HmacMD5)】类型,如图所示。
6、在【生成随机数】转换工程中,单击【生成随机数】组件,再单击工作区上方的 图标。弹出【转换调试窗口】对话框,展示生成随机数的数据,如图所示。
7、单击【快速启动】按钮,弹出【预览数据】对话框,展示生成随机数的授权码数据,如图所示。
8、批量生成随机数。拖入如下控件。
9、双击进入“生成记录”空间配置。
10、生成随机数配置
11、Excel输出配置,选择要输出的表的位置,点击字段中的获取字段,然后确定。
12、运行并查看数据。
四、获取系统信息
系统信息是指Kettle系统环境的信息,包括了计算机系统的日期、星期等时间类型信息,计算机名称、IP地址等设备信息,Kettle系统转换过程中的信息等。 为方便读取计算机上到本月最后一天的交易数据文件,需要通过获取系统信息,获得当月最后一天的时间,以及当前计算机名称与IP地址等系统信息。
1、使用Ctrl+N快捷键,创建【获取系统信息】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【获取系统信息】组件,并拖曳到右边工作区中,如图所示。
2、双击【获取系统信息】组件,弹出【获取系统信息】对话框,如图所示。
设置第3行参数。与设置第1行参数类似,第3行参数的【名称】参数设置为“IP地址”,【类型】参数设置为“IP地址”,如图所示,此时已完成【获取系统信息】组件的参数设置。
3、点击运行查看结果
五、排序记录
排序是对数据中的无序记录,按照自然或客观规律,根据关键字段大小递增或递减的次序,对记录重新排列的过程。 为了得出学生的成绩排名,需要对“2019年11月月考数学成绩.xls”文件,使用【排序记录】组件,对学生的成绩从低到高排序。
1、在【排序记录】转换工程中,单击【核心对象】选项卡,展开【转换】对象,选中【排序记录】组件,并拖曳至右边工作区中。由【Excel输入】组件指向【排序记录】组件,建立节点连接,如图所示。
2、击【排序记录】组件,弹出【排序记录】对话框,如图所示。
设置排序字段参数。在【字段】表中,对各字段的参数进行设置,此时完成【排序目录】组件参数的设置,如图所示。
3、运行并查看结果
六、去除重复纪录
由于输入或其他错误的原因,数据文件中可能出现两条或多条数据完全相同的记录,这些相同的记录称为重复记录。 重复的记录属于“脏数据”,会造成数据统计和分析不正确,必须清洗掉重复记录。 由于在“期考成绩.xls”文件中,发现存在序号不同,但是学号、各科考试成绩完全相同的记录,所以需要使用【去除重复记录】组件,去除这些重复的数据。
1、在去除重复记录(简称去重)之前,必须使用关键字段对数据记录进行排序,确定哪些记录属于重复记录。 使用Ctrl+N快捷键,创建【去除重复记录】转换工程。接着创建【Excel输入】组件,设置参数,导入“期考成绩.xls”文件。 接着创建【排序记录】组件,并由【Excel输入】组件指向【排序记录】组件,建立节点连接,如图所示。
2、双击【排序记录】组件,对“学号”字段按照升序进行排序后预览数据,如图所示,除了“序号”字段数据外,“学号”分别为“201709023”“201709028”“201709030”的数据各有两条记录,并且对应的“语文”“数学”等考试科目和“创建时间”的数据也相同。
3、在【去除重复记录】转换工程中,单击【核心对象】选项卡,展开【转换】对象,选中【去除重复记录】组件,并拖曳至右边工作区中,并由【排序记录】组件指向【去除重复记录】组件,建立节点连接,如图所示。
4、双击【去除重复记录】组件,弹出【去除重复记录】对话框,如图所示。
5.运行并查看结果。
摘自《数据清洗》黑马程序员
kettle数据清洗相关推荐
- Java kettle 数据清洗_ETL工具Kettle使用以及与Java整合实现数据清洗
本文主要讲述kettle的使用和与Java整合,具体下载与安装请自行百度! kettle有两种脚本方式:转换和工作,工作中可以添加转换.以下以转换为例. 1.新建一个转换, 2.在工作中经常用到的是表 ...
- 【面试真题】2022年2月21日-瓜子二手车-数据仓库开发
一.部门介绍 1.工作内容 部门规模,20多人,纯数据部门,不涉及后端 部门,两条业务线 离线和实时 主要是,集团内部策略优化,产品优化,对于领导的一些数据的展现 其次,业务系统上的一些排行榜,推荐数 ...
- Django 后台设计
目录 一.Mysql数据库使用 1.代码 2.数据库book表展示 二.Django Dao业务层 1.项目结构-在DaoMapper创建doainfo文件 2.使用PyMySql操作数据, 使用类m ...
- ETL数据清洗Kettle工具
文章目录 一.简介 二.资源库(新建.管理) 三.转换 1. 新建数据源 2. 简单的输入输出 配置步骤 2.1 配置表输入 2.2 配置表输出 2.3 保存 2.4 启动与执行结果 3. 转换 1. ...
- 《数据清洗》——kettle基本工具的使用
转换的基本概念及操作 一个数据抽取主要包括创建一个作业,并且每个作业可以包括多个转换操作,此数据抽取操作可以通过kettle工具完成,也可以通过编写程序调用的方式实现. 转换是ETL解决方案中重要的组 ...
- 【数据预处理】基于Kettle的字符串数据清洗、Kettle的字段清洗、Kettle的使用参照表集成数据
文章目录 一.前言 1.1 实验内容 二.实验过程 2.1 实验内容一:掌握基于Kettle的字符串数据清洗 2.2 实验内容二:掌握基于Kettle的字段清洗 2.3 实验内容三:掌握基于Kettl ...
- 数据清洗基础—Kettle 数据转换与清洗、数据抽取操作
实验一:数据清洗基础-Kettle 数据转换与清洗.数据抽取操作 1 实验题目:Kettle 数据转换与清洗.数据抽取操作 2实验目和要求 2.1熟悉 Kettle 的开发环境,并掌握 Kettle ...
- kettle清洗mysql数据_ETL工具Kettle使用以及与Java整合实现数据清洗
本文主要讲述kettle的使用和与Java整合,具体下载与安装请自行百度! kettle有两种脚本方式:转换和工作,工作中可以添加转换.以下以转换为例. 1.新建一个转换, 2.在工作中经常用到的是表 ...
- 数据清洗------kettle将txt数据转至数据库表中
1.创建数据库表 CREATE TABLE `inputMediaData` ( `ID` bigint(20) NOT NULL AUTO_INCREMENT , `ProvideId` text ...
- 通过kettle工具实现数据清洗与转换(实例)
一.对文件merge.csv进行完全去重. 1.使用Kettle工具创建转换repeat_transform,并添加"CSV文件输入"控件."唯一行(哈希值)" ...
最新文章
- Android手机刷recovery
- Unix/Linux常用命令及配置
- python的time库有哪些方法_Python的time模块中的常用方法整理
- Android 长按照片保存 工具类
- python变量类型是动态的_【Python】python动态类型
- pandas聚合dataframe某一列的值中的所有元素
- select简易的二级联动
- Oracle 甩手 Java EE,Eclipse 基金会成新东家
- 洛谷P3261 [JLOI2015]城池攻占(左偏树)
- 单次目标检测器之YOLO I
- 大数据行业人士必知10大数据思维原理
- nero incd V4.3.23.3 序列号
- DEAP 框架(遗传算法)模块笔记
- sql拼接同一字段_sql多个字段拼接
- 每日必读DZone Spring:Spring @Transactional 是如何真正工作的?
- App在后台被杀死后重启-重进首页方法
- 5G爆发前夜,谷歌微软争相豪赌的云游戏厉害在哪?
- 成都榆熙:拼多多商家忘记店铺登录密码怎么办?怎么找回?
- android 瀑布流 github,GitHub - coong4/android_waterfall: Android版的瀑布流布局
- MyIE9浏览器要告微软捆绑IE