Excel文件采用表格的形式,数据显示直观,操作方便。 与文本文件不同,Excel文件中采用工作表存储数据,一个文件有多张不同名称的工作表,分别存放相同字段或不同字段的数据。 为方便浏览和统计学生的考试成绩,需要通过Excel输入抽取物理成绩数据。

一、Excel文件输入

1、使用Ctrl+N快捷键,创建【Excel输入】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【Excel输入】组件,并拖曳拖曳到右边工作区中,如图所示。

2、双击【Excel输入】组件,弹出【Excel输入】对话框,其中显示默认的【文件】对话框,如图所示。需要注意的是,【Excel输入】对话框下方的【预览记录】按钮是灰色的,表示不能单击。

浏览导入Excel文件。单击【浏览(B)…】按钮,在计算机上浏览并导入“物理成绩.xls”文件,如图所示。

3、获取字段。单击【获取头部数据的字段…】按钮,添加字段到【字段】表中设置字段参数,如图所示。

设置字段参数。对字段参数进行设置,如图所示,此时完成【字段】选项卡参数的设置。

4、设置好字段参数后,单击【预览记录】按钮,弹出【预览数据数量】对话框,要预览的行数采用默认值,并单击【确定】按钮。 弹出【预览数据】对话框,展示Excel输入的数据,如图所示。

二、生成记录

1、在数据统计中,往往要生成固定行数和列数的记录,用于存放统计总数。 为方便记录1~12月份商品的销售总额,需要通过生成记录,生成一个月销售总额的数据表,包括商品名称和销售总额两个字段,记录销售的商品和当月商品统计销售总额,共生成12条记录。

2、双击【生成记录】组件,弹出创建【生成记录】对话框,如图所示。

在生成记录】对话框中,设置有关参数,生成12条记录的商品销售总额表,步骤如下。 (1) 确定组件名称。【步骤名称】参数保留默认值。 (2) 确定表的记录数。【限制】参数设置为“12”。

设置字段参数。在【字段】表中,对各字段的参数进行设置,如与所示,此时完成【生成记录】组件参数的设置。

3、单击【预览(P)】按钮,弹出【输入预览记录数】对话框,预览记录数采用默认值,单击【确定】按钮。弹出【预览数据】对话框,展示生成记录的如图所示。

三、生成随机数

4、在工作中,往往需要生成随机数验证码,作为数据或文件的验证码。 为方便给授权用户验证文件,需要通过生成随机数,生成一组MD5信息授权码,作为数据文件的认证授权码。

使用Ctrl+N快捷键,创建【生成随机数】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【生成随机数】组件,并拖曳到右边工作区中,如图所示。

5、双击生成随机数】组件,弹出【生成随机值】对话框,如图所示,

在【生成随机值】对话框中,设置参数,随机生成一组MD5信息授权码,步骤如下。 (1) 确定组件名称。【步骤名称】参数保留默认值“生成随机值”。 (2) 设置字段参数。在【字段】表中第1行,设置字段名称和类型。 ① 单击【名称】参数输入框,键盘键入“授权码”。

单击【类型】参数输入框,弹出【选择数据类型】对话框,选择【Random Message Authentication Code(HmacMD5)】类型,如图所示。

6、在【生成随机数】转换工程中,单击【生成随机数】组件,再单击工作区上方的       图标。弹出【转换调试窗口】对话框,展示生成随机数的数据,如图所示。

7、单击【快速启动】按钮,弹出【预览数据】对话框,展示生成随机数的授权码数据,如图所示。

8、批量生成随机数。拖入如下控件。

9、双击进入“生成记录”空间配置。

10、生成随机数配置

11、Excel输出配置,选择要输出的表的位置,点击字段中的获取字段,然后确定。

12、运行并查看数据。

四、获取系统信息

系统信息是指Kettle系统环境的信息,包括了计算机系统的日期、星期等时间类型信息,计算机名称、IP地址等设备信息,Kettle系统转换过程中的信息等。 为方便读取计算机上到本月最后一天的交易数据文件,需要通过获取系统信息,获得当月最后一天的时间,以及当前计算机名称与IP地址等系统信息。

1、使用Ctrl+N快捷键,创建【获取系统信息】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【获取系统信息】组件,并拖曳到右边工作区中,如图所示。

2、双击【获取系统信息】组件,弹出【获取系统信息】对话框,如图所示。

设置第3行参数。与设置第1行参数类似,第3行参数的【名称】参数设置为“IP地址”,【类型】参数设置为“IP地址”,如图所示,此时已完成【获取系统信息】组件的参数设置。

3、点击运行查看结果

五、排序记录

排序是对数据中的无序记录,按照自然或客观规律,根据关键字段大小递增或递减的次序,对记录重新排列的过程。 为了得出学生的成绩排名,需要对“2019年11月月考数学成绩.xls”文件,使用【排序记录】组件,对学生的成绩从低到高排序。

1、在【排序记录】转换工程中,单击【核心对象】选项卡,展开【转换】对象,选中【排序记录】组件,并拖曳至右边工作区中。由【Excel输入】组件指向【排序记录】组件,建立节点连接,如图所示。

2、击【排序记录】组件,弹出【排序记录】对话框,如图所示。

设置排序字段参数。在【字段】表中,对各字段的参数进行设置,此时完成【排序目录】组件参数的设置,如图所示。

3、运行并查看结果

六、去除重复纪录

由于输入或其他错误的原因,数据文件中可能出现两条或多条数据完全相同的记录,这些相同的记录称为重复记录。 重复的记录属于“脏数据”,会造成数据统计和分析不正确,必须清洗掉重复记录。 由于在“期考成绩.xls”文件中,发现存在序号不同,但是学号、各科考试成绩完全相同的记录,所以需要使用【去除重复记录】组件,去除这些重复的数据。

1、在去除重复记录(简称去重)之前,必须使用关键字段对数据记录进行排序,确定哪些记录属于重复记录。 使用Ctrl+N快捷键,创建【去除重复记录】转换工程。接着创建【Excel输入】组件,设置参数,导入“期考成绩.xls”文件。 接着创建【排序记录】组件,并由【Excel输入】组件指向【排序记录】组件,建立节点连接,如图所示。

2、双击【排序记录】组件,对“学号”字段按照升序进行排序后预览数据,如图所示,除了“序号”字段数据外,“学号”分别为“201709023”“201709028”“201709030”的数据各有两条记录,并且对应的“语文”“数学”等考试科目和“创建时间”的数据也相同。

3、在【去除重复记录】转换工程中,单击【核心对象】选项卡,展开【转换】对象,选中【去除重复记录】组件,并拖曳至右边工作区中,并由【排序记录】组件指向【去除重复记录】组件,建立节点连接,如图所示。

4、双击【去除重复记录】组件,弹出【去除重复记录】对话框,如图所示。

5.运行并查看结果。

摘自《数据清洗》黑马程序员

kettle数据清洗相关推荐

  1. Java kettle 数据清洗_ETL工具Kettle使用以及与Java整合实现数据清洗

    本文主要讲述kettle的使用和与Java整合,具体下载与安装请自行百度! kettle有两种脚本方式:转换和工作,工作中可以添加转换.以下以转换为例. 1.新建一个转换, 2.在工作中经常用到的是表 ...

  2. 【面试真题】2022年2月21日-瓜子二手车-数据仓库开发

    一.部门介绍 1.工作内容 部门规模,20多人,纯数据部门,不涉及后端 部门,两条业务线 离线和实时 主要是,集团内部策略优化,产品优化,对于领导的一些数据的展现 其次,业务系统上的一些排行榜,推荐数 ...

  3. Django 后台设计

    目录 一.Mysql数据库使用 1.代码 2.数据库book表展示 二.Django Dao业务层 1.项目结构-在DaoMapper创建doainfo文件 2.使用PyMySql操作数据, 使用类m ...

  4. ETL数据清洗Kettle工具

    文章目录 一.简介 二.资源库(新建.管理) 三.转换 1. 新建数据源 2. 简单的输入输出 配置步骤 2.1 配置表输入 2.2 配置表输出 2.3 保存 2.4 启动与执行结果 3. 转换 1. ...

  5. 《数据清洗》——kettle基本工具的使用

    转换的基本概念及操作 一个数据抽取主要包括创建一个作业,并且每个作业可以包括多个转换操作,此数据抽取操作可以通过kettle工具完成,也可以通过编写程序调用的方式实现. 转换是ETL解决方案中重要的组 ...

  6. 【数据预处理】基于Kettle的字符串数据清洗、Kettle的字段清洗、Kettle的使用参照表集成数据

    文章目录 一.前言 1.1 实验内容 二.实验过程 2.1 实验内容一:掌握基于Kettle的字符串数据清洗 2.2 实验内容二:掌握基于Kettle的字段清洗 2.3 实验内容三:掌握基于Kettl ...

  7. 数据清洗基础—Kettle 数据转换与清洗、数据抽取操作

    实验一:数据清洗基础-Kettle 数据转换与清洗.数据抽取操作 1 实验题目:Kettle 数据转换与清洗.数据抽取操作 2实验目和要求 2.1熟悉 Kettle 的开发环境,并掌握 Kettle ...

  8. kettle清洗mysql数据_ETL工具Kettle使用以及与Java整合实现数据清洗

    本文主要讲述kettle的使用和与Java整合,具体下载与安装请自行百度! kettle有两种脚本方式:转换和工作,工作中可以添加转换.以下以转换为例. 1.新建一个转换, 2.在工作中经常用到的是表 ...

  9. 数据清洗------kettle将txt数据转至数据库表中

    1.创建数据库表 CREATE TABLE `inputMediaData` ( `ID` bigint(20) NOT NULL AUTO_INCREMENT , `ProvideId` text ...

  10. 通过kettle工具实现数据清洗与转换(实例)

    一.对文件merge.csv进行完全去重. 1.使用Kettle工具创建转换repeat_transform,并添加"CSV文件输入"控件."唯一行(哈希值)" ...

最新文章

  1. Android手机刷recovery
  2. Unix/Linux常用命令及配置
  3. python的time库有哪些方法_Python的time模块中的常用方法整理
  4. Android 长按照片保存 工具类
  5. python变量类型是动态的_【Python】python动态类型
  6. pandas聚合dataframe某一列的值中的所有元素
  7. select简易的二级联动
  8. Oracle 甩手 Java EE,Eclipse 基金会成新东家
  9. 洛谷P3261 [JLOI2015]城池攻占(左偏树)
  10. 单次目标检测器之YOLO I
  11. 大数据行业人士必知10大数据思维原理
  12. nero incd V4.3.23.3 序列号
  13. DEAP 框架(遗传算法)模块笔记
  14. sql拼接同一字段_sql多个字段拼接
  15. 每日必读DZone Spring:Spring @Transactional 是如何真正工作的?
  16. App在后台被杀死后重启-重进首页方法
  17. 5G爆发前夜,谷歌微软争相豪赌的云游戏厉害在哪?
  18. 成都榆熙:拼多多商家忘记店铺登录密码怎么办?怎么找回?
  19. android 瀑布流 github,GitHub - coong4/android_waterfall: Android版的瀑布流布局
  20. MyIE9浏览器要告微软捆绑IE

热门文章

  1. 百度富文本编辑器UEditor增加自定义字体
  2. 程序小白天天打卡(函数模板)
  3. Pandas 安装到Pycharm
  4. 肝了 10 万字 ,Go 语言保姆级编程教程2021最新版(建议收藏)
  5. VMWARE平台STS证书过期
  6. 状态机编程 (一) 状态机相关概念
  7. python pycharm 书籍_有什么Python学习的书籍和学习资源推荐?
  8. ECharts数据可视化:从0到1的蜕变(内部技术分享总结)
  9. Kubernetes 集群安全 - 鉴权 实战rolebinding和clusterrole
  10. Python删除字符串中的符号