数据清洗

是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节。数据清洗的目的在于提高数据质量,将脏数据(脏数据在这里指的是对数据分析没有实际意义、格式非法、不在指定范围内的数据)清洗干净,使原数据具有完整性、唯一性、权威性、合法性、一致性等特点。常见的数据清洗操作包括重复值的处理、缺失值的处理、异常值的处理等操作,同时,为了保证数据的有效性,少不了数据校验操作。

这一个介绍中,我们着重介绍数据去重。

数据去重又称重复数据的删除,通常指的是找出数据文件集合中重复的数据并将其删除,只保存唯一的数据单元,从而消除冗余数据。通常情况下,数据去重方法分为两种,分别是完全去重和不完全去重。

完全去重

完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据。例如,现在有两个表格分别记录的不同年份的用户信息,现要求合并统计所有用户信息,发现合并后的表格存在完全重复的数据,为了便于后期更加方便地使用这些用户数据,通常情况下会对数据进行去重操作。

通过Kettle工具,消除CSV文件merge.csv中完全重复的数据。

合并后的用户名单存放在CSV文件merge.csv中,内容如图所示。

通过使用Kettle工具,创建一个转换repeat_transform,并添加“CSV文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。

双击“CSV文件输入”控件,进入“CSV文件输入”配置界面,具体如图所示。

双击“唯一行(哈希值)”控件,进入“唯一行(哈希值)”配置界面。

在“用来比较的字段”处,添加要去重的字段,这里可以单击【获取】按钮,获取要去重的字段。

选中“唯一行(哈希值)”控件,单击执行结果窗口的“Preview data”选项卡,查看是否消除CSV文件merge.csv中完全重复的数据

至此,我们就完成了kettle的完全去重。

5.1 数据去重 完全去重相关推荐

  1. mysql添加用户查重的方法_mysql 开发技巧之JOIN 更新和数据查重/去重

    主要涉及:JOIN .JOIN 更新.GROUP BY HAVING 数据查重/去重 1 INNER JOIN.LEFT JOIN.RIGHT JOIN.FULL JOIN(MySQL 不支持).CR ...

  2. 千万数据去重_mysql去重,3亿多数据量

    差不多3亿6千万数据,需要去重.因为数据量太大,所以: 将数据load data infile到大表里,不进行任何去重操作,没有任何约束.然后将数据分成几十个小表,用这几十个小表去对比大表去重.得到去 ...

  3. textjoin去重_excel中几列相同的数据,多列去重? | excel表格删除重复数据

    Excel中a列和c列的数据有相同的,也有不同的,如何去重后现在在另一个表格的a列 这个不算难问题,你上传一下的数据表,帮你做了. excel 如何将各列数据去重后合并到各列的一个单元格里 如图所示, ...

  4. 6.9 用Python操控数据库(批量删除,百度新闻数据爬取与存储,写入数据时进行去重处理,pandas读取sql数据)

    学习完MySQL数据库的基本操作后,下面来学习如何用Python连接数据库,并进行数据的插入.查找.删除等操作. 6.9.1 用PyMySQL库操控数据库 上一节在phpMyAdmin 中创建了数据库 ...

  5. navicat 表合并查询_MySQL数据表合并去重的简单实现方法

    场景: 爬取的数据生成数据表,结构与另一个主表相同,需要进行合并+去重 解决:(直接举例) 首先创建两个表pep,pep2,其中pep是主表 CREATE TABLE IF NOT EXISTS `p ...

  6. Mongodb去除重复的数据,pymongo去重

    接上一篇的,发现爬斗鱼主播信息存入Mongodb数据库后,发现很多重复的数据,毕竟斗鱼不可能有这么多的主播,所以很多页是有重复的主播房间的. 查了一下怎么去重,发现比较麻烦,与其存入重复的数据后面再去 ...

  7. 分析数据, 缺失值处理 ,去重处理, 噪音处理

    分析数据, 缺失值处理 ,去重处理, 噪音处理 看了charlotte的博客分析数据, 缺失值处理 学习总结,很受用,如是将她的画图的部分代码添加完整,可以运行,这样学起来更直观. 1.分析数据 在实 ...

  8. java steam 去重_Java中对List去重 Stream去重的解决方法

    问题 当下互联网技术成熟,越来越多的趋向去中心化.分布式.流计算,使得很多以前在数据库侧做的事情放到了Java端.今天有人问道,如果数据库字段没有索引,那么应该如何根据该字段去重?大家都一致认为用Ja ...

  9. Java List去重 Lis集合去重 List去重效率对比 List去重复元素效率对比 List去重效率

    Java  List去重 Lis集合去重 List去重效率对比 List去重复元素效率对比 List去重效率 --- List 去重复元素的几种办法 一.概述 面试的时候,有个常见的问题:" ...

最新文章

  1. 如何快速融入团队(六)
  2. 数学的威力有多大?足以震慑全球......
  3. 差分放大电路差模共模公式_差分放大电路对差模信号和共模信号有什么影响?...
  4. 24口光纤配线架 cad块_光纤配线架cad画法
  5. 字段 密码有效期_你知道Linux中用户们的密码藏在哪儿吗?
  6. 穿越剧_零差评的5部穿越剧,少有的巅峰之作,第一堪称穿越鼻祖!
  7. 分析Linux 0.11中的kernel部分的makefile文件
  8. c ++递归算法数的计数_计数排序算法–在C / C ++中实现的想法
  9. hdu--1160--LIS+打印路径
  10. 大学生JAVA程序员周记,java程序员实习周记.docx
  11. 起码数学常识凸显中学数学的重大错误0
  12. pandas 选取行和列的方法
  13. 【机器学习笔记之五】用ARIMA模型做需求预测用ARIMA模型做需求预测
  14. 华为OD机试 - 模拟商场优惠打折
  15. 软件著作权申请中的分类号填写
  16. Anaconda 大疆 Tello EDU python 环境配置
  17. c#里namespace是什么意思?
  18. 解决 iBooks 无法显示 epub 电子书本身的 thumbnail
  19. web 体系结构_Web服务体系结构概述
  20. LATEX之文档编辑(中英文文档格式)说明

热门文章

  1. 真正的操盘手,应该集军人、商人、诗人、僧人的特质于一身
  2. 疫情下开盘首日千股跌停,百万用户转战MEX
  3. 打开IDE里XXX.rc文件夹的子项,显示“!加载失败”
  4. 5500xt挖矿算力_(视频)静态计算 RTX 3080 的以太坊挖矿回本周期 白露矿业报告 (20.09.19)...
  5. 单片机系统:使用lodepng解码png图片
  6. 蚂蚁金服的“开放联盟链”如何影响现有公链
  7. web、app跳转微信支付解决方案
  8. 九安医疗上半年净利152亿:同比增27728% 李志毅减持
  9. 企业级刀片式服务器和盘柜的能效比较
  10. 2022-2028年中国IDC行业投资潜力研究及发展趋势预测报告