数据出现重复值是我们日常工作中经常会遇到的问题,例如下面这个EXCEL表格里,订单编号这一列里出现了多个重复值,这个时候我们就要对数据进行去重了。去重的方法有很多,这里介绍两种方法:1、通过EXCEL去重;2、通过Python去重。

先给大家说一下在EXCEL里去重的基本方法,非常简单,先点击EXCEL工具栏上的“删除重复项”:

在弹出的界面里可以对去重的字段进行勾选,默认是全选的状态下,EXCEL会对所有相同行数的字段进行去重,如果只勾选某一列,EXCEL会对该列里重复的字段进行去重,这里我们只勾选订单编号这个字段:

点击确定,EXCEL便会完成去重的操作,这个方法非常简单,相信很多小伙伴都知道如何操作,下面重点给大家介绍一下如何通过Python进行去重。

用Python做数据分析需要先到官网安装Python的程序和PyCharm等其他的编辑器,还得安装一些数据分析常见的库,例如pandas,整个过程需要耗费不少时间。如果嫌麻烦,你也可以不用安装,直接登录智分析的官网并利用ETL功能去编写Python脚本,一样也可以实现Python的全部功能。

话不多说,我们进入智分析的网页端,把数据源上传到网页端,然后进入ETL的界面,把关系数据源的组件用鼠标拖拽到中间,这个时候我们需要对数据源进行选择,点击右边的参数,我们可以找到上传到网页端上的数据源文件,执行这个程序,数据源便可以成功加载到ETL里:

数据源加载后,我们可以用鼠标点击关系数据源组件对数据源进行预览,我们可以看到这份数据源有8568条,并且订单编号这一列是有重复值的:

这个时候我们点击左边脚本模块里的下拉菜单,把Python脚本的组件拉拽进来,并与关系数据源的组件进行相连:

点击Python脚本的参数设置,便会弹出Python的脚本编辑框,以下脚本是系统默认的存在的,已经提前预置的:

我们只需要在最后一句代码里加入drop_duplicates这个去重函数,然后指定是哪一列就可以了,这里我们以第一列为去重的目标字段:

最后我们看一下数据去重后的效果,去重后的数据只剩下了5489条:

完成去重后,我们可以选择把数据源以EXCEL的形式进行输出,这里教大家一个非常方便的方法,在ETL里选择已数据集的形式进行输出,然后在EXCEL进行调用是最方便的。我们先把数据集的组件拉拽过去,与上面的组件进行相连,并点击执行:

回到EXCEL里,打开智分析插件里的数据集面板,搜索刚刚保存成功的数据集,把数据集拉拽到EXCEL里,点击刷新,通过Python去重后的数据源便会全部显示在EXCEL中,是不是非常方便和简单呢?

通过上面的案例,我们可以看到Python结合ETL的功能去对数据进行清洗是非常方便的,一来是可以节省大量写代码的时间,二来可以利用ETL去和EXCEL完美地结合起来,真正地让EXCEL与其他工具做到无缝连接,在实际工作中真是非常的实用,如果你想学习Python但是苦于没有学习的方法的话,就赶紧来学习一下这种新的数据清洗方法吧。

python excel表格去重_EXCEL数据如何去重? Python:这事我比你熟相关推荐

  1. python如何清空excel表格_python 删除excel表格重复行,数据预处理操作

    使用python删除excel表格重复行. # 导入pandas包并重命名为pd import pandas as pd # 读取Excel中Sheet1中的数据 data = pd.DataFram ...

  2. Python入门题031:excel表格筛选重复数据

    题目: 使用 pandas 筛选表格中的重复数据,将筛选后的表格保存到新的 excel 文件中. 视频教程: Python入门题031:excel表格筛选重复数据 代码: import pandass ...

  3. python读取excel表格-python读取excel表格中的数据

    使用python语言实现Excel 表格中的数据读取,需要用到xlrd.py模块,实现程序如下: import xlrd #导入xlrd模块 class ExcelData(): def __init ...

  4. 用Python批量把EXCEL表格中的数据提交到网页上

    因为工作的需要,要在网页上添加很多学员的信息,但是公司审计不让直接导入数据库,而且开发也没有涉及批量上传的功能,只好自己动手用Python写了一个批量创建学生信息的程序. 实现思路: 我们首先看我们需 ...

  5. python xlsx追加数据_python 实现众多excel表格中关键数据追加项目配置库台账.xlsx...

    网上已经有很多这类的文章了,今天写这个就算是对今天的写的这个脚本的一个巩固和说明吧,话说同事每个月末都要从大量的excel表格中导出一点点数据并输出到另一个表格中,所以想啊,写个脚本自动化一点吧,不然 ...

  6. python 动态变量 excel 配置_python 实现众多excel表格中关键数据追加项目配置库台账.xlsx...

    网上已经有很多这类的文章了,今天写这个就算是对今天的写的这个脚本的一个巩固和说明吧,话说同事每个月末都要从大量的excel表格中导出一点点数据并输出到另一个表格中,所以想啊,写个脚本自动化一点吧,不然 ...

  7. python3读取excel数据-python3 读取Excel表格中的数据

    需要先安装openpyxl库 通过pip命令安装: pip install openpyxl 源码如下: #!/usr/bin/python3 #-*- coding:utf-8 -*- import ...

  8. c 语言如何处理表格文件中的数据库,C#程序从Excel表格中读取数据并进行处理

    今天做了一个Excel表格数据处理的事情,因为数据量表较大(接近7000条)所以处理起来有点麻烦,于是写了一个程序, 先将程序记下以便将来查找. using System; using System. ...

  9. python处理excel表格入门_零基础使用Python读写处理Excel表格

    引 由于需要解决大批量Excel处理的事情,与其手工操作还不如写个简单的代码来处理,大致选了一下感觉还是Python最容易操作. 安装库 Python环境 首先当然是配环境,不过选Python的一个重 ...

  10. 【唠叨两句】如何将一张树型结构的Excel表格中的数据导入到多张数据库表中...

    小弟昨天遇到一个相对比较棘手的问题,就像标题说的那样.如何将一张树型结构的Excel表格中的数据导入到多张数据库表中,在现实中实际是七张数据库表,这七张表之间有着有着相对比较复杂的主外键关系,对于我这 ...

最新文章

  1. MySQL - mysqldump多种方式实现数据迁移
  2. Spring boot排除依赖
  3. 决策树 - 鸢尾花数据集
  4. 编写iptables脚本实现IP地址、端口过滤
  5. python中seed的用法_Python中的seed()方法怎么用
  6. 实验十 团队作业6:团队项目系统设计改进与详细设计
  7. 设计模式之“单例模式”
  8. 达摩院 2021 十大科技趋势:云原生重塑IT技术体系
  9. git 密钥文件在哪里? 代码提交到Git分支。
  10. jsp足球俱乐部管理系统Myeclipse开发sqlserver数据库web结构c#编程计算机网页项目
  11. 网络邻居上的计算机没权限,WinXP打开网上邻居提示“您可能没有权限使用网络资源”怎么办?...
  12. Git Bash/GUI Here “找不到应用程序问题” 的解决方案
  13. 歪写数学史(数学界的花木兰——苏菲﹒热尔曼)
  14. Android8.0 修改默认铃声 添加新铃声
  15. 笔记本可以跑虚拟机吗_什么笔记本跑虚拟机不卡?
  16. CentOS7安装Docker-Registry
  17. 2005年创新商业模式之窄告
  18. Tapd 、Jira、Tower对比
  19. 工程经济—成本与费用(重点难点摘录)
  20. 思科:vtp,vlan中继协议的配置方法

热门文章

  1. vue webpack之vue-router 使用history模式报错Cannot GET /xxx
  2. Enigma密码机原理图解
  3. 【感悟】参加公司首届黑客马拉松有感
  4. 深度丨语音识别技术专利申请分析及关键技术展望(上)
  5. android Gmail查看图片时选择经信息(彩信)分享,手机报错或手机报错后又回到查看图片界面
  6. 阿里拍卖全链路导购策略首次揭秘
  7. android猴子测试,听话的“猴子”安卓app压力测试
  8. mysql 视图创建与查询数据库作业(10)
  9. GO的lua虚拟机 gopher-lua
  10. Arcgis使用教程(十)ARCGIS地图制图之固定比例尺设计