读取excel文件,并找到重复的数据

df = pd.read_excel(r'project.xls',sheet_name='Sheet1')
data = {}
dupList = [k for k,v in df['title'].value_counts().to_dict().items() if v > 1]
print(type(dupList),len(dupList),dupList)
for i in dupList:d = df[df['title']==i]['id'].tolist()data[i] = d
print(data)

处理结果:

{'title1': ['2110251552596668', '2110251913137755', '2110251930146802'], ...}

python excel处理 pandas 统计重复数据相关推荐

  1. python excel处理重复行并统计个数_excel两个表格数据核对python-如何用python实现两个文件重复数据筛选并统计...

    怎么用python读取excel表格的数据 import pandas as pd excel1_data = pd.read_excel( 文件路径) excel2_data = pd.read_e ...

  2. python两个表格相同数据筛选_python如何统计所有文本文件的行数 如何用python实现两个文件重复数据筛选并统计...

    如何用python统计文本中重复行的数目? python比较txt文档中每行文本之间重复词的个数不想面对他离开,逃避不是一个好方法,但却是唯一的办法. 每一行弄成一个集合,分享两个集合之间的交集,计算 ...

  3. excel如何晒出重复数据_怎么筛选出excel中重复数据

    本文收集整理关于怎么筛选出excel中重复数据的相关议题,使用内容导航快速到达. 内容导航: Q1:Excel的数据怎么筛选一列中重复的数据 假如1在A2单元格,在B2单元格输入公式, =IF(COU ...

  4. 在excel中如何筛选重复数据_EXCEL如何快速筛选重复数据,并将结果快速复制到其他单元格...

    导读:EXCEL如何快速筛选重复数据,并将结果快速复制到其他单元格 很多小伙伴不知道怎么快速筛选重复数据,只能硬着头皮一个一个去筛选?筛选到抓狂了有没有? 今天小马跟大家分享一下,如何快速快速筛选重复 ...

  5. pandas删除重复数据

    https://blog.csdn.net/weixin_42322206/article/details/127673480 1.pandas中重复索引问题 df = df[~df.index.du ...

  6. excel如何晒出重复数据_3秒找出Excel中的重复数据,年底数据统计用得上,赶紧码住...

    职场人经常会碰到数据核对的任务,特别是在月底和年末,老板索要数据统计结果时,你总得检查一遍再交上去吧. 如果你对 Excel 中的基本功能不熟悉,就很可能碰到和这位妹子一样的难题: 遇到上面这种情况该 ...

  7. excel查重技巧:如何用组合函数快速统计重复数据(下)

    数据源照旧,如下图所示,要求统计出不重复的客户数: 在上期我们掌握了破解公式的方法后,今天我们再来看看计算不重复数据个数的第二个公式套路. 套路2:COUNT和MATCH的组合 这个公式的难度就稍微有 ...

  8. excel查重技巧:如何用组合函数快速统计重复数据(上)

    统计不重复数据的个数,相信不少小伙伴在工作中都遇到过这样的问题. 通常的做法都是先把不重复的数据提取出来,再去统计个数.而提取不重复数据的方法之前也分享过,基本有三种方法:高级筛选.数据透视表和删除重 ...

  9. 利用excel与Pandas完成实现数据透视表(文末赠书)

         文末赠书 数据透视表是一种分类汇总数据的方法.本文章将会介绍如何用Pandas完成数据透视表的制作和常用操作. 1,制作数据透视表 制作数据透视表的时候,要确定这几个部分:行字段.列字段.数 ...

最新文章

  1. 发个招聘的信息来激励自己
  2. 关于dotNet加密工具
  3. macbook下载苹果版Photoshop cc2019 for mac
  4. 富文本HTML编辑器UEditor
  5. java 隐藏cmd_bat启动java程序 可以隐藏cmd窗口
  6. php中用户验证的方式,在php中进行用户身份验证的最佳方式是什么?
  7. 自定义控件之绘图篇(三):区域(Range)
  8. 数据库工作笔记008---pg_hba.conf entry for host “192.168.2.111”, user “gpadmin”, database “template1”, SSL
  9. postgre ~模糊查询慢解决方式
  10. 一个炫酷的个人网站带后台
  11. 大三了,我真的好迷茫
  12. git基于某个分支新建分支
  13. #!/bin/bash和#!/bin/sh是什么意思以及区别
  14. MATLAB调用多个核(常用于跑多次再取平均的仿真)
  15. MyEclipse2017使用maven搭建SSM项目
  16. 局域网服务器怎么更改账号,怎么修改访问局域网共享用户名和密码
  17. [SAP] PP模块 - BOM ( Bill of Material)
  18. 全部40个博客网站排名
  19. #VCS# 关于Verdi KDB 数据库
  20. CompTIA美国计算机协会的热门认证一览

热门文章

  1. snownlp对天猫商品评论数据进行情感分析(附源码)
  2. 一键将苹果实况照片livp转jpg的简单方法
  3. 使用卷积神经网络进行图片分类 2
  4. 王道计算机组成原理课代表 - 考研计算机 第四章 指令系统 究极精华总结笔记
  5. 商标注册流程和周期是什么
  6. 物联网已经发展多年,为什么一直不温不火
  7. 单张、批量识别图片中文字(写入txt文件、窗口视图创建、打包.exe文件)(百度文字识别SDK+Python的GUI之tklinker+打包pyinstaller)
  8. 说说内核与计算机硬件结构
  9. 【hadoop生态之ZooKeeper】第一章Zookeeper概述【笔记+代码】
  10. Mac 下 NVM 的安装与使用