文章目录

  • ​​​​​​​文章目录

    前言

    一、文件去重应用场景?

    二、使用步骤

    1.引入库

    2.样例代码

    总结​​​​​​​


前言

python remove duplicate files via pathlib and set

一、文件去重应用场景?

当同类型文件分布于不同文件夹时且文件数量过大时(几十W),如何去重简单快捷

二、使用步骤

1.引入库

代码如下(示例):

from pathlib import Path

2.样例代码

代码如下(示例):

class FilesFilter(object):"""a simple drop duplicate files case简单的依据文件名去重的样例代码"""def __init__(self, path):self._seen = set()self._parent_path = Path(path)def remove(self):"""判断文件是否在set中, 若不在则添加,若存在说明重复,删除该文件夹param:Nonertype:None"""for file_name in self._parent_path.rgolb("*.xxx"):#xxx为文件后缀名, eg. pdf, csv, doc, xlsx, txt...(自行修改)if file_name.stem not in self._seen:self._seen.add(file_name.stem) #根据文件名去重else:file_name.unlink() # 删除重复文件if __name__ == "__main__":path = r"your files path here" #path为多个包含相同文件的不同文件夹的父目录FilesFilter(path).remove()

总结

以上就是简单地对于分布在不同文件夹的重复文件去重操作,  利用了set函数的特性以及pathlib库的相关方法。简单测试, 15W文件中去除约5W重复文件耗时约40分钟.

python 文件去重样例相关推荐

  1. python一个函数调用另一个函数_python下如何在目录下让Python文件去调用另一个文件内的函数或类...

    欢迎各位小哥哥小姐姐阅读本<小生>的文章,对大家学习有帮助,请点赞加关注哦!!!!!!!!!! 您的点赞和关注将是我持续更新的动力呢.^v^ 有不懂的问题可以私聊我哦! 分析 针对这个问题 ...

  2. python访问文件下载地址_用Python脚本去获得skydrive上文件的真实地址链接 + 提供脚本下载v2012-01-18...

    之前得知微软提供的免费在线云存储空间Skydrive提供的空间大小达25GB的时候,就像其他人一样想到了可以用来存储音视频和图片,作为文件存储器,以便和别人分享文件.但是后来发现,skydrive中上 ...

  3. Python对csv、ini、xml、excel等格式文件操作用例

    Python文件操作相关 文件操作 文件夹和路径 csv格式文件 ini格式文件 xml格式文件 excel文件 1. 文件操作 在学习文件操作之前,先来回顾一下编码的相关以及先关数据类型的知识. 字 ...

  4. python文件输入和输出

    第一步 排除文件打开方式错误: r只读,r+读写,不创建 w新建只写,w+新建读写,二者都会将文件内容清零 (以w方式打开,不能读出.w+可读写) w+与r+区别: r+:可读可写,若文件不存在,报错 ...

  5. python文件打开方式详解

    转载自https://blog.csdn.net/ztf312/article/details/47259805 第一步 排除文件打开方式错误: r只读,r+读写,不创建 w新建只写,w+新建读写,二 ...

  6. Python文件操作中的a,a+,w,w+,rb+,rw+,ra+几种方式的区别

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/yang520java/article/ ...

  7. python文件读取下一个字符_python文件的读写总结

    读写文件是最常见的IO操作.Python内置了读写文件的函数,用法和C是兼容的. 读写文件前,我们先必须了解一下,在磁盘上读写文件的功能都是由操作系统提供的,现代操作系统不允许普通的程序直接操作磁盘, ...

  8. MATLAB调用python文件以及调用.exe文件方法

    引言: 在编程的时候有这么一个需求,就是要用MATLAB去调用python文件以及调用python写好的功能函数. 配置环境: MATLAB 2017b: python 2.7x: 方法: 1.查看m ...

  9. python打开文件的语法_python27语法Python文件打开方式实例详解【a、a+、r+、w+区别】...

    本文实例讲述了Python文件打开方式.分享给大家供大家参考,具体如下: 第一步 排除文件打开方式错误: r只读,r+读写,不创建 w新建只写,w+新建读写,二者都会将文件内容清零 (以w方式打开,不 ...

最新文章

  1. Redis的各项功能解决了哪些问题?
  2. 参加第六届ITAT C语言程序设计大赛复赛-----数学溃败
  3. labuladong的算法小抄pdf_随机算法:水塘抽样算法
  4. 一道比较实用的MySQL面试题:游戏数据充值查询
  5. composer查看当前镜像取消_国内全量镜像大全
  6. 纳税人基本信息与服务器端基本信息不符,网上报税对浏览器有什么要求吗
  7. [一句秒懂]小马的单例
  8. 基于MATLAB步态算法仿真的六足仿生机器人
  9. mysql+enable+sql+log_MySQL -- redolog + binlog
  10. MSSQL coalesce系统函数简介
  11. 在 Excel 中对多行多列进行条件求和
  12. Python写的我的世界源码
  13. 数据结构(Java)-排序算法-选择排序
  14. 路由器的两个端口接在同一个交换机上_什么是路由器交换机?路由器交换机介绍!...
  15. string.h头文件
  16. 华为过程可信cib是指_【华为云技术分享】如何做一个优秀软件-可扩展的架构,良好的编码,可信的过程...
  17. 除了这门升级中的V2Pro课程,恐怕你找不到更好的学验证的途径了
  18. python将pyc转为py
  19. Python实战小程序——Excel操作
  20. 我国最新贫富标准线出炉,看看你属于哪个阶级?

热门文章

  1. 遗传算法介绍并附上Matlab代码
  2. [动图演示]Redis 持久化 RDB/AOF 详解与实践 1
  3. 安装 Unity 个人免费版
  4. 织梦窗帘布窗门类中英文网站源码自适应手机版
  5. [附源码]SSM计算机毕业设计 宠物医院管理系统JAVA
  6. IDEA安装中文语言包
  7. 联想小新Air15 2021新款11代酷睿版win10+Ubuntu16.04双系统装机笔记
  8. 计算机交互式登录进程初始化失败,提示交互式登录进程初始化失败怎么办?
  9. 报表数据动态生成页面
  10. JAVA_HOME should point to a JDK not a JRE的解决办法