python对文件夹内文件去重
昨天无聊写了一个百度图片爬虫,测试了一下搜索“斗图”。一下给我下了3000多个图片,关键是有一半以上重复的。what a fuck program !
好吧,今天写一个文件去重功能,贴上来。
python3.6开发,在Windows下需要安装vc2015动态库。程序已经打包好,下载地址: http://pan.baidu.com/s/1bpalugf 密码:kfk4
#/usr/bin/env python
#Guoyabin
#-*- coding:utf-8 -*-
import os,hashlibdef filecount():filecount=int(os.popen('dir /B |find /V /C ""').read())return(filecount)def md5sum(filename):f=open(filename, 'rb')md5=hashlib.md5()while True:fb = f.read(8096)if not fb:breakmd5.update(fb)f.close()return (md5.hexdigest())def delfile():all_md5={}filedir=os.walk(os.getcwd())for i in filedir:for tlie in i[2]:if md5sum(tlie) in all_md5.values():os.remove(tlie)else:all_md5[tlie]=md5sum(tlie)if __name__=='__main__':keyword=input('\n请把本程序放到要去重的文件夹内,并按回车继续\n\n')oldf=filecount()print('去重前有',oldf,'个文件\n\n\n请稍等正在为您删除重复文件...')delfile()print('\n\n去重后剩',filecount(),'个文件')print('\n\n一共帮您删除了',oldf-filecount(),'个文件\n\n')keyword=input('请按回车退出')
无耻的求一下赞助
转载于:https://www.cnblogs.com/guoyabin/p/6879503.html
python对文件夹内文件去重相关推荐
- python 文件操作 os 如何检索文件夹内文件数量
参考文章1:python os获取文件夹中文件夹内文件的数量,保存为CSV文件 参考文章2:用python计算大文件夹下小文件夹里文件的个数
- Python:获取文件夹内 文件夹 和 文件数量
path = 'C:/Users/Dell/Desktop/test' print('dirnum:',len([lists for lists in os.listdir(path) if os.p ...
- Java获取文件大小,文件夹内文件个数的工具类
package cn.edu.hactcm.cfcms.utils; import java.io.File; import java.io.FileInputStream; import java. ...
- 文件夹修改名字 matlab,matlab用 movefile更改文件夹内文件名字
%超简单,利用matlab自带函数movefile(旧名,新名)更改文件夹内文件名字,可以是改一个或多个文件 clc clear dir1 = 'D:\workplace\新程序实验'; %选择数据所 ...
- JAVA-基础(查找文件夹内文件)
JAVA-基础(查找文件夹内文件) 1.目的? 查找指定文件夹内的文件.以查询.txt结尾的文件为例. 2.分析? 目录搜索,无法判断多少级目录,所以使用递归,遍历所有目录. 遍历目录时,获取的子文件 ...
- java 文件大小统计工具类_Java获取文件大小,文件夹内文件个数的工具类
package cn.edu.hactcm.cfcms.utils; import java.io.File; import java.io.FileInputStream; import java. ...
- php过去文件夹总数,用php获取文件夹内文件的数量
欢迎进入Linux社区论坛,与200万技术人员互动交流 >>进入 用php获取指定文件夹内文件的数量: 用PHP读取一个文件夹内有多少个文件,例如有一个Picture文件夹,里面有200张 ...
- bat 文件夹内文件批量重命名
文件夹内文件批量重命名,示例如下: chcp 65001 @echo off set /p w=请输入文件格式(即扩展名并以回车结束): ::set /p wf=请输入要修改的文字(以回车结束): s ...
- shell脚本读取文件夹内文件名称
shell脚本读取文件夹内文件名称代码如下: 1.配置文件: readFilePath=/wocloud/soft/tomcat/selfYearAppraiseTomcat/selfYearAppr ...
最新文章
- python 桑基图 地理坐标_【转载】Python数据可视化-实现Sankey桑基图
- R构建二次回归模型( Quadratic Regression)
- Apache Cordova-Android框架原理研究笔记
- Pytorch使用TensorboardX进行网络可视化
- 世界读书日 阿里人是这样看书的?
- android service中显示一个dialog
- iphone开发中数据持久化之——属性列表序列化(一)
- GARFIELD@04-30-2005
- 通过kubernetes release制作k8s rpm包
- 三星 6.01 android操作系统耗电,三星6.01系统耗电加快是为什么
- “requireJs前传”之为什么要用前端模块化?
- linux 设置固定网络转发_关于 Linux 网络,你必须知道这些
- [转]使用Visual Studio Code开发Asp.Net Core WebApi学习笔记(三)-- Logger
- python-snap7使用说明
- 如何修复Sketchup经常遇到的错误报告问题
- mysql禁止明文密码_暂时在MySQL *中存储明文密码是否安全*?
- 两个线程交替打印A1B2C3D4E5输出,6种实现方式
- 佳能相机G7 Mark Ⅱ (测光与对焦)
- 浅谈统一权限管理平台
- 基于python高仿探迹源码
热门文章
- EasyUI中拖动draggable的使用
- MyBatisPLus入门项目实战各教程目录汇总
- SpringBoot加Jquery实现ajax传递json字符串并回显消息(已实践)
- Please install 'webpack-cli' in addition to webpack itself to use the CLI
- flutter中list相关操作汇总(有这一篇就够啦)
- java token生成和验证_java生成定长度的随机验证码
- 神策 2021 数据驱动大会,科特勒、桑文锋等发出营销未来之强音
- 走出迷茫和怀疑,迎接在神策冒险的新时代
- 神策 FM:每周成长 8%,企业用户增长四步骤——一个成功案例
- [转载]HTTP协议详解