昨天无聊写了一个百度图片爬虫,测试了一下搜索“斗图”。一下给我下了3000多个图片,关键是有一半以上重复的。what a fuck program !

  好吧,今天写一个文件去重功能,贴上来。

  python3.6开发,在Windows下需要安装vc2015动态库。程序已经打包好,下载地址: http://pan.baidu.com/s/1bpalugf 密码:kfk4

#/usr/bin/env python
#Guoyabin
#-*- coding:utf-8 -*-
import os,hashlibdef filecount():filecount=int(os.popen('dir /B |find /V /C ""').read())return(filecount)def md5sum(filename):f=open(filename, 'rb')md5=hashlib.md5()while True:fb = f.read(8096)if not fb:breakmd5.update(fb)f.close()return (md5.hexdigest())def delfile():all_md5={}filedir=os.walk(os.getcwd())for i in filedir:for tlie in i[2]:if md5sum(tlie) in all_md5.values():os.remove(tlie)else:all_md5[tlie]=md5sum(tlie)if __name__=='__main__':keyword=input('\n请把本程序放到要去重的文件夹内,并按回车继续\n\n')oldf=filecount()print('去重前有',oldf,'个文件\n\n\n请稍等正在为您删除重复文件...')delfile()print('\n\n去重后剩',filecount(),'个文件')print('\n\n一共帮您删除了',oldf-filecount(),'个文件\n\n')keyword=input('请按回车退出')

无耻的求一下赞助

转载于:https://www.cnblogs.com/guoyabin/p/6879503.html

python对文件夹内文件去重相关推荐

  1. python 文件操作 os 如何检索文件夹内文件数量

    参考文章1:python os获取文件夹中文件夹内文件的数量,保存为CSV文件 参考文章2:用python计算大文件夹下小文件夹里文件的个数

  2. Python:获取文件夹内 文件夹 和 文件数量

    path = 'C:/Users/Dell/Desktop/test' print('dirnum:',len([lists for lists in os.listdir(path) if os.p ...

  3. Java获取文件大小,文件夹内文件个数的工具类

    package cn.edu.hactcm.cfcms.utils; import java.io.File; import java.io.FileInputStream; import java. ...

  4. 文件夹修改名字 matlab,matlab用 movefile更改文件夹内文件名字

    %超简单,利用matlab自带函数movefile(旧名,新名)更改文件夹内文件名字,可以是改一个或多个文件 clc clear dir1 = 'D:\workplace\新程序实验'; %选择数据所 ...

  5. JAVA-基础(查找文件夹内文件)

    JAVA-基础(查找文件夹内文件) 1.目的? 查找指定文件夹内的文件.以查询.txt结尾的文件为例. 2.分析? 目录搜索,无法判断多少级目录,所以使用递归,遍历所有目录. 遍历目录时,获取的子文件 ...

  6. java 文件大小统计工具类_Java获取文件大小,文件夹内文件个数的工具类

    package cn.edu.hactcm.cfcms.utils; import java.io.File; import java.io.FileInputStream; import java. ...

  7. php过去文件夹总数,用php获取文件夹内文件的数量

    欢迎进入Linux社区论坛,与200万技术人员互动交流 >>进入 用php获取指定文件夹内文件的数量: 用PHP读取一个文件夹内有多少个文件,例如有一个Picture文件夹,里面有200张 ...

  8. bat 文件夹内文件批量重命名

    文件夹内文件批量重命名,示例如下: chcp 65001 @echo off set /p w=请输入文件格式(即扩展名并以回车结束): ::set /p wf=请输入要修改的文字(以回车结束): s ...

  9. shell脚本读取文件夹内文件名称

    shell脚本读取文件夹内文件名称代码如下: 1.配置文件: readFilePath=/wocloud/soft/tomcat/selfYearAppraiseTomcat/selfYearAppr ...

最新文章

  1. python 桑基图 地理坐标_【转载】Python数据可视化-实现Sankey桑基图
  2. R构建二次回归模型( Quadratic Regression)
  3. Apache Cordova-Android框架原理研究笔记
  4. Pytorch使用TensorboardX进行网络可视化
  5. 世界读书日 阿里人是这样看书的?
  6. android service中显示一个dialog
  7. iphone开发中数据持久化之——属性列表序列化(一)
  8. GARFIELD@04-30-2005
  9. 通过kubernetes release制作k8s rpm包
  10. 三星 6.01 android操作系统耗电,三星6.01系统耗电加快是为什么
  11. “requireJs前传”之为什么要用前端模块化?
  12. linux 设置固定网络转发_关于 Linux 网络,你必须知道这些
  13. [转]使用Visual Studio Code开发Asp.Net Core WebApi学习笔记(三)-- Logger
  14. python-snap7使用说明
  15. 如何修复Sketchup经常遇到的错误报告问题
  16. mysql禁止明文密码_暂时在MySQL *中存储明文密码是否安全*?
  17. 两个线程交替打印A1B2C3D4E5输出,6种实现方式
  18. 佳能相机G7 Mark Ⅱ (测光与对焦)
  19. 浅谈统一权限管理平台
  20. 基于python高仿探迹源码

热门文章

  1. EasyUI中拖动draggable的使用
  2. MyBatisPLus入门项目实战各教程目录汇总
  3. SpringBoot加Jquery实现ajax传递json字符串并回显消息(已实践)
  4. Please install 'webpack-cli' in addition to webpack itself to use the CLI
  5. flutter中list相关操作汇总(有这一篇就够啦)
  6. java token生成和验证_java生成定长度的随机验证码
  7. 神策 2021 数据驱动大会,科特勒、桑文锋等发出营销未来之强音
  8. 走出迷茫和怀疑,迎接在神策冒险的新时代
  9. 神策 FM:每周成长 8%,企业用户增长四步骤——一个成功案例
  10. [转载]HTTP协议详解