1.filecmp比较文件

filecmp模块提供了一些函数和一个类来比较文件系统上的文件和目录。

1.1 示例数据

使用下面代码创建一组测试文件。

import os

def mkfile(filename, body=None):

with open(filename, 'w') as f:

f.write(body or filename)

return

def make_example_dir(top):

if not os.path.exists(top):

os.mkdir(top)

curdir = os.getcwd()

os.chdir(top)

os.mkdir('dir1')

os.mkdir('dir2')

mkfile('dir1/file_only_in_dir1')

mkfile('dir2/file_only_in_dir2')

os.mkdir('dir1/dir_only_in_dir1')

os.mkdir('dir2/dir_only_in_dir2')

os.mkdir('dir1/common_dir')

os.mkdir('dir2/common_dir')

mkfile('dir1/common_file', 'this file is the same')

os.link('dir1/common_file', 'dir2/common_file')

mkfile('dir1/contents_differ')

mkfile('dir2/contents_differ')

# Update the access and modification times so most of the stat

# results will match.

st = os.stat('dir1/contents_differ')

os.utime('dir2/contents_differ', (st.st_atime, st.st_mtime))

mkfile('dir1/file_in_dir1', 'This is a file in dir1')

os.mkdir('dir2/file_in_dir1')

os.chdir(curdir)

return

if __name__ == '__main__':

os.chdir(os.path.dirname(__file__) or os.getcwd())

make_example_dir('example')

make_example_dir('example/dir1/common_dir')

make_example_dir('example/dir2/common_dir')

运行这个脚本会在axample目录下生成一个文件树。

common_dir目录下也有同样的目录结构,以提供有意思的递归比较选择。

1.2 比较文件

cmp()用于比较文件系统上的两个文件。

import filecmp

print('common_file :', end=' ')

print(filecmp.cmp('example/dir1/common_file',

'example/dir2/common_file',

shallow=True),

end=' ')

print(filecmp.cmp('example/dir1/common_file',

'example/dir2/common_file',

shallow=False))

print('contents_differ:', end=' ')

print(filecmp.cmp('example/dir1/contents_differ',

'example/dir2/contents_differ',

shallow=True),

end=' ')

print(filecmp.cmp('example/dir1/contents_differ',

'example/dir2/contents_differ',

shallow=False))

print('identical :', end=' ')

print(filecmp.cmp('example/dir1/file_only_in_dir1',

'example/dir1/file_only_in_dir1',

shallow=True),

end=' ')

print(filecmp.cmp('example/dir1/file_only_in_dir1',

'example/dir1/file_only_in_dir1',

shallow=False))

shallo参数告诉cmp()除了文件的元数据外,是否还要查看文件的内容。默认情况下,会使用由os.stat()得到的信息来完成一个浅比较。如果结果是一样的,则认为文件相同。因此,对于同时创建的相同大小的文件,即使他们的内容不同,也会报告为是相同的文件。当shallow为False时,则要比较文件的内容。

如果非递归的比较两个目录中的一组文件,则可以使用cmpfiles()。参数是目录名和两个位置上要检查的我就爱你列表。传入的公共文件列表应当只包含文件名(目录会导致匹配不成功),而且这些文件在两个位置上都应当出现。下一个例子显示了构造公共列表的一种简单方法。与cmp()一样,这个比较也有一个shallow标志。

import filecmp

import os

# Determine the items that exist in both directories

d1_contents = set(os.listdir('example/dir1'))

d2_contents = set(os.listdir('example/dir2'))

common = list(d1_contents & d2_contents)

common_files = [

f

for f in common

if os.path.isfile(os.path.join('example/dir1', f))

]

print('Common files:', common_files)

# Compare the directories

match, mismatch, errors = filecmp.cmpfiles(

'example/dir1',

'example/dir2',

common_files,

)

print('Match :', match)

print('Mismatch :', mismatch)

print('Errors :', errors)

cmpfiles()返回3个文件名列表,分别包含匹配的文件、不匹配的文件和不能比较的文件(由于权限问题或出于其他原因)。

1.3 比较目录

前面介绍的函数适合完成相对简单的比较。对于大目录树的递归比较或者更完整的分析,dircmp类很更有用。在最简单的用例中,report()会打印比较两个目录的报告。

import filecmp

dc = filecmp.dircmp('example/dir1', 'example/dir2')

dc.report()

输出是一个纯文本报告,显示的结果只包括给定目录的内容,而不会递归比较其子目录。在这里,认为文件not_the_same是相同的,因为这里没有比较内容。无法让dircmp像cmp()那样比较文件的内容。

为了更多的细节,也为了完成一个递归比较,可以使用report_full_closure()。

import filecmp

dc = filecmp.dircmp('example/dir1', 'example/dir2')

dc.report_full_closure()

输出将包括所有同级子目录的比较。

1.4 在程序中使用差异

除了生成打印报告,dircmp还能计算文件列表,可以在程序中直接使用。以下各个属性只在请求时才计算,所以对于未用的数据,创建dircmp实例不会带来开销。

import filecmp

import pprint

dc = filecmp.dircmp('example/dir1', 'example/dir2')

print('Left:')

pprint.pprint(dc.left_list)

print('\nRight:')

pprint.pprint(dc.right_list)

所比较目录中包含的文件和子目录分别列在left_list和right_list中。

可以向构造函数传入一个要忽略的名字列表(该列表中指定的名字将被忽略)来对输入进行过滤。默认的,RCS、CVS和tags等名字会被忽略。

import filecmp

import pprint

dc = filecmp.dircmp('example/dir1', 'example/dir2',

ignore=['common_file'])

print('Left:')

pprint.pprint(dc.left_list)

print('\nRight:')

pprint.pprint(dc.right_list)

在这里,将common_file从要比较的文件列表中去除。

两个输入目录中共有的文件名会保存在common内,各目录独有的文件会列在left_only和right_only中。

import filecmp

import pprint

dc = filecmp.dircmp('example/dir1', 'example/dir2')

print('Common:')

pprint.pprint(dc.common)

print('\nLeft:')

pprint.pprint(dc.left_only)

print('\nRight:')

pprint.pprint(dc.right_only)

"左"目录是dircmp()的第一个参数,"右"目录是第二个参数。

公共成员可以被进一步分解为文件、目录和“有趣”元素(两个目录中类型不同的内容,或者os.stat()指出的有错误的地方)。

import filecmp

import pprint

dc = filecmp.dircmp('example/dir1', 'example/dir2')

print('Common:')

pprint.pprint(dc.common)

print('\nDirectories:')

pprint.pprint(dc.common_dirs)

print('\nFiles:')

pprint.pprint(dc.common_files)

print('\nFunny:')

pprint.pprint(dc.common_funny)

在示例数据中,file_in_dir1元素在一个目录中是一个文件,而在另一个目录中是一个子目录,所以它会出现在“有趣”列表中。

文件之间的差别也可以做类似的划分。

import filecmp

dc = filecmp.dircmp('example/dir1', 'example/dir2')

print('Same :', dc.same_files)

print('Different :', dc.diff_files)

print('Funny :', dc.funny_files)

文件not_the_same通过os.stat()比较,并且不检查内容,所以它包含在same_files列表中。

最后一点,子目录也会被保存,以便容易地完成递归比较。

import filecmp

dc = filecmp.dircmp('example/dir1', 'example/dir2')

print('Subdirectories:')

print(dc.subdirs)

属性subdirs是一个字典,它将目录名映射到新的dircmp对象。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

python对比数据的原理_Python3 filecmp模块测试比较文件原理解析相关推荐

  1. python读excel并写入_python3 循环读取excel文件并写入json操作

    文件内容: excel内容: 代码: import xlrd import json import operator def read_xlsx(filename): # 打开excel文件 data ...

  2. python将数据存入数据库_python3 两种方法将数据存入mysql数据库

    原博文 2017-09-22 18:25 − 方法一:(数据量小的时候推荐使用这种) 第一步:pip install mysqlclient 这里我没有报错 也许你可能会报错Read timed ou ...

  3. python中数据分组计算_python3数据聚合与分组运算(二)

    数据聚合 对于聚合,这里指的是任何能够从数组产生标量值的数据转换过程.之前的例子中已经用过一些,比如mean.count.min以及sum等.我们可能想知道在GroupBy对象上调用mean()时究竟 ...

  4. python把数据写入excel_Python读取和写入Excel文件(转)

    学习用Python处理Excel文件,这里主要用xlrd和xlwt模块,用前需要安装!本文是来自几篇博客和官网tutorial的整理,主要是一个入门.更多的处理Excel的方法请到官网学习,链接为:h ...

  5. 【深度之眼Python基础+数据科学入门训练营】第八章 文件、异常和模块

    第八章 文件.异常和模块 实际应用中,我们绝大多数的数据都是通过文件的交互完成的 8.1 文件的读写 8.1.1 文件的打开 文件的打开通用格式 with open("文件路径", ...

  6. python保存数据使用csv和excel哪种文件最好_Python数据持久化-csv、excel篇

    2018年7月4日笔记 学习目标: 1.会使用Python第三方模块操作CSV文件 2.会使用Python第三方模块操作EXCEL文件 本章内容: Python操作CSV:什么是CSV.Python如 ...

  7. python如何处理数据_python数据处理之如何选取csv文件中某几行的数据

    前言 有些人看到这个问题觉得不是问题,是嘛,不就是df.col[]函数嘛,其实忽略了一个重点,那就是我们要省去把csv文件全部读取这个过程,因为如果在面临亿万级别的大规模数据,得到的结果就是boom, ...

  8. python读取数据的函数详解_python之文件读写详解

    打开文件 函数open() 参数说明: file:文件路径 mode: 文件的读写方式,默认'r',只读方式: buffering:设置缓冲策略,0用于二进制文件,1为行缓冲,用于文本模式:默认二进制 ...

  9. python raise和except区别_Python3 try-except、raise和assert解析

    一.说明 关于异常捕获try-except:在学java的时候就被教育异常捕获也是java相对c的一大优点,几年下来多少也写了些代码,但异常捕获总只得其形未得其神,在自己这只是让发生错误的程序在不必要 ...

最新文章

  1. mongodb的几种启动方法
  2. 我们真的需要那么多功能吗? - 国外主流开源 CMS 功能评点
  3. 搜索引擎ElasticSearch
  4. php ini include,php.ini文件中的include_path设置
  5. eclipse连接mysql_专题一、flask构建mysql数据库正确姿势
  6. delphi gui编辑工具源码_Python 快速构建一个简单的 GUI 应用
  7. (转)淘淘商城系列——使用solrj来测试索引库
  8. springboot中关于springMvc默认配置,配置扩展,全面接管
  9. python编程入门与案例详解-清华大学出版社-图书详情-《Python编程入门与案例详解》...
  10. MOQL--操作数(Operand) (四)
  11. 测试计算机性能的软件比较专业,用什么软件可以测试计算机的整体性能?
  12. TIM网盘批量下载方法
  13. c51单片机矩阵键盘1602计算器_单片机做简易计算器源码(矩阵键盘输入+1602显示)...
  14. PDF识别文字、关键字,获取对应坐标,用于插入电子签名
  15. ps不更改原图比例,调整图片至任意尺寸
  16. 无线认证服务器搭建,基于Windows 2012R2 AD RADIUS无线认证
  17. js中Object.defineProperty()方法的解释
  18. 通过FAI进行全自动安装
  19. MySQLWorkBench怎么设置主键自增长
  20. 张小龙提到的敏捷管理是个啥?

热门文章

  1. python开发飞船游戏
  2. python绘图函数返回_python – Matplotlib返回一个绘图对象
  3. LG新能源新设首席数字官 首任是英伟达前数据科学家
  4. 美团工程师回应“频繁定位”:常用App权限开启时检测结果基本一致
  5. 特斯拉宣布总部将从加州硅谷迁到得州
  6. 5G的To C 应用还是没有和消费者强关联
  7. 华为申请注册小艺商标,该商标多品类已被注册
  8. 张大奕网店关联公司被行政处罚:因以不合格产品冒充合格产品
  9. 一加9 Pro真机图曝光:哈苏相机联名logo助力影像旗舰
  10. 富士康筹划在越南建造2.7亿美元新工厂,扩大生产线!