非内存资源可以使用with

在python中逐行读取大文件

在我们日常工作中,难免会有处理日志文件的时候,当文件小的时候,基本不用当心什么,直接用file.read()或readlines()就可以了,但是如果是将一个10G大小的日志文件读取,即文件大于内存的大小,这么处理就有问题了,会将整个文件加载到内存中从而造成MemoryError … 也就是发生内存溢出。

对file对象进行迭代处理:

with open('file_name', 'r') as file:for line in file:print line

优点:

  • with语句,文件对象在执行完代码块退出后自动关闭文件流,文件读取数据发生异常,进行异常捕获处理
  • 对文件对象进行迭代时,在内部,它会缓冲IO(针对昂贵的IO操作进行优化)和内存管理,所以不必担心大文件。
  • 这才是 Pythonci 最完美的方式,既高效又快速

缺点:

  • 每一行的数据内容不能大于内存大小,否则就会造成MemoryError

使用yield

正常情况使用上面这种方式就可以了,But,如果遇到整个文件只有一行,而且按照特定的字符进行分割,上面这种方式则不行了,这时候yield就非常有用了。

举个栗子,log的形式是这样子的。

  • 2018-06-18 16:12:08,289 - main - DEBUG - Do something{|}…..
  • 以{|}做为分割符。
def read_line(filename, split, size):with open(filename, 'r+') as file:buff = ''while True:while split in buff:position = buff.index(split)yield buff[:position]buff = buff[(position +len(split)):]chunk = file.read(size)if not chunk:yield buffbreakbuff = buff +chunk

优点:

  • 不在限制每行数据的大小,即使整个大文件只有一行。

缺点:

  • 速度比上面这种方式要慢。
  • 解析一下:
    • 首先:定义一个缓冲区buff
    • 循环判断,如果split分割符在缓冲区buff,则进行查找分割符出现的位置,并yield回去。
    • 将buff更新,继续第二步
    • 如果split分割符不在缓冲区buff,则read(size)个字符
    • 如果chunk为空,则跳出循环,否则更新buff, 继续第二步
    • 所以我们需要使用那种方式呢,一般来说使用用第一种就可以了。碰到只有一行的数据,而且数据特别大的,就要考虑一下你是不是得罪那个程序员了,故意给你这样一个文件。

读取大几G的大文件,可以利用生成器 generator

方法一: 将文件切分成小段,每次处理完小段,释放内存

def read_in_block(file_path):BLOCK_SIZE=1024with open(file_path,"r") as f:while True:block =f.read(BLOCK_SIZE) #每次读取固定长度到内存缓冲区if block:yield blockelse:return #如果读取到文件末尾,则退出for block in read_in_block(file_path):print block

// 这个方法,速度很快(只有3s),但有个问题,若满足了1024时,会将正好在1024位置的数据切开,虽然每个block都是str, 但无法直接得到每行的id,只能再切分。

def readInChunks(fileObj, chunkSize=4096):"""Lazy function to read a file piece by piece.Default chunk size: 4kB."""while 1:data = fileObj.read(chunkSize)if not data:breakyield dataf = open('bigFile')
for chuck in readInChunks(f):#do_something(chunk)
f.close()

python 实现大文件md5值计算

python 中使用hashlib模块实现常见摘要算法,如md5、sha1等。

hashlib.md5(文件内容)实现了对文件的md5计算,注意参数为文件内容而不是文件路径。

import hashlibwith open('2.jpeg','rb') as f:data = f.read()d5 = hashlib.md5(data)
print(d5.hexdigest())

md5()返回的是md5对象,不是md5值,通过hexdigest()方法获取md5值。

md5计算时文件数据是放在内存中的,当我们计算一个大文件时,可以用update方法进行分步计算,每次添加部分文件数据进行计算,减少内存占用。

import hashlibd5 = hashlib.md5()
with open('3.jpeg','rb') as f:while True:data = f.read(2024)if not data:breakd5.update(data) #update添加时会进行计算print(d5.hexdigest()) #打印结果

转载于:https://www.cnblogs.com/meilong/p/da-wen-jian.html

Python 大文件处理相关推荐

  1. python大文件排序_Python如何实现大文件排序?Python大文件排序的实现方法

    Python如何实现大文件排序?Python大文件排序的实现方法 本文实例讲述了Python实现大文件排序的方法.分享给大家供大家参考.具体实现方法如下: import gzip import os ...

  2. Python大文件解析的效率问题

    论坛求助与自行摸索相结合,基本解决python大文件解析效率问题.现将过程与结论存档,供有需要者参考. =================前言==================== 看着python ...

  3. python怎么读文件后删去空格以行为单位进行排序-python 大文件以行为单位读取方式比对...

    先前需要做一个使用python读取大文件(大于1G),并逐条存入内存进行处理的工作.做了很多的尝试,最终看到了如下的文章. 该文章实际上提供了集中读取大文件的方式,先经过测试总结如下 1. for l ...

  4. python下载大文件-python 大文件

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 大文件上传服务一.前端(http:fex.baidu.comwebuploade ...

  5. python 大文件以行为单位读取方式比对

    先前需要做一个使用python读取大文件(大于1G),并逐条存入内存进行处理的工作.做了很多的尝试,最终看到了如下的文章. http://stackoverflow.com/questions/800 ...

  6. python 大文件分片上传_Python实现大文件分片上传

    转载请注明出处:http://blog.csdn.net/jinixin/article/details/77545140 引言想借着这篇文章简要谈谈WebUploader大文件上传与Python结合 ...

  7. 科研日志--python大文件打开内存溢出

    关于python运行大文件导致死机的问题 最近因为科研需要,需要打开一个巨大的txt文件.借鉴了Python读取大文件的行数中的代码片段,成功按行读取了大小为5.6GB的.txt文件.但最终因为所设置 ...

  8. python大文件排序_python实现按创建时间对文件排序

    测试中,测试log是经常需要保存一段时间以便于后续查询,但是如果一段时间不删除,会导致硬盘空间变小而影响自动化测试,通常空间太小,自动化测试case就不能调用了,或者即使调用,可能会引起新测试的log ...

  9. python大文件去重_python大ip文件排重

    1 需求: 整理个IP列表,需要将IP去重下,统计一共多少来源 本来想直接shell命令解决,简单的 sort 管道 uniq  然后wc下 无奈文件太大,条数多,处理效率不堪 文件大概5G,几亿条数 ...

  10. python 导入数据对不齐_[Python] 大文件数据读取分析

    首先我们可以确定的是不能用read()与readlines()函数: 因为如果将这两个函数均将数据全部读入内存,会造成内存不足的情况. 针对数据按行划分的文件 以计算行数为例,首先针对几种不同的方法来 ...

最新文章

  1. java 环境配置 mac_Java:配置环境(Mac)——JDK
  2. SQL Server 分区表的创建方法与管理
  3. 《架构师(“拥抱2015”特刊)》发布
  4. ALTERA产品型号命名
  5. 带你走进rsync的世界
  6. 对象过滤某个属性 循环 php_37道PHP面试题(附答案)
  7. 洛谷 P1162 填涂颜色题解
  8. pandas rolling方法_【干货】pandas相关工具包
  9. IE6给我网站开发带来的问题
  10. python中分支语句elif与else的区别_浅谈对python中if、elif、else的误解
  11. oracle的commit耗时长_oracle-2中commit 详解
  12. 540s inter 固件_Intel SSD Firmware Update Tool(英特尔ssd固件更新工具)下载 v2.1.6官方版...
  13. mount的挂载远程服务器文件夹
  14. Win10 + GTX1650显卡 安装 Cuda-10.1 + CuDNN-7.6 + Tensorflow-gpu-1.15.0 一步到位
  15. spread 超链接跳转sheet 不触发 GC.Spread.Sheets.Events.ActiveSheetChanged 事件处理
  16. 对称加密和非对称加密!
  17. Zookeeper高频面试题36问(附答案)
  18. 华为od统一考试B卷【机器人走迷宫】Java 实现
  19. \t\tFlash网页游戏辅助工具制作简析
  20. C语言、C++与Java分别实现猜数字小游戏

热门文章

  1. 枚举基类Enum详解
  2. 第三周 3.14 --- 3.20
  3. java.lang.IllegalStateException: No output folder
  4. Mysql Error:1205错误诊断
  5. javascript中数组遍历问题
  6. 动态改变 itemRenderer 。
  7. SqlServer删除表中某几列重复的记录并保留一条
  8. SqlServer实现split功能
  9. 31. 了解各种与排序有关的选择
  10. 每天一道剑指offer-二进制中1的个数