python读取大文件内容_python 读取大文件

readlines、read()、readline()等一次性读取遇到很大的文件都可能面临内存崩溃，所以我们将读取操作细化一点

1. read(size) + yield

固定每次读取的长度，使用生成器返回

def read_file1(file='articles.txt'):

time.sleep(1)

block_size = 1024

with open(file, 'r', encoding='utf-8') as f:

while True:

block = f.read(block_size)

if block:

yield block

else:

break

2. for line in

迭代遍历，这个方法会自动地使用缓冲IO（buffered IO）以及内存管理，但是如果大量数据都在一行还是会出状况

def read_file2(file='articles.txt'):

with open(file, 'r', encoding='utf-8') as f:

for line in f:

print(line)

3. buff机制

对于所有数据都在一行的话，用for line in不仅仅没法处理而且获取数据的时候也没法获取到有效内容，这一行数据里明显会包含换行符、分隔符等，这个时候我们就可以自建一个buff管理来处理数据了，将每一次读取的内容加入缓存，对分隔符做处理后下次就从这之后依次处理

def read_file3(split_str, size, file='articles.txt', ):

with open(file, 'r', encoding='utf-8') as f:

buff = "" #定义缓冲区

while True:

print("buff：", buff)

while split_str in buff: #若分隔符在缓冲区内

print("捕捉到分隔符", buff)

position = buff.index(split_str) #查找分隔符第一次出现的索引

yield buff[:position] #返回从初始索引到次索引之间的缓冲区内容

buff = buff[position + len(split_str):] #更新缓冲区，除去分隔符以及之前的内容

chunk = f.read(size) #缓冲区内无分隔符则读取size个字符

if chunk: #读取到内容，将内容添加到缓冲区

buff += chunk

else:

yield buff #没读取到内容，退出循环

break

python读取大文件内容_python 读取大文件相关推荐

python修改文件内容_python批量修改文件夹及其子文件夹下的文件内容
前言:前几天我看一位同学要修改很多文件中的数据,该文件数据很规律,一行只有三个数,需要将每行最后一个数字改为负数,但文件有上千个,分布在每个文件夹下面以及它的多级子文件夹下,看他用excel手动改数据 ...
python os读取文件内容_python基础之文件读写
python基础之文件读写本节内容 os模块中文件以及目录的一些方法文件的操作目录的操作 1.os模块中文件以及目录的一些方法 python操作文件以及目录可以使用os模块的一些方法如下: 得到 ...
python读取xml文件内容_python读取xml文件
关于python读取xml文章很多,但大多文章都是贴一个xml文件,然后再贴个处理文件的代码.这样并不利于初学者的学习,希望这篇文章可以更通俗易懂的教如何使用python来读取xml文件. 什么是xm ...
python修改zip文件内容_python操作zip文件
转自: 需要使用到zipfile模块读取Zip文件随便一个zip文件,我这里用了bb.zip,就是一个文件夹bb,里面有个文件aa.txt. import zipfile # 默认模式r,读 az ...
python读取大文件内容_python读取大文件
python读取文件对各列进行索引可以用readlines, 也可以用readline, 如果是大文件一般就用readlined={} a_in = open("testfile.txt& ...
python读取word指定内容_python读取word 中指定位置的表格及表格数据
1.Word文档如下: 2.代码 # -*- coding: UTF-8 -*- from docx import Document def readSpecTable(filename, specT ...
python读压缩文件内容_Python读写压缩文件的方法
问题你想读写一个gzip或bz2格式的压缩文件. 解决方案 gzip 和bz2模块可以很容易的处理这些文件. 两个模块都为 open()函数提供了另外的实现来解决这个问题. 比如,为了以文本形式读取 ...
python查找文件内容_python自定义查找文件内容
#!/usr/bin/env python #coding:utf8 #此脚本为查找递归目录下所有文件匹配的内容 import os,sys,tab def paths(path): list_pat ...
python替换文件内容_Python实现替换文件中指定内容的方法
本文实例讲述了Python实现替换文件中指定内容的方法.分享给大家供大家参考,具体如下: 这里使用python编写的程序,实现如下功能:将文件中的指定子串修改为另外的子串编写的python程序, ...

python读取大文件内容_python 读取大文件

python读取大文件内容_python 读取大文件相关推荐

最新文章

热门文章