用python pandas按块读取超大csv/txt
如果一个csv文件过大,比如说达到好几G,直接读取的话内存估计hold不住,幸好pandas支持使用chunksize指定行数,每次按多少行多少行来读取,这样就避免了一次性读取过多数据导致内存崩溃。
用row["某个列的名称"] 即可读取该列的对应数据了,之后就可以进行数据处理了。
import pandas as pdchunksize = 1000count = 1
for df in pd.read_csv('1.txt',chunksize=chunksize):print(count)for index,row in df.iterrows():print(count,index)# break# x=row['djxh']# y=row[1]# print(index,x,y)count+=1
补充一段代码,有时候csv里面会有一些所谓的脏数据导致读取错误,这个时候只需要配置error_bad_lines=False 即可跳过这一行的处理,注意,是跳过,帮你自动处理是不可能的,还是要自己想办法去排除产生这个错误的原因。
通常来讲,超大csv/txt都是来自数据库的查询结果,这些超大文件里面如果有时候包含了英文的分号、逗号、单双引号、空格、换行符等符号就容易出现这种错误,处理方法通常就是在数据库查询脚本那里将这些符号提前替换掉。
import pandas as pdchunksize = 500000data = pd.read_csv("sample.csv",encoding='utf-8',error_bad_lines=False,chunksize=chunksize)count = 1
for chunk in data:file_name = "out"+str(count)+".xlsx"count +=1chunk.to_excel(file_name,index=False)break
用python pandas按块读取超大csv/txt相关推荐
- python读取超大csv
<python读取超大csv> 现在工作中遇到的数据动辄千万或上亿的数据,其中图像数据是以 oss 链接的形式放入到 csv 中,csv文件所占磁盘空间一般就会20G起,所以直接读入内 ...
- python pandas 把数据保存成csv文件,以及读取csv文件获取指定行、指定列数据
文章目录: 1 数据说明 2 把数据集文件信息使用python pandas保存成csv文件 3 使用python pandas 读取csv的每行.每列数据 1 数据说明 1.在test_data目录 ...
- python pandas 处理相同标题的csv文件_Python使用pandas处理CSV文件的实例讲解
Python中有许多方便的库可以用来进行数据处理,尤其是Numpy和Pandas,再搭配matplot画图专用模块,功能十分强大. CSV(Comma-Separated Values)格式的文件是指 ...
- 05pandas读取excel csv txt文件
pandas丨数据读取与保存 读取excel文件: pandas.read_excel() 保存excel文件: pandas.to_excel() pandas.read_excel(io, she ...
- python分割压缩_Python读取分割压缩TXT文本文件实例
废话不多说,上代码看吧! ''' 为了避免截断中文字符 文件要求是 unicode 编码 txt文件另存为对话框下面有下拉框,可选存 储编码格式 ''' import os import struct ...
- 初学者使用R语言读取excel/csv/txt的注意事项
本文首发于:医学和生信笔记,完美观看体验请至公众号查看本文. 文章目录 把数据读入R语言 Excel csv txt 其他 写出文件(从R语言另存为其他格式) 本文面向R语言初学者,尤其是生物医药领域 ...
- python读取超大csv文件_python – 读取一个巨大的.csv文件
我目前正试图从Python 2.7中的.csv文件读取数据,最多1百万行和200列(文件范围从100mb到1.6gb).我可以这样做(非常慢)对于300,000行以下的文件,但一旦我走上,我得到内存错 ...
- python 利用os库 读取、写入txt文本
目录 读写模式 1.读取txt文本 1.1read() 一次性读全部内容 1.2readline() 读取第一行内容 1.3readlines() 列表 1.3.1直接输出 1.3.2f ...
- 数学建模常用读取excel和txt代码
文章目录 一.matlab篇 1.1.读取.xls和.xlsx的数据 1.2.读取.csv的数据 二.python篇 2.1.pandas库 2.1.1.xlsx和xls的读取和写入 2.1.2.cs ...
最新文章
- 【树莓派】树莓派移动网络连接(配置4G网卡)
- ThinkPHP5有关模型hasOne、hasMany、belongsTo详解
- Android-Universal-Image-Loader三大组件DisplayImageOptions、ImageLoader、ImageLoaderConfiguration详解...
- SOLOv2论文简读
- [转载] python3基础语法(注释、缩进)_1.02
- 九、K8s deployment相关操作
- Binwalk--多重文件查看利器
- Android SDK下载失败解决
- LabView-之1: 串口驱动
- Rxjava2.X的一些讲解
- gateway配合nacos路由报错:Unable to find instance for XXX
- 常用DOS命令(三)--RD命令
- C# winform Qrcoder二维码
- 网页认证上网服务器无响应,portal认证失败,网络故障或者portal服务器没有响应排查方法...
- mysql 两表拼接_数据库将两张表进行横向连接(拼接成一张表的形式显示)
- 转载:渗透测试方法论(阅读)
- 各种JSON技术对比(Json-lib,Jackson,Gson,Fastjson)
- matlab plot fplot函数
- Java(老白再次入门) - 语言概述
- C语言练习-day29
热门文章
- 95% CI, 置信区间 Confidence Interval
- 2.27 18种定位方法总结
- could not find the main class错误
- 2410Init.s
- 【我的项目经验】——Visual Studio 插件
- Android4.2以及最新SDK的尝鲜使用
- 趣头条将获得阿里1.71亿美元的可转债,为期三年...
- 做一个”合格“的程序员(二)——学习管理
- urllib post请求 cookie
- 关于C#泛型列表ListT的基本用法总结