如果一个csv文件过大,比如说达到好几G,直接读取的话内存估计hold不住,幸好pandas支持使用chunksize指定行数,每次按多少行多少行来读取,这样就避免了一次性读取过多数据导致内存崩溃。

用row["某个列的名称"] 即可读取该列的对应数据了,之后就可以进行数据处理了。

import pandas as pdchunksize = 1000count = 1
for df in pd.read_csv('1.txt',chunksize=chunksize):print(count)for index,row in df.iterrows():print(count,index)# break# x=row['djxh']# y=row[1]# print(index,x,y)count+=1

补充一段代码,有时候csv里面会有一些所谓的脏数据导致读取错误,这个时候只需要配置error_bad_lines=False 即可跳过这一行的处理,注意,是跳过,帮你自动处理是不可能的,还是要自己想办法去排除产生这个错误的原因。

通常来讲,超大csv/txt都是来自数据库的查询结果,这些超大文件里面如果有时候包含了英文的分号、逗号、单双引号、空格、换行符等符号就容易出现这种错误,处理方法通常就是在数据库查询脚本那里将这些符号提前替换掉。

import pandas as pdchunksize = 500000data = pd.read_csv("sample.csv",encoding='utf-8',error_bad_lines=False,chunksize=chunksize)count = 1
for chunk in data:file_name = "out"+str(count)+".xlsx"count +=1chunk.to_excel(file_name,index=False)break

用python pandas按块读取超大csv/txt相关推荐

  1. python读取超大csv

    <python读取超大csv>   现在工作中遇到的数据动辄千万或上亿的数据,其中图像数据是以 oss 链接的形式放入到 csv 中,csv文件所占磁盘空间一般就会20G起,所以直接读入内 ...

  2. python pandas 把数据保存成csv文件,以及读取csv文件获取指定行、指定列数据

    文章目录: 1 数据说明 2 把数据集文件信息使用python pandas保存成csv文件 3 使用python pandas 读取csv的每行.每列数据 1 数据说明 1.在test_data目录 ...

  3. python pandas 处理相同标题的csv文件_Python使用pandas处理CSV文件的实例讲解

    Python中有许多方便的库可以用来进行数据处理,尤其是Numpy和Pandas,再搭配matplot画图专用模块,功能十分强大. CSV(Comma-Separated Values)格式的文件是指 ...

  4. 05pandas读取excel csv txt文件

    pandas丨数据读取与保存 读取excel文件: pandas.read_excel() 保存excel文件: pandas.to_excel() pandas.read_excel(io, she ...

  5. python分割压缩_Python读取分割压缩TXT文本文件实例

    废话不多说,上代码看吧! ''' 为了避免截断中文字符 文件要求是 unicode 编码 txt文件另存为对话框下面有下拉框,可选存 储编码格式 ''' import os import struct ...

  6. 初学者使用R语言读取excel/csv/txt的注意事项

    本文首发于:医学和生信笔记,完美观看体验请至公众号查看本文. 文章目录 把数据读入R语言 Excel csv txt 其他 写出文件(从R语言另存为其他格式) 本文面向R语言初学者,尤其是生物医药领域 ...

  7. python读取超大csv文件_python – 读取一个巨大的.csv文件

    我目前正试图从Python 2.7中的.csv文件读取数据,最多1百万行和200列(文件范围从100mb到1.6gb).我可以这样做(非常慢)对于300,000行以下的文件,但一旦我走上,我得到内存错 ...

  8. python 利用os库 读取、写入txt文本

    目录 读写模式 1.读取txt文本 1.1read() 一次性读全部内容 1.2readline()    读取第一行内容 1.3readlines()     列表 1.3.1直接输出 1.3.2f ...

  9. 数学建模常用读取excel和txt代码

    文章目录 一.matlab篇 1.1.读取.xls和.xlsx的数据 1.2.读取.csv的数据 二.python篇 2.1.pandas库 2.1.1.xlsx和xls的读取和写入 2.1.2.cs ...

最新文章

  1. 【树莓派】树莓派移动网络连接(配置4G网卡)
  2. ThinkPHP5有关模型hasOne、hasMany、belongsTo详解
  3. Android-Universal-Image-Loader三大组件DisplayImageOptions、ImageLoader、ImageLoaderConfiguration详解...
  4. SOLOv2论文简读
  5. [转载] python3基础语法(注释、缩进)_1.02
  6. 九、K8s deployment相关操作
  7. Binwalk--多重文件查看利器
  8. Android SDK下载失败解决
  9. LabView-之1: 串口驱动
  10. Rxjava2.X的一些讲解
  11. gateway配合nacos路由报错:Unable to find instance for XXX
  12. 常用DOS命令(三)--RD命令
  13. C# winform Qrcoder二维码
  14. 网页认证上网服务器无响应,portal认证失败,网络故障或者portal服务器没有响应排查方法...
  15. mysql 两表拼接_数据库将两张表进行横向连接(拼接成一张表的形式显示)
  16. 转载:渗透测试方法论(阅读)
  17. 各种JSON技术对比(Json-lib,Jackson,Gson,Fastjson)
  18. matlab plot fplot函数
  19. Java(老白再次入门) - 语言概述
  20. C语言练习-day29

热门文章

  1. 95% CI, 置信区间 Confidence Interval
  2. 2.27 18种定位方法总结
  3. could not find the main class错误
  4. 2410Init.s
  5. 【我的项目经验】——Visual Studio 插件
  6. Android4.2以及最新SDK的尝鲜使用
  7. 趣头条将获得阿里1.71亿美元的可转债,为期三年...
  8. 做一个”合格“的程序员(二)——学习管理
  9. urllib post请求 cookie
  10. 关于C#泛型列表ListT的基本用法总结