数据处理:pandas处理大型csv文件,使用pandas分块处理大文件

1. 读取限定列

一个 csv文件中,有很多列,而我们只关心其中的某些列是,如果把每行数据都读取出来,在提取信息,显然会增加IO的量,可以在读read_csv()时,给定参数,增加效率。

file = pd.read_csv("filename.csv",usecols=["col1","col2",...])

2.读取限定行

增加read_csv()方法中的nrows参数,设定读取的行数。

file = pd.read_csv("filename.csv",nrows=1000,usecols=["col1",...])

3.分块读取

chunksize可以指定一个分块大小来读取文件,返回的是一个迭代器,一个textfilereader对象。chunksize =1000,代表每次读取1000行。

reader = pd.read_csv("filename.csv",nrows=1000,usecols=[],chunksize=1000,iterator=True) reader

可以使用列表添加每块,最后使用pd.concat([],ignore_index=True),将数据拼接在一起。

python pandas读取文件内容_python pandas读取大型文件相关推荐

  1. python编程读写文件内容_Python编程中对文件和存储器的读写示例

    #!/usr/bin/python # -*- coding: utf-8 -*- # Filename: using_file.py # 文件是创建和读取 s = '''''我们都是木头人, 不许说 ...

  2. python显示中文文件内容_Python实现的json文件读取及中文乱码显示问题解决方法...

    {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...

  3. python实现复制文件内容_python实现复制大量文件功能

    python实现复制大量文件功能 时间:2020-11-18 06:15:09 作者:背锅熊 阅读:91次撤稿申请 原本是去项目公司拷数据信息,結果来到发觉有500G,靠系统软件的拷贝作用怕是得很多钟 ...

  4. python连接ftp服务器获取文件内容_python 访问ftp服务器文件

    {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...

  5. python读文件每一行-Python文件内容按行读取到列表中

    Python文件内容按行读取到列表中 示例文件内容如下: Hello World Python 通常来讲,我们如果只是迭代文件对象每一行,并做一些处理,是不需要将文件对象转成列表的,因为文件对象本身可 ...

  6. JAVA读取文件内容,按格式输出文件

    JAVA读取文件内容,按格式输出文件记录 一.我们要做什么? 1.本次我们来使用java将文件按格式输出. 二.我们为什么要做? 1.在使用jmeter脚本时候有个动态参数的文件,需要读取多个参数,人 ...

  7. python中如何在写文件之前删除文件内容_Python:文件的读取、创建、追加、删除、清空...

    一.用Python创建一个新文件,内容是从0到9的整数, 每个数字占一行: #python >>>f=open('f.txt','w') # r只读,w可写,a追加 >> ...

  8. python遍历文件内容_Python四种逐行读取文件内容的方法

    下面是四种Python逐行读取文件内容的方法, 并分析了各种方法的优缺点及应用场景,以下代码在python3中测试通过, python2中运行部分代码已注释,稍加修改即可. 方法一:readline函 ...

  9. python读取大文件内容_Python模块linecache处理大文件

    linecache模块简介 Python处理大文件需要用到Linecache模块. linecache模块的作用是将文件内容读取到内存中,进行缓存,而不是每次都要从硬盘中读取,这样效率提高很多,又省去 ...

最新文章

  1. 五连阳回调买入法_只要出现“4连阳+1阴”形态,坚定满仓干进去,百分百是主升浪...
  2. 《深入理解Java虚拟机》-----第3章 垃圾收集器与内存分配策略
  3. 使用GDI+缩放图片文件
  4. java selector 源码_Java NIO核心组件-Selector和Channel
  5. UIPickView 和 UIDatePicker
  6. ssas还原数据库_SSAS数据库管理
  7. oracle修改用户的登录密码
  8. Google 也要“勒紧腰带”过日子了!
  9. word加水印铺满java,Word 2010文档中让水印铺满整个页面的设置方法
  10. css如何让两个div上下排列_CSS层叠上下文
  11. 网络协议介绍(NetBIOS,NETBEUI,IPX/SPX,TCP/IP)
  12. 《HarmonyOS开发 - 小凌派-RK2206开发笔记》第1章 开发环境搭建
  13. MySQL redo log 重做日志 原理 Oracle Redo Log 机制 小结
  14. iOS两个.a文件合并成一个.a文件
  15. google map的api价格介绍
  16. 什么是接口测试?测试人员为什么要做接口测试?
  17. 【NVMe2.0b 6】NVMe 队列模型
  18. mysql聚合函数bit_and,聚合函数
  19. 即时通讯APP开发费用成本多少?
  20. Vue Avoid using non-primitive value as key, use string/number value instead.

热门文章

  1. 简单Matlab的Gui设计——电子琴
  2. XVIII Open Cup named after E.V. Pankratiev. Grand Prix of Korea
  3. MySQL课堂练习 20162315
  4. LeetCode——Maximum Depth of Binary Tree
  5. nginx添加nginx_mod_h264_streaming-2.2.7模块编译报错
  6. SQL Server中的版本号
  7. sum problem
  8. 为所有北京奥运冠军名字作诗(诗集)
  9. Delphi调用外部程序详解
  10. ORALCE 两表结构更新