read_csv中有个参数chunksize,通过指定一个chunksize分块大小来读取文件,返回的是一个可迭代的对象TextFileReader,IO Tools 举例如下:In [138]: reader = pd.read_table('tmp.sv', sep='|', chunksize=4)In [139]: reader
Out[139]: <pandas.io.parsers.TextFileReader at 0x120d2f290>In [140]: for chunk in reader:.....:     print(chunk).....: Unnamed: 0         0         1         2         3
0           0  0.469112 -0.282863 -1.509059 -1.135632
1           1  1.212112 -0.173215  0.119209 -1.044236
2           2 -0.861849 -2.104569 -0.494929  1.071804
3           3  0.721555 -0.706771 -1.039575  0.271860Unnamed: 0         0         1         2         3
0           4 -0.424972  0.567020  0.276232 -1.087401
1           5 -0.673690  0.113648 -1.478427  0.524988
2           6  0.404705  0.577046 -1.715002 -1.039268
3           7 -0.370647 -1.157892 -1.344312  0.844885Unnamed: 0         0        1         2         3
0           8  1.075770 -0.10905  1.643563 -1.469388
1           9  0.357021 -0.67460 -1.776904 -0.968914指定iterator=True 也可以返回一个可迭代对象TextFileReader :In [141]: reader = pd.read_table('tmp.sv', sep='|', iterator=True)In [142]: reader.get_chunk(5)
Out[142]: Unnamed: 0         0         1         2         3
0           0  0.469112 -0.282863 -1.509059 -1.135632
1           1  1.212112 -0.173215  0.119209 -1.044236
2           2 -0.861849 -2.104569 -0.494929  1.071804
3           3  0.721555 -0.706771 -1.039575  0.271860
4           4 -0.424972  0.567020  0.276232 -1.087401最后定义如下函数返回df:def get_df(file):mylist = []for chunk in  pd.read_csv(file, chunksize=20000):mylist.append(chunk)temp_df = pd.concat(mylist, axis= 0)del mylistreturn temp_df

pandas.read_csv——分块读取大文件相关推荐

  1. 数据处理:1 用pandas处理大型csv文件 2 使用Pandas分块处理大文件 3 分块读取

    在训练机器学习模型的过程中,源数据常常不符合我们的要求.大量繁杂的数据,需要按照我们的需求进行过滤.拿到我们想要的数据格式,并建立能够反映数据间逻辑结构的数据表达形式.  最近就拿到一个小任务,需要处 ...

  2. pandas读取大文件(chunksize)并通过sqlalchemy写入MySQL数据库

    pandas读取大文件(chunksize)并通过sqlalchemy写入MySQL数据库 在pandas中读取表类文件的时候有一个参数chunksize,只要指定了这个参数的数值,那么得到的结果就不 ...

  3. 成功解决利用pandas的read_csv函数读取csv文件的时候出现中文乱码问题

    成功解决利用pandas的read_csv函数读取csv文件的时候出现中文乱码问题 目录 解决问题 解决思路 解决方法 解决问题 利用pandas的read_csv函数读取csv文件的时候出现中文乱码 ...

  4. python读取大文件-Python如何读取、拆分大文件

    简述 最近和第三方数据接触较多,数据量也开始陡增,从一开始的1KW行,最大到了1亿行,这让我这个常年处理"小数据'的人有点捉襟见肘.本来数据放在hive中也是可以操作的,但是有时候需求是做一 ...

  5. Pandas 如何保存较大文件。‘ValueError: This sheet is too large! Your sheet size is: 16388602, 3 Max sheet size

    Pandas 如何保存较大文件.'ValueError: This sheet is too large! Your sheet size is: 16388602, 3 Max sheet size ...

  6. Windows/Linux上使用fopen相关函数读取大文件

    在介绍读取大文件之前,先了解下<cstdint>文件,标准头文件,存放固定宽度整数类型,如int32_t, uint32_t,不管在32位上还是64位上,长度都为4个字节:int64_t, ...

  7. python读取大文件-使用Python读取大文件的方法

    背景 最近处理文本文档时(文件约2GB大小),出现memoryError错误和文件读取太慢的问题,后来找到了两种比较快Large File Reading 的方法,本文将介绍这两种读取方法. 准备工作 ...

  8. 多线程读取大文件,尤其是对日志文件分析很有用。

    我在之前的公司里工作的时候,他们要求我做一个能够分析IIS日志的程序,可我做来做去,也只能做到,1个G的文件读取在140秒左右.愁了很久,想到了用多线程读取大文件的方法,又发现文件读取流可以有很多个, ...

  9. 【Python强化】使用pandas和csv读取csv文件

    一.pandas读取方式 1.csv介绍 csv文件是一种以逗号分割字符的文件形式 我们创建一个简单的文件demo.csv,如下格式的形式进行存储,以,进行分割 name,score,age,sex ...

最新文章

  1. Linux中的帮助命令
  2. Git之常用命令的综合使用和示例分析
  3. CAS单点登录 - 用户登录与校验
  4. 鸡尾酒排序算法c语言,[golang] 数据结构-鸡尾酒排序
  5. python应用POP3、IMAP、SMTP 协议,获取邮箱验证码
  6. 【One by One系列】IdentityServer4(二)使用Client Credentials保护API资源
  7. 字符串hash(二)
  8. 用matlab时提示数据写入文件期间被裁剪_用C语言简单开发学生成绩管理系统
  9. 2.5. SciTE
  10. 枚举求解:试把一个正整数n拆分为若干个(不少于2个)连续正整数之和。例如:n=15,有3种拆分:15=1+2+3+4+5,15=4+5+6,15=7+8。 对于给定的正整数n,求出所有符合这种拆分要求
  11. 【python】字符串的操作与方法、元组的定义与操作
  12. ArrayList源码解析
  13. 关闭蜂鸣最简单的方法
  14. vue项目使用阿里云播放器(aliyun)
  15. 学习笔记HHL:Generalizing a Person Retrieval Model--Hetero-Homogeneous Learning UDA郑良2018
  16. java 面包屑_java面包屑导航怎么做
  17. jQuery 插件——免费版
  18. 一度智信在拼多多上开店靠谱吗?
  19. 自媒体从零到大v,这个方法你得知道
  20. 进入命令框,输入“cd D:”,为什么会这样 - 搜搜问问

热门文章

  1. 1054 The Dominant Color (20 分)_12行代码AC
  2. 【题意分析】1024 Palindromic Number (25 分)_38行代码AC
  3. 【一步到胃解决】Several ports (8005, 8080, 8009) required by Tomcat v9.0 Server at localhost are already
  4. (~最新合集~)计算机网络谢希仁第七版 第五章课后答案
  5. bcd编辑工具Linux,​快启动pe系统工具之BCD编辑工具各个功能详细介
  6. php rdkafka实例,kafka 消息队列 php-rdkafka扩展示例
  7. all any 或 此运算符后面必须跟_用 ANY、SOME 或 ALL 修改的比较运算符
  8. php教程链接,php自动给网址加上链接的方法,php网址链接方法_PHP教程
  9. Linux节点之间无密码问题,Linux下多节点SSH无密码互联实现
  10. 中山服务器维修点,中山存储服务器