《python读取超大csv》

  现在工作中遇到的数据动辄千万或上亿的数据,其中图像数据是以 oss 链接的形式放入到 csv 中,csv文件所占磁盘空间一般就会20G起,所以直接读入内存是不现实的,这里记录一种使用 pandas 读取超大 csv 文件的方法。

Key Words:pandas、迭代器、超大csv

Beijing, 2021

作者:mxsurui

Agile Pioneer  

  • import pandas as pd

预览 csv 内容

# 导入部分数据进行测试,这里导入 1000 行
reader = pd.read_csv(csv_path, nrows=1000)

使用 pandas 迭代器

# 指定参数iterator = True返回一个可迭代对象 TextFileReader 每次返回 chunksize 条记录
reader = pd.read_csv(csv_path, iterator=True, chunksize=10000)

遍历迭代器,每次处理 chunksize 条记录

for chunk in reader:# 提取第一列 [0] 的所有行 0:-1chunk_source_list = chunk.iloc[0:-1, [0]].values.tolist()# 提取第三列 [2] 的所有行 0:-1chunk_answer_list = chunk.iloc[0:-1, [2]].values.tolist()for source, answer_html in zip(chunk_source_list, chunk_answer_list):# 这里迭代的长度就是 chunksizepass

参考

https://blog.csdn.net/wifi_wuxian/article/details/105313588

python读取超大csv相关推荐

  1. python读取超大csv文件_python – 读取一个巨大的.csv文件

    我目前正试图从Python 2.7中的.csv文件读取数据,最多1百万行和200列(文件范围从100mb到1.6gb).我可以这样做(非常慢)对于300,000行以下的文件,但一旦我走上,我得到内存错 ...

  2. Python读取excel/csv表格并通过折线图可视化显示

    Python读取excel/csv表格并通过折线图可视化显示 写作背景 参数 使用figure()函数重新申请一个figure对象 注意,每次调用figure的时候都会重新申请一个figure对象 第 ...

  3. 用python pandas按块读取超大csv/txt

    如果一个csv文件过大,比如说达到好几G,直接读取的话内存估计hold不住,幸好pandas支持使用chunksize指定行数,每次按多少行多少行来读取,这样就避免了一次性读取过多数据导致内存崩溃. ...

  4. Python读取上证指数csv

    前言 这个系列,从这一篇起,我就不一一编号了.想到哪儿写到哪儿,学到哪儿写到哪儿. 本系列文章是用Python对数据进行简单的分析,最终实现程序化交易的目的.比较琐碎. 要想代码写得好,一个重要的因素 ...

  5. python读取超大文件-强悍的Python读取大文件的解决方案

    Python 环境下文件的读取问题,请参见拙文 Python基础之文件读取的讲解 这是一道著名的 Python 面试题,考察的问题是,Python 读取大文件和一般规模的文件时的区别,也即哪些接口不适 ...

  6. python读取超大文件 Python读取大文件(GB)

    最近处理文本文档时(文件约2GB大小),出现memoryError错误和文件读取太慢的问题,后来找到了两种比较快Large File Reading 的方法,本文将介绍这两种读取方法. 我们谈到&qu ...

  7. python读取数据集csv文件_读取CSV文件并使用python提取所需的数据量

    我从csv文件中提取了数据,从特定的行和列开始,使用以下代码:def csvread(csvpath, filtered_dict): rdr = csv.reader(open(csvpath, ' ...

  8. python读取时间序列csv可视化_Python获取时序数据并进行可视化分析

    本帖最后由 林宝宝 于 2019-7-31 17:29 编辑 问题导读: 1.获取第三方平台的接口数据的方法是什么? 2.怎么做数据清洗与合并?主要有数据类型转换.重新排序.索引重置.数据合并 3.时 ...

  9. python读入tsv_PYTHON读取TXT/CSV/TSV 数据

    PYTHON读取TXT/CSV/TSV 数据 PYTHON读取TXT/CSV/TSV 数据 男,杨过,19,13901234567,终南山古墓,2000/1/1 女,小龙女,25,1380111111 ...

最新文章

  1. Python3高并发定时更新任务进程池和线程池的使用
  2. java用继承编写宠物乐园_MoreThanJavaDay 5:面向对象进阶继承详解
  3. 五大经典算法之动态规划
  4. 如何使用 tf object detection
  5. python datetime.date 和数据库date_Python成为专业人士笔记-date 对象、time 对象及datetime用法深度剖析...
  6. linux 信号发生器,用STM32实现函数信号发生器
  7. try-catch 异常处理的执行过程
  8. 弱鸡儿长乐爆零旅Day5
  9. sort降序shell_shell脚本学习指南之文本排序与排重等
  10. iweboffice之word——功能简介
  11. 苹果智能家居的未来之路
  12. Android 电源键事件流程分析
  13. mysql 多条件求和_sql多条件求和-sql条件求和-sql求和且和满足条件
  14. Angular 4入门教程系列:14:PrimeNG的使用方式
  15. 【本科生科研入门】英文科技论文写作-绘图篇
  16. 董卿频上热搜的背后:阅读量之广令人惊叹,靠的不仅仅是坚持
  17. elastic APM 深入测试 一 (无嵌套调用的分布式微服务监控)
  18. 【每日新闻】摩托罗拉折叠屏手机准备就绪:上下折叠
  19. NOIP 2018 游记
  20. php 扇面,扇面书法,四种章法让人赏心悦目

热门文章

  1. echo linux命令_Linux echo命令示例
  2. c ++ 继承_了解C ++中的继承概念
  3. selenium火狐驱动_在Selenium Firefox驱动程序上运行测试
  4. Spring WebFlux – SpringReact式编程
  5. 7z.exe 命令参数
  6. 逆向路由器固件之敏感信息泄露 Part2
  7. React Native三端融合在沪江的应用实践
  8. Java RESTful Web Service实战(第2版) 2.3 传输格式
  9. Socket 编程实战
  10. 算法分析-动态规划-01背包