python读取超大csv
《python读取超大csv》
现在工作中遇到的数据动辄千万或上亿的数据,其中图像数据是以 oss 链接的形式放入到 csv 中,csv文件所占磁盘空间一般就会20G起,所以直接读入内存是不现实的,这里记录一种使用 pandas 读取超大 csv 文件的方法。
Key Words:pandas、迭代器、超大csv
Beijing, 2021
作者:mxsurui
Agile Pioneer
- import pandas as pd
预览 csv 内容
# 导入部分数据进行测试,这里导入 1000 行
reader = pd.read_csv(csv_path, nrows=1000)
使用 pandas 迭代器
# 指定参数iterator = True返回一个可迭代对象 TextFileReader 每次返回 chunksize 条记录
reader = pd.read_csv(csv_path, iterator=True, chunksize=10000)
遍历迭代器,每次处理 chunksize 条记录
for chunk in reader:# 提取第一列 [0] 的所有行 0:-1chunk_source_list = chunk.iloc[0:-1, [0]].values.tolist()# 提取第三列 [2] 的所有行 0:-1chunk_answer_list = chunk.iloc[0:-1, [2]].values.tolist()for source, answer_html in zip(chunk_source_list, chunk_answer_list):# 这里迭代的长度就是 chunksizepass
参考
https://blog.csdn.net/wifi_wuxian/article/details/105313588
python读取超大csv相关推荐
- python读取超大csv文件_python – 读取一个巨大的.csv文件
我目前正试图从Python 2.7中的.csv文件读取数据,最多1百万行和200列(文件范围从100mb到1.6gb).我可以这样做(非常慢)对于300,000行以下的文件,但一旦我走上,我得到内存错 ...
- Python读取excel/csv表格并通过折线图可视化显示
Python读取excel/csv表格并通过折线图可视化显示 写作背景 参数 使用figure()函数重新申请一个figure对象 注意,每次调用figure的时候都会重新申请一个figure对象 第 ...
- 用python pandas按块读取超大csv/txt
如果一个csv文件过大,比如说达到好几G,直接读取的话内存估计hold不住,幸好pandas支持使用chunksize指定行数,每次按多少行多少行来读取,这样就避免了一次性读取过多数据导致内存崩溃. ...
- Python读取上证指数csv
前言 这个系列,从这一篇起,我就不一一编号了.想到哪儿写到哪儿,学到哪儿写到哪儿. 本系列文章是用Python对数据进行简单的分析,最终实现程序化交易的目的.比较琐碎. 要想代码写得好,一个重要的因素 ...
- python读取超大文件-强悍的Python读取大文件的解决方案
Python 环境下文件的读取问题,请参见拙文 Python基础之文件读取的讲解 这是一道著名的 Python 面试题,考察的问题是,Python 读取大文件和一般规模的文件时的区别,也即哪些接口不适 ...
- python读取超大文件 Python读取大文件(GB)
最近处理文本文档时(文件约2GB大小),出现memoryError错误和文件读取太慢的问题,后来找到了两种比较快Large File Reading 的方法,本文将介绍这两种读取方法. 我们谈到&qu ...
- python读取数据集csv文件_读取CSV文件并使用python提取所需的数据量
我从csv文件中提取了数据,从特定的行和列开始,使用以下代码:def csvread(csvpath, filtered_dict): rdr = csv.reader(open(csvpath, ' ...
- python读取时间序列csv可视化_Python获取时序数据并进行可视化分析
本帖最后由 林宝宝 于 2019-7-31 17:29 编辑 问题导读: 1.获取第三方平台的接口数据的方法是什么? 2.怎么做数据清洗与合并?主要有数据类型转换.重新排序.索引重置.数据合并 3.时 ...
- python读入tsv_PYTHON读取TXT/CSV/TSV 数据
PYTHON读取TXT/CSV/TSV 数据 PYTHON读取TXT/CSV/TSV 数据 男,杨过,19,13901234567,终南山古墓,2000/1/1 女,小龙女,25,1380111111 ...
最新文章
- Python3高并发定时更新任务进程池和线程池的使用
- java用继承编写宠物乐园_MoreThanJavaDay 5:面向对象进阶继承详解
- 五大经典算法之动态规划
- 如何使用 tf object detection
- python datetime.date 和数据库date_Python成为专业人士笔记-date 对象、time 对象及datetime用法深度剖析...
- linux 信号发生器,用STM32实现函数信号发生器
- try-catch 异常处理的执行过程
- 弱鸡儿长乐爆零旅Day5
- sort降序shell_shell脚本学习指南之文本排序与排重等
- iweboffice之word——功能简介
- 苹果智能家居的未来之路
- Android 电源键事件流程分析
- mysql 多条件求和_sql多条件求和-sql条件求和-sql求和且和满足条件
- Angular 4入门教程系列:14:PrimeNG的使用方式
- 【本科生科研入门】英文科技论文写作-绘图篇
- 董卿频上热搜的背后:阅读量之广令人惊叹,靠的不仅仅是坚持
- elastic APM 深入测试 一 (无嵌套调用的分布式微服务监控)
- 【每日新闻】摩托罗拉折叠屏手机准备就绪:上下折叠
- NOIP 2018 游记
- php 扇面,扇面书法,四种章法让人赏心悦目
热门文章
- echo linux命令_Linux echo命令示例
- c ++ 继承_了解C ++中的继承概念
- selenium火狐驱动_在Selenium Firefox驱动程序上运行测试
- Spring WebFlux – SpringReact式编程
- 7z.exe 命令参数
- 逆向路由器固件之敏感信息泄露 Part2
- React Native三端融合在沪江的应用实践
- Java RESTful Web Service实战(第2版) 2.3 传输格式
- Socket 编程实战
- 算法分析-动态规划-01背包