今天项目有个需求,就是把txt文件转为csv,txt之间是空格隔开,转为csv时需要把空格转换为逗号,网上找的一个版本,只需要三行代码,特别犀利:

import numpy as np

import pandas as pd

data_txt = np.loadtxt('datas_train.txt')

data_txtDF = pd.DataFrame(data_txt)

data_txtDF.to_csv('datas_train.csv',index=False)

上述的datas_train.txt只有不到100MB,560W行数据,三分钟之内转换完毕。

然后我换了一个5600W行共1.2G的txt文本,用上述代码转换,电脑直接卡死了。

原因在于上述代码会把全部的txt加载进内存,然后再转换,这就会造成电脑内存耗尽。

然后就想到了切割数据的办法,具体实现如下:

import numpy as np

import pandas as pd

train_data = pd.read_table('big_data.txt',iterator=True,header=None)

while True:

try:

chunk = train_data.get_chunk(5600000)

chunk.columns = ['user_id','spu_id','buy_or_not','date']

chunk.to_csv('big_data111.csv', mode='a',header=False,index = None)

except Exception as e:

break

这里我把数据分成了小块,每块数据有560W行,分11次加载就能全部加载完了,速度也很快,总共花了5分钟左右。

注意,get_chunk()里面的参数表示文件的行数,而非字节数。

以上这篇python 快速把超大txt文件转存为csv的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

您可能感兴趣的文章:

python中txt转成csv_python 快速把超大txt文件转存为csv的实例相关推荐

  1. python读取大文件csv_python 快速把超大txt文件转存为csv的实例

    python 快速把超大txt文件转存为csv的实例 今天项目有个需求,就是把txt文件转为csv,txt之间是空格隔开,转为csv时需要把空格转换为逗号,网上找的一个版本,只需要三行代码,特别犀利: ...

  2. python csv 大文件_python 快速把超大txt文件转存为csv的实例

    今天项目有个需求,就是把txt文件转为csv,txt之间是空格隔开,转为csv时需要把空格转换为逗号,网上找的一个版本,只需要三行代码,特别犀利: import numpy as np import ...

  3. chatgpt赋能python:Python中的立方根-一种快速简便的计算方法

    Python中的立方根 - 一种快速简便的计算方法 Python是一门流行的开源编程语言,它被广泛应用于各种应用领域,包括科学计算和数据分析.在数学计算中,Python可以用于计算各种函数,包括立方根 ...

  4. python中字符串转成数字的几种方法

    在python列表操作中,面对需要把列表中的字符串转为礼拜的操作,无需强转,通过简单的几步就可以实现,本文介绍python中字符串转成数字的三种方法:1.使用join的方法:2.使用int函数将16进 ...

  5. Python中数组转换成字符串

    python中数组转换成字符串 数组转换成字符串可以使用下面这种方式将一个数组转换成字符串,其中arr是数组的数组名. ''.join(arr) 用上面这种方式需要确保数组里面的内容也是字符串的形式, ...

  6. python中txt转成csv_Python实现txt文件转csv格式

    码农公社 210.net.cn 210= 1024 10月24日一个重要的节日--码农(程序员)节 把txt文件转成成csv文件格式,通过手动打开excel文件,然后导入txt来生产csv文件. 现在 ...

  7. python中的cli模块_Python 快速实现CLI 应用程序的脚手架

    今天跟大家分享一下如何快速实现一个Python CLI应用程序的脚手架,之所以会做这个是因为当时需要做一个运维的小工具希望用命令行的方式来使用,但是搜遍网上很多资料都没有系统讲解从开发.集成.发布.文 ...

  8. python中读写excel的扩展库_Python读写Excel文件第三方库汇总,你想要的都在这儿!...

    常见库简介 xlrd xlrd是一个从Excel文件读取数据和格式化信息的库,支持.xls以及.xlsx文件. http://xlrd.readthedocs.io/en/latest/ 1.xlrd ...

  9. python中的类属性和类方法_python面向对象之类属性和类方法的使用和实例

    类属性和类方法 目标 类的结构类属性和实例属性类方法和静态方法 01. 类的结构 1.1 术语 -- 实例 1. 使用面相对象开发,第 1 步 是设计 类 2. 使用 类名() 创建对象,创建对象 的 ...

最新文章

  1. MYSQL实现ORDER BY LIMIT的方法以及优先队列(堆排序)
  2. 面试题:mysql 表删除一半数据,B+树索引文件会不会变小???
  3. Oracle存储过程编译卡死的解决方法
  4. LeetCode OJ Basic Calculator II
  5. struts2采用convention-plugin实现零配置
  6. open dwg file_体育直播间 | 时隔六年,又一次中韩对决!S10全球总决赛SN对战DWG!...
  7. 三位整数两位小数掩码_小数点造句_造句大全
  8. 总结:SpringMVC 中 GET 和 POST 方式请求中的中文乱码问题
  9. 计算机视觉算法工程师 笔试,深度学习算法工程师笔试题目
  10. 使用ANT打包Android应用
  11. css动画-模拟正余弦曲线
  12. python连接数据库oracle_python 连接oracle数据库:cx_Oracle
  13. Fortan写出数据到CSV文件中
  14. 聊聊集成电路工程技术人员都有哪些?
  15. Typora上使用Latex语法(持续更新)
  16. Springboot:JWT
  17. 固化来自哈佛,创新来自斯坦福
  18. 消极和积极的道德--给亲爱的安德烈
  19. 6-3 写字母(*) (10分)
  20. itext使用字体问题

热门文章

  1. 中国微生物肥料发展现状:绿色农业发展下,微生物肥料迎机遇
  2. 【Faiss】基础索引类型(六)
  3. $.ajax 中的contentType
  4. dreamwrear cc 汉化
  5. 火星人的真实故事(3)
  6. 搭建Samba服务器及遇到问题解决方法--Failed to add entry for user
  7. 系统计算机如何使用记录,Win7如何查看电脑使用记录?
  8. 【加密解密】阴符,阴书,字验
  9. 电脑怎么配音?这个配音方法安利给你
  10. 太逆天了,10行Python代码实现目标检测!!