用python处理文本数据_用Python读取几十万行文本数据
我在使用python读取几十万行的文件中的数据,并构造字典,列表等数据结构时,再访问字典,列表时,一般都会出现内存不够的问题,然后只能循环读取几百行或者一定数量的行数来循环操作。
keyword_list=[line.strip() for line in open("keywords.txt",'r')]
#f1=open("part_wiki_vec.txt",'r')
f1=open("wiki_vectors.txt")
f2=open("result.txt",'w')
i=0
content=f1.readlines()
while i<1150:
for line in content[300*i:300*(i+1)]:
line=line.strip().split(' ')
if line[0] in keyword_list:
wordvec=' '.join(line)
print wordvec
f2.write(wordvec)
#print line
i+=1
我是这样读取的
应该还有很多好的方法,比如多线程等等。
做此记录只为了学习
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对我们的支持。如果你想了解更多相关内容请查看下面相关链接
本文标题: 用Python读取几十万行文本数据
本文地址: http://www.cppcns.com/jiaoben/python/248247.html
用python处理文本数据_用Python读取几十万行文本数据相关推荐
- python进行文本预处理_用python做NLP:中文文本预处理
数据挖掘入门与实战 公众号: datadw 一 得到原始文本内容 def FileRead(self,filePath): f = open(filePath) raw=f.read() retur ...
- python批量读取文本行_用Python读取几十万行文本数据
我在使用python读取几十万行的文件中的数据,并构造字典,列表等数据结构时,再访问字典,列表时,一般都会出现内存不够的问题,然后只能循环读取几百行或者一定数量的行数来循环操作. keyword_li ...
- python微博文本分析_基于Python的微博情感分析系统设计
基于 Python 的微博情感分析系统设计 王欣 ; 周文龙 [期刊名称] < <信息与电脑> > [年 ( 卷 ), 期] 2019(000)006 [摘要] 微博是当今公众 ...
- python新闻文本聚类_用Python实现文档聚类
在本教程中,我会利用 Python 来说明怎样聚类一系列的文档.我所演示的实例会识别出 top 100 电影的(来自 IMDB 列表)剧情简介的隐藏结构.关于这个例子的详细讨论在初始版本里.本教程包括 ...
- python获取文本光标_使用python readline时如何获取(并设置)当前bash光标位置?
我可以建议 Python curses吗? The curses module provides an interface to the curses library, the de-facto st ...
- python 定义一个负数_其实Python不难学(4):Python如何处理文本数据
文本的处理是数据分析工作中很重要的业务领域.Python的字符串变量用于操纵文本型数据.以下命令就定义了一个字符串变量,用于存放一段文本资料. 在Python中,文本数据使用一对单引号或双引号来界定的 ...
- 利用python从网页查找数据_利用Python模拟淘宝的搜索过程并对数据进行可视化分析...
数据挖掘入门与实战 公众号: datadw 本文讲述如何利用Python模拟淘宝的搜索过程并对搜索结果进行初步的数据可视化分析. 搜索过程的模拟:淘宝的搜索页面有两种形式, 一种形式是, 2019/2 ...
- python自动获取天气_用python获取天气数据,并作定时播报
原标题:用python获取天气数据,并作定时播报 数据挖掘入门与实战 公众号: datadw 思路 1.调用和风天气的API,获取天气数据 2.用百度语音API,将天气数据合成语音 3.用树莓派每天早 ...
- python爬知识星球付费数据_用python爬取知识星球
去年我们做过一个叫「学长问答」的社群活动,里面沉淀了大量有价值的互动信息,后来因为各种原因终止了.今天和涂腾聊起来,觉得这些信息就这么沉寂了太浪费.所以就试着用python爬取了知识星球的内容. 这个 ...
最新文章
- Caused by: java.lang.ClassNotFoundException: javax.persistence.Entity
- Software Testing Homework03:
- vue-music 关于搜索历史本地存储
- Sentinel限流实战
- python 散点图点击链接图片_Python数据可视化——散点图
- LOCKDIR加密文件的破解心得
- 计算机组成原理————寄存器寻址方式大总结
- 笔记本计算机内存都多大,你的电脑速度慢吗?笔记本电脑“内存”到底要多大才够用?...
- Linux中rm -rf 文件夹,删不掉
- 磁记录材料和计算机0101,信息磁性功能材料
- sumifs 汇总_空标准单元格的SUMIFS公式
- 中学语文教学参考杂志社中学语文教学参考编辑部2022年第27期目录
- 应用计算机怎么弹ink,ink是什么文件,手把手教你怎么打开ink文件
- 素数模同余式次数与其解数的关系
- Command CompileAssetCatalog emitted errors but did not return a nonzero exit code to indicate failur
- Tomcat6中web项目部署路径webapps和wtpwebapps的区别
- 若尔当型状态空间方程的能控能观判断
- java private最简单的解释
- 状态机练习(饮料贩卖机程序设计)8/9
- HDMI 1.4 协议详解
热门文章
- matlab while 跳出,请帮忙看下这个程序为什么跳不出WHILE循环??
- 记一次小米前端面试题(一面)2020.10.28
- idea导包都报错_IDEA+Springboot 导出jar包,war包
- Java黑皮书课后题第5章:**5.38(十进制转八进制)编写程序,提示用户输入一个十进制整数,然后显示对应的八进制值。(不要是使用Java的Integer类的任何方法)
- mysql数据库的系统操作基本操作
- Oracle 监听(Listener) 中 services 说明
- DPCM 压缩系统的实现和分析
- iOS之深入解析CocoaPods的GitLab CI与组件自动化构建与发布
- 【数据结构与算法】之深入解析“丑数II”的求解思路与算法示例
- iOS之深入解析Xcode的拼写检查