我在使用python读取几十万行的文件中的数据,并构造字典,列表等数据结构时,再访问字典,列表时,一般都会出现内存不够的问题,然后只能循环读取几百行或者一定数量的行数来循环操作。

keyword_list=[line.strip() for line in open("keywords.txt",'r')]

#f1=open("part_wiki_vec.txt",'r')

f1=open("wiki_vectors.txt")

f2=open("result.txt",'w')

i=0

content=f1.readlines()

while i<1150:

for line in content[300*i:300*(i+1)]:

line=line.strip().split(' ')

if line[0] in keyword_list:

wordvec=' '.join(line)

print wordvec

f2.write(wordvec)

#print line

i+=1

我是这样读取的

应该还有很多好的方法,比如多线程等等。

做此记录只为了学习

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对我们的支持。如果你想了解更多相关内容请查看下面相关链接

本文标题: 用Python读取几十万行文本数据

本文地址: http://www.cppcns.com/jiaoben/python/248247.html

用python处理文本数据_用Python读取几十万行文本数据相关推荐

  1. python进行文本预处理_用python做NLP:中文文本预处理

    数据挖掘入门与实战  公众号: datadw 一 得到原始文本内容 def FileRead(self,filePath): f = open(filePath) raw=f.read() retur ...

  2. python批量读取文本行_用Python读取几十万行文本数据

    我在使用python读取几十万行的文件中的数据,并构造字典,列表等数据结构时,再访问字典,列表时,一般都会出现内存不够的问题,然后只能循环读取几百行或者一定数量的行数来循环操作. keyword_li ...

  3. python微博文本分析_基于Python的微博情感分析系统设计

    基于 Python 的微博情感分析系统设计 王欣 ; 周文龙 [期刊名称] < <信息与电脑> > [年 ( 卷 ), 期] 2019(000)006 [摘要] 微博是当今公众 ...

  4. python新闻文本聚类_用Python实现文档聚类

    在本教程中,我会利用 Python 来说明怎样聚类一系列的文档.我所演示的实例会识别出 top 100 电影的(来自 IMDB 列表)剧情简介的隐藏结构.关于这个例子的详细讨论在初始版本里.本教程包括 ...

  5. python获取文本光标_使用python readline时如何获取(并设置)当前bash光标位置?

    我可以建议 Python curses吗? The curses module provides an interface to the curses library, the de-facto st ...

  6. python 定义一个负数_其实Python不难学(4):Python如何处理文本数据

    文本的处理是数据分析工作中很重要的业务领域.Python的字符串变量用于操纵文本型数据.以下命令就定义了一个字符串变量,用于存放一段文本资料. 在Python中,文本数据使用一对单引号或双引号来界定的 ...

  7. 利用python从网页查找数据_利用Python模拟淘宝的搜索过程并对数据进行可视化分析...

    数据挖掘入门与实战 公众号: datadw 本文讲述如何利用Python模拟淘宝的搜索过程并对搜索结果进行初步的数据可视化分析. 搜索过程的模拟:淘宝的搜索页面有两种形式, 一种形式是, 2019/2 ...

  8. python自动获取天气_用python获取天气数据,并作定时播报

    原标题:用python获取天气数据,并作定时播报 数据挖掘入门与实战 公众号: datadw 思路 1.调用和风天气的API,获取天气数据 2.用百度语音API,将天气数据合成语音 3.用树莓派每天早 ...

  9. python爬知识星球付费数据_用python爬取知识星球

    去年我们做过一个叫「学长问答」的社群活动,里面沉淀了大量有价值的互动信息,后来因为各种原因终止了.今天和涂腾聊起来,觉得这些信息就这么沉寂了太浪费.所以就试着用python爬取了知识星球的内容. 这个 ...

最新文章

  1. Caused by: java.lang.ClassNotFoundException: javax.persistence.Entity
  2. Software Testing Homework03:
  3. vue-music 关于搜索历史本地存储
  4. Sentinel限流实战
  5. python 散点图点击链接图片_Python数据可视化——散点图
  6. LOCKDIR加密文件的破解心得
  7. 计算机组成原理————寄存器寻址方式大总结
  8. 笔记本计算机内存都多大,你的电脑速度慢吗?笔记本电脑“内存”到底要多大才够用?...
  9. Linux中rm -rf 文件夹,删不掉
  10. 磁记录材料和计算机0101,信息磁性功能材料
  11. sumifs 汇总_空标准单元格的SUMIFS公式
  12. 中学语文教学参考杂志社中学语文教学参考编辑部2022年第27期目录
  13. 应用计算机怎么弹ink,ink是什么文件,手把手教你怎么打开ink文件
  14. 素数模同余式次数与其解数的关系
  15. Command CompileAssetCatalog emitted errors but did not return a nonzero exit code to indicate failur
  16. Tomcat6中web项目部署路径webapps和wtpwebapps的区别
  17. 若尔当型状态空间方程的能控能观判断
  18. java private最简单的解释
  19. 状态机练习(饮料贩卖机程序设计)8/9
  20. HDMI 1.4 协议详解

热门文章

  1. matlab while 跳出,请帮忙看下这个程序为什么跳不出WHILE循环??
  2. 记一次小米前端面试题(一面)2020.10.28
  3. idea导包都报错_IDEA+Springboot 导出jar包,war包
  4. Java黑皮书课后题第5章:**5.38(十进制转八进制)编写程序,提示用户输入一个十进制整数,然后显示对应的八进制值。(不要是使用Java的Integer类的任何方法)
  5. mysql数据库的系统操作基本操作
  6. Oracle 监听(Listener) 中 services 说明
  7. DPCM 压缩系统的实现和分析
  8. iOS之深入解析CocoaPods的GitLab CI与组件自动化构建与发布
  9. 【数据结构与算法】之深入解析“丑数II”的求解思路与算法示例
  10. iOS之深入解析Xcode的拼写检查