readlines()会出现内存错误,因为给定了文件大小,您可能会读入内存无法合理处理的数据。因为这个文件是一个XML文件,所以您应该能够通读它,iterparse()将缓慢地解析XML,而不会占用多余的内存。下面是一些我用来解析Wikipedia转储的代码:for event, elem in parser:

if event == 'start' and root == None:

root = elem

elif event == 'end' and elem.tag == namespace + 'title':

page_title = elem.text

#This clears bits of the tree we no longer use.

elem.clear()

elif event == 'end' and elem.tag == namespace + 'text':

page_text = elem.text

#Clear bits of the tree we no longer use

elem.clear()

#Now lets grab all of the outgoing links and store them in a list

key_vals = []

#Eliminate duplicate outgoing links.

key_vals = set(key_vals)

key_vals = list(key_vals)

count += 1

if count % 1000 == 0:

print str(count) + ' records processed.'

elif event == 'end' and elem.tag == namespace + 'page':

root.clear()

大致如下:我们创建解析器来处理文档。

当我们遍历文档的每个元素时,我们会查找带有您要查找的标记的元素(在您的示例中是“A”)。

我们存储数据。我们处理完的任何元素都会被清除,因为当我们浏览文档时,它会保留在内存中,因此我们希望删除不再需要的任何内容。

python与txt文件查找,在Python中搜索TXT文件相关推荐

  1. txt文本文件数据转ArcGIS中的tif文件

    txt 文本文件数据转 ArcGIS 中的 tif 文件 txt文件容易读写,但可视性不好: tif文件在ArcGIS上显示具有独特优势,但打开属性表是多有不变 以广东省某蒸散发数据为依据,将网格对应 ...

  2. 如何在手机端从多个Excel文件多个Sheet中搜索某一内容,多个excel文件批量查找

    如何在手机端从多个Excel文件多个Sheet中搜索某一内容,多个excel文件批量查找 今天介绍一个在线工具:e.anyoupin.cn 比如: 多个年度的项目信息,每年一张工作簿.现在需要查找某些 ...

  3. 如何快速查找清理电脑中的重复文件?这款软件即可轻松实现!

    电脑是我们日常生活中必不可少的工具,我们通过它处理各种任务,保存大量的文件.但是,电脑中存储的文件可能会变得混乱,尤其是在我们经常从不同来源下载文件时,会有很多重复的文件占用存储空间,导致可用空间减少 ...

  4. java中 exe是什么文件_从文件位置运行Java中的.exe文件

    从文件位置运行Java中的.exe文件 我必须从我的Java程序打开一个.exe文件. 所以我试着下面的代码第一. Process process = runtime.exec("c:\\p ...

  5. win7锁定计算机捷径,win7旗舰版系统中搜索电脑文件的捷径

    win7旗舰版系统中搜索电脑文件的捷径    你的win7旗舰版系统中一定保存着很多你须运用的文件吧?在你想要查找win7电脑文件之时,你是用什么方法去搜索的呢?若是想要更快速得在win7旗舰版系统中 ...

  6. maven没有resource文件夹_maven项目中没有resource文件夹的问题

    之前使用eclipse创建maven项目,文件夹都是建好的,这几次创建,都没有resource文件夹,需要手动创建resource. 现象描述 在eclipse中,创建maven项目有两种方式: 一种 ...

  7. wp文件转shp_完美实现从mapGIS文件转换成ArcGIS中shp格式文件

    完美实现从 mapGIS 文件转换成 ArcGIS 中 shp 格式文件 最近经苦战实验,终于找到如何完美实现从 mapGIS 文件转换成 ArcGIS 中 shp 格式文件.步骤如下(各步骤中细节操 ...

  8. python源码用于查找指定具有相同内容的文件

    把开发过程中经常用的内容珍藏起来,下边资料是关于python用于查找指定具有相同内容的文件的代码,应该能对码农有较大好处. # doublesdetector.py 1.0p import os, o ...

  9. python 检查文件是否存在_Python中如何判断文件是否存在?

    这里介绍三种判断文件或文件夹是否存在的方法,分别使用os模块.Try语句.pathlib模块. 1.使用os模块 os模块中的os.path.exists()方法用于检验文件是否存在. import ...

  10. python包的init文件_Python模块包中__init__.py文件功能分析

    本文实例讲述了Python模块包中__init__.py文件功能.分享给大家供大家参考,具体如下: 用django做开发已经一年多的时间,但基本没注意python模块中__init__.py文件存在的 ...

最新文章

  1. 前端每日实战:93# 视频演示如何用纯 CSS 创作一根闪电连接线
  2. 单细胞RNA降维之UMAP
  3. python json数据的转换
  4. bootstrap5
  5. cache 的设计与实现--转载
  6. CentOS中怎样查看系统版本和内核版本
  7. php写实体类,自动生成实体类(方式一)
  8. 牛客题霸 SQL1 查找最晚入职员工的所有信息
  9. 禁止微信公众号页面上下滑动
  10. 程序员面试金典 - 面试题 17.06. 2出现的次数(找递推规律)
  11. CorePress-v4.5网站主题 WordPress主题
  12. Oracle 20c 新特性:原生的 JSON 数据类型(Native JSON Datatype)
  13. LinkedIn领英帐号被封(被限制登录)的解决办法
  14. eclipse工具栏全部隐藏
  15. VS2010 中文版本
  16. 由经纬度计算地球上任意两点的距离
  17. 在bluehost如何使用WHM面板和ssh链接添加附加IP
  18. 微信小程序实现规划路线
  19. 利用JQuery实现广告动态滚动特效
  20. CRM是什么?能提供什么服务?

热门文章

  1. 怎么解决vs2017一把鼠标放在Mat类上就卡死的问题
  2. tomcat端口修改以及jvm启动参数设置
  3. [转帖] bat方式遍历目录内的文件
  4. Day4:html和css
  5. C#并行和多线程编程
  6. Go语言【第十四篇】:Go语言基础总结
  7. 2017.11.20T19_5
  8. Java转C#的最佳工具
  9. songEagle开发系列:如何让文章实时保存的问题
  10. OpenCL 学习step by step (5) 使用二维NDRange workgroup