我试图从X个HTML文件解析特定内容到单个TXT文件。Python - 将多个HTML页解析为单个TXT文件

我已经dirtily编码如下:

#!/usr/bin/python

import sys, mechanize, BeautifulSoup

def parsedata():

##do stuff

prvitekst = soup.find(text='Random Number')

prvikesh = prvitekst.findNextSiblings('td')

drugitekst = soup.find(text='Random Month/Yeare')

drugikesh = drugitekst.findNextSiblings('td')

trechitekst = soup.find(text='Small Random Number')

trechikesh = trechitekst.findNextSiblings('td')

content = prvikesh + ";" + drugikesh + ";" + trechikesh + ";"

writeFile(content);

def readFile(id):

fi = open('result/page-%s.html' % id, 'r');

def writeFile(content):

f = open('parsed.txt', 'a')

f.write(content,"\n")

f.close();

def main(start):

##initialize vars

id = int(start)

page = readFile(id)

soup = BeautifulSoup(page)

print soup.prettify()

readFile(id)

for id in range(1000000000):

parsedata()

id = id + 1

continue

main(sys.argv[1]);

虽然HTML部分我尝试刮看起来像这样

Random DetailsTypeColorRandom Number213523123123123Random Month/Year12/13Small Random Number13233

我想第一个后过来的细节。因此如果我正在寻找Typem,我想让它向我展示Color。

以及最终的课程我希望获得的内容以类似于CSV的格式进行分析。

类型;随机数;随机月/年

应该解析

Color;213523123123123;12/13

ofcourse在我已经做我不是搜索类型的代码,但可以很容易地改变。

编辑:固定intendation

2011-06-11

Quantum

+0

请修正你的代码的缩进。 –

2011-06-11 20:12:28

+0

固定缩进 –

2011-06-11 20:27:53

+0

这种类型的任务(找到一些文本,然后找到从该点开始的另一个文本)很容易在xpath中定义: '//td/b[text()="Type"]/../follow -sibling :: TD [1] /文本()' –

2011-06-12 00:31:54

多个html合成txt,Python - 将多个HTML页解析为单个TXT文件相关推荐

  1. python html转TXT python读取html指定区域文本内容转成txt文件

    1.首先,通过python,去将读取遍历程序目录文件夹中,[html]文件夹里面的文件.文件 夹以及子目录.子目录里面的 ,获取到该目录下所有的[.html]文件后,返回一个list对象 2.遍历完成 ...

  2. python动态图-Python处理gif动态图的解析与合成操作的介绍

    本篇文章给大家带来的内容是关于Python处理gif动态图的解析与合成操作的介绍,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 本文实例讲述了Python图像处理之gif动态图的解析 ...

  3. python yolo-v2 设计批处理程序对训练生成的权重文件进行自动化批量测试,并输出结果到指定txt文件

    项目背景 在yolo-v2生成D:\dahuangfeng\darknet-master\build\darknet\x64\backup路径下的权重文件 后,我们先需要先修改D:\dahuangfe ...

  4. python不同数据的读入_python读写不同编码txt文件_python读写txt文件

    python读写不同编码txt文件_python读写txt文件 以后整理规范 [python] view plaincopy import os import codecs filenames=os. ...

  5. Python批量识别图片中的文字并保存到txt文档中

    Python OCR工具pytesseract,之前是惠普的产品,被Google收了之后就给开源了. 1.需要下载并安装Google Tesseract,下载地址看图片上有,要下载4.0.0版本的 2 ...

  6. 【Python】PDF文档导出指定章节为TXT

    PDF文档导出指定章节为TXT 需求 要导出3000多个pdf文档的特定章节内容为txt格式(pdf文字可复制). 解决 导出PDF 查了一下Python操作PDF文档的方法,主要是通过3个库,PyP ...

  7. 使用python读取和保存为excel、csv、txt文件以及对DataFrame文件的基本操作

    文章目录 一.对excel文件的处理 1.读取excel文件并将其内容转化DataFrame和矩阵形式 2.将数据写入xlsx文件 3.将数据保存为xlsx文件 4.使用excel对数据进行处理的缺点 ...

  8. python 读取文件读出来是什么格式-深入学习python解析并读取PDF文件内容的方法...

    这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...

  9. python中读取文件内容-深入学习python解析并读取PDF文件内容的方法

    这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...

最新文章

  1. ubuntu下nginx+php5的部署
  2. nodejs安装及npm模块插件安装路径配置
  3. AI实时筛查癌细胞,普通显微镜简单改装就能用,谷歌新突破登上Nature子刊
  4. 【三种可能问题】RuntimeError: cuDNN error: CUDNN_STATUS_NOT_SUPPORTED
  5. RocketMQ的Producer详解之分布式事务消息(代码实现以及过程分析)
  6. DNS 错误事件4000 4013
  7. 如何在ppt下面加入讲解内容_如何批量查找并修改替换 Word、PPT、Excel、PDF、TXT等文件的内容——我的ABC...
  8. iPhone手机投屏小米盒子
  9. phyton做年历和月历
  10. 我的世界服务器无限重启怎么办,iPhoneX无限重启怎么办?iPhoneX无限重启解决一览...
  11. python3代码换行与不换行问题
  12. Edge检查更新时出错:无法连接到Internet。如果使用防火墙,请将 MicrosoftEdgeUpdate.exe 加入允许列表中。...
  13. 最新数据,国内5G手机出货量已超78万部!
  14. Drools LHS与RHS常见语法
  15. FL Studio20.9序列号账户注册教程
  16. 梅森素数、猜年龄、啤酒饮料、武功秘籍、调和级数、李白打酒、猜字母、扩散、三升序列、寻找2020
  17. 图文详解!10大高性能开发核心技术+
  18. 安卓设备fastboot刷机
  19. “2022锦江行”,维也纳国际酒店、丽柏酒店惊艳同台,中高端酒店再出标杆示范
  20. 电脑PDF阅读+谷歌翻译

热门文章

  1. 大数据电商数据仓库系统搭建 附离线安装包
  2. vscode格式化代码
  3. Truffle Web3.js -开发、部署第一个去中心化应用(Dapp) - 宠物商店
  4. 如何在面试中推销自己?
  5. 《干法》-稻盛和夫的经典内容赏析
  6. jieba —— 中文分词工具 (一)
  7. 周立功: 我的25年嵌入式生涯(转)
  8. TBS调试手机QQ浏览器
  9. MySql指令指导手册
  10. WEGAME更新游戏显示连接服务器失败,wegame更新失败怎么办?腾讯wegame更新失败的解决方法...