多个html合成txt,Python - 将多个HTML页解析为单个TXT文件
我试图从X个HTML文件解析特定内容到单个TXT文件。Python - 将多个HTML页解析为单个TXT文件
我已经dirtily编码如下:
#!/usr/bin/python
import sys, mechanize, BeautifulSoup
def parsedata():
##do stuff
prvitekst = soup.find(text='Random Number')
prvikesh = prvitekst.findNextSiblings('td')
drugitekst = soup.find(text='Random Month/Yeare')
drugikesh = drugitekst.findNextSiblings('td')
trechitekst = soup.find(text='Small Random Number')
trechikesh = trechitekst.findNextSiblings('td')
content = prvikesh + ";" + drugikesh + ";" + trechikesh + ";"
writeFile(content);
def readFile(id):
fi = open('result/page-%s.html' % id, 'r');
def writeFile(content):
f = open('parsed.txt', 'a')
f.write(content,"\n")
f.close();
def main(start):
##initialize vars
id = int(start)
page = readFile(id)
soup = BeautifulSoup(page)
print soup.prettify()
readFile(id)
for id in range(1000000000):
parsedata()
id = id + 1
continue
main(sys.argv[1]);
虽然HTML部分我尝试刮看起来像这样
Random DetailsTypeColorRandom Number213523123123123Random Month/Year12/13Small Random Number13233
我想第一个后过来的细节。因此如果我正在寻找Typem,我想让它向我展示Color。
以及最终的课程我希望获得的内容以类似于CSV的格式进行分析。
类型;随机数;随机月/年
应该解析
Color;213523123123123;12/13
ofcourse在我已经做我不是搜索类型的代码,但可以很容易地改变。
编辑:固定intendation
2011-06-11
Quantum
+0
请修正你的代码的缩进。 –
2011-06-11 20:12:28
+0
固定缩进 –
2011-06-11 20:27:53
+0
这种类型的任务(找到一些文本,然后找到从该点开始的另一个文本)很容易在xpath中定义: '//td/b[text()="Type"]/../follow -sibling :: TD [1] /文本()' –
2011-06-12 00:31:54
多个html合成txt,Python - 将多个HTML页解析为单个TXT文件相关推荐
- python html转TXT python读取html指定区域文本内容转成txt文件
1.首先,通过python,去将读取遍历程序目录文件夹中,[html]文件夹里面的文件.文件 夹以及子目录.子目录里面的 ,获取到该目录下所有的[.html]文件后,返回一个list对象 2.遍历完成 ...
- python动态图-Python处理gif动态图的解析与合成操作的介绍
本篇文章给大家带来的内容是关于Python处理gif动态图的解析与合成操作的介绍,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 本文实例讲述了Python图像处理之gif动态图的解析 ...
- python yolo-v2 设计批处理程序对训练生成的权重文件进行自动化批量测试,并输出结果到指定txt文件
项目背景 在yolo-v2生成D:\dahuangfeng\darknet-master\build\darknet\x64\backup路径下的权重文件 后,我们先需要先修改D:\dahuangfe ...
- python不同数据的读入_python读写不同编码txt文件_python读写txt文件
python读写不同编码txt文件_python读写txt文件 以后整理规范 [python] view plaincopy import os import codecs filenames=os. ...
- Python批量识别图片中的文字并保存到txt文档中
Python OCR工具pytesseract,之前是惠普的产品,被Google收了之后就给开源了. 1.需要下载并安装Google Tesseract,下载地址看图片上有,要下载4.0.0版本的 2 ...
- 【Python】PDF文档导出指定章节为TXT
PDF文档导出指定章节为TXT 需求 要导出3000多个pdf文档的特定章节内容为txt格式(pdf文字可复制). 解决 导出PDF 查了一下Python操作PDF文档的方法,主要是通过3个库,PyP ...
- 使用python读取和保存为excel、csv、txt文件以及对DataFrame文件的基本操作
文章目录 一.对excel文件的处理 1.读取excel文件并将其内容转化DataFrame和矩阵形式 2.将数据写入xlsx文件 3.将数据保存为xlsx文件 4.使用excel对数据进行处理的缺点 ...
- python 读取文件读出来是什么格式-深入学习python解析并读取PDF文件内容的方法...
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...
- python中读取文件内容-深入学习python解析并读取PDF文件内容的方法
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...
最新文章
- ubuntu下nginx+php5的部署
- nodejs安装及npm模块插件安装路径配置
- AI实时筛查癌细胞,普通显微镜简单改装就能用,谷歌新突破登上Nature子刊
- 【三种可能问题】RuntimeError: cuDNN error: CUDNN_STATUS_NOT_SUPPORTED
- RocketMQ的Producer详解之分布式事务消息(代码实现以及过程分析)
- DNS 错误事件4000 4013
- 如何在ppt下面加入讲解内容_如何批量查找并修改替换 Word、PPT、Excel、PDF、TXT等文件的内容——我的ABC...
- iPhone手机投屏小米盒子
- phyton做年历和月历
- 我的世界服务器无限重启怎么办,iPhoneX无限重启怎么办?iPhoneX无限重启解决一览...
- python3代码换行与不换行问题
- Edge检查更新时出错:无法连接到Internet。如果使用防火墙,请将 MicrosoftEdgeUpdate.exe 加入允许列表中。...
- 最新数据,国内5G手机出货量已超78万部!
- Drools LHS与RHS常见语法
- FL Studio20.9序列号账户注册教程
- 梅森素数、猜年龄、啤酒饮料、武功秘籍、调和级数、李白打酒、猜字母、扩散、三升序列、寻找2020
- 图文详解!10大高性能开发核心技术+
- 安卓设备fastboot刷机
- “2022锦江行”,维也纳国际酒店、丽柏酒店惊艳同台,中高端酒店再出标杆示范
- 电脑PDF阅读+谷歌翻译