多个html合成txt,Python - 将多个HTML页解析为单个TXT文件

我试图从X个HTML文件解析特定内容到单个TXT文件。Python - 将多个HTML页解析为单个TXT文件

我已经dirtily编码如下：

#!/usr/bin/python

import sys, mechanize, BeautifulSoup

def parsedata():

##do stuff

prvitekst = soup.find(text='Random Number')

prvikesh = prvitekst.findNextSiblings('td')

drugitekst = soup.find(text='Random Month/Yeare')

drugikesh = drugitekst.findNextSiblings('td')

trechitekst = soup.find(text='Small Random Number')

trechikesh = trechitekst.findNextSiblings('td')

content = prvikesh + ";" + drugikesh + ";" + trechikesh + ";"

writeFile(content);

def readFile(id):

fi = open('result/page-%s.html' % id, 'r');

def writeFile(content):

f = open('parsed.txt', 'a')

f.write(content,"\n")

f.close();

def main(start):

##initialize vars

id = int(start)

page = readFile(id)

soup = BeautifulSoup(page)

print soup.prettify()

readFile(id)

for id in range(1000000000):

parsedata()

id = id + 1

continue

main(sys.argv[1]);

虽然HTML部分我尝试刮看起来像这样

Random DetailsTypeColorRandom Number213523123123123Random Month/Year12/13Small Random Number13233

我想第一个后过来的细节。因此如果我正在寻找Typem，我想让它向我展示Color。

以及最终的课程我希望获得的内容以类似于CSV的格式进行分析。

类型;随机数;随机月/年

应该解析

Color;213523123123123;12/13

ofcourse在我已经做我不是搜索类型的代码，但可以很容易地改变。

编辑：固定intendation

2011-06-11

Quantum

请修正你的代码的缩进。 –

2011-06-11 20:12:28

固定缩进 –

2011-06-11 20:27:53

这种类型的任务(找到一些文本，然后找到从该点开始的另一个文本)很容易在xpath中定义： '//td/b[text()="Type"]/../follow -sibling :: TD [1] /文本()' –

2011-06-12 00:31:54

多个html合成txt,Python - 将多个HTML页解析为单个TXT文件相关推荐

python html转TXT python读取html指定区域文本内容转成txt文件
1.首先,通过python,去将读取遍历程序目录文件夹中,[html]文件夹里面的文件.文件夹以及子目录.子目录里面的 ,获取到该目录下所有的[.html]文件后,返回一个list对象 2.遍历完成 ...
python动态图-Python处理gif动态图的解析与合成操作的介绍
本篇文章给大家带来的内容是关于Python处理gif动态图的解析与合成操作的介绍,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 本文实例讲述了Python图像处理之gif动态图的解析 ...
python yolo-v2 设计批处理程序对训练生成的权重文件进行自动化批量测试，并输出结果到指定txt文件
项目背景在yolo-v2生成D:\dahuangfeng\darknet-master\build\darknet\x64\backup路径下的权重文件后,我们先需要先修改D:\dahuangfe ...
python不同数据的读入_python读写不同编码txt文件_python读写txt文件
python读写不同编码txt文件_python读写txt文件以后整理规范 [python] view plaincopy import os import codecs filenames=os. ...
Python批量识别图片中的文字并保存到txt文档中
Python OCR工具pytesseract,之前是惠普的产品,被Google收了之后就给开源了. 1.需要下载并安装Google Tesseract,下载地址看图片上有,要下载4.0.0版本的 2 ...
【Python】PDF文档导出指定章节为TXT
PDF文档导出指定章节为TXT 需求要导出3000多个pdf文档的特定章节内容为txt格式(pdf文字可复制). 解决导出PDF 查了一下Python操作PDF文档的方法,主要是通过3个库,PyP ...
使用python读取和保存为excel、csv、txt文件以及对DataFrame文件的基本操作
文章目录一.对excel文件的处理 1.读取excel文件并将其内容转化DataFrame和矩阵形式 2.将数据写入xlsx文件 3.将数据保存为xlsx文件 4.使用excel对数据进行处理的缺点 ...
python 读取文件读出来是什么格式-深入学习python解析并读取PDF文件内容的方法...
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...
python中读取文件内容-深入学习python解析并读取PDF文件内容的方法
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...

多个html合成txt,Python - 将多个HTML页解析为单个TXT文件

多个html合成txt,Python - 将多个HTML页解析为单个TXT文件相关推荐

最新文章

热门文章