python读取html中body_python批量获取html内body内容的实例
现在有一批完整的关于介绍城市美食、景点等的html页面,需要将里面body的内容提取出来
方法:利用python插件beautifulSoup获取htmlbody标签的内容,并批量处理。
# -*- coding:utf8 -*-
from bs4 import BeautifulSoup
import os
import os.path
import sys
reload(sys)
sys.setdefaultencoding('utf8')
def printPath(level,path):
global allFileNum
#所有文件夹,第一个字段是此目录的级别
dirList = []
#所有文件
fileList = []
#返回一个列表,其中包含在目录条目的名称
files = os.listdir(path)
#先添加目录级别
dirList.append(str(level))
for f in files:
if(os.path.isdir(path+'/'+f)):
#排除隐藏文件夹,因为隐藏文件夹过多
if(f[0] == '.'):
pass
else:
#添加隐藏文件夹
dirList.append(f)
if(os.path.isfile(path+'/'+f)):
#添加文件
fileList.append(f)
return (dirList,fileList)
#将文件html文件抓取并写入指定txt文件
def getAndInsert(rootdir,savepath,path):
global file_num
f_list = os.listdir(rootdir+'/'+path)
for i in f_list:
temp = os.path.splitext(i)[0]
for num in range(1,11):
if(i==str(num)+'.html'):
#print rootdir+'/'+path+'/'+i
objFile = open(rootdir+'/'+path+'/'+i)
soup = BeautifulSoup(objFile)
arr = []
for child in soup.body:
arr.append(child)
if os.path.exists(savepath+'/'+path):
pass
else:
os.makedirs(savepath+'/'+path)
f = open(savepath+'/'+path+'/'+temp+'.txt','w')
for k,v in enumerate(arr):
if k!=1:
f.write(str(v))
f.close()
print path+'/'+i+' is running'
file_num = file_num + 1
rootdir = '../zips2'
dirList,fileList = printPath(1,rootdir)
savepath = "../testC"
file_num = 0
for fn in dirList:
if(fn == '1'):
pass
else:
getAndInsert(rootdir,savepath,fn)
print fn+' is ending'
print '一共完成'+str(file_num)+'个城市的提取'
以上这篇python批量获取html内body内容的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
python读取html中body_python批量获取html内body内容的实例相关推荐
- php获取html中文本框内容_小猿圈Python入门之批量获取html内body内容的方法
对于人工智能你了解有多少?你知道Python的使用吗?这个对于大部分初学者来说都是很难的,小猿圈Python讲师会每天为大家选择分享一个知识点,希望对你学习Python有所帮助,今天分享的就是批量获取 ...
- 利用python读取excel中的公司名称获取公司的经营范围并回填进excel中
前几天朋友托我帮完成一份地区教育类型公司的经营范围,表中已经有了公司的名称及地点等信息,但是还缺少经营范围,由于数据量比较大,一个一个的去百度搜再复制到表里,工作量有点大,可能需要我好几天不吃不喝的C ...
- Python使用re模块正则提取字符串中括号内的内容示例
Python使用re模块正则提取字符串中括号内的内容示例 这篇文章主要介绍了Python使用re模块正则提取字符串中括号内的内容,结合实例形式分析了Python使用re模块进行针对括号内容的正则匹配操 ...
- 用python在excel中做批量计算(包括单元格为空值时的处理情况)
现有如下某城市的2000-2017年人口和GDP数据的excel文件,需要计算其中人均GDP这一列的指标结果. 虽然这个工作在excel中直接下拉公式即可完成,但如果有50个城市的该种数据,显然下拉公 ...
- python提取word表格里的内容_python读取word表格 python中如何将word表格内的内容进行替换...
python如何获取word文件中某个关键字之后的表格一片春愁待酒浇.江上舟摇,楼上帘招.秋娘度与泰娘娇.风又飘飘,雨又萧萧.何日归家洗客袍?银字笙调,心字香烧.流光容易把人抛.红了樱桃,绿了芭蕉. ...
- Python 免费代理ip的批量获取
Python 免费代理ip的批量获取 简介 网络爬虫的世界,向来都是一场精彩的攻防战.现在许多网站的反爬虫机制在不断的完善,其中最令人头疼的,莫过于直接封锁你的ip.但是道高一尺魔高一丈,在爬取网页的 ...
- python处理表格数据-python读取word 中指定位置的表格及表格数据
1.Word文档如下: 2.代码 # -*- coding: UTF-8 -*- from docx import Document def readSpecTable(filename, specT ...
- python读取txt为dataframe_python批量读取txt文件为DataFrame的方法
我们有时候会批量处理同一个文件夹下的文件,并且希望读取到一个文件里面便于我们计算操作.比方我有下图一系列的txt文件,我该如何把它们写入一个txt文件中并且读取为DataFrame格式呢? 首先我们要 ...
- vb.net读取excel并写入dgv_如何用Python读取Excel中的图片?然后写入图片?
大家好,在使用Python进行办公自动化操作时,一定少不了与Excel表格的交互,我们通常是用pandas处理表格数据,但大多数情况下,都是读取表格中的数值进行分析. 那么你知道如何使用Python读 ...
最新文章
- zabbix监控windows(03,08)
- Android Wifi 主动扫描 被动扫描
- 用了三年 ThreadLocal 今天才弄明白其中的道理
- 【AWS 安全系列】Amazon S3 配置错误(下)
- android 退出程序解决内存释放so的问题
- Nginx环境下PHP flush失效的解决方法
- ds18b20温度传感器 lcd C语言,基于AVR单片机的18B20温度传感器及LCD显示的C语言程序设计...
- intellij 快捷键_IntelliJ中的键盘快捷键
- 【渝粤题库】国家开放大学2021春2097民法学(1)题目
- 输入输出(I/O)流。
- python初始化空列表_python list的深拷贝与浅拷贝-以及初始化空白list的方法(1)
- 图片查看器-Python-tkinter
- 华为交换机配置IPSG防止DHCP动态主机私自更改IP地址
- axios请求下载excel文件以及文件乱码问题
- 新构造运动名词解释_第十三章 新构造运动
- 判断web网站是否站库分离
- vm无法连接虚拟设备sata01_无法连接虚拟设备sata0:1怎样解决?
- 【激光雷达】之点云数据滤波处理
- android 強制屏幕方向,今日精品安卓App推荐:锁定屏幕旋转方向
- 招沿实业学生怎样才能做好投资理财工作