python制作标书_Python爬取比比网中标标书并保存成PDF格式
前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
python开发环境
python 3.6
pycharm
requests
parsel
pdfkit
time
相关模块pip安装即可
目标网页分析
1、先从列表页中获取详情页的URL地址
是静态网站,可以直接请求网页获取数据
for page in range(1, 31):
url = 'https://www.bibenet.com/mfzbu{}.html'.format(page)
headers = {
'Referer': 'https://www.bibenet.com/mianfei/',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
selector = parsel.Selector(response.text)
urls = selector.css('body > div.wrap > div.clearFiex > div.col9.fl > div.secondary_box > table tr .fl a::attr(href)').getall()
for page_url in urls:
print(page_url)
2、从详情页中获取标题以及内容
#Python学习交流QQ群:778463939
response_2 = requests.get(url=page_url, headers=headers)
selector_2 = parsel.Selector(response_2.text)
article = selector_2.css('.container').get()
title = selector_2.css('.detailtitle::text').get()
3、保存html网页数据并转成PDF
html_str = """
Document
{article}
"""
def download(article, title):
html = html_str.format(article=article)
html_path = 'D:\\python\\demo\\招标网\\文书\\' + title + '.html'
pdf_path = 'D:\\python\\demo\\招标网\\文书\\' + title + '.pdf'
with open(html_path, mode='wb', encoding='utf-8') as f:
f.write(html)
print('{}已下载完成'.format(title))
# exe 文件存放的路径
config = pdfkit.configuration(wkhtmltopdf='C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe')
# 把 html 通过 pdfkit 变成 pdf 文件
pdfkit.from_file(html_path, pdf_path, configuration=config)
运行实现效果
python制作标书_Python爬取比比网中标标书并保存成PDF格式相关推荐
- python制作标书_爬取比比网中标标书,并保存为PDF格式文件
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于CSDN,作者嗨学编程 python开发环境 python 3.6 pycha ...
- (Java篇)爬取微信公众号文章并保存为 PDF 格式
前言 背景: 某一天,拿着自己的手机看着技术文章,然而手机看技术文章,有时候确实蛋疼,因为一旦代码多起来,小屏幕看的还是眼花:又或者某一天觉得这一篇文章,觉得写的很棒棒哦,于是先收藏,打算过几天看,然 ...
- 用python爬取基金网信息数据,保存到表格,并做成四种简单可视化。(爬虫之路,永无止境!)
用python爬取基金网信息数据,保存到表格,并做成四种简单可视化.(爬虫之路,永无止境!) 上次 2021-07-07写的用python爬取腾讯招聘网岗位信息保存到表格,并做成简单可视化. 有的人留 ...
- Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)
在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...
- python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息
python爬虫--使用selenium爬取知网文献相关信息 写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器 如侵权联系作者删除 文中的错误已经修改过来了,谢谢各位爬友指出错误 ...
- python爬取历史天气数据并保存_Python爬取天气网历史天气数据
我的第一篇博客,哈哈哈,记录一下我的Python进阶之路! 今天写了一个简单的爬虫. 使用python的requests 和BeautifulSoup模块,Python 2.7.12可在命令行中直接使 ...
- python二手房价格预测_Python爬取赶集网北京二手房数据R对爬取的二手房房价做线性回归分析...
前言:本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的二手房房价做线性回归分析.文章思路清晰,代码详细,特别适合刚刚接触Python&R的同学学习参考. Part1 ...
- Python爬虫实战:爬取贝壳网二手房40000条数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于啤酒就辣条 ,作者啤酒就辣条 一.网页分析 爬取贝壳网石家庄二 ...
- python实战|用scrapy爬取当当网数据
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:Python进击者 ( 想要学习Python?Pyth ...
最新文章
- 计算机产业深度报告:云计算与人工智能开启新一轮技术变革周期
- 不是python中用于开发用户界面的第三方库-Python计算生态习题(50题)
- hdu1914 稳定婚姻问题
- 你真的懂对抗样本吗?一文重新思考对抗样本背后的含义
- 域名解析文件hosts文件是什么?如何修改hosts文件?
- html百度天气api,百度API 免费接口获取天气预报
- go get 的不再src目录中_如何正确的开始用Go编程
- 无法安装Visual Studio 2010 Service Pack 1
- python 顺序遍历文件夹下的文件
- 点云数据文件常用格式及PCL中点云数据类型
- html图片左右滑动代码dw,DW图片无缝滚动代码
- 小旋风虚拟服务器怎么用,超级小旋风asp服务器软件使用图文教程
- 数据分析SQL日期维度表生成(含节假日)
- Python 百度智能云文字识别 实现手写文字识别
- android 画圆形 bitmap,在android中画圆形图片的几种办法
- html表ge模板_40多个漂亮的网页表单设计实例
- python msproject_MS Project(*.mpp文件)到PowerBi
- sqlserver pivot 动态行转列且一行转多列的解决方案
- 微服务设计指导-使用云原生微服务解决传统海量跑批时引起的系统间“级联雪崩”以及效率
- Github上8个很棒的Vue项目