前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

python开发环境

python 3.6

pycharm

requests

parsel

pdfkit

time

相关模块pip安装即可

目标网页分析

1、先从列表页中获取详情页的URL地址

是静态网站,可以直接请求网页获取数据

for page in range(1, 31):

url = 'https://www.bibenet.com/mfzbu{}.html'.format(page)

headers = {

'Referer': 'https://www.bibenet.com/mianfei/',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'

}

response = requests.get(url=url, headers=headers)

selector = parsel.Selector(response.text)

urls = selector.css('body > div.wrap > div.clearFiex > div.col9.fl > div.secondary_box > table tr .fl a::attr(href)').getall()

for page_url in urls:

print(page_url)

2、从详情页中获取标题以及内容

#Python学习交流QQ群:778463939

response_2 = requests.get(url=page_url, headers=headers)

selector_2 = parsel.Selector(response_2.text)

article = selector_2.css('.container').get()

title = selector_2.css('.detailtitle::text').get()

3、保存html网页数据并转成PDF

html_str = """

Document

{article}

"""

def download(article, title):

html = html_str.format(article=article)

html_path = 'D:\\python\\demo\\招标网\\文书\\' + title + '.html'

pdf_path = 'D:\\python\\demo\\招标网\\文书\\' + title + '.pdf'

with open(html_path, mode='wb', encoding='utf-8') as f:

f.write(html)

print('{}已下载完成'.format(title))

# exe 文件存放的路径

config = pdfkit.configuration(wkhtmltopdf='C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe')

# 把 html 通过 pdfkit 变成 pdf 文件

pdfkit.from_file(html_path, pdf_path, configuration=config)

运行实现效果

python制作标书_Python爬取比比网中标标书并保存成PDF格式相关推荐

  1. python制作标书_爬取比比网中标标书,并保存为PDF格式文件

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于CSDN,作者嗨学编程 python开发环境 python 3.6 pycha ...

  2. (Java篇)爬取微信公众号文章并保存为 PDF 格式

    前言 背景: 某一天,拿着自己的手机看着技术文章,然而手机看技术文章,有时候确实蛋疼,因为一旦代码多起来,小屏幕看的还是眼花:又或者某一天觉得这一篇文章,觉得写的很棒棒哦,于是先收藏,打算过几天看,然 ...

  3. 用python爬取基金网信息数据,保存到表格,并做成四种简单可视化。(爬虫之路,永无止境!)

    用python爬取基金网信息数据,保存到表格,并做成四种简单可视化.(爬虫之路,永无止境!) 上次 2021-07-07写的用python爬取腾讯招聘网岗位信息保存到表格,并做成简单可视化. 有的人留 ...

  4. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)

    在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...

  5. python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息

    python爬虫--使用selenium爬取知网文献相关信息 写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器 如侵权联系作者删除 文中的错误已经修改过来了,谢谢各位爬友指出错误 ...

  6. python爬取历史天气数据并保存_Python爬取天气网历史天气数据

    我的第一篇博客,哈哈哈,记录一下我的Python进阶之路! 今天写了一个简单的爬虫. 使用python的requests 和BeautifulSoup模块,Python 2.7.12可在命令行中直接使 ...

  7. python二手房价格预测_Python爬取赶集网北京二手房数据R对爬取的二手房房价做线性回归分析...

    前言:本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的二手房房价做线性回归分析.文章思路清晰,代码详细,特别适合刚刚接触Python&R的同学学习参考. Part1 ...

  8. Python爬虫实战:爬取贝壳网二手房40000条数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于啤酒就辣条 ,作者啤酒就辣条 一.网页分析 爬取贝壳网石家庄二 ...

  9. python实战|用scrapy爬取当当网数据

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:Python进击者 ( 想要学习Python?Pyth ...

最新文章

  1. 计算机产业深度报告:云计算与人工智能开启新一轮技术变革周期
  2. 不是python中用于开发用户界面的第三方库-Python计算生态习题(50题)
  3. hdu1914 稳定婚姻问题
  4. 你真的懂对抗样本吗?一文重新思考对抗样本背后的含义
  5. 域名解析文件hosts文件是什么?如何修改hosts文件?
  6. html百度天气api,百度API 免费接口获取天气预报
  7. go get 的不再src目录中_如何正确的开始用Go编程
  8. 无法安装Visual Studio 2010 Service Pack 1
  9. python 顺序遍历文件夹下的文件
  10. 点云数据文件常用格式及PCL中点云数据类型
  11. html图片左右滑动代码dw,DW图片无缝滚动代码
  12. 小旋风虚拟服务器怎么用,超级小旋风asp服务器软件使用图文教程
  13. 数据分析SQL日期维度表生成(含节假日)
  14. Python 百度智能云文字识别 实现手写文字识别
  15. android 画圆形 bitmap,在android中画圆形图片的几种办法
  16. html表ge模板_40多个漂亮的网页表单设计实例
  17. python msproject_MS Project(*.mpp文件)到PowerBi
  18. sqlserver pivot 动态行转列且一行转多列的解决方案
  19. 微服务设计指导-使用云原生微服务解决传统海量跑批时引起的系统间“级联雪崩”以及效率
  20. Github上8个很棒的Vue项目

热门文章

  1. 跟我学SharePoint 2013视频培训课程——什么是SharePoint 2013(1)
  2. Apache Pulsar之什么是Apache Pulsar?
  3. 2023年上半年系统分析师下午真题及答案解析
  4. 密码锁设计-verilog及仿真
  5. Laravel开发调试工具(debugbar )使用
  6. DITA与S1000D的相同与不同
  7. 项目管理如何进行量化?
  8. 【ROS】参数服务器
  9. 手动安装msf(metasploit框架)的坑--could not find pg
  10. oracle 修改sys 、system、scott密码