Python一键下载文章,转制成PDF格式电子书
前言
前段时间,我在某个姓B的发了个视频,就是采集了自己的文章,转制成PDF格式的教程,CSDN居然给我举报了!!!
现在我来写一篇获取自己的文章,然后转制成PDF格式的电子式,看看能不能发出去
wkhtmltopdf [软件],这个是必学准备好的,不然这个案例是实现不出来的
获取文章内容代码
- 发送请求, 对于url地址发送请求
- 解析数据, 提取内容
- 保存数据, 先保存成html文件
- 再把html文件转成PDF
#代码实现
请求数据
import requests # 数据请求模块url = f'https://blog.csdn.net/fei347795790/article/list/1' # 确定请求网址
# headers 请求头, 主要用于伪装python, 防止程序被服务器识别出来
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36'
}
# 用requests模块里面get方式发送请求
response = requests.get(url=url, headers=headers)
print(response.text)
<Response [200]> 响应对象 200 表示请求成功
解析数据, 提取内容
for index in href:html_data = requests.get(url=index, headers=headers).textselector_1 = parsel.Selector(html_data)title = selector_1.css('#articleContentId::text').get()content = selector_1.css('#content_views').get()article_content = html_str.format(article=content)print(title)print(article_content)break
保存数据
html_path = 'html\\' + title +'.html'
with open(html_path, mode='w', encoding=' utf-8') as f:f.write(article_content)
print(title,'保存成功')
转制为pdf文件
html_path = 'html\\ + title + '.html'pdf_path = 'pdf\\' + title + '.pdf'with open(html_path, mode='w', encoding='utf-8') as f:f.write(article_content)config = pdfkit.configuration(wkhtmltopdf=r'C:\01-Software-installation\wkhtmltopdf\bin\wkhtmltopdf.exe')ppdfkit.from_file(html_path,pdf_path,configuration=config)print(title,'保存成功')
Python一键下载文章,转制成PDF格式电子书相关推荐
- 知乎有很多好玩的微信8.0状态视频,用Python一键下载
微信 8.0 版本更新后,可以设置个人状态,状态里面可以添加火录制视频,很快状态视频就火了,可以看下知乎热榜有没有微信8.0状态沙雕又可爱的视频或图片?[1].比如我也设置了一个: 于是我就想把这些视 ...
- python 一键下载酷狗歌单
python 一键下载酷狗歌单 酷狗很多音乐下载都需要钱,于是我就想使用python进行爬取.在网上找了一圈,全是需要一首一首歌来找然后列出url.但是,谁又有耐心去找呢.于是我花了2小时写了这个脚本 ...
- Python: 一键下载小说(一)
Python: 一键下载小说(一) 前言 分析 流程简述 实现 附录 模块 os.path re requests scrapy 前言 前段时间写了个双引擎分章节下载存储小说的思路简述.对于一些没有特 ...
- 程序员需要的各种PDF格式电子书【附网盘免费下载资源地址】
程序员需要的各种PDF格式电子书[附网盘免费下载资源地址] 各位,请妥善保存,后期还会有更多更新,如果你有不同的书籍资源或者这里没有你要找的书籍,也可以直接留言,后期我们会继续更新~ Java & ...
- (超简单2016年发布有效)PDF格式电子书批量删除顽固链接水印
(超简单原创)PDF格式电子书批量删除顽固链接水印 最近在网上下载了一本PDF的电子书,可是上面全部是水印链接严重影响阅读,最烦人的是一不小心就打开了很多链接.参考了网上很多资料都解决不了,非常顽固! ...
- 制作pDF 格式电子书
制作pDF 格式电子书不是很复杂. 原材料一般分为doc文件 与图片. 如果原材料是doc 文件,那就下载一个PDF Generator 软件 ,先安装上这儿软件. 然后打开doc 文档 操作 ...
- JPG格式照片转PDF格式电子书
JPG格式照片转PDF格式电子书 生活中会拍摄很多的相片,那么怎么把JPG格式的图片快速转换成PDF电子书,数码相机拍摄的相片或网上下载好的图片少说有上百张,少花力气,不用一一进行复制粘贴就能直接变成 ...
- 微信公众号文章批量下载成网页和PDF格式-真正完全免费工具
很多公众号文章确实写的很棒很有价值,我们想保存到本地慢慢看的时候,就可以用到这个工具了. 经过实测可用,完全免费,无限制. 一.功能列表 目前已实现以下功能: - 简洁易用的的UI界面 - 开启/停止 ...
- WPS文字2012利用自带功能一键将Word转成PDF格式
Word怎么转PDF?Word转PDF转换器有没有?Word转PDF是不是很麻烦的事情?以上这些问题对于使用老版Office2003来说,不借助其他工具实现将Word转PDF,是一件不可能完成的事情, ...
最新文章
- 一道简单题目的优化过程——抽签问题
- 客座编辑:黎建辉(1973-),男,博士,中国科学院计算机网络信息中心研究员、博士生导师...
- mac os x 10.8 安装python-mysqldb
- jmeter压力测试_如何使用Jmeter进行压力测试?这篇入门讲解拿去不谢!
- Python入门到精通三天速成第三讲——多重继承
- 熊猫直播凉了,直播大战厮杀后只剩遍地鸡毛! | 畅言
- 游戏设计的艺术pdf
- 伽罗华域(有限域)及其运算规则(包含大量例子)
- TOEFL资料 280多个
- 有重复组合公式及其证明方法
- hdu5773 2016年多校4 nlogn求LIS
- 基于C#的图片浏览及显示功能(源码)
- C语言如何实现寻找峰值函数,findpeaks 寻找峰值函数
- 交社保竟然还能领失业补助金,自己尝试去申请
- Quectel EC600N-CN 中尺寸物联网首选LTE Cat 1模块[移远通信]
- CAR-T细胞疗法最新研究进展
- 1454E - Number of Simple Paths
- 基于用户行为的交易反欺诈探索
- 原生js与css3结合的电风扇
- fopen打开文件方式
热门文章
- Lisp for Small Prices
- ERROR:C2678 二进制“<”: 没有找到接受“const _Ty”类型的左操作数的运算符(或没有可接受的转换)
- WebSocket连接wss链接
- 技美 百人计划 (图形)1.1渲染流程
- dc_shell常用命令
- 新道格会客间 人才引领企业 注入科创源动力
- 电路分析实验 01 - | 受控电流源电路的仿真测试
- html5对代码自动排版,HTML5系列:通过JS+DIV+CSS排版布局实现选项卡效果
- python求不规则图形面积_Python求阴影部分面积
- 天然气泄漏报警器工作原理是什么