用Python爬取文章，并转PDF格式电子书

wkhtmltopdf [软件]，这个是必学准备好的，不然这个案例是实现不出来的

获取文章内容代码（https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

发送请求, 对于url地址发送请求
解析数据, 提取内容
保存数据, 先保存成html文件
再把html文件转成PDF

代码实现（https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

请求数据

python学习交流群：660193417###
import requests  # 数据请求模块url = f'https://blog.csdn.net/fei347795790/article/list/1'  # 确定请求网址
# headers 请求头, 主要用于伪装python, 防止程序被服务器识别出来
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36'
}
# 用requests模块里面get方式发送请求
response = requests.get(url=url, headers=headers)
print(response.text)

<Response [200]> 响应对象 200 表示请求成功

解析数据, 提取内容（https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

python学习交流群：660193417###
for index in href:html_data = requests.get(url=index, headers=headers).textselector_1 = parsel.Selector(html_data)title = selector_1.css('#articleContentId::text').get()content = selector_1.css('#content_views').get()article_content = html_str.format(article=content)print(title)print(article_content)break

保存数据（https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

python学习交流群：660193417###
html_path = 'html\\' + title +'.html'
with open(html_path, mode='w', encoding=' utf-8') as f:f.write(article_content)
print(title,'保存成功')

转制为pdf文件（https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

    html_path = 'html\\ + title + '.html'pdf_path = 'pdf\\' + title + '.pdf'with open(html_path, mode='w', encoding='utf-8') as f:f.write(article_content)config = pdfkit.configuration(wkhtmltopdf=r'C:\01-Software-installation\wkhtmltopdf\bin\wkhtmltopdf.exe')ppdfkit.from_file(html_path,pdf_path,configuration=config)print(title,'保存成功')

来！试试看！

用Python爬取文章，并转PDF格式电子书相关推荐

python爬取文章保存_爬取博主所有文章并保存到本地（.txt版）--python3.6
闲话: 一位前辈告诉我大学期间要好好维护自己的博客,在博客园发布很好,但是自己最好也保留一个备份. 正好最近在学习python,刚刚从py2转到py3,还有点不是很习惯,正想着多练习,于是萌生了这个想 ...
python爬取文章保存为txt_爬取博主所有文章并保存到本地（.txt版）--python3.6
闲话: 一位前辈告诉我大学期间要好好维护自己的博客,在博客园发布很好,但是自己最好也保留一个备份. 正好最近在学习python,刚刚从py2转到py3,还有点不是很习惯,正想着多练习,于是萌生了这个想 ...
python 爬取文章（内含图片，表格，文章夹杂）
最近发现了一个挺厉害的人工智能学习网站,内容通俗易懂,风趣幽默,感兴趣的可以点击此链接进行查看:床长人工智能教程废话不多说,请看正文! 使用Beautiful Soup 库 Beautiful so ...
python爬取音乐并保存的格式_python爬取QQ音乐歌单歌曲保存到本地，json解析
序:python强大的功能,可以爬取网上的某些信息,本次主要是通过爬歌单信息熟悉下python基础. 用到知识点: 1.python3.urllib.request.openurl 2.json (j ...
python爬取数据保存为txt格式
#encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup import os import time #找到网址 de ...
给大家分享一篇用Python抓取漫画并制作mobi格式电子书
想看某一部漫画,但是用手机看感觉屏幕太小,用电脑看吧有太不方面.正好有一部Kindle,决定写一个爬虫把漫画爬取下来,然后制作成 mobi 格式的电子书放到kindle里面看. 一.编写爬虫程序用C ...
python爬取文章_[Python]爬取微信公众号文章
[Python] 纯文本查看复制代码import sys reload(sys) sys.setdefaultencoding('utf-8') from urllib import quote f ...
python爬取json数据_Python爬取数据保存为Json格式的代码示例
python爬取数据保存为Json格式代码如下: #encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup impo ...
python爬取电子书_python爬取计算机电子书（源码移步github）
摘要:今年第一个项目,python爬取网络上公开的计算机电子书近8000本,在此基础上简要分析计算机专业的发展变迁.部分整理好的书籍下载链接见文末.代码链接见文末. 计算机诞生以来不到100年,学术的 ...
html如何获取请求头变量的值。_如何使用 Python 爬取微信公众号文章
我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

用Python爬取文章，并转PDF格式电子书

获取文章内容代码（https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

代码实现（https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

解析数据, 提取内容（https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

保存数据（https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

转制为pdf文件（https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

来！试试看！

用Python爬取文章，并转PDF格式电子书相关推荐

最新文章

热门文章

用Python爬取文章，并转PDF格式电子书

获取文章内容代码 （https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

代码实现 （https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

解析数据, 提取内容 （https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

保存数据 （https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

转制为pdf文件 （https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

来！试试看！

用Python爬取文章，并转PDF格式电子书相关推荐

最新文章

热门文章

获取文章内容代码（https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

代码实现（https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

解析数据, 提取内容（https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

保存数据（https://jq.qq.com/?_wv=1027&k=QgGWqAVF）

转制为pdf文件（https://jq.qq.com/?_wv=1027&k=QgGWqAVF）