wkhtmltopdf [软件],这个是必学准备好的,不然这个案例是实现不出来的

获取文章内容代码 (https://jq.qq.com/?_wv=1027&k=QgGWqAVF)

发送请求, 对于url地址发送请求
解析数据, 提取内容
保存数据, 先保存成html文件
再把html文件转成PDF

代码实现 (https://jq.qq.com/?_wv=1027&k=QgGWqAVF)

请求数据

python学习交流群:660193417###
import requests  # 数据请求模块url = f'https://blog.csdn.net/fei347795790/article/list/1'  # 确定请求网址
# headers 请求头, 主要用于伪装python, 防止程序被服务器识别出来
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36'
}
# 用requests模块里面get方式发送请求
response = requests.get(url=url, headers=headers)
print(response.text)

<Response [200]> 响应对象 200 表示请求成功

解析数据, 提取内容 (https://jq.qq.com/?_wv=1027&k=QgGWqAVF)

python学习交流群:660193417###
for index in href:html_data = requests.get(url=index, headers=headers).textselector_1 = parsel.Selector(html_data)title = selector_1.css('#articleContentId::text').get()content = selector_1.css('#content_views').get()article_content = html_str.format(article=content)print(title)print(article_content)break

保存数据 (https://jq.qq.com/?_wv=1027&k=QgGWqAVF)

python学习交流群:660193417###
html_path = 'html\\' + title +'.html'
with open(html_path, mode='w', encoding=' utf-8') as f:f.write(article_content)
print(title,'保存成功')


转制为pdf文件 (https://jq.qq.com/?_wv=1027&k=QgGWqAVF)

    html_path = 'html\\ + title + '.html'pdf_path = 'pdf\\' + title + '.pdf'with open(html_path, mode='w', encoding='utf-8') as f:f.write(article_content)config = pdfkit.configuration(wkhtmltopdf=r'C:\01-Software-installation\wkhtmltopdf\bin\wkhtmltopdf.exe')ppdfkit.from_file(html_path,pdf_path,configuration=config)print(title,'保存成功')


来!试试看!

用Python爬取文章,并转PDF格式电子书相关推荐

  1. python爬取文章保存_爬取博主所有文章并保存到本地(.txt版)--python3.6

    闲话: 一位前辈告诉我大学期间要好好维护自己的博客,在博客园发布很好,但是自己最好也保留一个备份. 正好最近在学习python,刚刚从py2转到py3,还有点不是很习惯,正想着多练习,于是萌生了这个想 ...

  2. python爬取文章保存为txt_爬取博主所有文章并保存到本地(.txt版)--python3.6

    闲话: 一位前辈告诉我大学期间要好好维护自己的博客,在博客园发布很好,但是自己最好也保留一个备份. 正好最近在学习python,刚刚从py2转到py3,还有点不是很习惯,正想着多练习,于是萌生了这个想 ...

  3. python 爬取文章(内含图片,表格,文章夹杂)

    最近发现了一个挺厉害的人工智能学习网站,内容通俗易懂,风趣幽默,感兴趣的可以点击此链接进行查看:床长人工智能教程 废话不多说,请看正文! 使用Beautiful Soup 库 Beautiful so ...

  4. python爬取音乐并保存的格式_python爬取QQ音乐歌单歌曲保存到本地,json解析

    序:python强大的功能,可以爬取网上的某些信息,本次主要是通过爬歌单信息熟悉下python基础. 用到知识点: 1.python3.urllib.request.openurl 2.json (j ...

  5. python爬取数据保存为txt格式

    #encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup import os import time #找到网址 de ...

  6. 给大家分享一篇 用Python抓取漫画并制作mobi格式电子书

    想看某一部漫画,但是用手机看感觉屏幕太小,用电脑看吧有太不方面.正好有一部Kindle,决定写一个爬虫把漫画爬取下来,然后制作成 mobi 格式的电子书放到kindle里面看. 一.编写爬虫程序 用C ...

  7. python爬取文章_[Python]爬取微信公众号文章

    [Python] 纯文本查看 复制代码import sys reload(sys) sys.setdefaultencoding('utf-8') from urllib import quote f ...

  8. python爬取json数据_Python爬取数据保存为Json格式的代码示例

    python爬取数据保存为Json格式 代码如下: #encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup impo ...

  9. python爬取电子书_python爬取计算机电子书(源码移步github)

    摘要:今年第一个项目,python爬取网络上公开的计算机电子书近8000本,在此基础上简要分析计算机专业的发展变迁.部分整理好的书籍下载链接见文末.代码链接见文末. 计算机诞生以来不到100年,学术的 ...

  10. html如何获取请求头变量的值。_如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

最新文章

  1. 新版本,ggplot2 v3.3.0 新特性来袭
  2. $.ajax 的async参数在crossdomain跨站下的问题
  3. winform是如何自动弹出软键盘_自媒体广告如何创造出更大的价值?
  4. java customerservlet_顾客管理系统java+servlet
  5. @RequiresPermissions 注解说明
  6. 腾讯员工晒出薪资:真实 985 毕业薪资,大家看我还有救吗?网友:日薪?
  7. android 火箭动画,利用动画模拟火箭发射场景
  8. CoreJava Reading Note(3:Fundamental structure)
  9. 二进制编译安装mysql(centos6、7)和源码编译bind
  10. my sql 触发器_My SQLServer 触发器
  11. Unity 世界坐标、屏幕坐标、UGUI 坐标 相互转换
  12. 实时数仓入门训练营:Hologres 数据导入/导出实践
  13. 用php写出一个网站的模板,25 个 PHP 的 Web 开发程序网站模板
  14. GIS方法类期刊和论文的综述(Introduction)怎么写?
  15. 中望cad2014 专业破解版
  16. phython入门开始
  17. Arqit公司将于2023年用卫星发送量子密钥;QC Ware发布量子线性代数API | 全球量子科技与工业快讯第二十六期
  18. 【前端】纯CSS实现探照灯效果
  19. 【一致性仿真】Consensus Control of Leader-Following Multi-Agent Systems in Directed Topology With ...
  20. 基于ACCESS的教师工作量计算系统的设计与实现(含源文件)

热门文章

  1. c语言网页版在线编译器_梦幻西游网页版在线玩 梦幻西游网页版礼包兑换码_梦幻西游网页版...
  2. Word如何让脚注不分栏
  3. 文科如何晋级计算机职称,职称的档次是怎么确定来的?
  4. import mysql data to solr4.2.0
  5. python朋友圈图片_教你如何用Python处理图片九宫格,炫酷朋友圈
  6. 服务器清理文件,裸金属服务器清理文件
  7. sd和sem啥区别_标准差SD和标准误sem的区别
  8. 谷歌浏览器点击网页任何一段文字都会出现光标问题解决
  9. WEBTIMER控件研究的心得:WebTimer的启示
  10. TabHost眼睛会骗人