Craw the data of the web page and parse to pdf
learned by here 把廖雪峰教程转换成 PDF 电子书.You can also craw other websites’ data and then parse to the pdf format.
#-*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
import pdfkitdef parse_url_to_html(url):response = requests.get(url)soup = BeautifulSoup(response.content,'html.parser')body = soup.find_all(class_ = 'x-wiki-content')[0]html = str(body)print('html content:%s' %(html))with open('content.html','wb') as f:f.write(html)def get_url_list(url):response = requests.get(url)#print(response.content)soup = BeautifulSoup(response.content,'html.parser')menu_tag = soup.find_all(class_='uk-nav uk-nav-side')[1]urls = []for li in menu_tag.find('li'):temp_url = 'http://www.liaoxuefeng.com' + li.a.get('href')urls.append(temp_url)return urlsdef save_pdf(htmls):options = {'page-size':'Letter','encoding':'UTF-8','custom-header':[('Accept-Encoding','gzip')]}pdfkit.from_file(htmls,file_name,options = options)if __name__ == '__main__':url = b'https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000'urls = get_url_list(url)for u in urls:parse_url_to_html(u)file_name = 'python course'save_pdf('content.html')
Craw the data of the web page and parse to pdf相关推荐
- 解决Spring Spring Data JPA 错误: Page 1 of 1 containing UNKNOWN instances
解决Spring Spring Data JPA 错误: Page 1 of 1 containing UNKNOWN instances SpringBoot 整合 Spring-Data-JPA ...
- 在ASP.NET MVC里对Web Page网页进行权限控制
我们在ASP.NET MVC开发时,有时候还是得设计ASP.NET的Web Page网页(.aspx和.aspx.cs),来实现一些ASP.NET MVC无法实现的功能,如此篇<Visual S ...
- LR实战之Discuz开源论坛——网页细分图结果分析(Web Page Diagnostics)
续LR实战之Discuz开源论坛项目,之前一直是创建虚拟用户脚本(Virtual User Generator)和场景(Controller),现在,终于到了LoadRunner性能测试结果分析(An ...
- HTML Responsive Web Page
注:参考网站 https://www.w3schools.com HTML Responsive Web Page index.html <!DOCTYPE html> <html& ...
- web test IBM Page Detailer / IBM Rational Performance Tester / Web Page Performa
S IBM测试分类-AVT,BVT,CVT,FVT,GVT,TVT,SVT,PVT http://blog.csdn.net/hpf911/article/details/7095785 AVT,ac ...
- 微信(WeChat web page)
插件介绍: 说到微信,相信身边的很多朋友都在使用这个软件,因为它有着很多强大的功能,包括朋友圈.摇一摇.漂流瓶.语音提示等,使之成为我们生活中很重要的部分,最初在手机上使用,后来也出现了网页版,今天为 ...
- Analysis之Web Page Diagnostics
当在场景中打开Diagnostics菜单下的Web Page Diagnostics功能,就能得到网页分析组图,通过这个功能可以实现对网站的前端性能分析,明确系统响应时间较长是由服务器端处理能力不足还 ...
- 嗯哼 之 Safari 调试 iPhone Web Page
LZ-Says:勇敢说出来,虽然错过,但是总比不说要好.说出来错过了,还是幻想着某天可以继续默默守护,是么? 前言 话说,近些日子一直处理集团官网开发中,前几日接到测试反馈,移动端某个页面兼容性有问题 ...
- Web Page Performance
Overview 现下Web项目越来越多,如何衡量Web应用的性能,也成了开发或者测试人员不得不着重考虑的问题.传统方式下可能会使用项目日志,或者LoadRunner等工具对Web页面进行监测以得到一 ...
- 对Spring Data JPA中的page对象下的content属性里的实体类对象转换为dto对象
对Spring Data JPA中的page对象下的content属性里的实体类对象转换为dto对象. 刚开始试遍历content,进行转换,添加到新的list中,再set进去page.后来发现pag ...
最新文章
- 任天堂经典拳击游戏可以体感操作了,打开网页就能玩,击败泰森不是梦
- 12-1054. 求平均值
- 搜索引擎索引之如何更新索引
- RabbitMQ--topic
- linux改ip之后恢复出厂设置密码,Linux忘记密码及修改IP地址解决方案
- 每天一个linux命令(目录文件操作):【转载】Linux文件类型与扩展名
- android热补丁作用,Android热修复之 - 阿里开源的热补丁
- 标准c /c++宽字节与多字节的转换
- 线性反馈移位寄存器 LFSR
- ubuntu安装后的一些操作
- pdf里面的图片如何提取出来?
- 搜狗输入法不能正常使用?
- 捋一捋Vue构造函数
- FortiClient VPN连接至98%时报错:Unable to establish the VPN connection.(E=98,T-981011001,M99,R10)
- 远程控制桌面计算机怎么填写,远程控制电脑桌面如何操作【图解】
- linux下输入ls显示时间格式,【Linux基础】linux下修改ls显示的时间格式
- img标签src引入svg如何修改颜色
- 七月集训(22,23)字典树,有序集合
- 谷歌的云计算是什么样子的?
- 多模态分析数据集(Multimodal Dataset)整理
热门文章
- LIO-SAM学习与运行测试数据集
- ChemDraw教程之怎么连接ChemDraw结构
- 你对“happen-before原则”的理解可能是错的?
- Interactive Path Reasoning on Graph for Conversational Recommendation阅读笔记
- 两台虚拟服务器如何串联,巧用路由器的DHCP功能,完成两台路由器之间的串联,你学会了么...
- 手机视频监控直播系统是如何实现的?需要满足哪些条件?
- SQP 序列二次规划法
- python电影网络爬虫代码_Python爬虫——爬取豆瓣电影Top250代码实例
- scrum master_你能使我成为一个scrum master吗
- 当程序员工作七年之后的一点重要的总结