learned by here 把廖雪峰教程转换成 PDF 电子书.You can also craw other websites’ data and then parse to the pdf format.

#-*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
import pdfkitdef parse_url_to_html(url):response = requests.get(url)soup = BeautifulSoup(response.content,'html.parser')body = soup.find_all(class_ = 'x-wiki-content')[0]html = str(body)print('html content:%s' %(html))with open('content.html','wb') as f:f.write(html)def get_url_list(url):response = requests.get(url)#print(response.content)soup = BeautifulSoup(response.content,'html.parser')menu_tag = soup.find_all(class_='uk-nav uk-nav-side')[1]urls = []for li in menu_tag.find('li'):temp_url = 'http://www.liaoxuefeng.com' + li.a.get('href')urls.append(temp_url)return urlsdef save_pdf(htmls):options = {'page-size':'Letter','encoding':'UTF-8','custom-header':[('Accept-Encoding','gzip')]}pdfkit.from_file(htmls,file_name,options = options)if __name__ == '__main__':url = b'https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000'urls = get_url_list(url)for u in urls:parse_url_to_html(u)file_name = 'python course'save_pdf('content.html')

Craw the data of the web page and parse to pdf相关推荐

  1. 解决Spring Spring Data JPA 错误: Page 1 of 1 containing UNKNOWN instances

    解决Spring Spring Data JPA 错误: Page 1 of 1 containing UNKNOWN instances SpringBoot 整合 Spring-Data-JPA ...

  2. 在ASP.NET MVC里对Web Page网页进行权限控制

    我们在ASP.NET MVC开发时,有时候还是得设计ASP.NET的Web Page网页(.aspx和.aspx.cs),来实现一些ASP.NET MVC无法实现的功能,如此篇<Visual S ...

  3. LR实战之Discuz开源论坛——网页细分图结果分析(Web Page Diagnostics)

    续LR实战之Discuz开源论坛项目,之前一直是创建虚拟用户脚本(Virtual User Generator)和场景(Controller),现在,终于到了LoadRunner性能测试结果分析(An ...

  4. HTML Responsive Web Page

    注:参考网站 https://www.w3schools.com HTML Responsive Web Page index.html <!DOCTYPE html> <html& ...

  5. web test IBM Page Detailer / IBM Rational Performance Tester / Web Page Performa

    S IBM测试分类-AVT,BVT,CVT,FVT,GVT,TVT,SVT,PVT http://blog.csdn.net/hpf911/article/details/7095785 AVT,ac ...

  6. 微信(WeChat web page)

    插件介绍: 说到微信,相信身边的很多朋友都在使用这个软件,因为它有着很多强大的功能,包括朋友圈.摇一摇.漂流瓶.语音提示等,使之成为我们生活中很重要的部分,最初在手机上使用,后来也出现了网页版,今天为 ...

  7. Analysis之Web Page Diagnostics

    当在场景中打开Diagnostics菜单下的Web Page Diagnostics功能,就能得到网页分析组图,通过这个功能可以实现对网站的前端性能分析,明确系统响应时间较长是由服务器端处理能力不足还 ...

  8. 嗯哼 之 Safari 调试 iPhone Web Page

    LZ-Says:勇敢说出来,虽然错过,但是总比不说要好.说出来错过了,还是幻想着某天可以继续默默守护,是么? 前言 话说,近些日子一直处理集团官网开发中,前几日接到测试反馈,移动端某个页面兼容性有问题 ...

  9. Web Page Performance

    Overview 现下Web项目越来越多,如何衡量Web应用的性能,也成了开发或者测试人员不得不着重考虑的问题.传统方式下可能会使用项目日志,或者LoadRunner等工具对Web页面进行监测以得到一 ...

  10. 对Spring Data JPA中的page对象下的content属性里的实体类对象转换为dto对象

    对Spring Data JPA中的page对象下的content属性里的实体类对象转换为dto对象. 刚开始试遍历content,进行转换,添加到新的list中,再set进去page.后来发现pag ...

最新文章

  1. 任天堂经典拳击游戏可以体感操作了,打开网页就能玩,击败泰森不是梦
  2. 12-1054. 求平均值
  3. 搜索引擎索引之如何更新索引
  4. RabbitMQ--topic
  5. linux改ip之后恢复出厂设置密码,Linux忘记密码及修改IP地址解决方案
  6. 每天一个linux命令(目录文件操作):【转载】Linux文件类型与扩展名
  7. android热补丁作用,Android热修复之 - 阿里开源的热补丁
  8. 标准c /c++宽字节与多字节的转换
  9. 线性反馈移位寄存器 LFSR
  10. ubuntu安装后的一些操作
  11. pdf里面的图片如何提取出来?
  12. 搜狗输入法不能正常使用?
  13. 捋一捋Vue构造函数
  14. FortiClient VPN连接至98%时报错:Unable to establish the VPN connection.(E=98,T-981011001,M99,R10)
  15. 远程控制桌面计算机怎么填写,远程控制电脑桌面如何操作【图解】
  16. linux下输入ls显示时间格式,【Linux基础】linux下修改ls显示的时间格式
  17. img标签src引入svg如何修改颜色
  18. 七月集训(22,23)字典树,有序集合
  19. 谷歌的云计算是什么样子的?
  20. 多模态分析数据集(Multimodal Dataset)整理

热门文章

  1. LIO-SAM学习与运行测试数据集
  2. ChemDraw教程之怎么连接ChemDraw结构
  3. 你对“happen-before原则”的理解可能是错的?
  4. Interactive Path Reasoning on Graph for Conversational Recommendation阅读笔记
  5. 两台虚拟服务器如何串联,巧用路由器的DHCP功能,完成两台路由器之间的串联,你学会了么...
  6. 手机视频监控直播系统是如何实现的?需要满足哪些条件?
  7. SQP 序列二次规划法
  8. python电影网络爬虫代码_Python爬虫——爬取豆瓣电影Top250代码实例
  9. scrum master_你能使我成为一个scrum master吗
  10. 当程序员工作七年之后的一点重要的总结