程序员书库(ID:OpenSourceTop) 整编

综合自:https://github.com/lanbing510/DouBanSpider

程序员在提升自己的道路,大多还是会选择阅读编程书籍这一途径,但找到一本好书就没那么容易了。

通过查看各大销售网站的销量数据和评价,以及豆瓣评分和评价人数,可以帮助我们更快的挖掘出经典的计算机书籍,还有那些被人们忽视的好书。

最近猿哥在GitHub上发现了一个网站,是中国科学院自动化研究所的一大神(lanbing510)用Python写的一个爬虫,他在16年的时候就爬下了豆瓣所有的读书数据并做了个WebApp接口方来挖掘查找和阅读好书。怪我知道的太晚

后来lanbing510再次爬了一遍豆瓣读书的数据,总共更新了3232088本图书信息,共2138386KB,并将其开源

为什么说它很好用呢?猿哥演示一遍你就知道了:

可以看出这网站的界面非常简洁,没有花里花哨的内容,只有干货,你可以直接通过关键字、分数、和评价人数这三个选项进行搜索,比如我们可以搜索关键字:编程;分数:9.0;评价人数:100人以上

查找结果的显示方式有按照分数排序和人数排序两种,按照分数排序的截图如下:

按照评价人数排序的截图如下:

除了以上演示的操作,这个网站并实现了以下功能:

  • 可以爬下豆瓣读书标签下的所有图书

  • 按评分排名依次存储

  • 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet

  • 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封

也就是说你不仅可以在网站上搜索,还能通过下载各类目下的Excel书单文件,直接在Excel中搜索

效果截图如下:

最后附上网站地址:http://sobook.lanbing510.info

GitHub地址:https://github.com/lanbing510/DouBanSpider

——————————————

往期精彩:

  • 在这个学术被国界化的日子,我有点怀念爱因斯坦

  • 百度有难,八方点赞

  • 为什么是华为?关于华为被封锁的5个切面

秒搜编程好书 就用这个Python写的爬虫网站相关推荐

  1. 《用Python写网络爬虫第2版》PDF中英文+代码分析

    互联网包含了迄今为止最有用的数据集,并且大部分可以免费公开访问.但是,这些数据难以复用.它们被嵌入在网站的结构和样式当中,需要抽取出来才能使用.从网页中抽取数据的过程又称为网络爬虫,随着越来越多的信息 ...

  2. 网页爬虫python代码_《用python写网络爬虫》完整版+源码

    原标题:<用python写网络爬虫>完整版+源码 <用python写网络爬虫>完整版+附书源码 本书讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中 ...

  3. 用Python写网络爬虫pdf

    下载地址:网盘下载 作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用.使用Python这样的简单编程语言,你可以使用少量编程技能就可以爬取复杂的网站. <用Pyt ...

  4. 用python写网络爬虫 第2版 pd_用Python写网络爬虫(第2版)

    用Python写网络爬虫(第2版)电子书 畅销的Python网络爬虫发实战图书全新升级版,上一版年销量近40000册. 针对Python 3.6版本编写. 提供示例完整源码和实例网站搭建源码,确保用户 ...

  5. 用Python写网络爬虫:推荐这本书看看。

    <用Python写网络爬虫>讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的三种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取,如何抓取动态 ...

  6. r语言 python 股票_python r语言 股票!如何用python写出爬虫?

    python计时器问题? import time print('按下回车开始,按下 Ctrl C 暂停/停止计时.') while True: input("") starttim ...

  7. 《用Python写网络爬虫》——1.5 本章小结

    本节书摘来自异步社区<用Python写网络爬虫>一书中的第1章,第1.5节,作者 [澳]Richard Lawson(理查德 劳森),李斌 译,更多章节内容可以访问云栖社区"异步 ...

  8. python爬取微博恶评_详解用python写网络爬虫-爬取新浪微博评论

    新浪微博需要登录才能爬取,这里使用m.weibo.cn这个移动端网站即可实现简化操作,用这个访问可以直接得到的微博id. 分析新浪微博的评论获取方式得知,其采用动态加载.所以使用json模块解析jso ...

  9. python爬虫教程:Python写网络爬虫的优势和理由

    在本篇文章里小编给各位整理了一篇关于选择Python写网络爬虫的优势和理由以及相关代码实例,有兴趣的朋友们阅读下吧. 什么是网络爬虫? 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页 ...

  10. 用python写网络爬虫-爬取新浪微博评论

    新浪微博需要登录才能爬取,这里使用m.weibo.cn这个移动端网站即可实现简化操作,用这个访问可以直接得到的微博id. 分析新浪微博的评论获取方式得知,其采用动态加载.所以使用json模块解析jso ...

最新文章

  1. 1、利用蓝牙定位及姿态识别实现一个智能篮球场套件(一)——用重写CC2541透传模块做成智能手环...
  2. Python 列表复制
  3. layui 如何去dom_layui 的基本使用介绍
  4. RabbitMQ死信实战(生产者)
  5. POJ 3090 Visible Lattice Points 【欧拉函数】
  6. HBase数据备份及恢复(导入导出)的常用方法
  7. JVM内存划分、Linux用户态、内核态简介
  8. 一个项目三个坑,我懵了
  9. Codeforces 853C - Boredom
  10. flex4.5的DataGrid
  11. linux 帐号 配置sftp_Linux 下sftp配置之密钥方式登录详解
  12. 初学者Pytorch 和 Caffe 使用对比
  13. SCI期刊分区/期刊名词,看完秒懂~
  14. 元宇宙趋势下的前端现状
  15. JVM MAT使用分析详解
  16. python如何调用math函数库函数_Python math函数库
  17. html文档半结构化数据,半结构化数据
  18. 图像处理​​​​​​​--十大经典算法
  19. 2019年数字IC校招薪酬火爆出炉,你被倒挂了吗_
  20. 梯度下降算法_梯度下降算法的工作原理

热门文章

  1. Vue2.0搭建脚手架(vue-cli)
  2. flash动画入门篇
  3. 来客电商之微信小程序怎么取名字
  4. 云服务器配置价格表内容
  5. 车间和仓库可以一起吗_车间和仓库可以划分为一个防火分区吗
  6. 【大数据】大数据-实时统计分析-方案选型
  7. OSPF篇——SPF算法——002
  8. STM32用于PWM占空比测量
  9. 同名的同义词和视图解惑
  10. python之Unitest框架