爬取300本书籍

首先是获取python书籍的相关信息,由于信息的获取需要从商品的详细页面获取,因此小编采用selenium库来模拟页面翻页过程,以此来到达新的页面进行爬取,如下图所示。

(动态图,多看5秒钟)

利用selenium可以自动的控制浏览器,并抓取我们需要的信息,部分程序如下图所示。

上述程序中,selenium控制浏览器滑到“下一页”的地方,然后模拟翻页动作,将每个页面中的全部60个商品加载显示出来,然后再利用pyquery来解析页面源码,获取我们需要的信息。

03

数据的分析处理

这里小编爬取了近300部python书籍的信息,这些信息包含了书的名称、价格、总评论数、好评数量、中评数量、差评数量和好评率。如下图所示。

有了书籍的信息后,接下来就是对书籍进行评分,看一下究竟哪些python书籍是最火的。

1).先是数据的预处理,由于爬取到的信息绝大多数是字符串类型,所以需要先将其转化为数字,然后才能进行接下来的处理,数据预处理的部分程序如下所示。

上述程序中,首先是将数据中的无关字符去除,然后进行单位的转化,最后是将字符串转化为数字。

2).数据进行归一化的处理,以避免不同数量级的特征带来干扰,例如好评数量都是几万的,但是好评率却仅仅是不到1的小数,这显然会对评判造成影响。数据归一化后,我们按照下图的公式得到了最终的评分,如下图所示。

评分是这样的,小编采用总的评论数量占60%的比重,而好评率占20%的比重,差评的数量占10%的比重,而价格占了10%的比重,这样组合起来成为了100%。

由上图我们也可以看出,《笨办法学python3》成为了最好的python图书,而这本书我们也曾经送出过。当然上述的计算公式只是按照小编的个人喜好来的,如果大家觉得公式不是很合理,大家可以自己编辑公式进行打分,全凭个人喜好。

04

书籍的评论分析

接下来小编对于《笨办法学python3》和《python编程 从入门到实践》这两本书的评论进行了爬取,爬取的部分程序如下图所示。

上述程序中不同的请求url只是页面数值的变化,只需要不停的循环页面,然后对返回的json数据解析,便可以得到需要的数据。

下图是对于这两本书的评论数量的分析,如下图所示。

由图可以看出,两本书的好评数量高达99.48%,这与我们爬取到的好评率相一致。最后是对于爬取到的评论进行词云的展示,如下图所示。

《“笨办法”学python》词云

《python编程,从入门到实践》

通过上图可以看出,大家对于这些书的普遍印象都是很不错的,大家都比较认可这两本书。不知道你心目中的Python神书是那一本,欢迎留言吱一声!

另外,本篇的从思路,代码编写,测试,成稿花了很多心血,也是小编熬夜2天才完成的,所以目前源码优先对【小密圈】的同学开放学习!

小密圈学习群:

自学python的书籍逐级推荐-近300本Python书籍到底哪家强,用Python告诉你相关推荐

  1. 【小盐巴学习笔记】—美团吃饭哪家强?Python词云分析告诉你

    [小盐巴学习笔记]-美团吃饭哪家强?Python词云分析告诉你 效果图 前言 一.爬虫分析 1.分析网址 2.分析数据 二.完整代码 1.爬取美团牛排店评论 2.绘制词云图 3.词云分析 总结 效果图 ...

  2. PAT1032挖掘机技术哪家强(Python和C)

    简单模拟 为了用事实说明挖掘机技术到底哪家强,PAT 组织了一场挖掘机技能大赛.现请你根据比赛结果统计出技术最强的那个学校. 输入格式: 输入在第 1 行给出不超过 105的正整数 N,即参赛人数.随 ...

  3. python协同过滤电影推荐的论文_协同过滤?教你用Python实现协同过滤

    提到ALS相信大家应该都不会觉得陌生,它是协同过滤的一种,并被集成到Spark的Mllib库中.本文就ALS的基本原理进行讲解,并手把手.肩并肩地带您实现这一算法. 协同过滤?教你用Python实现协 ...

  4. python新手入门项目推荐_适合初学者练手的 10 个 有趣Python项目

    Python Python开发 Python语言 适合初学者练手的 10 个 有趣Python项目 想成为一个优秀的开发者,没有捷径可走,势必要花费大量时间在键盘后. 而不断地进行各种小项目开发,可以 ...

  5. 自学python的书籍逐级推荐-适合初学者和经验的十大最佳Python书籍-2018

    1,最佳Python书籍清单 在这篇文章中,我收集了一些适合初学者和经验丰富的最佳Python书籍的信息.我们还提到了每本书的简要介绍.这将帮助您根据您的要求选择最好的python书籍.此外,它还涵盖 ...

  6. python在会计工作中的应用-浅谈各行各业到底该如何应用python?

    文|一本正经胡说八道的猫 一.[会计.财务] 会计财务都离不开和数据打交道,而且每天有大量重复性工作,所以学习Python最大的用处是:释放大部分人力对数据的处理,解放重复劳动性工作. 另外也在评估预 ...

  7. 月饼哪家强?Python 告诉你

    作者 | 黄伟呢 来源 | 数据分析与统计学之美 中秋节介绍 中秋节,又称祭月节.月光诞.月夕.秋节.仲秋节.拜月节.月娘节.月亮节.团圆节等,是中国民间的传统节日. 中秋节自古便有祭月.赏月.吃月饼 ...

  8. 重庆火锅哪家强,Python 帮你探探店

    大家好,随着国内疫情逐步好转,一些美食店铺又渐渐开张了,疫情结束你最想吃什么?来一顿痛快的火锅肯定是少不了的活动吧.可是对于选择困难症的我来说,吃饭一小时,挑店一下午,所以今天本文将再次爬取美团网相关 ...

  9. 重庆火锅哪家强,Python帮你探探店

    前言 大家好,随着国内疫情逐步好转,一些美食店铺又渐渐开张了,疫情结束你最想吃什么?来一顿痛快的火锅肯定是少不了的活动吧.可是对于选择困难症的我来说,吃饭一小时,挑店一下午,所以今天本文将再次爬取美团 ...

最新文章

  1. 开发过程中的常见问题
  2. android自定义圆圈动画,自定义view实现动画数字圆圈
  3. 公司台湾主站的url重写
  4. Go 神坑 1 —— interface{} 与 nil 的比较
  5. 商店管理系统——小组分工及索引卡
  6. HDOJ 1166 HDU 1166 敌兵布阵 ACM 1166 IN HDU
  7. mysql 密码保存格式_mysql5.6使用老格式密码
  8. DGL dist sampling OP
  9. kinova_j2s6s300【Cartesian position control Finger position control】
  10. 汉罗塔问题和杨辉三角(java实现)
  11. 如何利用番茄工作法提高学习和工作的效率
  12. 【调试技巧】strace神器的使用方法详解与实践
  13. Vue实现顶部导航栏设计
  14. DataGrip连接MySQL报错: Server returns invalid timezone. Go to ‘Advanced‘ tab and set ‘serverTimezon
  15. 代码真的可以体现一个人的智商吗?
  16. 万字总结 JS 数据结构与常用的算法
  17. web前端网页设计期末课程大作业:旅游网页主题网站设计——三亚旅游网页设计(6个页面) HTML+CSS+JavaScript
  18. 腾讯云tcp架构考试涉及到哪些知识点?腾讯云是什么?
  19. 服务器中”系统平均负载 Load average“含义学习
  20. 350导热油 shell_导热油320与350的区别,克拉克给你详细解说

热门文章

  1. mac cad石材填充图案_CAD超级填充教程
  2. c 嵌入html5 win7,Html5新标签解释及用法
  3. 开发日记-20190425 关键词 gradle基础学习 7年之约 启动篇
  4. 在Docker Hub上你可以很轻松下载到大量已经容器化的应用镜像,即拉即用——daocloud国内镜像加速...
  5. [bzoj2839]集合计数 题解 (组合数+容斥)
  6. Java 8 实战 P4 Beyond Java 8
  7. JframeMaxSize
  8. docker Cannot start container [8] System error: exec format error
  9. Docker容器中MySQL最大连接数被限制为214的解决方案
  10. STM32F407 I2C 个人笔记