原标题:Python 爬取知乎 9674 个问答,揭秘最受欢迎的 98 本书!

作者 | Yura

责编 | 胡巍巍

高尔基这话有没有道理我不知道,

咱也不敢问,

主要是现在也问不了。

那对我来说,读书有什么意义呢?

应该也是阶梯。

但是这影响是消极还是积极,

投入的时间和得到的回报到底成不成正比?

每本都不一样,

这很大情况与书的质量有关。

那么问题就来了,

我们到底该读什么书呢?

换言之,

若想阶梯又稳又长,

需要什么样的砖呢?

我知道豆瓣有评分TOP100的书籍榜单,

但是看着这一长串的列表,

我觉得不够有人情味。

我平时书荒的时候喜欢逛知乎,

那些带有“小红书”式夸张描述,

“必读,不可错过”“跪了”“强推“,

往往让我有一种马上买它!

啊,不是,

下载它的冲动!

上个月我买了个电子书下载的会员,

每天可以将书直接推送Kindle,

非常方便!

但是,会员是要钱的,

而且,是有时间限制的……

一眨眼,还有3天就到期了。

想想自己上个月顶多下载了3本书

现在还有3天就过期了

相当于白白浪费了

20本*(30-3天)-3本=537本书的下载机会。

还剩下3天,我一定要利用起来!

每天下载60本(哪年哪月能看完我们暂时不讨论了)。

但是知乎一条一条翻答案未免太麻烦了8!

而且好几条都是推荐差不多内容的,

不如爬取相关问题的所有答案,

做个汇总好啦!

数据获取

虽说知乎有个“阅读”的话题,但是我看了一下里面的问题不全是推荐书的,若是都爬取下来可能80%的数据都是与书籍推荐无关的。

所以我直接知乎搜索“书”,选取了回答热度较高的6个问题:

还是利用Python进行爬虫,

进入页面,展开答案:

点击“检查”网页,不断往下拉,

我们可以在XHR找到明显带有“answer”字样的链接:

多看几个链接就能找到规律啦,

(offset:0,5,15,20……)

挑自己感兴趣的字段就能“咻咻咻”爬下来了,

其他5个问题如法炮制,得到以下:

总共获取9674个回答,基本字段如下:

数据清洗

以前总觉得爬数据最难,

只要爬下来了,一切好说!

想怎么处理怎么处理,想怎么分析怎么分析。

但是这次,

爬虫的主要目的是列出一个高频出现的书籍清单,

大家的答案有言简意赅的

(我暂且不批评这些同学会的不带书名号):

也有这样,推荐语(废话)一大堆的:

你瞧瞧,回答字数最多的可有3万多字呢!

研究爬虫大概花了我一个小时,

但是怎么分析这些答案让我头痛了三个晚上!

先看一下主要的问题:

很多答案没有带书名号,因此不能简单地用正则表达式;

知友们回答的时候会出现书名打错(“一句话顶一万句”),还有书名简写或表达方式不同的情况(比如,关于哈利波特系列书籍的说法就有11种……);

最重要的是,我还不具有“看到一个词或一句话就分辨出哪些是书名哪些不是”的能力。我自己都不知道,我怎么让Python判断提取呢……

我也曾想过干脆只用《》来正则匹配内容

结果发现:

44.96%的用户回答问题的时候非常不规范,

他们在回答中没有有使用书名号!

直接这样分析的话就相当于丢失了将近一半的数据!

python 数据分析 书籍推荐 知乎_Python 爬取知乎 9674 个问答,揭秘最受欢迎的 98 本书!...相关推荐

  1. python爬虫知乎图片_python 爬取知乎图片

    先上完整代码 1 importrequests2 importtime3 importdatetime4 importos5 importjson6 importuuid7 from pyquery ...

  2. python爬取知乎热搜_python爬取知乎

    大小: 1.59M 文件类型: .zip 金币: 1 下载: 0 次 发布日期: 2021-01-30 资源简介 此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用 ...

  3. python爬取虾米音乐_Python 爬取 620 首虾米歌曲,揭秘五月天为什么狂吸粉?!

    原标题:Python 爬取 620 首虾米歌曲,揭秘五月天为什么狂吸粉?! 来源:Yura不说数据说 作者 :Yura 最近两天,我被朋友圈的五月天粉丝(五迷)疯狂刷屏,"五月天永远陪你到2 ...

  4. python知乎爬虫收藏夹_Python爬取知乎问题收藏夹 爬虫入门

    简介 知乎的网站是比较好爬的,没有复杂的反爬手段,适合初学爬虫的人作为练习 因为刚刚入门python,所以只是先把知乎上热门问题的一些主要信息保存到数据库中,待以后使用这些信息进行数据分析,爬取的网页 ...

  5. python 爬取搞笑视频_Python爬取知乎上搞笑视频,一顿爆笑送给大家

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:Huangwei AI 来源:Python与机器学习之路 PS:如有需 ...

  6. python爬取知乎话题_python爬取知乎话题图片

    前言 什么是网络爬虫(也叫网络蜘蛛)?简单来说,是一种用来自动浏览万维网程序或脚本(网络爬虫的典型应用就是我们所熟知的搜索引擎).既然如此,那么我们也可以写一个程序,用来自动浏览或者获取网页上的信息. ...

  7. python爬取知乎问题_python爬取知乎首页问题

    我的代码如下:importurllib.requestimporthttp.cookiejarurl_a="https://www.zhihu.com/"url_a="h ...

  8. Python 爬取知乎 9674 个问答,揭秘最受欢迎的 98 本书!

    作者 | Yura 责编 | 胡巍巍 高尔基这话有没有道理我不知道, 咱也不敢问, 主要是现在也问不了. 那对我来说,读书有什么意义呢? 应该也是阶梯. 但是这影响是消极还是积极, 投入的时间和得到的 ...

  9. python爬取虾米音乐_Python爬取620首虾米歌曲,揭秘五月天为什么狂吸粉?!

    最近两天,我被朋友圈的五月天粉丝(五迷)疯狂刷屏,"五月天永远陪你到20岁""演唱会即视感",这些字眼让我恨不得马上奔到电影院打卡. 作为五迷,我是满怀激情地在 ...

最新文章

  1. 织梦DedeCMS播放本地视频文件插件
  2. Java并发编程--CountDownLatch
  3. linux 内核配置mmc,Linux内核编译,配置本机驱动
  4. Ubuntu开启SSHD服务
  5. APL平台对C++开发者的价值和作用
  6. 使用Maven配置JBoss / Wildfly数据源
  7. 分成互质组 (信息学奥赛一本通-T1221)
  8. oracle字段规则,Oracle的基本操作+Oracle字段类型(zz)
  9. POP Animation 和 layoutSubviews 的冲突
  10. 我也是不得不说我的学习能力下降了,这两天都没有完成一个模块
  11. php jwt使用案例,PHP JWT初识及其简单示例
  12. 为什么问多了,确实让人难以回答
  13. WPF+VB.net制作桌面股票小助手
  14. 计算机表格名次教程,Word表格怎么算名次
  15. 【攻防世界 | WP】CAT
  16. iPhone手机开发
  17. 兔子繁殖为例 c语言,用斐波那契数列解答兔子的繁殖
  18. Cesium奇幻之旅(一)
  19. HSSFSheet设置Excel打印区 横向打印
  20. Kubernetes 集群文件描述符测漏了...

热门文章

  1. C. Safe Distance(二分 + 并查集)
  2. D. Multiset(树状数组 + 二分)
  3. Codeforces Round #715 (Div. 1) B. Almost Sorted 找规律
  4. 牛客挑战赛47 C 条件(Floyd bitset优化)
  5. cf1491C. Pekora and Trampoline
  6. [luogu P4198] 楼房重建(线段树 + 思维)
  7. CodeForces730E Award Ceremony(拓扑排序+结论)
  8. 2018/7/6-纪中某C组题【jzoj1192,jzoj1397,jzoj1736】
  9. jzoj1751-Span(每日C组)【并查集,贪心】
  10. hihocoder1147 时空阵(bfs树+DP)