一、前言

最近写得两篇关于简书的数据可视化文章:《简书推荐作者风云榜(爬取简书app数据)》、《我的简书一月记:数据可视化》反响都还不错,因而将继续针对简书进行数据分析和可视化。鉴于此前爬取手机app效率较低,本次重新回归网页数据的爬取。

爬取的对象是:今日看点专题下的“热门”文章数据。一篇文章被编辑收入“今日看点”,即意味着作品将立刻登上首页,得到很好曝光,为更多用户所阅读和喜欢。而本专题“热门”一栏里,收录着简书上至今为止最炙手可热、获赞数最多的文章,针对这部分数据进行研究和分析,可以得知哪类文章最受简书用户喜欢,哪些作者创作了“高质量”的作品等信息。

二、数据获取

上图可知,目前今日看点收录了148618篇文章, 共有30194人关注。原本想获取所有的文章,但发现爬取到1900+篇时,就再也无法得到更多数据,可能简书方面限制和保护了数据。

但根据这1916篇文章获赞数降序可知,排名第一的文章,获赞数为:17076;排名最后的为488。由此可见,简书上最热门的文章应该都已经获取到了(后来发现其实并没有,仅是部分,脸疼),基于此后续研究可以继续展开。

三、数据可视化

1、年度月份分布情况

首先,我们来看看,截止目前,这些简书上最热门的文章都发布在何年何月?作为一名来到简书一个多月的小透明,一直不知道简书是何时“横空出世”的,@简叔、@简宝玉可否解答下。

由下图可知,最早的热门文章出现于2014年5月,是@CNFeat创作的《如何搭建一个独立博客——简明Github Pages与Hexo教程》一文。(间接知道了简书起码是在三年前就已经存在了)。之后逐年递增,猜测可能是新增用户基数越来越多,平台越来越为人所知,而且作品越来越好?所以热门文章出现的越来越多。从2016年7月起,出现较大涨幅,并持续到2017年3月,每月热门文章均在110篇以上。在今年的4月份起,持续四个月相对回落了许多。这部分不知道原因何在,难道是太热了,大家创作欲望低迷?

2、24小时分布情况

接着看看发布时间情况,11点钟文章最多,觉得蛮奇怪的,作为一只喜欢在晚上发布文章的小透明,原本觉得晚上才是创作的大好时光啊,11点钟已经属于饭点,难道是上午潜心创作,一天之计在于晨,将当天的写作任务早早的完成,一身轻松?再是24小时都有人发布文章并成为热点,可见鸟儿大了,什么林子都有啊。逃......

3、2017年热门文章

看了那么多历史的数据,那么到底今年有哪些热门文章?到底作为一名普通的作者,该如何写出广受好评的文章呢?

筛选下本年度按获赞数降序的文章,如图,简单浏览下标题,发现非常多设问的句式,想诱导人点击阅读,哪能不用“问号”呢!很多作者的经验分享,或者称作“教做人”的文章?而偏技术性的文章几乎没有,当然原因可能很多,个人也有个人的看法。不过对我来说,倒是可以努力写写数据分析和可视化的文章杀进去,占得一席之地。横空出世,石破天惊,一鸣惊人,@Deserts_X,决定就是你了!咱们年末热门文章见!

4、阅读数、喜欢数与评论数

一篇文章的热门程度,直观地体现在喜欢数和评论数里,当然前提是有被大量阅读。如图可知,有一篇文章阅读数远远高于所有的文章,那就是@简叔的《简友常见问题汇总》,作为简书新手向的使用手册,有此数据,也属正常,虽然不知简叔有多少用户,但86w+的阅读量估计是前无古人后无来者了。

再将目光移动到这篇官方文章之外,首先就能看到第二梯度,20w+阅读量的文章也有近十篇,也是非常难以企及的战绩,虽然其中好几篇的获赞数稍显“平庸”,(手动滑稽)。

换个角度,再看一遍。局部放大,看不到那些讨人厌的神级数据后,觉得神清气爽多了,努力努力应该还是有机会跻身其中的。

5、文章作者

有留心上文CSV截图的,可以对这些文章都是谁写的有了初步的了解。对所有作者进行统计,文章数量靠前的每人贡献的情况如下,也是牛逼坏了。

第一名属于简书一哥@彭小六,共收录了106篇文章。看来分析简书数据永远都避不开的一哥。

并列第二名的是@怀左同学和@韩大爷的杂货铺,均收录了41篇文章。

所有799名作者都有一席之地,按照收录文章数直观的贡献情况如下,最左边和最上边即为排名前十几的作者情况:

切换成曲线图,按降序排列,可见有一条贴近横坐标,长长的曲线。大多数人无法贡献热门文章,能贡献的人里大多数也只能有一两篇惊艳之作。

799名作者中有84名为签约作者,共贡献625篇文章。不过不知道简书现在到底有多少名签约作者。单看此数据,热门文章里非签约作者占比也还是蛮大。

其他715名为非签约作者,共贡献1291篇文章:

将这1916篇文章对应的799名作者生成如下词云,假如今日头条想像签走知乎300大V一样来签走简书大V,大概可以参考此图。逃......

单人贡献5篇及以上热门文章的,共有69名作者。

6、文章标题

不知道有多少人觉得简书的文章太过鸡汤,或者不熟悉简书的人,是否直接就认为“简书=鸡汤”?那到底是不是这样的呢,看看热门文章都有哪些大概就能知道一二了。标题的数据上文CSV也有不少了,此处将所有标题直接丢一个在线词云网站,看看都有哪些词出现了:

什么、如何、书、英语、大学、推荐、自己、人、坚持、努力......这些词所形成的语境,可以照见背后点赞的简书用户组成还是偏于年轻。虽然可能伤到一些人,但个人感觉一个不完全知道自己喜欢什么、有什么爱好、对学习和生活都没有好的把控的人,或许更会汲汲于阅读这些文章,当然这可能是每个人成长中必须经历的过程,看这些文章可能也会有收获,对自己有所指导,但是否又有很多人其实只是点个赞、收藏下,该如何的生活依旧如何的生活,下次看到类似的文章,依旧点进去,依旧退出来呢?

上面的词云还是太过简单粗暴,调用玻森NLP的API,获取所有标题的词频排名前100的关键词,返回结果如下:

没有了杂乱无章的文字后,在精简的词云里,更可以看出,出现最频繁的词有:你、干货、写作、英语、推荐、大学、努力、书、读书、人生、坚持、方法......嗯。

四、小结

所有假如你是一名非简书用户,看到这些词云和标题,你觉得简书是否等同于鸡汤呢?又或者,你已经是一名简书用户,日常看到的文章,首页上呈现的文章,对你来说又意味着什么呢?

非引战,欢迎评论,共同探讨想法。

简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化相关推荐

  1. 网络爬虫---用urllib模块爬取京东笔记本电脑的数据、并对其做一个可视化

    用urllib模块爬取京东笔记本电脑的数据.并对其做一个可视化 文章目录 用urllib模块爬取京东笔记本电脑的数据.并对其做一个可视化 一.前言 二.知识要求 三.过程分析 1.观察主页面和每个电脑 ...

  2. 爬取淘宝手机数据,并进行清洗,并可视化展示

    爬取所需环境 selnium安装 Win+R输入cmd敲回车进入到cmd窗口: 输入"pip3 install selenium -i https://pypi.tuna.tsinghua. ...

  3. python爬取今日头条后台数据_Python爬虫实战入门五:获取JS动态内容—爬取今日头条...

    之前我们爬取的网页,多是HTML静态生成的内容,直接从HTML源码中就能找到看到的数据和内容,然而并不是所有的网页都是这样的. 有一些网站的内容由前端的JS动态生成,由于呈现在网页上的内容是由JS生成 ...

  4. python爬取今日热榜数据到txt文件

    今日热榜:https://tophub.today/ 爬取数据及保存格式: 爬取后保存为.txt文件: 部分内容: 源码及注释: import requests from bs4 import Bea ...

  5. python爬取今日头条后台数据_爬虫爬取今日头条数据代码实现

    课程链接 讲师的公众号文章:今日头条数据抓取及持久化(完整代码版,含IP和用户代理)​mp.weixin.qq.com 课程代码 抓取并持久化user-agent工具utils.py 对于爬虫工具,需 ...

  6. 【爬虫修炼和实战】二、从requests开始——爬取喜马拉雅全站音频数据(基础篇)

    第二篇为利用爬虫基本的requests库和正则表达式爬取喜马拉雅全站数据. 申明:本文仅做学习用. 多图警告. 目录 一.常用函数和库 二.网站结构分析 首页 https://www.ximalaya ...

  7. python爬取今日说法 每期数据

    实验目的 主要是获取2021年今日说法每期节目主要内容及时间 今日说法的网址为:http://tv.cctv.com/lm/jrsf/index.shtml 当时怎么写的思路有点不太记得了,先把代码贴 ...

  8. 用Python爬取今日头条,里面的东西统统白送!

    近年来今日头条做的可谓是风生水起,自上线以来,围绕内容载体和分发方式两个维度不断丰富,至今已衍生出图文.视频.微头条.专栏.搜索.直播等多种内容形式.根据最新中国联通发布的App大数据排行榜,今日头条 ...

  9. python爬取小说并下载_python爬取138看书网小说源码

    python爬取138看书网小说源码由论坛用户制作并分享,适用于138小说网,能够帮助用户爬取网站获取小说资源,软件提供分类搜索查找的功能,支持目录爬取,还附带书签功能,用户使用这款软件能够更加轻松地 ...

最新文章

  1. HarmonyOS ScrollView 不滑动的问题
  2. [Android]《Android艺术开发探索》第一章读书笔记
  3. 【数据结构作业心得】4-0 二叉树
  4. 利用OCR文字识别+百度算法搜索,玩转冲顶大会、百万英雄、芝士超人等答题赢奖金游戏
  5. 编译打包vue_Vue 源码分析( 一 )
  6. python s d是什意思_python里d是什么意思
  7. 物联网碰到云计算会怎么样?
  8. 服务器安装python虚拟环境
  9. SAP官网学习教程(3) HANA数据库开发
  10. 计算机无法安装ae,Windows10系统AE软件无法安装如何处理
  11. CF407C Curious Array
  12. 我要拿走你的蜡烛 1004
  13. 【微信小程序】点击图标跳转页面
  14. 1003 Emergency (25 point(s))
  15. 为什么TCP服务端需要调用bind函数而客户端通常不需要呢
  16. 什么是域名?域名详细介绍
  17. html5渐变的两种方式,HTML5的渐变色 渐变的两种类型 createLinearGradient 和createRadialGradient...
  18. Java项目管理系统 的设计与实现
  19. 慕容垂:百万战骨风云里——激荡的鲜卑史略之二(转载)
  20. LeetCode 912. 排序数组(Java)

热门文章

  1. VC++6.0使用GDI++出现'ULONG_PTR'未定义和'token' 未定义的解决办法
  2. 集体奔赴农业战场 互联网巨头对话中国农民丰收节交易会
  3. HCNA(012-211) 试题解析
  4. maven打war包
  5. java-jpa-criteriaBuilder使用入门
  6. Codevs 3002 石子归并 3(DP四边形不等式优化)
  7. jquery插件---自动补全类插件
  8. 产品必懂技术术语(后台类)
  9. 今日头条野心背后逃不过的10个问题
  10. 你知道这些产品设计灵感网站吗?