简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化
一、前言
最近写得两篇关于简书的数据可视化文章:《简书推荐作者风云榜(爬取简书app数据)》、《我的简书一月记:数据可视化》反响都还不错,因而将继续针对简书进行数据分析和可视化。鉴于此前爬取手机app效率较低,本次重新回归网页数据的爬取。
爬取的对象是:今日看点专题下的“热门”文章数据。一篇文章被编辑收入“今日看点”,即意味着作品将立刻登上首页,得到很好曝光,为更多用户所阅读和喜欢。而本专题“热门”一栏里,收录着简书上至今为止最炙手可热、获赞数最多的文章,针对这部分数据进行研究和分析,可以得知哪类文章最受简书用户喜欢,哪些作者创作了“高质量”的作品等信息。
二、数据获取
上图可知,目前今日看点收录了148618篇文章, 共有30194人关注。原本想获取所有的文章,但发现爬取到1900+篇时,就再也无法得到更多数据,可能简书方面限制和保护了数据。
但根据这1916篇文章获赞数降序可知,排名第一的文章,获赞数为:17076;排名最后的为488。由此可见,简书上最热门的文章应该都已经获取到了(后来发现其实并没有,仅是部分,脸疼),基于此后续研究可以继续展开。
三、数据可视化
1、年度月份分布情况
首先,我们来看看,截止目前,这些简书上最热门的文章都发布在何年何月?作为一名来到简书一个多月的小透明,一直不知道简书是何时“横空出世”的,@简叔、@简宝玉可否解答下。
由下图可知,最早的热门文章出现于2014年5月,是@CNFeat创作的《如何搭建一个独立博客——简明Github Pages与Hexo教程》一文。(间接知道了简书起码是在三年前就已经存在了)。之后逐年递增,猜测可能是新增用户基数越来越多,平台越来越为人所知,而且作品越来越好?所以热门文章出现的越来越多。从2016年7月起,出现较大涨幅,并持续到2017年3月,每月热门文章均在110篇以上。在今年的4月份起,持续四个月相对回落了许多。这部分不知道原因何在,难道是太热了,大家创作欲望低迷?
2、24小时分布情况
接着看看发布时间情况,11点钟文章最多,觉得蛮奇怪的,作为一只喜欢在晚上发布文章的小透明,原本觉得晚上才是创作的大好时光啊,11点钟已经属于饭点,难道是上午潜心创作,一天之计在于晨,将当天的写作任务早早的完成,一身轻松?再是24小时都有人发布文章并成为热点,可见鸟儿大了,什么林子都有啊。逃......
3、2017年热门文章
看了那么多历史的数据,那么到底今年有哪些热门文章?到底作为一名普通的作者,该如何写出广受好评的文章呢?
筛选下本年度按获赞数降序的文章,如图,简单浏览下标题,发现非常多设问的句式,想诱导人点击阅读,哪能不用“问号”呢!很多作者的经验分享,或者称作“教做人”的文章?而偏技术性的文章几乎没有,当然原因可能很多,个人也有个人的看法。不过对我来说,倒是可以努力写写数据分析和可视化的文章杀进去,占得一席之地。横空出世,石破天惊,一鸣惊人,@Deserts_X,决定就是你了!咱们年末热门文章见!
4、阅读数、喜欢数与评论数
一篇文章的热门程度,直观地体现在喜欢数和评论数里,当然前提是有被大量阅读。如图可知,有一篇文章阅读数远远高于所有的文章,那就是@简叔的《简友常见问题汇总》,作为简书新手向的使用手册,有此数据,也属正常,虽然不知简叔有多少用户,但86w+的阅读量估计是前无古人后无来者了。
再将目光移动到这篇官方文章之外,首先就能看到第二梯度,20w+阅读量的文章也有近十篇,也是非常难以企及的战绩,虽然其中好几篇的获赞数稍显“平庸”,(手动滑稽)。
换个角度,再看一遍。局部放大,看不到那些讨人厌的神级数据后,觉得神清气爽多了,努力努力应该还是有机会跻身其中的。
5、文章作者
有留心上文CSV截图的,可以对这些文章都是谁写的有了初步的了解。对所有作者进行统计,文章数量靠前的每人贡献的情况如下,也是牛逼坏了。
第一名属于简书一哥@彭小六,共收录了106篇文章。看来分析简书数据永远都避不开的一哥。
并列第二名的是@怀左同学和@韩大爷的杂货铺,均收录了41篇文章。
所有799名作者都有一席之地,按照收录文章数直观的贡献情况如下,最左边和最上边即为排名前十几的作者情况:
切换成曲线图,按降序排列,可见有一条贴近横坐标,长长的曲线。大多数人无法贡献热门文章,能贡献的人里大多数也只能有一两篇惊艳之作。
799名作者中有84名为签约作者,共贡献625篇文章。不过不知道简书现在到底有多少名签约作者。单看此数据,热门文章里非签约作者占比也还是蛮大。
其他715名为非签约作者,共贡献1291篇文章:
将这1916篇文章对应的799名作者生成如下词云,假如今日头条想像签走知乎300大V一样来签走简书大V,大概可以参考此图。逃......
单人贡献5篇及以上热门文章的,共有69名作者。
6、文章标题
不知道有多少人觉得简书的文章太过鸡汤,或者不熟悉简书的人,是否直接就认为“简书=鸡汤”?那到底是不是这样的呢,看看热门文章都有哪些大概就能知道一二了。标题的数据上文CSV也有不少了,此处将所有标题直接丢一个在线词云网站,看看都有哪些词出现了:
什么、如何、书、英语、大学、推荐、自己、人、坚持、努力......这些词所形成的语境,可以照见背后点赞的简书用户组成还是偏于年轻。虽然可能伤到一些人,但个人感觉一个不完全知道自己喜欢什么、有什么爱好、对学习和生活都没有好的把控的人,或许更会汲汲于阅读这些文章,当然这可能是每个人成长中必须经历的过程,看这些文章可能也会有收获,对自己有所指导,但是否又有很多人其实只是点个赞、收藏下,该如何的生活依旧如何的生活,下次看到类似的文章,依旧点进去,依旧退出来呢?
上面的词云还是太过简单粗暴,调用玻森NLP的API,获取所有标题的词频排名前100的关键词,返回结果如下:
没有了杂乱无章的文字后,在精简的词云里,更可以看出,出现最频繁的词有:你、干货、写作、英语、推荐、大学、努力、书、读书、人生、坚持、方法......嗯。
四、小结
所有假如你是一名非简书用户,看到这些词云和标题,你觉得简书是否等同于鸡汤呢?又或者,你已经是一名简书用户,日常看到的文章,首页上呈现的文章,对你来说又意味着什么呢?
非引战,欢迎评论,共同探讨想法。
简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化相关推荐
- 网络爬虫---用urllib模块爬取京东笔记本电脑的数据、并对其做一个可视化
用urllib模块爬取京东笔记本电脑的数据.并对其做一个可视化 文章目录 用urllib模块爬取京东笔记本电脑的数据.并对其做一个可视化 一.前言 二.知识要求 三.过程分析 1.观察主页面和每个电脑 ...
- 爬取淘宝手机数据,并进行清洗,并可视化展示
爬取所需环境 selnium安装 Win+R输入cmd敲回车进入到cmd窗口: 输入"pip3 install selenium -i https://pypi.tuna.tsinghua. ...
- python爬取今日头条后台数据_Python爬虫实战入门五:获取JS动态内容—爬取今日头条...
之前我们爬取的网页,多是HTML静态生成的内容,直接从HTML源码中就能找到看到的数据和内容,然而并不是所有的网页都是这样的. 有一些网站的内容由前端的JS动态生成,由于呈现在网页上的内容是由JS生成 ...
- python爬取今日热榜数据到txt文件
今日热榜:https://tophub.today/ 爬取数据及保存格式: 爬取后保存为.txt文件: 部分内容: 源码及注释: import requests from bs4 import Bea ...
- python爬取今日头条后台数据_爬虫爬取今日头条数据代码实现
课程链接 讲师的公众号文章:今日头条数据抓取及持久化(完整代码版,含IP和用户代理)mp.weixin.qq.com 课程代码 抓取并持久化user-agent工具utils.py 对于爬虫工具,需 ...
- 【爬虫修炼和实战】二、从requests开始——爬取喜马拉雅全站音频数据(基础篇)
第二篇为利用爬虫基本的requests库和正则表达式爬取喜马拉雅全站数据. 申明:本文仅做学习用. 多图警告. 目录 一.常用函数和库 二.网站结构分析 首页 https://www.ximalaya ...
- python爬取今日说法 每期数据
实验目的 主要是获取2021年今日说法每期节目主要内容及时间 今日说法的网址为:http://tv.cctv.com/lm/jrsf/index.shtml 当时怎么写的思路有点不太记得了,先把代码贴 ...
- 用Python爬取今日头条,里面的东西统统白送!
近年来今日头条做的可谓是风生水起,自上线以来,围绕内容载体和分发方式两个维度不断丰富,至今已衍生出图文.视频.微头条.专栏.搜索.直播等多种内容形式.根据最新中国联通发布的App大数据排行榜,今日头条 ...
- python爬取小说并下载_python爬取138看书网小说源码
python爬取138看书网小说源码由论坛用户制作并分享,适用于138小说网,能够帮助用户爬取网站获取小说资源,软件提供分类搜索查找的功能,支持目录爬取,还附带书签功能,用户使用这款软件能够更加轻松地 ...
最新文章
- HarmonyOS ScrollView 不滑动的问题
- [Android]《Android艺术开发探索》第一章读书笔记
- 【数据结构作业心得】4-0 二叉树
- 利用OCR文字识别+百度算法搜索,玩转冲顶大会、百万英雄、芝士超人等答题赢奖金游戏
- 编译打包vue_Vue 源码分析( 一 )
- python s d是什意思_python里d是什么意思
- 物联网碰到云计算会怎么样?
- 服务器安装python虚拟环境
- SAP官网学习教程(3) HANA数据库开发
- 计算机无法安装ae,Windows10系统AE软件无法安装如何处理
- CF407C Curious Array
- 我要拿走你的蜡烛 1004
- 【微信小程序】点击图标跳转页面
- 1003 Emergency (25 point(s))
- 为什么TCP服务端需要调用bind函数而客户端通常不需要呢
- 什么是域名?域名详细介绍
- html5渐变的两种方式,HTML5的渐变色 渐变的两种类型 createLinearGradient 
和createRadialGradient...
- Java项目管理系统 的设计与实现
- 慕容垂:百万战骨风云里——激荡的鲜卑史略之二(转载)
- LeetCode 912. 排序数组(Java)