一、前言

自处女作《爬取张佳玮138w+知乎关注者:数据可视化》一文分布后,来简书快一个月了(20170831)。但一直不怎么熟悉这个平台,因此,这回爬取简书app里的推荐作者并进行简单可视化,以增进对简书的了解。

二、爬取简书app

爬取简书app的过程此文不做过多展开。大致过程如下:

用fiddler软件抓包手机上的简书app数据。找到API,看到返回的JSON数据,格式齐整:

把JSON数据复制到Chrome浏览器的JSON-handle插件里,方便查看格式和后续爬虫里写提取信息:(很少看到有人提到这个插件,也是蛮奇怪的)

写好爬虫代码,爬取数据并存入CSV文件里,发现一共230名推荐作者。但由于部分数据乱码,也是很奇怪,以前爬知乎和微博,也是找API从JSON里提取数据,并不会有一部分出现乱码。无可奈何,只能对应的补救下。由于数据里不包含粉丝数等信息,需要再根据每个推荐作者的ID,到各自主页爬取数据,整合后格式如下

三、数据可视化

3.1 推荐作者

爬完数据后,开始检验成果,进行可视化,先将230名推荐作者“丢到”词云里,直观地看看都有哪些人:

但没有以粉丝数为权重,所以看不出V大V小,于是再丢一遍:

可以看出推荐作者里粉丝数前十的大V有:简黛玉、刘淼、彭小六、江昭和、简书播客、简叔、韩大爷的杂货铺、Sir电影、饱醉豚、冷眼观史。此外发现“简书”系的还有简宝玉、简书出版、简书茶馆BossYe、简书活动精选、简书牧心、简书福利社社长简东西、简书大学堂.....

怎么可以这样,安插这么多官方(大概都是官方的吧,未考证)的账号,应该把更多位置给其他优秀作者嘛,比如有个非常有才华的作者,叫做@Deserts_X,他略施魔法就使Top 100的推荐作者们动了起来,并且顺带骗走了你8M的流量,这么厉害,还不关注一发

当然一直看这些作者的昵称其实还是不知道谁是谁,子曾经曰过:“无图无真相”,那么把所有作者的头像拼个图来看看,发现人像比重非常大啊,看来想成为推荐作者,必须要把头像换成帅气的自己才行,不说了,要去换头像了,不对,要去整容了,再见

3.2 粉丝数之长尾效应

接着按照推荐作者各自的粉丝数降序排列,可见曲线情况非常类似著名的“长尾效应”。当然右侧尾部并不是无限长的,也不算完全符合。

上图可知,所有粉丝共计3975524人次,如果选取粉丝数排名前30的作者,可知其粉丝数已经接近总粉丝数的一半,马太效应明显(是这么用的嘛,有点怕误人子弟)。

3.3 贡献情况

看完了上面的图,我们不禁发问,这些作者凭什么成为大V,成为推荐作者的呢。因此继续看看他们发布的文章数和写作的总字数情况:

文章数直接几百上千,总字数更是百万级别。百万级别是个什么概念的,谷歌了下《论语》约1.6w字,《老子》约5k+字数。除一下,推荐作者高产似那啥,创作了大概好多好多部《论语》《老子》的内容,由此可见,名副其实,当之无愧的推荐作者呀。回头看了下我的总字数,差不多也有一本《论语》加一本《老子》的字数了,23333。

继续给上图加上粉丝数(圆圈颜色)和获赞数(圆圈大小)

可见虽然@Sir电影以一己之力将图表大小扩大到了Plus款,但敌不过@彭小六才是当之无愧的“吸赞狂魔”啊,394篇文章,621858字数,219218赞数。就问你怕不怕。

按赞数降序可知,其他作者的排序如下,看来要好好研究下,怎么写出“人见人爱,花见花开”的文章呢!不说了整容的路上好好看他们的文章。

3.4 签约作者

再来看看推荐作者里签约作者的比重。在230名推荐作者里,共有75人身兼签约作者之头衔,另外155人暂时无此头衔。再把这75人丢到词云里(重要的作者丢三遍):

愣着干嘛,顶礼膜拜,高呼“苟......”,有点暴力......

四、小结

没有小结,只有写文后的高兴,和不知道有没有人看的迷惑。评论里见。

简书推荐作者风云榜(爬取简书app数据)相关推荐

  1. 在当当买了python怎么下载源代码-Python爬取当当网APP数据

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于AirPython ,作者星安果 目标 场景:有时候通过传统的方法去 ...

  2. Python爬取当当网APP数据

    目标 场景:有时候通过传统的方法去爬一些 Web 网页或者 APP,受限于对方的反爬方案,很难爬到想要的数据,这个时候可以考虑使用「Appium」结合「mitmproxy」的方式去爬取数据. 其中,A ...

  3. Scrapy 爬取七麦 app数据排行榜

    目录 前言 创建项目 创建Item 创建Spider 解析付费榜 运行爬取初始app列表 Selenium调用JS脚本 获取app详情 前言 熟悉Scrapy之后,本篇文章带大家爬取七麦数据(http ...

  4. 使用Appium爬取淘宝App数据

    0x01.介绍说明 1.简介 Appium是一个自动化测试开源工具.通过WebDriver协议驱动IOS.Android.Windows Phone平台上的原生应用.混合应用和web应用. 2.App ...

  5. 简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化

    一.前言 最近写得两篇关于简书的数据可视化文章:<简书推荐作者风云榜(爬取简书app数据)>.<我的简书一月记:数据可视化>反响都还不错,因而将继续针对简书进行数据分析和可视化 ...

  6. 简书python_使用 Python 爬取简书网的所有文章

    01 抓取目标 我们要爬取的目标是「 简书网 」. 打开简书网的首页,随手点击一篇文章进入到详情页面. 我们要爬取的数据有:作者.头像.发布时间.文章 ID 以及文章内容. 02 准备工作 在编写爬虫 ...

  7. Node爬取简书首页文章

    Node爬取简书首页文章 博主刚学node,打算写个爬虫练练手,这次的爬虫目标是简书的首页文章 流程分析 使用superagent发送http请求到服务端,获取HTML文本 用cheerio解析获得的 ...

  8. python 简书_python爬取简书网文章的方法

    python爬取简书网文章的方法 发布时间:2020-06-30 14:37:08 来源:亿速云 阅读:100 作者:清晨 这篇文章主要介绍python爬取简书网文章的方法,文中示例代码介绍的非常详细 ...

  9. 基于python爬虫的论文标题_Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】...

    本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法.分享给大家供大家参考,具体如下: from urllib import request from bs4 import Beaut ...

最新文章

  1. 公司用的 MySQL 团队开发规范
  2. R语言大会:宏基因组数据分析和可视化套路总结
  3. 根据痛点分析制作软件
  4. 信息系统项目管理师-成本管理知识点
  5. php生成gz文件,如何使用PHP创建.gz文件?
  6. Mule ESB 3.3与CloudHub
  7. 【LeetCode - 32】最长有效括号
  8. mysql opendrowset,java,mysql、jdbc
  9. Axure RP 使用基础教程
  10. java语言基础之关键字1(public、protested、private、static)
  11. 解析美团联盟,美团分销联盟,美团福利宝,外卖美天赚区别和玩法
  12. VCS/Questa SIM 使用流程及Makefile
  13. O0 O1 O2 O3优化原理
  14. Locality Sensitive Hashing ( LSH,局部敏感哈希 ) 详解
  15. Java 科学计数法
  16. css:使用div绘制一条竖线
  17. AppNinja 开发手记4: dmg kernelcache解密命令
  18. st7735s SPI驱动显示图标
  19. 热血足球联盟 金手指
  20. MS08-067漏洞简谈与利用

热门文章

  1. APP界面设计必备,常用字体规范
  2. 编辑距离算法(LD)详解
  3. gitlab 上传和下载
  4. Android Studio下载gitLab项目
  5. [Wi-Fi抓包篇]1. Omnipeek——抓包前准备工作
  6. C语言食堂菜谱管理系统
  7. 基于开源IM即时通讯框架MobileIMSDK:RainbowChat v8.3版已发布
  8. 取数字的个位数十位数百位数等
  9. 腾讯云Windows Server 2012 R2安装wamp2.5提示缺少msvcr100.dll文件的解决方案
  10. 数学分析教程(科大)——2.2笔记+习题