简书推荐作者风云榜（爬取简书app数据）

一、前言

自处女作《爬取张佳玮138w+知乎关注者：数据可视化》一文分布后，来简书快一个月了（20170831）。但一直不怎么熟悉这个平台，因此，这回爬取简书app里的推荐作者并进行简单可视化，以增进对简书的了解。

二、爬取简书app

爬取简书app的过程此文不做过多展开。大致过程如下：

用fiddler软件抓包手机上的简书app数据。找到API，看到返回的JSON数据，格式齐整：

把JSON数据复制到Chrome浏览器的JSON-handle插件里，方便查看格式和后续爬虫里写提取信息：（很少看到有人提到这个插件，也是蛮奇怪的）

写好爬虫代码，爬取数据并存入CSV文件里，发现一共230名推荐作者。但由于部分数据乱码，也是很奇怪，以前爬知乎和微博，也是找API从JSON里提取数据，并不会有一部分出现乱码。无可奈何，只能对应的补救下。由于数据里不包含粉丝数等信息，需要再根据每个推荐作者的ID，到各自主页爬取数据，整合后格式如下：

三、数据可视化

3.1 推荐作者

爬完数据后，开始检验成果，进行可视化，先将230名推荐作者“丢到”词云里，直观地看看都有哪些人：

但没有以粉丝数为权重，所以看不出V大V小，于是再丢一遍：

可以看出推荐作者里粉丝数前十的大V有：简黛玉、刘淼、彭小六、江昭和、简书播客、简叔、韩大爷的杂货铺、Sir电影、饱醉豚、冷眼观史。此外发现“简书”系的还有简宝玉、简书出版、简书茶馆BossYe、简书活动精选、简书牧心、简书福利社社长简东西、简书大学堂.....

怎么可以这样，安插这么多官方（大概都是官方的吧，未考证）的账号，应该把更多位置给其他优秀作者嘛，比如有个非常有才华的作者，叫做@Deserts_X，他略施魔法就使Top 100的推荐作者们动了起来，并且顺带骗走了你8M的流量，这么厉害，还不关注一发：

当然一直看这些作者的昵称其实还是不知道谁是谁，子曾经曰过：“无图无真相”，那么把所有作者的头像拼个图来看看，发现人像比重非常大啊，看来想成为推荐作者，必须要把头像换成帅气的自己才行，不说了，要去换头像了，不对，要去整容了，再见：

3.2 粉丝数之长尾效应

接着按照推荐作者各自的粉丝数降序排列，可见曲线情况非常类似著名的“长尾效应”。当然右侧尾部并不是无限长的，也不算完全符合。

上图可知，所有粉丝共计3975524人次，如果选取粉丝数排名前30的作者，可知其粉丝数已经接近总粉丝数的一半，马太效应明显（是这么用的嘛，有点怕误人子弟）。

3.3 贡献情况

看完了上面的图，我们不禁发问，这些作者凭什么成为大V，成为推荐作者的呢。因此继续看看他们发布的文章数和写作的总字数情况：

文章数直接几百上千，总字数更是百万级别。百万级别是个什么概念的，谷歌了下《论语》约1.6w字，《老子》约5k+字数。除一下，推荐作者高产似那啥，创作了大概好多好多部《论语》《老子》的内容，由此可见，名副其实，当之无愧的推荐作者呀。回头看了下我的总字数，差不多也有一本《论语》加一本《老子》的字数了，23333。

继续给上图加上粉丝数（圆圈颜色）和获赞数（圆圈大小）：

可见虽然@Sir电影以一己之力将图表大小扩大到了Plus款，但敌不过@彭小六才是当之无愧的“吸赞狂魔”啊，394篇文章，621858字数，219218赞数。就问你怕不怕。

按赞数降序可知，其他作者的排序如下，看来要好好研究下，怎么写出“人见人爱，花见花开”的文章呢！不说了整容的路上好好看他们的文章。

3.4 签约作者

再来看看推荐作者里签约作者的比重。在230名推荐作者里，共有75人身兼签约作者之头衔，另外155人暂时无此头衔。再把这75人丢到词云里（重要的作者丢三遍）：

愣着干嘛，顶礼膜拜，高呼“苟......”，有点暴力......

四、小结

没有小结，只有写文后的高兴，和不知道有没有人看的迷惑。评论里见。