作者:简书@浪费了昨天

最近用Python写了一个简书用户的爬虫,单机耗时30小时抓取了简书30万用户的数据(设置了适当的下载延迟,所以耗时较长。当然了,主要是避免简书服务器造成不必要的压力)。简书用户用户量我不知有多少,这30万只是其中相对活跃的一小部分,但个人认为这份数据还是具有一定的代表性。下面就带你们看看这30w用户的情况。

一、简书大V

我是以粉丝量评判简书的大V的。从这30w数据中筛选出粉丝量Top10的用户。

简书top10|center

1.其中彭小六以113463粉丝居第一位,简黛玉以106667粉丝居第二位,简书的CEO简叔以80533粉丝居第三位。后面的大V的粉丝量和这三位还是有一定的差距。2.当然了大V可不止10个,我们来看看拥有10000粉丝的用户是怎样一种存在。万粉户共69人,粉丝在两万左右的大V较多。如下图:

3.彭小六一人生生把这个图撑大了

4.简黛玉平均一个喜欢对应一个粉丝儿,堪称粉丝收割机。想来写的东西必然是高质文章,作为一个只看过几篇首页热门文章的萌新不太了解,等会儿先去关注她,坐等好文推送(#滑稽)。

二、简书高质量大V

话不多说,先看一张图。

文章赞与千字赞.png

1.看见没,右上角的剽悍一只猫每篇文章有653.8个赞,每写1000字就收获534.5个赞,真是剽悍了,我的哥,估计篇篇文章上首页。2.再看看右下角这位阿琴姑娘 ,近550赞/千字,估计写的都是高质量短篇。好吧,去复制她首页的时候发现是写诗的,唉,曾经我也是爱诗的小少年。可惜现在都成粗人一个了……3.简叔就不说啦,开创简书的大佬!4.图中中间偏上部分几位,具有很强悍的实力,应该也是长居首页,且有大批真爱粉。他们的主页| 入江之鲸 | 三顿ppt | 安梳颜 | 十三夜 | Josie乔 | 韩大爷的杂货铺 | 叶上清之宿雨5.左下角的这些分布较密集,处于简书金字塔的第二层。应该也是频繁出现在热门里。将来进阶神级的储备大V!

三、高冷的大V

我以前以为大V都是高冷的,为了证明我是错的,我画了张图(根据粉丝数/关注数画的)

万粉大V高冷度.png

1.尹惟楚、韩大爷的杂货铺、鹿人三千这三位没关注一个人。那么多粉丝,你都不看一眼吗(卖萌脸)。2.纯银V,Josie乔,经典重读只关注了1个人。说吧,和这个人什么关♂系♀??3.彭小六、简黛玉、毒舌电影也仅仅是只关注了寥寥几个人。4.好吧,看来我确实没错,大V确实够高冷(扎心了.jpg)。  当然了,那几块最小的也是关注别人比较多的。比如万分户阿琴姑娘就是个勤奋的姑娘呢,关注了7000多个人。官方号简书也关注了2300多人。常驻首页的刘淼也关注了900多人。

四、码字狂人

在简书写了100万字的用户有15位

简书百万字.jpg

1.毒舌电影这位码字最多330多万字(截止2017/6/9)。330万啊,印成书也要大几本,刚查了下,四大名著加起来也才350万字。可怕,不知道这位佬到底要看多少电影才写出那么多文章。2.又见简黛玉,图中可以看出,码字(以万为单位)多粉丝(图中以百为单位)也多。本来应该把这个数据去除的,因为她把图撑歪了,汗……3.Sting、憨憨故事、鸭梨山大哎、知识分子、志造美、姚超龙、历史的星辰这几位码了很多字,却没有收获多少赞,不知是文章质量不高,还是怀才不遇。不过能码百万字也不容易,我这markdown新手,添加超链接简直要手软。。。

说了那么久,说的都是大V,下面也说简书里的小透明吧。

五、关注狂魔

就不画图了,直接数据库里面截图看看,关注别人最多的前十位用户。

1.临川人名列第一,居然关注了12866人,这位老哥,不知道你的简书时间线会爆炸不。2.桐子树下也关注了一万多人,真是厉害。3.Athena79这位神奇的用户,关注了7000多人,却一个字也没写过。也不是啥也没有,毕竟190个人回粉了嘛,哈哈。

六、用户都拥有多少粉丝

先来统计下,本来我想以十/百/千/万为阶段,然而没想到超过10个粉丝的不到30万用户的10%。只好以零/五/十/百/千/万为阶段了。先用代码统计下:import pymongo

client = pymongo.MongoClient("localhost", 27017)

db = client['JianShu']print('粉丝为0:',db.user.count({'followers_num':0}))print('0<粉丝≤5:',db.user.count({'followers_num':{'$gt':0,'$lte':5}}))print('5<粉丝≤10:',db.user.count({'followers_num':{'$gt':5,'$lte':10}}))print('10<粉丝≤100:',db.user.count({'followers_num':{'$gt':10,'$lte':100}}))print('100<粉丝≤1000:',db.user.count({'followers_num':{'$gt':100,'$lte':1000}}))print('1000<粉丝≤10000:',db.user.count({'followers_num':{'$gt':1000,'$lte':10000}}))print('粉丝>10000:',db.user.count({'followers_num':{'$gt':10000}}))#输出粉丝为0: 1725890<粉丝≤5: 888125<粉丝≤10: 1305210<粉丝≤100: 19928100<粉丝≤1000: 48511000<粉丝≤10000: 699粉丝>10000: 69

1.粉丝为0的有172589人。哈哈哈哈哈哈哈哈哈哈哈哈哈哈,看来0粉的我并不孤独。等我攒一个粉丝就超过了一半以上的人,想想还有点小激动呢,嘿嘿。2.越往上走人越少啊,粉丝超过100的居然只有5000多人了,看来各位简友还需努力。别只看别人写,也动下自己的小手手,分享出你认为有价值的东西,记录生活,记录学习(这特么是对我自己说的么?道理都懂,然而我……!)。3.算了,直接放个大饼,你们看看吧

用户粉丝数.jpg

七、平均数

哈?平均数?又要被平均了?是的,来看看你被平均的有多惨。

1.平均每人有19.27个粉丝2.平均每人关注17.28个人3.平均每人被喜欢43.35次4.平均每人写5082.66字

哈哈,也不是很惨嘛。虽然平均数很低,还是没达到吧,红红火火恍恍惚惚。你们简直太弱,我和彭小六平均粉丝有50000+!

总结

1. 平均每人有19.27个粉丝,平均每人关注17.28个人这里粉丝与关注不对等,没有形成闭环。说明还是数据代表性还不是非常强。(毕竟我只抓了大V的粉丝,没有进行二级用户粉丝抓取)2. 哪还有2???不存在的!反正我又不2!

连分析带写用了近一天(我怎么那么慢?有点怀疑人生),手软,下次再写吧。很久没有写那么多字了,思路可能有些混乱还有不严谨的地方,望各位拍砖指正,谢谢阅读!第一次在简书分享,有点小激动。

爬虫源码:https://github.com/malone6/Jianshu ,欢迎到github给我star

python用户画像_Python爬虫实践之:简书用户画像相关推荐

  1. 爬虫软件python彻底卸载_Python爬虫实践:如何优雅地删除豆瓣小组的帖子

    前言 文章起源于自己的一个需求:想要删除掉自己的若干个小号在豆瓣小组上的发帖及回复记录.这是一件看似简单的事情,但是一遍一遍的重复操作实在让我感到非常绝望,特别是删除自己的回复时,有时候回复的帖子的回 ...

  2. python 谷歌翻译_python爬虫实践之谷歌翻译

    目录 概述 爬取谷歌翻译,根据提供的文字进行翻译. 准备 所需模块 urllib.request execjs:执行JS代码的模块 涉及知识点 python基础 urllib模块基础 运行效果 控制台 ...

  3. 《用户至上:用户研究方法与实践(原书第2版)》一2.4 理解用户

    本节书摘来自华章出版社<用户至上:用户研究方法与实践(原书第2版)>一书中的第2章,第2.4节,作者 Understanding Your Users: A Practical Guide ...

  4. 《用户至上:用户研究方法与实践(原书第2版)》一2.3 理解产品

    本节书摘来自华章出版社<用户至上:用户研究方法与实践(原书第2版)>一书中的第2章,第2.3节,作者 Understanding Your Users: A Practical Guide ...

  5. 《用户至上:用户研究方法与实践(原书第2版)》一2.1 概述

    本节书摘来自华章出版社<用户至上:用户研究方法与实践(原书第2版)>一书中的第2章,第2.1节,作者 Understanding Your Users: A Practical Guide ...

  6. 《用户至上:用户研究方法与实践(原书第2版)》一 3.4 法律层面的考虑

    本节书摘来自华章出版社<用户至上:用户研究方法与实践(原书第2版)>一书中的第3章,第3.4节,作者 Understanding Your Users: A Practical Guide ...

  7. 批量导出某个简书用户的所有文章列表和文章超链接

    简书改版后,根据文章标题搜索文章的功能就不见了. 虽然简书提供了批量下载文章的功能,但是下载到本地的文章都是markdown格式的,不包含文章的链接,这不满足我的需求. 既然我是程序员,没有这个功能我 ...

  8. 《用户至上:用户研究方法与实践(原书第2版)》一1.1 什么是用户体验

    本节书摘来自华章出版社<用户至上:用户研究方法与实践(原书第2版)>一书中的第1章,第1.1节,作者 Understanding Your Users: A Practical Guide ...

  9. 《用户至上:用户研究方法与实践(原书第2版)》一3.1 概述

    本节书摘来自华章出版社<用户至上:用户研究方法与实践(原书第2版)>一书中的第3章,第3.1节,作者 Understanding Your Users: A Practical Guide ...

  10. python客户画像_Python数据分析学习笔记05:用户画像

    Python数据分析学习笔记05:用户画像 一.用户画像 用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而 ...

最新文章

  1. Turbo C 3.0安装及使用说明
  2. LiveVideoStackCon 2019北京开幕 成为多媒体技术生态风向标
  3. 如何低格台式计算机的硬盘,最新[电脑如何格式化]台式机如何格式化本地磁盘.doc...
  4. 【JSOI2007】【BZOJ1029】建筑抢修(贪心,堆)
  5. Linux下vi替换字符命令操作实例
  6. 手机安全修改IMEI的方法
  7. 2021/8/10 正在F-Droid里下载Termux...
  8. 关于名为民间借贷实为诈骗案件的讨论
  9. matlab如何用二分法求函数零点,用二分法求函数的零点及二分法定义
  10. 高性能服务器天梯,2019服务器CPU天梯图 多路CPU性能排名
  11. 【学习笔记】C++ 编程规范——101条规则、准则与最佳实践
  12. 【C++】跟着老九君学习记录(一)
  13. 一个节拍都不错过——dfuse 2019年第三季度回顾
  14. KRKR基础篇(二)
  15. ISO8583接口的详细资料
  16. webERP的深入浅出系列——1 基础数据准备初始化
  17. 有刷直流电机工作原理详解
  18. BZOJ4864[BeiJing 2017 Wc]神秘物质——非旋转treap
  19. 拉面哥的火爆看新媒体时代的底层逻辑!
  20. 经典小说 《一个人的朝圣》免费下载 (一次独行,一次心灵的救赎)主要内容及大纲

热门文章

  1. Auslogics Registry Cleaner v9.2.0.0 注册表清理优化工具
  2. html音频波纹播放器插件,Wavesurfer.js音频播放器插件的使用教程
  3. php md5校验工具下载,md5校验工具下载_md5校验工具下载「最新|免费」-太平洋下载中心...
  4. eNsp——Vlan
  5. 计算机的显卡控制面板在哪里,nvidia控制面板在哪,详细教您如何进入英伟达控制面板...
  6. 恒生电子笔试题数据库及算法整理记录
  7. 数字图像处理-绪论(下)
  8. NoSQL数据库的五种分类
  9. 数据库大作业预览-教室管理系统
  10. 60度斜坡怎么计算_坡度计算公式图解