python用户画像_Python爬虫实践之:简书用户画像
作者:简书@浪费了昨天
最近用Python写了一个简书用户的爬虫,单机耗时30小时抓取了简书30万用户的数据(设置了适当的下载延迟,所以耗时较长。当然了,主要是避免简书服务器造成不必要的压力)。简书用户用户量我不知有多少,这30万只是其中相对活跃的一小部分,但个人认为这份数据还是具有一定的代表性。下面就带你们看看这30w用户的情况。
一、简书大V
我是以粉丝量评判简书的大V的。从这30w数据中筛选出粉丝量Top10的用户。
简书top10|center
1.其中彭小六以113463粉丝居第一位,简黛玉以106667粉丝居第二位,简书的CEO简叔以80533粉丝居第三位。后面的大V的粉丝量和这三位还是有一定的差距。2.当然了大V可不止10个,我们来看看拥有10000粉丝的用户是怎样一种存在。万粉户共69人,粉丝在两万左右的大V较多。如下图:
3.彭小六一人生生把这个图撑大了
4.简黛玉平均一个喜欢对应一个粉丝儿,堪称粉丝收割机。想来写的东西必然是高质文章,作为一个只看过几篇首页热门文章的萌新不太了解,等会儿先去关注她,坐等好文推送(#滑稽)。
二、简书高质量大V
话不多说,先看一张图。
文章赞与千字赞.png
1.看见没,右上角的剽悍一只猫每篇文章有653.8个赞,每写1000字就收获534.5个赞,真是剽悍了,我的哥,估计篇篇文章上首页。2.再看看右下角这位阿琴姑娘 ,近550赞/千字,估计写的都是高质量短篇。好吧,去复制她首页的时候发现是写诗的,唉,曾经我也是爱诗的小少年。可惜现在都成粗人一个了……3.简叔就不说啦,开创简书的大佬!4.图中中间偏上部分几位,具有很强悍的实力,应该也是长居首页,且有大批真爱粉。他们的主页| 入江之鲸 | 三顿ppt | 安梳颜 | 十三夜 | Josie乔 | 韩大爷的杂货铺 | 叶上清之宿雨5.左下角的这些分布较密集,处于简书金字塔的第二层。应该也是频繁出现在热门里。将来进阶神级的储备大V!
三、高冷的大V
我以前以为大V都是高冷的,为了证明我是错的,我画了张图(根据粉丝数/关注数画的)
万粉大V高冷度.png
1.尹惟楚、韩大爷的杂货铺、鹿人三千这三位没关注一个人。那么多粉丝,你都不看一眼吗(卖萌脸)。2.纯银V,Josie乔,经典重读只关注了1个人。说吧,和这个人什么关♂系♀??3.彭小六、简黛玉、毒舌电影也仅仅是只关注了寥寥几个人。4.好吧,看来我确实没错,大V确实够高冷(扎心了.jpg)。 当然了,那几块最小的也是关注别人比较多的。比如万分户阿琴姑娘就是个勤奋的姑娘呢,关注了7000多个人。官方号简书也关注了2300多人。常驻首页的刘淼也关注了900多人。
四、码字狂人
在简书写了100万字的用户有15位
简书百万字.jpg
1.毒舌电影这位码字最多330多万字(截止2017/6/9)。330万啊,印成书也要大几本,刚查了下,四大名著加起来也才350万字。可怕,不知道这位佬到底要看多少电影才写出那么多文章。2.又见简黛玉,图中可以看出,码字(以万为单位)多粉丝(图中以百为单位)也多。本来应该把这个数据去除的,因为她把图撑歪了,汗……3.Sting、憨憨故事、鸭梨山大哎、知识分子、志造美、姚超龙、历史的星辰这几位码了很多字,却没有收获多少赞,不知是文章质量不高,还是怀才不遇。不过能码百万字也不容易,我这markdown新手,添加超链接简直要手软。。。
说了那么久,说的都是大V,下面也说简书里的小透明吧。
五、关注狂魔
就不画图了,直接数据库里面截图看看,关注别人最多的前十位用户。
1.临川人名列第一,居然关注了12866人,这位老哥,不知道你的简书时间线会爆炸不。2.桐子树下也关注了一万多人,真是厉害。3.Athena79这位神奇的用户,关注了7000多人,却一个字也没写过。也不是啥也没有,毕竟190个人回粉了嘛,哈哈。
六、用户都拥有多少粉丝
先来统计下,本来我想以十/百/千/万为阶段,然而没想到超过10个粉丝的不到30万用户的10%。只好以零/五/十/百/千/万为阶段了。先用代码统计下:import pymongo
client = pymongo.MongoClient("localhost", 27017)
db = client['JianShu']print('粉丝为0:',db.user.count({'followers_num':0}))print('0<粉丝≤5:',db.user.count({'followers_num':{'$gt':0,'$lte':5}}))print('5<粉丝≤10:',db.user.count({'followers_num':{'$gt':5,'$lte':10}}))print('10<粉丝≤100:',db.user.count({'followers_num':{'$gt':10,'$lte':100}}))print('100<粉丝≤1000:',db.user.count({'followers_num':{'$gt':100,'$lte':1000}}))print('1000<粉丝≤10000:',db.user.count({'followers_num':{'$gt':1000,'$lte':10000}}))print('粉丝>10000:',db.user.count({'followers_num':{'$gt':10000}}))#输出粉丝为0: 1725890<粉丝≤5: 888125<粉丝≤10: 1305210<粉丝≤100: 19928100<粉丝≤1000: 48511000<粉丝≤10000: 699粉丝>10000: 69
1.粉丝为0的有172589人。哈哈哈哈哈哈哈哈哈哈哈哈哈哈,看来0粉的我并不孤独。等我攒一个粉丝就超过了一半以上的人,想想还有点小激动呢,嘿嘿。2.越往上走人越少啊,粉丝超过100的居然只有5000多人了,看来各位简友还需努力。别只看别人写,也动下自己的小手手,分享出你认为有价值的东西,记录生活,记录学习(这特么是对我自己说的么?道理都懂,然而我……!)。3.算了,直接放个大饼,你们看看吧
用户粉丝数.jpg
七、平均数
哈?平均数?又要被平均了?是的,来看看你被平均的有多惨。
1.平均每人有19.27个粉丝2.平均每人关注17.28个人3.平均每人被喜欢43.35次4.平均每人写5082.66字
哈哈,也不是很惨嘛。虽然平均数很低,还是没达到吧,红红火火恍恍惚惚。你们简直太弱,我和彭小六平均粉丝有50000+!
总结
1. 平均每人有19.27个粉丝,平均每人关注17.28个人这里粉丝与关注不对等,没有形成闭环。说明还是数据代表性还不是非常强。(毕竟我只抓了大V的粉丝,没有进行二级用户粉丝抓取)2. 哪还有2???不存在的!反正我又不2!
连分析带写用了近一天(我怎么那么慢?有点怀疑人生),手软,下次再写吧。很久没有写那么多字了,思路可能有些混乱还有不严谨的地方,望各位拍砖指正,谢谢阅读!第一次在简书分享,有点小激动。
爬虫源码:https://github.com/malone6/Jianshu ,欢迎到github给我star
python用户画像_Python爬虫实践之:简书用户画像相关推荐
- 爬虫软件python彻底卸载_Python爬虫实践:如何优雅地删除豆瓣小组的帖子
前言 文章起源于自己的一个需求:想要删除掉自己的若干个小号在豆瓣小组上的发帖及回复记录.这是一件看似简单的事情,但是一遍一遍的重复操作实在让我感到非常绝望,特别是删除自己的回复时,有时候回复的帖子的回 ...
- python 谷歌翻译_python爬虫实践之谷歌翻译
目录 概述 爬取谷歌翻译,根据提供的文字进行翻译. 准备 所需模块 urllib.request execjs:执行JS代码的模块 涉及知识点 python基础 urllib模块基础 运行效果 控制台 ...
- 《用户至上:用户研究方法与实践(原书第2版)》一2.4 理解用户
本节书摘来自华章出版社<用户至上:用户研究方法与实践(原书第2版)>一书中的第2章,第2.4节,作者 Understanding Your Users: A Practical Guide ...
- 《用户至上:用户研究方法与实践(原书第2版)》一2.3 理解产品
本节书摘来自华章出版社<用户至上:用户研究方法与实践(原书第2版)>一书中的第2章,第2.3节,作者 Understanding Your Users: A Practical Guide ...
- 《用户至上:用户研究方法与实践(原书第2版)》一2.1 概述
本节书摘来自华章出版社<用户至上:用户研究方法与实践(原书第2版)>一书中的第2章,第2.1节,作者 Understanding Your Users: A Practical Guide ...
- 《用户至上:用户研究方法与实践(原书第2版)》一 3.4 法律层面的考虑
本节书摘来自华章出版社<用户至上:用户研究方法与实践(原书第2版)>一书中的第3章,第3.4节,作者 Understanding Your Users: A Practical Guide ...
- 批量导出某个简书用户的所有文章列表和文章超链接
简书改版后,根据文章标题搜索文章的功能就不见了. 虽然简书提供了批量下载文章的功能,但是下载到本地的文章都是markdown格式的,不包含文章的链接,这不满足我的需求. 既然我是程序员,没有这个功能我 ...
- 《用户至上:用户研究方法与实践(原书第2版)》一1.1 什么是用户体验
本节书摘来自华章出版社<用户至上:用户研究方法与实践(原书第2版)>一书中的第1章,第1.1节,作者 Understanding Your Users: A Practical Guide ...
- 《用户至上:用户研究方法与实践(原书第2版)》一3.1 概述
本节书摘来自华章出版社<用户至上:用户研究方法与实践(原书第2版)>一书中的第3章,第3.1节,作者 Understanding Your Users: A Practical Guide ...
- python客户画像_Python数据分析学习笔记05:用户画像
Python数据分析学习笔记05:用户画像 一.用户画像 用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而 ...
最新文章
- Turbo C 3.0安装及使用说明
- LiveVideoStackCon 2019北京开幕 成为多媒体技术生态风向标
- 如何低格台式计算机的硬盘,最新[电脑如何格式化]台式机如何格式化本地磁盘.doc...
- 【JSOI2007】【BZOJ1029】建筑抢修(贪心,堆)
- Linux下vi替换字符命令操作实例
- 手机安全修改IMEI的方法
- 2021/8/10 正在F-Droid里下载Termux...
- 关于名为民间借贷实为诈骗案件的讨论
- matlab如何用二分法求函数零点,用二分法求函数的零点及二分法定义
- 高性能服务器天梯,2019服务器CPU天梯图 多路CPU性能排名
- 【学习笔记】C++ 编程规范——101条规则、准则与最佳实践
- 【C++】跟着老九君学习记录(一)
- 一个节拍都不错过——dfuse 2019年第三季度回顾
- KRKR基础篇(二)
- ISO8583接口的详细资料
- webERP的深入浅出系列——1 基础数据准备初始化
- 有刷直流电机工作原理详解
- BZOJ4864[BeiJing 2017 Wc]神秘物质——非旋转treap
- 拉面哥的火爆看新媒体时代的底层逻辑!
- 经典小说 《一个人的朝圣》免费下载 (一次独行,一次心灵的救赎)主要内容及大纲
热门文章
- Auslogics Registry Cleaner v9.2.0.0 注册表清理优化工具
- html音频波纹播放器插件,Wavesurfer.js音频播放器插件的使用教程
- php md5校验工具下载,md5校验工具下载_md5校验工具下载「最新|免费」-太平洋下载中心...
- eNsp——Vlan
- 计算机的显卡控制面板在哪里,nvidia控制面板在哪,详细教您如何进入英伟达控制面板...
- 恒生电子笔试题数据库及算法整理记录
- 数字图像处理-绪论(下)
- NoSQL数据库的五种分类
- 数据库大作业预览-教室管理系统
- 60度斜坡怎么计算_坡度计算公式图解