Python数据分析系列之——王一博微博转发量分析
首先说明一下本人不是王一博粉丝,也不讨厌王一博,只是最近在学习python数据分析,就随便找了一条微博转发量来分析一下,只是刚好抽中了王一博哈~
但是有些时候的确令人疑惑,为什么wyb随随便便发一条微博(不管是推广还是自拍)都可以有一百万加的转发量,这有点强哈~~~所以今天我们就选一条微博爬取其转发用户数据分析一下。
本人本着客观的态度分析,如果不正确的地方欢迎批评指正。
文章目录
- 1 数据说明
- 2 粉丝结构初步分析
- 2.1 是否存在水军转发现象?
- 2.2 实际参与的粉丝统计
- 3 粉丝画像
- 最后的话
1 数据说明
- 数据源:王一博12月9日发的微博,截图时间为12月12日晚。即短短三天时间王一博发的一条广告转发量就达到了91.7万。本文爬取该微博的转发用户及其转发文案进行分析。
- 数据获取方法:浏览器抓包+python利用scrapy框架爬虫,获取过去24小时左右的转发数据。
说明:浏览器抓包得到的json数据是以时间倒序排列的,如“刚刚”、“1分钟前”、“5分钟前”……这样的数据排列方式导致抓取时间较早的数据比较困难。比如理论上91万条用户转发数据应该有9万多个page(一个page一般有9到10个数据),但是当我们page参数填入80000的时候会以极大几率返回空白信息。经本人多次验证,page小于19999的时候大几率能够获得有效信息,而19999page的时间大致为24小时,即12月11日晚上到12月12日晚上之间产生的数据。 - 数据获取时间:12月12日晚上开始爬取。
- 样本数量:30632(在过去24小时内产生的数据中随机抽取30632个作为样本,随机的方式为爬虫的时候是将page打乱进行爬取的)
- 数据结构初步浏览:
在进行数据清洗后,保留以下有用字段用于后续进行数据分析:
关于每个字段的含义,这里不详述(以后本人再写一篇关于微博字段的文章说明吧)
2 粉丝结构初步分析
首先提出两个问题:
- 91.7万的巨大转发量是否存在雇佣水军转发的嫌疑?
- 是否有粉丝多次重复转发以及重复转发占比量多少?
2.1 是否存在水军转发现象?
判断是否有水军,只能通过假设检验的方式(反证法),即先提出一个假设,再寻找特征来反驳这个假设,若无法拒绝假设,只能说明这个命题无法证明。。
在这里,我们可以假设没有水军,没有水军的情况下数据表现出来的特征是:
- 男女比例符合常理(女生粉丝比男生多)
- 转发源差异不会特别大
- 转发文案中没有重复率较高且不太正常的文案(如一些与王一博毫无关联的诗句等等)
因此若数据有以下特征之一,可以判断为有水军参与转发的嫌疑:
- 男女比例不协调
- 转发设备比例差异较大
- 转发文案有奇怪的特点
我们先来看一下3万转发量中的性别比例分布(如下图),女生数量为21657,男生数量为8975。女生偏多,符合我们一般的认知。
再看看3万转发量的转发源统计(如下图)。iPhone客户端使用率是最高的,令人惊讶的是微博国际版(微博国际版使用率已经这么高了吗???),而且竟然很多是通过微博小程序转发的。。。噢大家都不下载APP了嘛???
我们再粗略看一下转发文案的粗略统计(如下图),图中文案后面的数字代表出现的该文案再3万条转发数据中出现的次数。可见“转发微博”出现次数最多4108次,因为这是微博默认转发文案,(是否可以说明刷流量或做数据的成分较大。。。)。从这个粗略统计中还可以看出有某些号的再转发量较大,比如有很多转发都是源于@王一博数据组、@一笑给伯伯搓澡、@王一博专属bot等等号,进一步显示3万多转发量中粉丝做数据的成分较大。且在转发文案统计中没有看到奇奇怪怪的文案。
目前来看,数据呈现的特点都没有太离谱,所以直观上不能判断粉丝是否掺假,我们不妨给假粉丝一个更加明确的定义。
- 假粉丝定义:(关注数<=5 || 粉丝数量<=5) && 个人描述为空 &&评论数为0 && 点赞数为0 && 转发数为0 )
- 由于目前微博取消了账户等级,因此判断条件中不加入账户等级限制。
从结果看,3万多条转发中只有1204条转发是来自于嫌疑用户转发的。我们在把1204条转发数据从账号的角度统计以下(如下图)发现有些账号转发了八九十次。本人特意去微博搜索了前三个账号,发现他们都是关注1、粉丝500+,微博全都是转发王一博的微博且一条微博转发几十遍,看起来像是粉丝为了打榜而开的小号。
看看排名第一的账号明细,几乎每个小时都在转发,只能说疯狂。。。
综合上述的男女比例分布、转发源、转发文案这三个特征,数据呈现出的结果都处于合理的和可接受范围内,因此并不能拒绝“转发量数据中没有水军参与”这个假设,即根据目前数据我们无法证明该转发量是水军伪造,只能稍微看出多多少少有些粉丝做数据的嫌疑(即粉丝为了提高转发量多次转发同一条微博)
注意:“粉丝多次转发”与“有水军”是两个概念。水军一般指的是通过一定钱购买的大量陌生用户转发微博以营造广泛传播的假象,而且这些转发使用的账号一般有很多是低级别的僵尸号
但是这就引出另一个问题了:三万多的转发量中有多少是粉丝为了打榜刷流量而重复转发的呢?
2.2 实际参与的粉丝统计
既然粉丝可以多次转发同一条微博,那么参与这3万次转发的实际粉丝数量是多少呢?我们将3万多数据的用户id去重并统计出现次数,结果如下:
可见有很多重复转发的,实际参与转发的账号只有5125个(包括大号和消耗),这么说,少于或等于5125个粉丝创造了三万多的转发量。因此实际上最多只有五千多位粉丝在转发并不是三万多粉丝转发,信息的实际传播量仅仅是数据显示的1/6
根据账号转发次数计算频数,得到下面的频数图,从图中可以看出,超过三千的账号只转发了微博一次,有500多账号转发微博两次,大致两百多用户转发微博三次。剩下接近两千的粉丝转发几十次到一百次,硬生生地拉高了平均转发量~
画一个饼状图可以更加直观地观察结果,如下图所示:
3 粉丝画像
说实话,现在得到的结果是我没有预想到的。。。本以为可以得到结论是一堆假粉或水军转发,没想到真正的结论是没看到明显的水军,是有某些疯狂的粉丝实在是太努力刷流量。那我们干脆就用尝试利用这五千多个粉丝做一个粉丝画像分析吧~
先看看参与转发的账户的真正男女比例结构(如下图),总共5125个账号,女生4074个,占比约80%:
统计这五千多个账号的转发源,发现有17.9%都是从明星实力榜转发的,进一步验证了疯狂的粉丝为了打榜多次转发微博的结论。
那么同样是王一博的粉丝,他们的微博昵称会不会有共同特征呢?我们可以使用分词+词云图看一下:
这个词云图。。。真的一看就知道来自于王一博粉丝。粉丝的微博账户名称中使用率最多的几个词是“王一博”、“85”、“甜甜”、“百里”、“摩托”、“酷盖”等等。“85”这个数字我之前一直想不懂跟王一博有什么关系,查了一下才知道原来王一博生日是0805,所以词云中也包含了0805、9785、970805这些关键词。
看一下他们微博账号写的简介“王一博”这个关键词占了绝大多数,然后是跟王一博相关联的词语“平安”“喜乐”“唯粉”等等。还有不少的正面积极词语,例如“努力”、“守护”、“加油”、“不负”等等,看得出来王一博给粉丝的正面影响还是挺大的。
我们再关注一下粉丝的其他基本数据,计算得出这五千多个粉丝的平均粉丝数为581,平均关注量为274.
对他们的主页背景统计一下,发现除了微博的默认背景外,其他几乎都是使用王一博相关的图作为背景:
其中下面这张是使用最多的(75频次)
最后的话
王一博微博转发量分析就到这啦。总的来看,王一博给粉丝的能量还是挺积极的,有个别粉丝为了给王一博刷流量比较疯狂,但整体上看还好。
初学Python数据分析,而且这是本人第一次写这种类型的分析文章,有不对的地方欢迎批评指正,也欢迎留言讨论,谢谢大家阅读~
喜欢的点个赞呗~
想要博主写其他内容也可以留言哦~
附上分析数据以及jupyter文件:
链接:https://pan.baidu.com/s/11fxvvipmWTIkY2DSThGSyg
提取码:r36r
Python数据分析系列之——王一博微博转发量分析相关推荐
- Python数据分析系列之——王一博微博转发量分析1 数据说明2 粉丝结构初步分析3 粉丝画像最后的话
首先说明一下本人不是王一博粉丝,也不讨厌王一博,只是最近在学习python数据分析,就随便找了一条微博转发量来分析一下,只是刚好抽中了王一博哈~ 但是有些时候的确令人疑惑,为什么wyb随随便便发一条微 ...
- Python数据分析系列(2)——美国纽约皇后区空气质量分析
感谢关注天善智能,走好数据之路↑↑↑ 欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 天善智能社区地址:https://www. ...
- Python数据分析系列(1)——葡萄酒评分
感谢关注天善智能,走好数据之路↑↑↑ 欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 天善智能社区地址:https://www. ...
- 这款App被端了!曾是蔡徐坤一亿微博转发量的幕后推手 半年吸金800万
今天一早微博热搜就被一款App被查的话题牢牢占据,这一消息如此吸引眼球,也是因为扯上了流量明星. 星援App被查封的消息引发热议,被一同挖出来的还有它曾经制造"蔡徐坤一亿微博转发量" ...
- 为何蔡徐坤每条微博转发量100万+?用大数据扒一扒他的真假流量粉
前段时间央视新闻公开披露流量明星数据造假.作为一名数据猿,我们秉着好奇心点开了NBA新春贺岁形象大使蔡徐坤的微博,发现他的微博转发量除了最新一条之外,其它的基本每条都是转发100万+. 在我们的印象中 ...
- python数据分析系列教程——Pandas全解
分享一个朋友的人工智能教程.零基础!通俗易懂!风趣幽默!还带黄段子!大家可以看看是否对自己有帮助:点击打开 起步 Pandas最初被作为金融数据分析工具而开发出来,因此 pandas 为时间序列分析提 ...
- python高频词_python几万条微博高频词分析
python几万条微博高频词分析 看到别人有做影视热评的分析统计,觉得挺好玩的,就来试试 看看效果 Screenshot_2018-05-21-11-00-42-879_com.master.wei. ...
- python数据分析:会员数据化运营(中)——RMF分析
何为RFM模型分析 RFM模型是衡量客户价值和客户创利能力的重要工具和手段.在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的.该机械模型通过一个客户的近期购买行为.购买的总体频率以 ...
- Python数据分析_第06课:数据清洗与初步分析_笔记
文章目录 缺失值处理--拉格朗日插值法 dataframe合并 索引上的合并 轴向连接 合并重叠数据 重塑层次化索引 长宽格式的转换 移除重复数据 利用函数或映射进行数据转换 数据标准化 最小-最大规 ...
最新文章
- javascript中实例方法与类方法的区别
- linux重命名的命令行操作,Linux rename命令批量重命名的方法
- java list翻转_JAVA实现两种方法反转单列表
- android studio panic,Android Studio模拟器PANIC错误
- c++ 返回智能指针_C++核心指南(17) I.11 禁止使用指针(T*)或引用(T)来转移所有权...
- vue-cli4.0+Echarts 3D
- 对称加密之AES算法的python实现
- 【TSP】基于matlab GUI粒子群算法求解旅行商问题【含Matlab源码 1334期】
- Qt + 运动控制 (固高运动控制卡)【2】运动控制卡初始化和关闭
- DEA模型及matlab应用2:超效率SE-DEA模型
- macbook系统占用硬盘大_Mac系统文件过大——如何清理Mac系统空间?
- 《RISC-V架构与嵌入式开发快速入门_胡振波著》学习笔记
- HTML中长度和颜色的单位分别有哪些?
- poi 5.2.2 操作word合集之【页眉页脚】
- Win11磁盘清理怎么没有了?Win11磁盘清理在哪打开?
- php——三篇夯实根基第三篇
- 东莞地铁1号线黄江北站主体结构全面封顶
- nginx解决浏览器跨域问题_Nginx 反向代理解决浏览器跨域问题
- 服务器的结构可以选择1u2u3u1u是什么意思
- JDK动态代理用例及源码解析
热门文章
- 上海交通大学python实验七答案_20192310 实验八《数据结构与面向对象程序设计》实验报告...
- 可观测性-Metrics-存储-InfluxDb连续查询(CQ)Continuous Queries
- 计算机中存在旧版本的mf驱动程序,mf驱动程序安装指南.pdf
- 如何从Mac电脑的时间机器中查看恢复特定文件夹备份?
- 新网科普:网站备案成功后,为什么还会被注销?
- excel与云mysql连接数据库_小程序读取excel表格数据,并存储到云数据库
- 电子技术基础(三)__电路分析基础之重点__叠加原理
- 干掉保险丝和继电器,自动驾驶才能更安全
- 淘宝卖家如何申请开通电子面单
- vue+element下拉框实现二级联动