本文作者| AlfredWu,36大数据已获得授权。

前段时间央视新闻公开披露流量明星数据造假。作为一名数据猿,我们秉着好奇心点开了NBA新春贺岁形象大使蔡徐坤的微博,发现他的微博转发量除了最新一条之外,其它的基本每条都是转发100万+。

在我们的印象中,转发100万+可是某些明星官宣结婚、或者某些明星吸毒出轨被爆等能让微博服务器奔溃的流量呀。蔡徐坤真的那么火吗?他的100万+转发里到底是否存在假流量?假流量所占比重有多少呢?

为了解答这个问题,我们通过微博移动端随机抓取了蔡徐坤最新一条微博《再见,“任性的”千千…》的10万条转发数据(时间节点2019年3月11日10时)。这条讲诉蔡徐坤关爱小动物的短视频微博,于2019年3月9日01:23发布,到2019年3月10日18:00的时候已经被转发100万+。

数据的维度包括转发者的相关信息(昵称、性别、关注者数量和被关注者数量等)以及转发时的评论等。

一、蔡徐坤的微博转发是否存在假流量?

解答这个问题之前,我们其实对于蔡徐坤的粉丝性别比例更加感兴趣。按理来说应该他的女粉丝所占比例应该更大,但是我们统计了102313条转发数据中,有93618条是男粉丝转发的,只有8695条是女粉丝转发的。

这不对呀,难道更多的男生喜欢蔡徐坤吗?而且这比例也太悬殊了一点吧?于是我们随机抽取了男生转发的数据,发现这些转发的男粉丝基本上都是关注0,粉丝1的用户。

我们合理地推测:这些流量就是所谓的假流量。

那假流量所占的比例有多少呢?在这随机抓取的10万条转发数据中,有多少是假的流量呢?

二、真假流量所占的比例各有多少?

通过一番探索分析,我们把转发数据中转发者的关注或者粉丝数少于等于5、没有简介、转发之后被点赞数评论数再转发数都为0、微博会员等级为0级的数据,以及转发者的关注或者粉丝数大于等于5但昵称长“用户XXXXXXXX”这样的数据抽取了出来。

这部分数据,便是我们所说的假流量。

可见,102313条转发数据中,有95397条是由假粉丝转发的,占了总转发的93.24%,只有6916条是由真粉丝转发的,占6.76%。原来假流量占的比重那么高啊!

那么6919条真粉丝转发的数据中,除去重复转发刷榜的数量,里面一共有多少个真粉丝在转发呢?我们把这部分数据按照粉丝微博ID进行去重。发现这里面只有3926个真粉丝在转发,也就是说,真实转发的粉丝数量,占总转发量的3.84%。

按照这个比例,可以推算出100万的转发中,真实转发的粉丝数为3.84万,说明蔡徐坤的粉丝群和影响力还是很大的,但远没有微博显示的全是100万+转发量那么大。

你可能会说:我们自己的微博,平时也有一些假粉丝在转发呀。为了进行对比,我们还抓取了最近活跃在《歌手》舞台的吴青峰叔叔(粉丝数1377万)最新的一条微博转发数据10006条(时间节点2019年3月11日10时)。

我们把这些数据按照跟上面一样的步骤提取出真假粉丝转发量,发现只有很少比例的假粉丝量,绝大部分都是真粉丝转发的。

并且,在9658条真粉丝转发数据中,真粉丝量也高达9318,说明不存在粉丝打榜的情况。跟蔡徐坤的数据相比,可以发现有明显的不同。

三、假流量粉丝是如何生产出来的?

在高达93.24%的假转发量中,这些假粉丝都是如何生产出来的呢?有什么共同的行为特征呢?我们先给假粉丝进行了用户画像。

可见95397条假转发中,有40838个假粉丝。其中男性的比例高达95.42%!

我们把转发中所携带的评论进行计数,看看假粉丝在转发的时候都喜欢说什么,却发现了一些更有趣的事。

很多假粉丝去转发微博用户“蔡徐坤的南岸末阴大小姐”和“超超超超爱蔡蔡的思思”的微博(大家千万不要去攻击他们哈),我们搜索了一下这两个人,发现她们的粉丝量只有一两百人,转载的全是蔡徐坤的微博,并且很多微博再转发量为0,却有少数的微博再转发量高达好几千!

这,估计就是自己花钱为偶像买流量的粉丝。

另外,我们发现很多假流量粉在转发的时候喜欢携带英文评论。搜索了一下发现,这些英文评论,要么是英文歌词、要么是美剧台词、要么是泰戈尔或者聂鲁达的诗句。

在假粉丝使用的Top10转发设备中,Android高居榜首,这也再次证明了这些粉丝是假粉丝。

另外还有一些有趣的发现:假粉丝的平均关注是3.44,平均粉丝数是1.04,没有简介,昵称基本上都是“中文+英文和数字”这个格式,很多假粉丝的昵称都带有“坤”、“蔡”、“葵”、“kun”等字,头像都是蔡徐坤(说明很多都是定制粉啊)。

四、真流量粉的粉丝画像

先来看看真粉丝的性别比例。可见3926个真粉丝中,女生占了绝大部分,这才是符合逻辑的粉丝比例嘛。

在这些粉丝转发所携带的评论中可以看到,很多都是支持蔡徐坤拿下#明星势力榜#或者#东方风云榜#第一名而转发的。

真粉丝所使用的转发设备,各种设备分布都比较均匀,最受欢迎的是iPhone客户端。

真粉丝的平均关注量为222,平均粉丝数是179,同样,很多粉丝名字中喜欢带有“坤”、“蔡”、“葵”、“kun”等字。

我们把真粉丝的简介做成了词云图。

可见,真粉丝们的简介都喜欢带上蔡徐坤的名字,很喜欢蔡徐坤,想要一直陪着他走下去。看着里面的“少年”、“努力”、“自由”“追梦”等字眼,发现这就是我们以前的青春呀。

另外还把转发所带的评论做成了词云图。

可见,粉丝们都很在乎“风云榜”这件事,并且要帮助蔡徐坤拿第一名。里面有早安打卡的,有超级话题的,还有很多“开心”、“比心”、“温暖”等字眼。说明绝大部分真粉还是很温暖的。

五、总 结

数据显示,蔡徐坤动辄100万+的微博转发中,确实存在绝大部分的假流量。这些假流量估计有两方面的来源:一是自身经纪公司购买的,二是忠实的粉丝自费购买的。

若是自身经纪公司购买的话,这确实扰乱了整个娱乐圈市场的运作,对于娱乐圈乃至整个社会风气都是不好的。若是忠实粉丝购买的,Alfred觉得,数据只是一个数据,这其中的资金,可以通过其它方面更好的方面去给自己的偶像添加影响力呀。我看最近蔡徐坤转发的#脱贫攻坚战星光行动# 这个话题就很好呀,通过自己的影响力,去做更多正能量的事情。

给小伙伴们送福利

加微信号(julyedufu77)是微信号不是微信公众号哦,并发送关键字“Python基础”即可0元学习七月在线精品课程《Python基础课程升级版》,加赠30名名额。

欢迎投稿,投稿/合作:dashuju36@qq.com

如果您觉得文章不错,那就分享到朋友圈~

实践▍用大数据扒一扒蔡徐坤的真假流量粉 | Alfred数据室相关推荐

  1. 趣挨踢 | 用大数据扒一扒蔡徐坤的真假流量粉

    戳蓝字"CSDN云计算"关注我们哦! 作者:AlfredWu 转自: Alfred数据室 前段时间央视新闻公开披露流量明星数据造假.作为一名数据猿,我们秉着好奇心点开了NBA新春贺 ...

  2. 用大数据扒一扒蔡徐坤的真假流量粉

    作者 | AlfredWu 来源 | Alfred数据室 前段时间央视新闻公开披露流量明星数据造假.作为一名数据猿,我们秉着好奇心点开了NBA新春贺岁形象大使蔡徐坤的微博,发现他的微博转发量除了最新一 ...

  3. 蔡徐坤真的那么火吗?用Python爬一爬蔡徐坤的真假流量粉!

    作者 |  AlfredWu 来源 |  AlfredWu数据室 前段时间央视新闻公开披露流量明星数据造假.作为一名数据猿,我们秉着好奇心点开了NBA新春贺岁形象大使蔡徐坤的微博,发现他的微博转发量除 ...

  4. 深度分析蔡徐坤的百万流量数据,揭底哪些是假的!

    参加 2019 Python开发者日,请扫码咨询 ↑↑↑ 作者 | Alfred,毕业于暨南大学,数据挖掘算法工程师,主要研究领域为数据挖掘.机器学习 来源 | Alfred数据室(公众号id:Alf ...

  5. 超新星计算机网络技术就业方向,超新星网络影响力榜单:林彦俊第三,蔡徐坤跌至第二,第一力压登顶...

    根据超新星网络影响力榜单显示:<偶像练习生>出道的林彦俊排名第三,作为<偶像练习生>第一名出道的蔡徐坤跌到了第二名,第一是<青春有你2>出道的许佳琪. 第三名:林彦 ...

  6. 为何蔡徐坤每条微博转发量100万+?用大数据扒一扒他的真假流量粉

    前段时间央视新闻公开披露流量明星数据造假.作为一名数据猿,我们秉着好奇心点开了NBA新春贺岁形象大使蔡徐坤的微博,发现他的微博转发量除了最新一条之外,其它的基本每条都是转发100万+. 在我们的印象中 ...

  7. python数据组织存在维度吗_用Python 爬取蔡徐坤新浪微博 10 万转发数据,从数据的维度看看存在多少假流量...

    315晚会揭露各企业的造假,怎么也没看看流量明星的数据造假呢?作为一名数据猿,我们秉着好奇心点开了NBA新春贺岁形象大使蔡徐坤的微博,发现他的微博转发量除了最新一条之外,其它的基本每条都是转发100万 ...

  8. 【python爬虫专项(19)】blibli弹幕数据爬取(以全站搜索蔡徐坤的视频为例)

    blibli任意搜索关键字,相关视频的弹幕数据采集 参考网址:B站蔡徐坤 爬虫逻辑:[分页url采集]-[视频页面url采集]-[视频页面数据采集 / cid信息 / 弹幕xml数据采集] 弹幕xml ...

  9. 大数据解读B站火过蔡徐坤的“鬼畜“区巨头们

    本文转自公众号『数据森麟』,详情请扫码关注该公众号: 作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(id:shujusenlin) 前言 近日,蔡徐坤一纸律师函发往B站,律师函内容显示,&q ...

最新文章

  1. Python使用SQLAlchemy连接数据库并创建数据表、插入数据、删除数据、更新表、查询表(CRUD)
  2. wParam和lParam两个参数到底是什么意思?
  3. #define 的换行问题
  4. 多线程:Vector是线程安全的吗
  5. python filter map区别_python中filter、map、reduce的区别
  6. python __setattr__
  7. lambda 根据属性去重_扩展lamda表达中distinct按照字段去除重复
  8. C语言项目实战之简单的文本编辑器
  9. Logstash5.X 日志搜集处理框架 安装配置
  10. px,em,rem单位转换工具
  11. eclipse 改java版本_修改eclipse工程jdk版本
  12. Python导入模块,Python import用法(超级详细)
  13. MATLAB 字符串与矩阵的学习
  14. 《MLB棒球创造营》:走近棒球运动·匹兹堡海盗队
  15. 微信聊天记录迁移及故障修复
  16. ios获得设备处理器cpu类型
  17. 网易云课堂web安全第一天
  18. 图解HIVE页面单跳转化率
  19. C++学习系列---读取文件名存入txt和从txt读取每行信息
  20. 南邮ctf-web的writeup

热门文章

  1. css实现鼠标悬浮显示禁用图标
  2. 我的小画板(Appinventor练习)
  3. 用node写sdk脚本
  4. 坚果云网盘教你拥有这5个习惯 升职加薪不是梦
  5. 02 | VMware克隆虚拟机镜像和导入及网络设置(图文教程)
  6. 达人评测 r7 7840HS和i5 1340p选哪个 锐龙r77840HS和酷睿i51340p对比
  7. Springboot实现拦截器功能
  8. PMP考试敏捷知识点(9)
  9. 解决Maven使用install出错出现Fatal error compiling: UTF-8的问题
  10. Gimp 将图片中的颜色更改