前一阵子,由于肖战的“227事件”微博和朋友圈都被刷屏,起因在与肖战的粉丝发现在AO3作品库平台收录关于肖战的同人作品,认为该部作品影响了肖战的形象,遂向有关部门举报,最终告知知名同人网站A03(Archive of our own)作品库无法被访问。

这也对爱好同人作品的读者与作者都造成了不可逆转的伤害。随即,他们联合其他路人便组成227大团结,共同抵制肖战及其粉丝,一时间与肖战紧密联系的品牌商家纷纷撤换其代言人与品牌形象大使。

小编并不是肖战的粉丝,对其出演的作品看的也不多,这次就从爬虫以及数据可视化的角度(数据来源是微博上肖战的评论粉丝)来为大家呈现肖战粉丝的人群画像。

爬虫逻辑分成三步:

  1. 采集肖战的所有微博

首先获取明星发的所有的微博ID,在有了这些ID之后,便可以拼接成了微博评论的第一页的URL

另外在翻页的操作时,微博评论的下一页链接的参数通常在本页的末尾,所以在每次爬取时,也要记得抓取下一页链接的重要参数。

2. 采集肖战微博底下的所有评论粉丝ID

由于时间有限,小编就没有做转发与点赞粉丝ID获取的开发,但是原理类似。评论粉丝的ID获取相对容易,在xpath的指引之下,

03爬取粉丝的微博主页,并进行数据清洗

用户基本信息页面的链接通常为: “https://weibo.com/用户id/info”,所以我们只要获取用户的id就可以拿到他的公开基本信息

当然每个用户的设置不尽相同,一般来说,公开信息中包括,所在地、性别、生日以及标签等等。

粉丝的人群画像

  1. 粉丝的地域分布

从肖战粉丝的地域分布来看,广东省、江苏、四川以及浙江省这四个省份是其粉丝最为集中的四个省份,小编将粉丝的地域分布投射到完整的地图上,我们可以发现的是中部也有几个省份,比如湖北、湖南两省以及河南,也有不少粉丝喜爱着肖战。

2. 粉丝的年龄分布与星座

从粉丝的年龄分布来看,大多数的粉丝年龄都集中在20岁以下的00后,以及20-25岁的90后的女性,而在30岁以上的粉丝群体则占到了极少数,

抛开年龄,我们看星座,天秤座的粉丝是最多的占到了15%,而天蝎座与射手座的粉丝数量位居其次,接近有9%的比重。不同的年龄阶段以及不同的星座,对应着不同的性格特征与喜好,或许商家品牌方在做广告以及市场营销的时候可以针对自己的目标人群精准推销以提升产品的销量

3. 粉丝的标签

从粉丝自己选择属于自己的标签来看,她们爱美食,是一个典型的吃货;她们热爱旅游,想要去看一下外面的世界;她们或许也比较的宅,空余的时间会选择宅在家里,听听歌,看看电影与动漫;她们中的大多数都是00后甚至是90后的学生,喜欢自由与无拘无束的生活。

从肖战的“227”事件当中,我们能够看出的是整个圈子当中存在的畸形文化,粉丝在追星过程当中,对粉的人与事都倾注了太多的情感,他们希望自己的想法与观点能够被他人所接受与认同,所以在情绪高涨之时,难免会有过激的语言与举止。同时在互联网的海量信息之下,年轻又不谙世事的粉丝又很难做到理性的分析与判断。

但是,处于这个万物联网时代下的圈层之中,因为某种情感投入和热爱而聚集到一起的,喜欢参与又渴望被认可的,希望别人鸦雀无声的,又何止是这些追逐明星的狂热粉丝呢?

关注微信公众号“数据分析与篮球”,获取微博爬虫的源代码。

微博 用户画像_“肖战”被抵制?Python爬虫揭秘肖战粉丝的人群画像相关推荐

  1. 用python画肖战_肖战被抵制?Python爬虫揭秘关于肖战粉丝的人群画像

    前一阵子,由于肖战的"227事件"微博和朋友圈都被刷屏,起因在与肖战的粉丝发现在AO3作品库平台收录关于肖战的同人作品,认为该部作品影响了肖战的形象,遂向有关部门举报,最终告知知名 ...

  2. 肖战被抵制?Python爬虫揭秘关于肖战粉丝的人群画像

    前一阵子,由于肖战的"227事件"微博和朋友圈都被刷屏,起因在与肖战的粉丝发现在AO3作品库平台收录关于肖战的同人作品,认为该部作品影响了肖战的形象,遂向有关部门举报,最终告知知名 ...

  3. pythonscrapy爬虫_零基础写python爬虫之使用Scrapy框架编写爬虫

    网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻 ...

  4. python爬取微博用户正文_基于Python的新浪微博用户信息爬取与分析

    基于 Python 的新浪微博用户信息爬取与分析 邓文萍 [摘 要] 摘要:本文设计并实现了一个微博用户信息爬取与分析系统 , 利用 Cookie 实现了用户的模拟登录 , 使用 Python 语言的 ...

  5. python爬虫登录微博_【新手学Python爬虫】微博网页PC端抓包分析和模拟登录

    本帖最后由 杀猪用牛刀 于 2020-4-2 23:59 编辑 首先我是一个python爬虫的新手,模拟登录也是我看b站模拟登录教学加自己琢磨完成的,其中很多分析很粗糙,还希望大家多多包涵:lol 话 ...

  6. 利用python爬取知乎评论_一个简单的python爬虫,爬取知乎

    一个简单的python爬虫,爬取知乎 主要实现 爬取一个收藏夹 里 所有问题答案下的 图片 文字信息暂未收录,可自行实现,比图片更简单 具体代码里有详细注释,请自行阅读 项目源码: 1 # -*- c ...

  7. 学完python基础开始学爬虫_零基础入门Python爬虫不知道怎么学?这是入门的完整教程...

    这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...

  8. python如何编写爬虫_如何实现一个Python爬虫框架

    image 这篇文章的题目有点大,但这并不是说我自觉对Python爬虫这块有多大见解,我只不过是想将自己的一些经验付诸于笔,对于如何写一个爬虫框架,我想一步一步地结合具体代码来讲述如何从零开始编写一个 ...

  9. python url拼接_教你写python爬虫——用python爬原图

    环境:python3.6 + pycharm "猎物":http://www.polayoutu.com (仅学习用) 动机1:想要爬一些尺寸比较大(不是尺度)的美图养养眼,仅此而 ...

最新文章

  1. 相机上的AE AF AWB AEB都表示的是什么?
  2. OpenCV使用dnn重新着色灰度图像的实例(附完整代码)
  3. leetcode 415. 字符串相加(Java版)
  4. 【详解】CPU执行算术运算或逻辑运算时,常将源操作数和结果暂存在()中
  5. 带通滤波器作用和用途_带通滤波器的作用和电路设计图
  6. 怎样练习一万小时(转)
  7. ASP.net:URL重写实现IHttpHandler接口
  8. 【算法笔记】马拉车算法:最长回文子串
  9. [python]Python概述
  10. Java 2实用教程(第5版)实验指导与习题解答 第3章-上机实践-分支与循环语句
  11. Android限制录制屏幕无声音,屏幕录制没有声音如何解决?
  12. 关于Jabber客户端
  13. 审稿较快的2区计算机sci期刊,哪些SCI期刊的审稿速度快
  14. python中不同文件之间使用所谓的全局变量
  15. python控制手机模拟器_Appium+python自动化23-Android夜神模拟器
  16. Excel 2010 VBA 入门 100 将xls格式工作簿批量转换为xlsx格式
  17. react 入门学习(一)
  18. liferay调度器-定时任务
  19. 继QQ挂机死亡后,网游挂机也将死亡——5小时之后白打
  20. 7种情绪,人类心智的通用模块

热门文章

  1. scala把序列分解成子集(group by,partition)
  2. 最小二乘、最大似然和最大后验的简单总结
  3. 何为TransmittableThreadLocal
  4. python爬虫的一些技巧
  5. Java微信订单查询
  6. 玛氏携手阿里 天猫网罗全球快消三巨头
  7. 总结:SpringMVC 中 GET 和 POST 方式请求中的中文乱码问题
  8. Utils 工具 推送
  9. 最近配置IBM设备遇到的问题总结
  10. 3PAR推InServ-T级存储 EMC们紧张了?