分析用户画像?从微博数据采集开始!

作者:keven

发布时间:2017/10/13 15:56:03

31564 人已阅读

摘要:本文介绍以小米Note发布的微博评论数据为对象,利用八爪鱼和微图工具从零散的微博数据中采集、分析生成一个清晰地用户画像吧。

想设计一款新的产品,你了解未来的用户是什么样吗?想提升服务质量,用户调研应该怎么做?想评估新功能上线效果,用户情感偏好你了解吗?有了用户画像,这些问题的答案就变得逐渐清晰起来。

那么关键问题来了,用户数据要从哪里获取呢?你可以从CRM系统中寻找,也可以去各种网站收集用户留下的蛛丝马迹,还可以到微博中找到用户属性和对产品的情感倾向,下面就以小米Note发布的微博评论数据为对象,看看八爪鱼和微图是如何从零散的数据中生成一个清晰地用户画像吧。

首先需要到微博去把需要的数据采集下来。不会爬虫也不用悲伤,因为有八爪鱼帮你,想要的数据都可以搞定。

首先给大家推荐一个小技巧,第一次用八爪鱼采集微博的童鞋,可以先制作一个简单的预登陆规则。

保存并启动本地采集,只提取一个字段的规则几秒就会采集完成,之后在采集完成的页面上我们就可以输入账号密码登陆了。

到这里我们相当于已经将登陆状态保存在八爪鱼内置浏览器当中了,之后就可以正常采集了。

下面开始进入正式采集

1.打开八爪鱼采集器,找到主页下自定义采集,点击立即使用。

2输入需要采集的微博页面网址,多个网址可以用换行符分隔,点击保存网址。通过关键词搜索获取微博页面网址也可以使用同样的方法采集哦。

3.打开后可以看到八爪鱼已经登录上微博。

4.观察网页发现如果想看更多评论需要下拉网页2次,之后点击查看更多来获取。这里我们在打开网页步骤设置页面加载完成后向下滚动,具体设置如下图:

之后循环点击查看更多来加载内容,这里我们需要提前加载到需要采集的页数后再进行采集,因为加载后的内容是一直存在的,如果边采集边翻页会造成采集内容的重复。具体设置如下:

设置Ajax

之后循环提取所需要的评论内容,手动运行规则无误后,就可以采集了,结果如下:

之后循环提取所需要的评论内容即可

这里加载了100页的内容,如果需求数据较少可以减少加载更多页次数,可以使采集更加迅速。

彩蛋彩蛋:不知道爪子们有没有注意到,八爪鱼在主页下的网站简易采集下,有微博网页关键词搜索的模板,如果采集需求不是很复杂可以直接使用简易采集的,这样就省下了做规则的时间。

1、性别

可以看到这条微博评论区的网友有48.03%是男生,女性占到51.97%,男女粉丝数没有相差太多。

2、年龄

根据采集数据分析得到的年龄分布图,我们可以看到评论网友的出生年龄大多集中在85后和90后,18岁以下的粉丝和35岁以上的粉丝相对较少。

3、地域

颜色的深浅表示评论人数的多少,除了台湾、海南,评论网友最多来自广东,其次是北京,山西、山东、上海。

4、职业

从分布图可以看出,大部分评论网友都是IT行业的,其中网络电子产品相关从业者的关注最多。

5、兴趣爱好

6、品牌偏好

从上图关键词可见,大家对代言人的好感还是不错的,程度词:喜欢、好看、满分、不错都表现出评论网友对产品的情感倾向。

这样根据微博采集到的数据,就可以做出一个简单的用户画像。数据采集和分析对分析用户画像必不可少,大家还想采集什么用户相关数据,别忘了留言哦!

微博 用户画像_新浪微博数据采集方法以及数据分析(用户画像) - 八爪鱼采集器...相关推荐

  1. 八爪鱼采集器_章鱼扫描仪:Java构建工具和恶意软件

    八爪鱼采集器 Alvaro Munoz最近在GitHub Security Lab网站上发布了" 章鱼扫描仪恶意软件:攻击开源供应链". 我发现这篇帖子很有趣,原因有很多,包括它详 ...

  2. python采集文章_八爪鱼采集器能取代python爬虫吗?

    作为同时使用八爪鱼采集器和写爬虫的非技术的莫名其妙喜欢自己琢磨技术的互联网运营喵...我来谈谈心得感想. 八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统.能直接导出excel文件和导出 ...

  3. 求助:为什么用八爪鱼采集器抓取特定时间段的微博会出现漏抓情况?

    八爪鱼采集器抓取微博内容出现抓取不完整的问题 在原微博网址设置了特定的时间段,导入八爪鱼采集器后也显示了相应时间段内容.例如按一小时抓取,但采集完成后导出的数据发现,一般只抓取了半个小时就停止了. 微 ...

  4. python爬虫代替运营_八爪鱼采集器能取代python爬虫吗?

    作为同时使用八爪鱼采集器和写爬虫的非技术的莫名其妙喜欢自己琢磨技术的互联网运营喵...我来谈谈心得感想. 八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统.能直接导出excel文件和导出 ...

  5. 小米用户画像_鹅智库发布手机品牌用户画像 一二线城市最爱小米 5G领域或占先机...

    近日,腾讯旗下企鹅智库公布了<2019中国网民智能手机购机用户画像分析>,统计了国内各大手机品牌的用户特征. 小米用户成为了一二线城市用户的首选,根据数据发现,小米用户则集中在一二线城市, ...

  6. 用户管理系统_【20201204】做个用户管理系统(18)——注册功能的实现(三)...

    1. 介绍 1.1 介绍 福哥今天要带着大家开发TFUMS系统的注册功能的处理程序了.这个处理程序会调用模型user的add方法进行创建用户的操作,模型user的add方法会先检查用户名是否被占用了, ...

  7. mysql 用户概念_传输概念 – db对象的用户/组/权限从mysql到postgresql

    这似乎比stackoverflow更适合这里,所以这里: 我一直在使用mysql一段时间以来,因为在大多数便宜的虚拟主机上,它是提供的数据库.但是,现在我开始认真开发Web应用程序,我一直在本地使用p ...

  8. 微信小程序python解析获取用户手机号_微信小程序如何获取用户绑定手机号

    简单说:(直接撸步骤...) 1.用户需要调用wx.login()方法,来拿到用户登录凭证code.wx.login({ success:function(res){ console.log('log ...

  9. linux删除用户所有信息_如何在Linux上删除用户(以及删除所有跟踪)

    linux删除用户所有信息 Fatmawati Achmad Zaenuri/ShutterstockFatmawati Achmad Zaenuri / Shutterstock Deleting ...

  10. linux查看mysql用户权限_教您如何查看MySQL用户权限

    教您如何查看MySQL用户权限 如果需要查看MySQL用户权限,应该如何实现呢?下面就为您介绍查看MySQL用户权限的方法,并对授予MySQL用户权限的语句进行介绍,供您参考. 查看MySQL用户权限 ...

最新文章

  1. 阿里算法,浙大博士带你写项目经历!
  2. Nginx 从零搭建
  3. Ubuntu中root用户和user用户的相互切换
  4. Python - Seaborn可视化:图形个性化设置的几个小技巧
  5. Windows7 Credential Manage
  6. java 打包下载文件_java下载打包下载文件
  7. Map的两种遍历方法
  8. sts-bundle的使用_使用WS-Trust / STS采样器扩展JMeter
  9. Java 中 == 和equals()方法的不同点
  10. python部署到iis效率_IIS 部署 Python Django网站流程(受够了野路子)
  11. cocoachina上很酷的帖子
  12. IIS 10 安装URLRewrite组件 方式
  13. 平面四边形八节点等参单元的平面有限元分析程序
  14. 七天学会php,十天学会PHP之第六天
  15. 第2章-计算机组成原理之概述篇
  16. 大型通用ERP生产管理系统源码
  17. vegas视频软件使用教程和笔记
  18. 在线rar压缩包解密软件,rar压缩包权限密码多少?
  19. 介绍java中Pair和Map的区别
  20. 使用dom4j读写xml实例

热门文章

  1. 奥维天地图解决办法!如何申请个人天地图API密钥?
  2. 参数化三维管网建模系统MagicPipe3D
  3. 三维建模与3D打印 2021-10-12
  4. python中chardet库的安装和导入
  5. 形态学图像处理之边界提取与跟踪
  6. 程序员们都用什么记笔记软件?
  7. 微信小程序实战五:人脸识别登录的实现
  8. html5选择时间,科技常识:HTML5新控件之日期和时间选择输入的实现代码
  9. 项目管理第五章项目范围管理
  10. RTKLIB源码解析(三)、 Rinex文件读取(rinex.c)——2