想设计一款新的产品,你了解未来的用户是什么样吗?想提升服务质量,用户调研应该怎么做?想评估新功能上线效果,用户情感偏好你了解吗?有了用户画像,这些问题的答案就变得逐渐清晰起来。

那么关键问题来了,用户数据要从哪里获取呢?你可以从CRM系统中寻找,也可以去各种网站收集用户留下的蛛丝马迹,还可以到微博中找到用户属性和对产品的情感倾向,下面就以小米Note发布的微博评论数据为对象,看看八爪鱼和微图是如何从零散的数据中生成一个清晰地用户画像吧。

首先需要到微博去把需要的数据采集下来。不会爬虫也不用悲伤,因为有八爪鱼帮你,想要的数据都可以搞定。

首先给大家推荐一个小技巧,第一次用八爪鱼采集微博的童鞋,可以先制作一个简单的预登陆规则。

保存并启动本地采集,只提取一个字段的规则几秒就会采集完成,之后在采集完成的页面上我们就可以输入账号密码登陆了。

到这里我们相当于已经将登陆状态保存在八爪鱼内置浏览器当中了,之后就可以正常采集了。

下面开始进入正式采集

1.打开八爪鱼采集器,找到主页下自定义采集,点击立即使用。

2输入需要采集的微博页面网址,多个网址可以用换行符分隔,点击保存网址。通过关键词搜索获取微博页面网址也可以使用同样的方法采集哦。

3.打开后可以看到八爪鱼已经登录上微博。

4.观察网页发现如果想看更多评论需要下拉网页2次,之后点击查看更多来获取。这里我们在打开网页步骤设置页面加载完成后向下滚动,具体设置如下图:

之后循环点击查看更多来加载内容,这里我们需要提前加载到需要采集的页数后再进行采集,因为加载后的内容是一直存在的,如果边采集边翻页会造成采集内容的重复。具体设置如下:

设置Ajax

之后循环提取所需要的评论内容,手动运行规则无误后,就可以采集了,结果如下:

之后循环提取所需要的评论内容即可

这里加载了100页的内容,如果需求数据较少可以减少加载更多页次数,可以使采集更加迅速。

彩蛋彩蛋:不知道爪子们有没有注意到,八爪鱼在主页下的网站简易采集下,有微博网页关键词搜索的模板,如果采集需求不是很复杂可以直接使用简易采集的,这样就省下了做规则的时间。

1、性别

可以看到这条微博评论区的网友有48.03%是男生,女性占到51.97%,男女粉丝数没有相差太多。

2、年龄

根据采集数据分析得到的年龄分布图,我们可以看到评论网友的出生年龄大多集中在85后和90后,18岁以下的粉丝和35岁以上的粉丝相对较少。

3、地域

颜色的深浅表示评论人数的多少,除了台湾、海南,评论网友最多来自广东,其次是北京,山西、山东、上海。

4、职业

从分布图可以看出,大部分评论网友都是IT行业的,其中网络电子产品相关从业者的关注最多。

5、兴趣爱好

6、品牌偏好

从上图关键词可见,大家对代言人的好感还是不错的,程度词:喜欢、好看、满分、不错都表现出评论网友对产品的情感倾向。

这样根据微博采集到的数据,就可以做出一个简单的用户画像。数据采集和分析对分析用户画像必不可少,大家还想采集什么用户相关数据,别忘了留言哦!

微博 用户画像_分析用户画像?从微博数据采集开始!相关推荐

  1. 用户画像如何分析 用户画像如何获取

    你是否有过这样的经历:当在购物网站有过一次购物或者搜索后,网站会为你推送各种同类型商品或者互补商品:当成为某品牌的注册会员后,特殊的日子(比如生日.会员日)会收到品牌商发来的祝福短信以及优惠券:当打开 ...

  2. sql查询当天交易总额最大的用户信息_京东用户行为数据分析(SQL)

    一. 项目背景 项目对京东零售集团的运营数据集进行指标分析,研究京东用户在购物过程中的行为习 惯,购物偏好,在购物过程中各个环节的转化和流失情况,为运营决策提供数据支撑. 二. 数据介绍 本数据集采用 ...

  3. php v9 用户头像,phpcms 分析用户头像在服务器端的保存与使用

    phpcms 分析用户头像在服务器端的保存与使用 距离第一篇blog快4年了,没想到一下子就过去了 很少记录事,因为感觉一直很忙 这两天要请人安装水果电脑系统,闲下来了,写两篇文章来记记事 顺便看看m ...

  4. roads 构筑极致用户体验_坚持用户思维 推动领克汽车逆势突围

    [2020年7月9日,杭州]近日,全球新高端品牌-领克公布了2020年6月销量数据.领克汽车6月实现月销量达13214辆,环比增长约2%,同比增长约53%,连续三个月获得双增长,并创下过去七个月以来最 ...

  5. mysql之库操作_创建用户_修改用户权限_修改用户密码

    用户操作: 1.create user 'Faye'@'127.0.0.1'IDENTIFIED BY '123'  #添加一个用户名字为Faye的用户,127.0.0.1为本机的ip,123为密码 ...

  6. [SpringSecurity]web权限方案_用户认证_自定义用户登录页面

    在配置类中实现相关的配置 @Overrideprotected void configure(HttpSecurity http) throws Exception {http.formLogin() ...

  7. 微博爬虫及舆情分析-1.爬取微博数据

    本文以"Mate30"为关键字进行分析 import requests as re import time #搜索关键字Mate30并获取url target_url = &quo ...

  8. python3爬取微博评论教程_用python 爬取微博评论,怎么打开微博评论下的查看更多|...

    怎样用python爬新浪微博大V所有数据 先上结论,通过公开的api如爬到某大v的所有数据,需足以下两个条件: 1.在你的爬虫开始运行时,该大v的所有微博发布量没有超过回溯查询的上限,新浪是2000, ...

  9. python微博涨粉_如何用 Python 让微博热搜榜动起来

    今天教大家如何用 Pyecharts 制作微博热搜榜动态展示视频 先上视频看看效果: 教程主要有2部分: 一是 Python 爬取微博热搜内容 二是用 pyecharts 制作动态视频 下面给大家详细 ...

最新文章

  1. FiM | 牧医所奶业创新团队建立瘤胃微生物脲酶的靶向宏蛋白质组方法
  2. [Hibernate] - Annotations - One To One
  3. java thread join()_Java Thread join() 的用法
  4. 前端总结·基础篇·CSS(二)视觉
  5. linux杀死进程删除文件,linux 常用到的命令 删除 移动 复制 查询端口 杀死进程 查询进程...
  6. Java 算法 入学考试
  7. 变量类型 ROWID 和 UROWID
  8. 双机热备的缺点_弱电工程中的双机热备是什么?带你了解服务器双机热备
  9. python客户端服务器_Python客户端和服务器ch
  10. exce小技巧,Mac Excel单元格内换行快捷键
  11. python双循环_双for循环到Python列表理解
  12. select模型+epoll模型+reactor模型
  13. CoolEdit制作伴奏方法 去除人声
  14. conda SSL错误
  15. 剑指offer | 面试题54:二叉搜索树的第k大节点
  16. 团队作业—beta冲刺
  17. android应用开发-从设计到实现 3-3 Sketch静态原型设计
  18. dota修改服务器,forOMG非英雄篇 如何修改数据以便于测试
  19. Java多线程----java 对象锁
  20. 数据挖掘--序列挖掘

热门文章

  1. 如何首次在 Exchange Server 2003 SP1 上部署 RPC over HTTP
  2. 静态页转换平台(StaticPol)-静态页生成终极解决方案
  3. AndroidStudio项目打包成jar
  4. hexo博客系统安装
  5. UMLChina: trufun Plato是中国唯一的UML建模工具
  6. linux kill杀死进程
  7. base64 数据处理
  8. 利用openssl签署多域名证书
  9. Activity的setResult方法
  10. linear,swizzle,tile