微博 用户画像_新浪微博的用户画像是怎样构建的?
【文章摘要】用户画像一般是指将用户信息标签化的过程,在分析用户属性这种静态维度时,通过平台自身的合理引导便能获取到精准的用户信息,那么关于”用户兴趣“这种可变动态的属性该怎么去构建用户画像呢?这个新浪微博的案例或许能告诉你正确答案
1.概述
从上一篇《认识每一个“你”:微博中的用户模型》里面对用户模型维度的划分可以看出,属性和兴趣维度的用户模型都可以归入用户画像(User Profile)的范畴。而所谓用户画像,简单来说就是对用户的信息进行标签化。如图1所示。一方面,标签化是对用户信息进行结构化,方便计算机的识别和处理;另一方面,标签本身也具有准确性和非二义性,也有利于人工的整理、分析和统计。
图1 用户信息标签化
用户属性指相对静态和稳定的人口属性,例如:性别、年龄区间、地域、受教育程度、学校、公司……这些信息的收集和建立主要依靠产品本身的引导、调查、第三方提供等。微博本身就有比较完整的用户注册引导、用户信息完善任务、认证用户审核、以及大量的合作对象等,在收集和清洗用户属性的过程中,需要注意的主要是标签的规范化以及不同来源信息的交叉验证。
用户兴趣则是更加动态和易变化的特征,首先兴趣受到人群、环境、热点事件、行业……等方面的影响,一旦这些因素发生变化,用户的兴趣容易产生迁移;其次,用户的行为(特指在互联网上的行为)多样且碎片化,不同行为反映出来的兴趣差异较大。接下来主要介绍一下微博画像中兴趣维度的构建方法。
2.微博用户兴趣分析
(1)标签来源
用户自标签、达人或认证标签、公司、学校、微群标签、星座、微博关键词……这些来源都可能成为用户的标签。而针对每个特定的用户收集标签除了其自身以外,他关注用户的标签也会传递到该用户身上。如图2所示(蓝色实线代表关注关系,橙色虚线代表兴趣标签来源)。
图2 用户兴趣标签来源
(2)权重计算
在收集到一个用户可能存在的标签后,还需要给标签赋一定的权重,用来区分不同标签对于该用户的重要程度。不同标签的来源用户质量,标签的传递路径,转发关系,标签的本身,以及标签与用户之间的共现关系都会考虑在内。
不同质量的用户自身产生的标签权重不一样,质量越高,认为该标签的可信度越高,无论是将该标签赋给自己还是传递出去的时候其权重值越高。
标签的传递路径主要是针对基于关注关系的标签传递,亲密度比较高的关注用户传递过来的标签权重值会比较高。
标签是来自于用户的原创还是其转发的微博,权重值会有区别,一般来说原创的权重会高于转发权重。
如果标签本身是一个非常常见的词,那么它用于刻画用户的兴趣的区分性是比较差的,相反如果是一个长尾词,则区分性较强。出于这样的考虑,越是长尾词,标签的权重值会越高。
标签与用户的共现关系是指用户和该标签是否经常共同出现,评价的是两者的关联性。关联性越高,则标签的权重值越高。
综合上述的因素,一个标签对于特定用户的权重值可以大致表示为:标签权重 = (来源因子 + 亲密度因子 + 转发因子 + 长尾因子) × 共现因子。
(3)时效性
随着时间的变化,用户的兴趣会发生转移,时间越久远,标签的权重应该相应的下降,距离当前时间越近的兴趣标签应该得到适当突出。出于这样的考虑,一般会在标签权重值上叠加一个时间衰减函数,这个时间衰减函数被设计成如图3所示的指数衰减的形式,通过定义衰减幅度和半衰期,调节衰减的程度,体现不同的时效性。
图3 时间衰减函数
此外,针对用户的兴趣,还会设定一个较小的时间窗口来获取用户的短期兴趣。通过用户在短时间内的原创、转发和关注行为收集兴趣标签,并计算标签的权重。短期兴趣更新周期会较长期兴趣更短,兴趣更集中,但是能够比较及时地反应用户兴趣的变化。
(4)从兴趣到能力
然而,用户具有某方面的兴趣,只代表了他愿意接受这方面的信息,并不能代表他具有产生相关内容的能力。因此,在挖掘了用户兴趣标签的基础上,还需要发掘哪些用户能够针对特定的标签具有一定的内容生产能力。
微博中的关注关系可以认为是一种认证,具有相同兴趣的用户之间的关注则有可能是兴趣相投(当然也可能不是,但毕竟有一定的指导性),那么将具有相同兴趣标签的用户提出来,通过关注关系构成一个图,被认证得最多的用户(被关注边指向得最多)被认为在这个兴趣标签上具有最强能力。如图4所示中的带红色边框的用户。
图4 具有相同兴趣标签用户基于关注关系构成的连通图
3.小结
用户画像的目的是将用户信息标签化,本文中介绍针对微博本身的特点介绍微博用户画像的构建,该用户画像主要还是从微博的业务出发,完善用户信息和发掘用户兴趣,区分兴趣和能力,并形式化结构化表达出来。数据的来源也主要是微博平台本身,并没有采用更多的边缘数据。
本文由产品100为你推荐并呈现
文章来源:wbrecom
文章作者:fengyoung
友情提示:
若出处标注错误,请联系QQ:2977686517及时更正,感谢理解和支持!
微博 用户画像_新浪微博的用户画像是怎样构建的?相关推荐
- 用java查看微博访客_新浪微博api 用户标签获取 java
try { jsonArray = net.sf.json.JSONArray.fromObject("返回的html"); int iSize = jsonArray.size( ...
- 银行客户用户画像_太瑞基因商学院:如何构建客户360°画像?
一.何为客户画像 用户的个体画像是指根据用户的行为,抽取出典型特征,形成了一个用户的个体画像.个体画像认为每个客户都有自己独特的需求和兴趣,所以,可以将单个客户视为独立的市场,并据此提供不同的服务,或 ...
- python用户画像_大数据-用户画像DMP
描述 大数据-用户画像DMP --小树老师 更多好课 大数据用户画像系统课程一.项目概述目前推广平台仅在投放端提供了有限的定向能力,广告主没有足够的流量抓手,无法满足大中型广告主的营销目标.画像系统提 ...
- python用户画像_京东小家电用户画像分析(python+tableau)
一.项目背景 京东电商平台最近小家电类目的订单数量.产品浏览量和搜索数量等均有所下降,相关部门计划对小家电类目进行一次促销活动,希望能针对小家电用户的特征提出相应的建议. 二.需求拆解 促销活动主要包 ...
- java运行在用户态_理解Linux用户态和内核态
Linux整体架构图 我们先来看一张Linux整体架构图. 系统调用 系统调用时操作系统的最小功能单位.根据不同的应用场景,不同的Linux发行版本提供的系统调用数量也不尽相同,大致在240-35 ...
- 用户画像_什么是“用户画像”?如何利用用户画像进行精准营销?
1.什么是"用户画像" 所谓的用户画像,简单来说就是根据用户社会属性.生活习惯和消费行为等信息而抽象出的一个标签化的用户模型. 用户画像,即用户信息标签化,就是企业通过收集与分析消 ...
- python用户画像_新闻个性化推荐系统源码之构建离线用户和文章特征
我们完成了文章画像和用户画像的构建,画像数据主要是提供给召回阶段的各种召回算法使用.接下来,我们还要为排序阶段的各种排序模型做数据准备,通过特征工程将画像数据进一步加工为特征数据,以供排序模型直接使用 ...
- 目标客户画像_什么是客户画像
展开全部 用户画像又称用户角色,作为一种勾画目标用户.联系用62616964757a686964616fe59b9ee7ad9431333431356565户诉求与设计方向的有效工具,用户画像在各领域 ...
- jeecg如何控制用户权限_如何为用户定制个性化控制台?
现在很多厂家都打着能"定制"控制台的名义进行宣传.控制台真的谁都能定制吗?定制是轻而易举的吗? 其实,真正能"定制"控制台的厂家所需要的首要条件就是拥有完整的生 ...
- java用户删除_添加/删除用户
花之剑 阅读(162) 评论(0) 编辑 收藏 所属分类: linux 添加/删除用户 用useradd username(或者adduser username)添加一个名为username的用户 ...
最新文章
- svn TortoiseSVN 回滚版本
- 厉害了,我的Python,竟然可以这么玩儿......(内含福利)
- Mybatis 配置文件
- HTML之Position用法
- jQuery 筛选
- 规模化敏捷框架何从入手?这篇文章把SAFe讲透了!
- tp5写的系统比php源码写的慢多少,基于TP5框架开发的极速企业网站开发框架PHP源码...
- linux7自动挂载怎么做,CentOS7 Virtual Box 开机自动挂载共享文件夹
- SQL Server中全角和半角字符的比较问题
- 错误代码1833 Cannot change column used in a foreign
- 学习pytorch: API 学习
- powerdesign新手入门详细教程
- 按下()快捷键 可以迅速锁定计算机,电脑锁定的快捷键
- Linux——man命令
- [Android Studio]微型技术报告-手机平台应用开发
- Java 实现视频时间维度剪切 | Java工具类
- html5自由者,郎平将选择双自由人战术!仿造天津女排战术,00后小将无缘奥运...
- 后端给图片加水印的方法
- google play连接超时_Google以2亿美元收购Fitbit
- 风险:一些Web3安全工具
热门文章
- 基于高频18000-3M3技术的RFID智能书架方案
- ISO14001环境管理体系问答篇
- RFID EPC Class1 Gen2电子标签笔记
- 第二章:JAVA编程基础
- 什么是南大核心、北大核心、科技核心、人文核心、省级期刊和国家级期刊
- 大话2虚拟服务器怎么弄,大话西游2公益服风云1.0虚拟机镜像手工启动服务端+启动教程+客户端IP修改教程+数据库工具...
- swf导出html代码,将SWF轻松导出HTML5
- 抢先下载:Windows XP SP3英文预览版
- yui3:widget
- namp常规扫描命令(超详细!推荐)