【文章摘要】用户画像一般是指将用户信息标签化的过程,在分析用户属性这种静态维度时,通过平台自身的合理引导便能获取到精准的用户信息,那么关于”用户兴趣“这种可变动态的属性该怎么去构建用户画像呢?这个新浪微博的案例或许能告诉你正确答案

1.概述

从上一篇《认识每一个“你”:微博中的用户模型》里面对用户模型维度的划分可以看出,属性和兴趣维度的用户模型都可以归入用户画像(User Profile)的范畴。而所谓用户画像,简单来说就是对用户的信息进行标签化。如图1所示。一方面,标签化是对用户信息进行结构化,方便计算机的识别和处理;另一方面,标签本身也具有准确性和非二义性,也有利于人工的整理、分析和统计。

图1 用户信息标签化

用户属性指相对静态和稳定的人口属性,例如:性别、年龄区间、地域、受教育程度、学校、公司……这些信息的收集和建立主要依靠产品本身的引导、调查、第三方提供等。微博本身就有比较完整的用户注册引导、用户信息完善任务、认证用户审核、以及大量的合作对象等,在收集和清洗用户属性的过程中,需要注意的主要是标签的规范化以及不同来源信息的交叉验证。

用户兴趣则是更加动态和易变化的特征,首先兴趣受到人群、环境、热点事件、行业……等方面的影响,一旦这些因素发生变化,用户的兴趣容易产生迁移;其次,用户的行为(特指在互联网上的行为)多样且碎片化,不同行为反映出来的兴趣差异较大。接下来主要介绍一下微博画像中兴趣维度的构建方法。

2.微博用户兴趣分析

(1)标签来源

用户自标签、达人或认证标签、公司、学校、微群标签、星座、微博关键词……这些来源都可能成为用户的标签。而针对每个特定的用户收集标签除了其自身以外,他关注用户的标签也会传递到该用户身上。如图2所示(蓝色实线代表关注关系,橙色虚线代表兴趣标签来源)。

图2 用户兴趣标签来源

(2)权重计算

在收集到一个用户可能存在的标签后,还需要给标签赋一定的权重,用来区分不同标签对于该用户的重要程度。不同标签的来源用户质量,标签的传递路径,转发关系,标签的本身,以及标签与用户之间的共现关系都会考虑在内。

不同质量的用户自身产生的标签权重不一样,质量越高,认为该标签的可信度越高,无论是将该标签赋给自己还是传递出去的时候其权重值越高。

标签的传递路径主要是针对基于关注关系的标签传递,亲密度比较高的关注用户传递过来的标签权重值会比较高。

标签是来自于用户的原创还是其转发的微博,权重值会有区别,一般来说原创的权重会高于转发权重。

如果标签本身是一个非常常见的词,那么它用于刻画用户的兴趣的区分性是比较差的,相反如果是一个长尾词,则区分性较强。出于这样的考虑,越是长尾词,标签的权重值会越高。

标签与用户的共现关系是指用户和该标签是否经常共同出现,评价的是两者的关联性。关联性越高,则标签的权重值越高。

综合上述的因素,一个标签对于特定用户的权重值可以大致表示为:标签权重 = (来源因子 + 亲密度因子 + 转发因子 + 长尾因子) × 共现因子。

(3)时效性

随着时间的变化,用户的兴趣会发生转移,时间越久远,标签的权重应该相应的下降,距离当前时间越近的兴趣标签应该得到适当突出。出于这样的考虑,一般会在标签权重值上叠加一个时间衰减函数,这个时间衰减函数被设计成如图3所示的指数衰减的形式,通过定义衰减幅度和半衰期,调节衰减的程度,体现不同的时效性。

图3 时间衰减函数

此外,针对用户的兴趣,还会设定一个较小的时间窗口来获取用户的短期兴趣。通过用户在短时间内的原创、转发和关注行为收集兴趣标签,并计算标签的权重。短期兴趣更新周期会较长期兴趣更短,兴趣更集中,但是能够比较及时地反应用户兴趣的变化。

(4)从兴趣到能力

然而,用户具有某方面的兴趣,只代表了他愿意接受这方面的信息,并不能代表他具有产生相关内容的能力。因此,在挖掘了用户兴趣标签的基础上,还需要发掘哪些用户能够针对特定的标签具有一定的内容生产能力。

微博中的关注关系可以认为是一种认证,具有相同兴趣的用户之间的关注则有可能是兴趣相投(当然也可能不是,但毕竟有一定的指导性),那么将具有相同兴趣标签的用户提出来,通过关注关系构成一个图,被认证得最多的用户(被关注边指向得最多)被认为在这个兴趣标签上具有最强能力。如图4所示中的带红色边框的用户。

图4 具有相同兴趣标签用户基于关注关系构成的连通图

3.小结

用户画像的目的是将用户信息标签化,本文中介绍针对微博本身的特点介绍微博用户画像的构建,该用户画像主要还是从微博的业务出发,完善用户信息和发掘用户兴趣,区分兴趣和能力,并形式化结构化表达出来。数据的来源也主要是微博平台本身,并没有采用更多的边缘数据。

本文由产品100为你推荐并呈现

文章来源:wbrecom

文章作者:fengyoung

友情提示:

若出处标注错误,请联系QQ:2977686517及时更正,感谢理解和支持!

微博 用户画像_新浪微博的用户画像是怎样构建的?相关推荐

  1. 用java查看微博访客_新浪微博api 用户标签获取 java

    try { jsonArray = net.sf.json.JSONArray.fromObject("返回的html"); int iSize = jsonArray.size( ...

  2. 银行客户用户画像_太瑞基因商学院:如何构建客户360°画像?

    一.何为客户画像 用户的个体画像是指根据用户的行为,抽取出典型特征,形成了一个用户的个体画像.个体画像认为每个客户都有自己独特的需求和兴趣,所以,可以将单个客户视为独立的市场,并据此提供不同的服务,或 ...

  3. python用户画像_大数据-用户画像DMP

    描述 大数据-用户画像DMP --小树老师 更多好课 大数据用户画像系统课程一.项目概述目前推广平台仅在投放端提供了有限的定向能力,广告主没有足够的流量抓手,无法满足大中型广告主的营销目标.画像系统提 ...

  4. python用户画像_京东小家电用户画像分析(python+tableau)

    一.项目背景 京东电商平台最近小家电类目的订单数量.产品浏览量和搜索数量等均有所下降,相关部门计划对小家电类目进行一次促销活动,希望能针对小家电用户的特征提出相应的建议. 二.需求拆解 促销活动主要包 ...

  5. java运行在用户态_理解Linux用户态和内核态

    Linux整体架构图 我们先来看一张Linux整体架构图. 系统调用 ​ 系统调用时操作系统的最小功能单位.根据不同的应用场景,不同的Linux发行版本提供的系统调用数量也不尽相同,大致在240-35 ...

  6. 用户画像_什么是“用户画像”?如何利用用户画像进行精准营销?

    1.什么是"用户画像" 所谓的用户画像,简单来说就是根据用户社会属性.生活习惯和消费行为等信息而抽象出的一个标签化的用户模型. 用户画像,即用户信息标签化,就是企业通过收集与分析消 ...

  7. python用户画像_新闻个性化推荐系统源码之构建离线用户和文章特征

    我们完成了文章画像和用户画像的构建,画像数据主要是提供给召回阶段的各种召回算法使用.接下来,我们还要为排序阶段的各种排序模型做数据准备,通过特征工程将画像数据进一步加工为特征数据,以供排序模型直接使用 ...

  8. 目标客户画像_什么是客户画像

    展开全部 用户画像又称用户角色,作为一种勾画目标用户.联系用62616964757a686964616fe59b9ee7ad9431333431356565户诉求与设计方向的有效工具,用户画像在各领域 ...

  9. jeecg如何控制用户权限_如何为用户定制个性化控制台?

    现在很多厂家都打着能"定制"控制台的名义进行宣传.控制台真的谁都能定制吗?定制是轻而易举的吗? 其实,真正能"定制"控制台的厂家所需要的首要条件就是拥有完整的生 ...

  10. java用户删除_添加/删除用户

    花之剑 阅读(162) 评论(0)  编辑  收藏 所属分类: linux 添加/删除用户 用useradd username(或者adduser username)添加一个名为username的用户 ...

最新文章

  1. svn TortoiseSVN 回滚版本
  2. 厉害了,我的Python,竟然可以这么玩儿......(内含福利)
  3. Mybatis 配置文件
  4. HTML之Position用法
  5. jQuery 筛选
  6. 规模化敏捷框架何从入手?这篇文章把SAFe讲透了!
  7. tp5写的系统比php源码写的慢多少,基于TP5框架开发的极速企业网站开发框架PHP源码...
  8. linux7自动挂载怎么做,CentOS7 Virtual Box 开机自动挂载共享文件夹
  9. SQL Server中全角和半角字符的比较问题
  10. 错误代码1833 Cannot change column used in a foreign
  11. 学习pytorch: API 学习
  12. powerdesign新手入门详细教程
  13. 按下()快捷键 可以迅速锁定计算机,电脑锁定的快捷键
  14. Linux——man命令
  15. [Android Studio]微型技术报告-手机平台应用开发
  16. Java 实现视频时间维度剪切 | Java工具类
  17. html5自由者,郎平将选择双自由人战术!仿造天津女排战术,00后小将无缘奥运...
  18. 后端给图片加水印的方法
  19. google play连接超时_Google以2亿美元收购Fitbit
  20. 风险:一些Web3安全工具

热门文章

  1. 基于高频18000-3M3技术的RFID智能书架方案
  2. ISO14001环境管理体系问答篇
  3. RFID EPC Class1 Gen2电子标签笔记
  4. 第二章:JAVA编程基础
  5. 什么是南大核心、北大核心、科技核心、人文核心、省级期刊和国家级期刊
  6. 大话2虚拟服务器怎么弄,大话西游2公益服风云1.0虚拟机镜像手工启动服务端+启动教程+客户端IP修改教程+数据库工具...
  7. swf导出html代码,将SWF轻松导出HTML5
  8. 抢先下载:Windows XP SP3英文预览版
  9. yui3:widget
  10. namp常规扫描命令(超详细!推荐)