社交媒体(Social Media)相对于传统互联网媒体的最大区别是通过建立人与人之间的联系,极大提升了信息生产量以及传播效率。身处社交媒体中的每个人或组织同时扮演着信息生产者、传播者与接受者的角色。

在社交媒体背景下,用户生产、传播和接收信息更加便捷,使得之前相对集中的用户兴趣和行为变得更加碎片化和离散,因此社交媒体中的用户模型的构建和应用也发生了巨大的变化。

微博经历了6年的发展,已经成为了国内社交媒体的中坚力量。本文从微博的角度出发,对微博中用户模型的目的、维度和建模任务进行描述,并作为后续微博用户模型相关文章的总述。

1      构建用户模型的目的

刻画每个用户,是任何一家社交类型的服务都需要面对的问题。不同的公司针对各自业务会有不同的需求,构建用户模型的动机和目标也会存在一定差异。从微博自身的角度来讲,构建用户模型的目的包括:

(1)   完善及扩充微博用户信息

用户模型的首要动机就是了解用户,这样才能够提供更优质的服务。但是在微博中用户的信息提供得不尽完整,有些是因为平台的引导机制造成的(例如填写公司学校信息的时候,相应的机构名或者学校名并不在列表内),有时候又是用户不愿意或懒得提供(例如针对一些非必选项),而且对于用户自行输入的内容又很难进行规范化……此外,一些隐性或变化频繁的信息(例如用户的兴趣、商业偏好、地理位置的变化等等)也需要通过用户的行为挖掘出来。

(2)   分析微博生态

除了了解用户,还需要了解自己。在掌握用户信息的基础上,平台就可以对自身的状况进行分析,从相对宏观的基础上把握微博的生态环境,为后续的优化和发展提供方向性。例如通过对用户信息的聚类,能够对微博用户进行人群的划分,掌握不同人群的活跃程度,信息的传播和引爆方式,行为及兴趣偏好等等。

(3)   支撑微博业务

在微博中的各项业务都与用户模型有着直接与间接的关系,无论是基于兴趣的推荐提升用户价值,精准的广告投放提升商业价值,还是针对特定群体的内容运营,用户模型都是其必不可少的基础支撑。直接地,用户模型可以用于兴趣匹配、关系匹配的推荐和投放;间接地,可以基于用户模型中相似的兴趣、关系及行为模式去推动信息及账号的传播和成长。

2      微博用户模型的维度划分

一个用户可以从多个方面去刻画,也就是说用户模型可以从多个维度来考虑和构建。

作为社交媒体,微博用户在平台上通过某些行为(如发微博、点击图片、播放视频、浏览信息流……)生产或获取信息,也通过其它一些行为(如转发、评论、赞……)将信息传播出去,信息的传播是通过用户之间的社交关系所进行的,并且在生产、消费、传播信息的过程中对信息的选择和过滤体现了用户在兴趣方面的倾向性。由此,我们可以将微博用户模型按照图1所示的四个维度进行划分,即属性维度、兴趣维度、社交维度和行为维度。

图1 微博用户模型的维度划分

用户属性和用户兴趣是通常用户画像中包含的两个维度。前者刻画用户的静态属性特征,例如用户的身份信息(性别、年龄、受教育程度、学校、工作单位……),后者则用于刻画用户在信息筛选方面的倾向(例如用户的兴趣标签、能力标签等)。

社交维度是从社交关系及信息传播的角度来刻画用户的。在社交媒体中,用户不在仅仅是一个个体,用户以及用户之间的社交关系构成了一张网络,信息在这张网络中高速流动,但是这种流动并不是无差别的,信息的起始点,所经历的关键节点以及这些节点构成的关系圈都是影响信息流动的重要因素。社交维度就是要量化这些因素以及其影响程度。

行为维度是一个比较新的研究方向,目的是发现影响用户属性、信息变化的行为因素,分析典型用户群体的行为模式。一方面可以通过行为模式的复用来促进用户在微博平台的成长;另一方面也有利于平台认识用户,和发现新的或异常的用户行为。

3      用户建模的任务

3.1     属性和兴趣维度(用户画像)

属性和兴趣维度的用户模型都可以归入用户画像(User Profile)的范畴,即对用户的信息进行标签化。一方面,标签化是对用户信息进行结构化,方便计算机的识别和处理;另一方面,标签本身也具有准确性和非二义性,也有利于人工的整理、分析和统计。

用户属性指相对静态和稳定的人口属性,例如:性别、年龄区间、地域、受教育程度、学校、公司……这些信息的收集和建立主要依靠产品本身的引导、调查、第三方提供等,在此基础上需要进行补充和交叉验证。

用户兴趣则是更加动态和易变化的特征,首先兴趣受到人群、环境、热点事件、行业……等方面的影响,一旦这些因素发生变化,用户的兴趣容易产生迁移;其次,用户的行为(特指在互联网上的行为)多样且碎片化,不同行为反映出来的兴趣差异较大,在用户兴趣分析的过程中,主要考虑如下几个方面:

(1)   标签来源:不是所有的词都适合充当用户标签,这些词本身应该具有区分性和非二义性;此外,还需要考虑来源的全面性,除了用户主动提供的兴趣标签外,用户在使用微博的过程中的行为,构建的用户关系等也能够反应用户的兴趣,因此也要将其考虑在内。

(2)   权重计算:得到了用户的兴趣标签,还需要针对用户给这些标签进行权重赋值,用来区分不同标签对于该用户的重要程度。

(3)   时效性:随着时间的变化,用户的兴趣会发生转移,有些兴趣会贯穿用户使用社交媒体的全过程,而有些兴趣则是受热点时间、环境因素等的影响。

(4)   兴趣和能力的区分:用户具有某方面的兴趣,只代表了他愿意接受这方面的信息,并不能代表他具有产生相关内容的能力。区分兴趣和能力,能有助于预测兴趣相关内容潜在的生产者和传播者。

3.2     社交维度

如果将微博中的用户视作节点,用户之间的关系视作节点之间的边,那么这些节点和边将构成一个社交的网络拓扑结构,或称作社交图谱。微博中的信息就是在这个图谱上进行传播。

从社交的维度建立用户模型,需要从不同的角度细致和全面地描述这个社交图谱的特征,反应影响信息传播的各层面上的因素,寻找节点之间的关联想,以及刻画图谱本身的结构特征。其中包括:

(1)   用户个体对信息传播的影响:不同用户在信息传播过程中的重要性不一样,影响大的用户对于信息的传播较影响小的用户更具有促进作用。

(2)   量化用户关系的远近:衡量存在直接关联(关注、被关注、互粉……)用户之间的关系远近,关系越近的用户之间越容易产生信息传播行为。

(3)   延伸用户之间的关系:通过用户之间的直接关系(关注、被关注、互粉……),让本身并不存在直接关系的用户产生关联。

(4)   寻找相似的用户:微博中非对等的关系本身可以认为是一种认证,用户基于兴趣、线下关系、或某种其它原因反应到线上的一种关联。那么在关系维度上的相似用户至少能反应他们在某种因素上的一致性。

(5)   识别关系圈:从关系图谱的本身的结构出发,从中发掘关联紧密的群体,有助于信息的精准投放和推广。

以上关于关系建模的任务可以看作是逐步深入的,从“个体”–>“关联”–>“相似”–>“群体”的逐渐深入。

3.3     行为维度

分析用户的行为,建立行为模式有两个任务:针对典型个体行为进行时序分片,分析用户成长的相关因素;针对典型群体的行为进行统计,构建其行为模型。

(1)   典型个体的行为时序分析

所谓典型个体是指某段时间内,成长比较突出的微博用户。例如从一个新用户从新注册到粉丝过百、过千需要有一个积累过程,有些用户积累较快,有些较慢,而这些积累较快的用户可以作为典型个体;或者某些用户在某一阶段传播力有限,但在某时刻传播力激增,无论是互动还是内容传播覆盖面都变化很大,这种也可以作为典型个体。

针对典型个体,需要挖掘与其用户成长相关的行为因素。基本方法是对时间进行分片,获取用户在不同时间片上的行为统计,以及在各个时间分片上的用户成长指标(粉丝数、互动率、传播力等),如图2所示。在此基础上针对用户行为的统计量的变化,利用关联性分析或回归来分析用户成长与哪些因素有关。

图2 时间分片上的用户行为统计

(2)   典型群体行为模式分析

针对典型个体,从用户的基本信息、人口信息、兴趣维度,可以将相似的典型用户划分为同一的群体,称作典型群体,针对典型群体中的用户按照成长程度进行划分,按不同的成长阶段统计用户行为,即建立了该典型群体的行为模型。

例如,对于“北京,年龄在20~30岁,女性,电商领域,普通账号”这样的典型群体,从粉丝数、传播力、互动率等维度将其划分到初创、成长、快速提升、成熟……等阶段,针对不同成长阶段内的行为组合进行统计,结果构成该群体的行为模式。

4      小结

构建用户模型是社交媒体中的基础工作,涉及到数据、统计、挖掘等各方面的技术和手段。本文针对微博的特点和业务需要,针对其中的用户模型构建的目标和任务进行了简述。全文并没有涉及具体的方法和原理,后续会有相应的技术文章进行介绍。

需要指出的是,不同于传统互联网媒体,微博作为社交媒体最大的优势在于引入了非对等的用户关系,这种关系不仅令传播更加高效,也令考虑关系因素成为了用户建模中(无论是在属性、兴趣、社交还是行为维度上)非常重要手段。

http://www.36dsj.com/archives/36194

用户画像系列——认识每一个“你”:微博中的用户模型相关推荐

  1. 用户画像系列——什么是用户画像?金融行业大数据用户画像实践

    进入移动互联网时代之后,金融业务地域限制被打破.金融企业没有固定业务区域,金融服务面对所有用户是平的. 金融消费者逐渐年轻化,80.90后成为客户主力,他们的消费意识和金融意识正在增强.金融服务正在从 ...

  2. 用户画像系列——推荐相关核心标签(偏好类)

    一.背景 我们经常在逛购物网站或者刷抖音.听网易云音乐的时候,会有猜你喜欢或者为你推荐这样一个功能,而这依赖的就是用户画像的偏好类标签:比如说明星偏好(喜欢某个明星或者歌手的作品).类型偏好(比如说: ...

  3. 用户画像系列第二篇:标签类型

    本文摘自赵宏田老师的:"用户画像:方法论与工程化解决方案". 用户画像建模其实就是给用户"打标签".从给用户打标签的方式来看,一般分为三种类型:1.统计类型标签 ...

  4. 用户画像系列——数据中台之OneID (ID-Mapping)核心架构设计

    一.引言 大家在上网的过程中是不是经常有这样的体验,我在百度(或者京东.淘宝)上搜索一件商品(比如说:我搜索了一台iphone 手机看了看,但是没买),奇怪的是过两天,我竟然在某视频平台或者某网页上又 ...

  5. 小米用户画像_腾讯企鹅智库发布手机品牌用户画像:华为一二线城市用户少于小米...

    近日,腾讯旗下企鹅智库公布了<2019中国网民智能手机购机用户画像分析>,统计了国内各大手机品牌的用户特征,结论非常有趣. <分析>统计显示,苹果是所有手机品牌中一线城市用户占 ...

  6. CTR预估系列:DeepCTR 一个基于深度学习的CTR模型包

    在计算广告和推荐系统中,CTR预估一直是一个核心问题.无论在工业界还是学术界都是一个热点研究问题,近年来也有若干相关的算法竞赛.本文介绍一个基于深度学习的CTR模型包DeepCTR,具有简洁易用.模块 ...

  7. 计算机用户删除 cmd,用命令行删XP中的用户。除administrator外

    XP系统一般情况下在装完系统后会有一个计算机管理员权限的用户,以后登陆时就显示这个用户,而看不到 Administrator账户,并且进入XP系统后在控制面板中的用户账户下看不到Administrat ...

  8. mysql中用户权限的授予_如何在MySQL中创建用户和授予权限

    如何创建MySQL用户并授予权限?为了实现良好的安全性,需要为每个应用程序创建单独的用户帐户,而不是root用户访问数据库.这将确保应用程序无法访问其他应用程序的数据库.因此需要mysql管理员(ro ...

  9. 火云开发课堂 - 《Shader从入门到精通》系列 第二十节:在Shader中对3D模型进行多纹理混合

    <Shader从入门到精通>系列在线课程 优惠链接:http://edu.csdn.net/combo/detail/90 第二十节:在Shader中对3D模型进行多纹理混合 视频地址:  ...

最新文章

  1. Oracle:递归查询(树形结构数据)
  2. 一些常见的名词解释(持续更新中)
  3. JSP学习——语法(二)
  4. linux显示磁盘使用情况命令,Linux显示磁盘使用率信息(iostat)
  5. uva455periodic strings周期串
  6. 扔掉,MySQL!性能被 MariaDB 吊打…
  7. mysql5 7选路径_MySQL 5.5/5.6/5.7及以上版本安装包安装时如何选择安装路径
  8. oracle改成归档模式_oracle 11g开启归档模式及修改归档目录
  9. ML.NET Cookbook:(16)什么是规范化?为什么我需要关心?
  10. sql 查询结果自定义排序
  11. C语言中控制printf的打印颜色实例及vt100的控制符文档-转
  12. 五十、Nginx负载均衡、SSL原理、生成SSL密钥对、Nginx配置SSL
  13. 机器学习笔记(七):线性回归 | 凌云时刻
  14. C语言运算符优先级(超详细)
  15. python mro文件_python MRO问题
  16. go老鸟也会经常出现 并发channal问题引起的协程泄漏
  17. Python办公自动化之Word文档自动化:全网最全,看这一篇就够了!
  18. JasperReport:几个莫名其妙的问题的解决
  19. windbg 命令 - !list
  20. mysql导入数据表

热门文章

  1. Volly 框架简介
  2. 404 not found是什么意思?应该如何解决404 not found?
  3. 医院患者监护系统的问题定义和可行性研究
  4. 判断题:oracle自带的sql语言环境是pl/sql,习题库简介
  5. 一行命令堆出你的新垣结衣(已开源),有点牛!
  6. qmake 乱乱乱谈(一)
  7. 新人必读!五分钟搞懂通信行业!
  8. table(表格)单元格合并:横向合并和纵向合并
  9. TQ210——文件系统
  10. kali信息收集工具