社交媒体(Social Media)相对于传统互联网媒体的最大区别是通过建立人与人之间的联系,极大提升了信息生产量以及传播效率。身处社交媒体中的每个人或组织同时扮演着信息生产者、传播者与接受者的角色。

在社交媒体背景下,用户生产、传播和接收信息更加便捷,使得之前相对集中的用户兴趣和行为变得更加碎片化和离散,因此社交媒体中的用户模型的构建和应用也发生了巨大的变化。

微博经历了6年的发展,已经成为了国内社交媒体的中坚力量。本文从微博的角度出发,对微博中用户模型的目的、维度和建模任务进行描述,并作为后续微博用户模型相关文章的总述。

1      构建用户模型的目的

刻画每个用户,是任何一家社交类型的服务都需要面对的问题。不同的公司针对各自业务会有不同的需求,构建用户模型的动机和目标也会存在一定差异。从微博自身的角度来讲,构建用户模型的目的包括:

(1)   完善及扩充微博用户信息

用户模型的首要动机就是了解用户,这样才能够提供更优质的服务。但是在微博中用户的信息提供得不尽完整,有些是因为平台的引导机制造成的(例如填写公司学校信息的时候,相应的机构名或者学校名并不在列表内),有时候又是用户不愿意或懒得提供(例如针对一些非必选项),而且对于用户自行输入的内容又很难进行规范化……此外,一些隐性或变化频繁的信息(例如用户的兴趣、商业偏好、地理位置的变化等等)也需要通过用户的行为挖掘出来。

(2)   分析微博生态

除了了解用户,还需要了解自己。在掌握用户信息的基础上,平台就可以对自身的状况进行分析,从相对宏观的基础上把握微博的生态环境,为后续的优化和发展提供方向性。例如通过对用户信息的聚类,能够对微博用户进行人群的划分,掌握不同人群的活跃程度,信息的传播和引爆方式,行为及兴趣偏好等等。

(3)   支撑微博业务

在微博中的各项业务都与用户模型有着直接与间接的关系,无论是基于兴趣的推荐提升用户价值,精准的广告投放提升商业价值,还是针对特定群体的内容运营,用户模型都是其必不可少的基础支撑。直接地,用户模型可以用于兴趣匹配、关系匹配的推荐和投放;间接地,可以基于用户模型中相似的兴趣、关系及行为模式去推动信息及账号的传播和成长。

2      微博用户模型的维度划分

一个用户可以从多个方面去刻画,也就是说用户模型可以从多个维度来考虑和构建。

作为社交媒体,微博用户在平台上通过某些行为(如发微博、点击图片、播放视频、浏览信息流……)生产或获取信息,也通过其它一些行为(如转发、评论、赞……)将信息传播出去,信息的传播是通过用户之间的社交关系所进行的,并且在生产、消费、传播信息的过程中对信息的选择和过滤体现了用户在兴趣方面的倾向性。由此,我们可以将微博用户模型按照图1所示的四个维度进行划分,即属性维度、兴趣维度、社交维度和行为维度。

图1 微博用户模型的维度划分

用户属性和用户兴趣是通常用户画像中包含的两个维度。前者刻画用户的静态属性特征,例如用户的身份信息(性别、年龄、受教育程度、学校、工作单位……),后者则用于刻画用户在信息筛选方面的倾向(例如用户的兴趣标签、能力标签等)。

社交维度是从社交关系及信息传播的角度来刻画用户的。在社交媒体中,用户不在仅仅是一个个体,用户以及用户之间的社交关系构成了一张网络,信息在这张网络中高速流动,但是这种流动并不是无差别的,信息的起始点,所经历的关键节点以及这些节点构成的关系圈都是影响信息流动的重要因素。社交维度就是要量化这些因素以及其影响程度。

行为维度是一个比较新的研究方向,目的是发现影响用户属性、信息变化的行为因素,分析典型用户群体的行为模式。一方面可以通过行为模式的复用来促进用户在微博平台的成长;另一方面也有利于平台认识用户,和发现新的或异常的用户行为。

3      用户建模的任务

3.1     属性和兴趣维度(用户画像)

属性和兴趣维度的用户模型都可以归入用户画像(User Profile)的范畴,即对用户的信息进行标签化。一方面,标签化是对用户信息进行结构化,方便计算机的识别和处理;另一方面,标签本身也具有准确性和非二义性,也有利于人工的整理、分析和统计。

用户属性指相对静态和稳定的人口属性,例如:性别、年龄区间、地域、受教育程度、学校、公司……这些信息的收集和建立主要依靠产品本身的引导、调查、第三方提供等,在此基础上需要进行补充和交叉验证。

用户兴趣则是更加动态和易变化的特征,首先兴趣受到人群、环境、热点事件、行业……等方面的影响,一旦这些因素发生变化,用户的兴趣容易产生迁移;其次,用户的行为(特指在互联网上的行为)多样且碎片化,不同行为反映出来的兴趣差异较大,在用户兴趣分析的过程中,主要考虑如下几个方面:

(1)   标签来源:不是所有的词都适合充当用户标签,这些词本身应该具有区分性和非二义性;此外,还需要考虑来源的全面性,除了用户主动提供的兴趣标签外,用户在使用微博的过程中的行为,构建的用户关系等也能够反应用户的兴趣,因此也要将其考虑在内。

(2)   权重计算:得到了用户的兴趣标签,还需要针对用户给这些标签进行权重赋值,用来区分不同标签对于该用户的重要程度。

(3)   时效性:随着时间的变化,用户的兴趣会发生转移,有些兴趣会贯穿用户使用社交媒体的全过程,而有些兴趣则是受热点时间、环境因素等的影响。

(4)   兴趣和能力的区分:用户具有某方面的兴趣,只代表了他愿意接受这方面的信息,并不能代表他具有产生相关内容的能力。区分兴趣和能力,能有助于预测兴趣相关内容潜在的生产者和传播者。

3.2     社交维度

如果将微博中的用户视作节点,用户之间的关系视作节点之间的边,那么这些节点和边将构成一个社交的网络拓扑结构,或称作社交图谱。微博中的信息就是在这个图谱上进行传播。

从社交的维度建立用户模型,需要从不同的角度细致和全面地描述这个社交图谱的特征,反应影响信息传播的各层面上的因素,寻找节点之间的关联想,以及刻画图谱本身的结构特征。其中包括:

(1)   用户个体对信息传播的影响:不同用户在信息传播过程中的重要性不一样,影响大的用户对于信息的传播较影响小的用户更具有促进作用。

(2)   量化用户关系的远近:衡量存在直接关联(关注、被关注、互粉……)用户之间的关系远近,关系越近的用户之间越容易产生信息传播行为。

(3)   延伸用户之间的关系:通过用户之间的直接关系(关注、被关注、互粉……),让本身并不存在直接关系的用户产生关联。

(4)   寻找相似的用户:微博中非对等的关系本身可以认为是一种认证,用户基于兴趣、线下关系、或某种其它原因反应到线上的一种关联。那么在关系维度上的相似用户至少能反应他们在某种因素上的一致性。

(5)   识别关系圈:从关系图谱的本身的结构出发,从中发掘关联紧密的群体,有助于信息的精准投放和推广。

以上关于关系建模的任务可以看作是逐步深入的,从“个体”-->“关联”-->“相似”-->“群体”的逐渐深入。

3.3     行为维度

分析用户的行为,建立行为模式有两个任务:针对典型个体行为进行时序分片,分析用户成长的相关因素;针对典型群体的行为进行统计,构建其行为模型。

(1)   典型个体的行为时序分析

所谓典型个体是指某段时间内,成长比较突出的微博用户。例如从一个新用户从新注册到粉丝过百、过千需要有一个积累过程,有些用户积累较快,有些较慢,而这些积累较快的用户可以作为典型个体;或者某些用户在某一阶段传播力有限,但在某时刻传播力激增,无论是互动还是内容传播覆盖面都变化很大,这种也可以作为典型个体。

针对典型个体,需要挖掘与其用户成长相关的行为因素。基本方法是对时间进行分片,获取用户在不同时间片上的行为统计,以及在各个时间分片上的用户成长指标(粉丝数、互动率、传播力等),如图2所示。在此基础上针对用户行为的统计量的变化,利用关联性分析或回归来分析用户成长与哪些因素有关。

图2 时间分片上的用户行为统计

(2)   典型群体行为模式分析

针对典型个体,从用户的基本信息、人口信息、兴趣维度,可以将相似的典型用户划分为同一的群体,称作典型群体,针对典型群体中的用户按照成长程度进行划分,按不同的成长阶段统计用户行为,即建立了该典型群体的行为模型。

例如,对于“北京,年龄在20~30岁,女性,电商领域,普通账号”这样的典型群体,从粉丝数、传播力、互动率等维度将其划分到初创、成长、快速提升、成熟……等阶段,针对不同成长阶段内的行为组合进行统计,结果构成该群体的行为模式。

4      小结

构建用户模型是社交媒体中的基础工作,涉及到数据、统计、挖掘等各方面的技术和手段。本文针对微博的特点和业务需要,针对其中的用户模型构建的目标和任务进行了简述。全文并没有涉及具体的方法和原理,后续会有相应的技术文章进行介绍。

需要指出的是,不同于传统互联网媒体,微博作为社交媒体最大的优势在于引入了非对等的用户关系,这种关系不仅令传播更加高效,也令考虑关系因素成为了用户建模中(无论是在属性、兴趣、社交还是行为维度上)非常重要手段。

认识每一个“你”:微博中的用户模型相关推荐

  1. 用户画像系列——认识每一个“你”:微博中的用户模型

    社交媒体(Social Media)相对于传统互联网媒体的最大区别是通过建立人与人之间的联系,极大提升了信息生产量以及传播效率.身处社交媒体中的每个人或组织同时扮演着信息生产者.传播者与接受者的角色. ...

  2. 每个特征图1各因子和一个偏置_nlp中的概率图模型

    在自然语言处理中,概率图模型极为重要,在中文分词.词性标注.命名实体识别等诸多场景中有着广泛的应用.概率图模型(Graphical Model)分为贝叶斯网络(Bayesian Network)和马尔 ...

  3. 浅谈微博精准推荐——用户行为挖掘与相似用户挖掘

    引言:在推荐系统中,通过对用户数据的挖掘,抽象出用户感兴趣的"商品",以微博的博文推荐为例,"商品"表现为用户的博文,在博文精准推荐中,其核心问题是在给定的环境 ...

  4. 美多商城之用户注册(用户模型类)

    二.用户模型类 2.1定义用户模型类 1. Django默认用户认证系统 Django自带用户认证系统 它处理用户账号.组.权限以及基于cookie的用户会话. Django认证系统位置 django ...

  5. 建模揭秘----构建用户模型

    原文地址:http://www.ibm.com/developerworks/cn/architecture/ar-usermod2/?S_TACT=105AGX52&S_CMP=tec-cs ...

  6. 如何基于数据快速构建用户模型(Persona)?

    用户模型(Persona)是Alan Cooper在<About Face:交互设计精髓>一书中提到的研究用户的系统化方法.它是产品经理.交互设计师了解用户目标和需求.与开发团队及相关人交 ...

  7. 7-5 悄悄关注 (25 分) 新浪微博上有个“悄悄关注”,一个用户悄悄关注的人,不出现在这个用户的关注列表上,但系统会推送其悄悄关注的人发表的微博给该用户。现在我们来做一回网络侦探,根据某人的关注列

    7-5 悄悄关注 (25 分) 新浪微博上有个"悄悄关注",一个用户悄悄关注的人,不出现在这个用户的关注列表上,但系统会推送其悄悄关注的人发表的微博给该用户.现在我们来做一回网络侦 ...

  8. 7-11 悄悄关注 新浪微博上有个“悄悄关注”,一个用户悄悄关注的人,不出现在这个用户的关注列表上,但系统会推送其悄悄关注的人发表的微博给该用户。现在我们来做一回网络侦探,根据某人的关注列表和其对

    7-11 悄悄关注 新浪微博上有个"悄悄关注",一个用户悄悄关注的人,不出现在这个用户的关注列表上,但系统会推送其悄悄关注的人发表的微博给该用户.现在我们来做一回网络侦探,根据某人 ...

  9. LSTM模型在问答系统中的应用 2017-06-27 21:03 在问答系统的应用中,用户输入一个问题,系统需要根据问题去寻找最合适的答案。 1:采用句子相似度的方式。根据问题的字面相似度选择相似度最

    LSTM模型在问答系统中的应用 2017-06-27 21:03 在问答系统的应用中,用户输入一个问题,系统需要根据问题去寻找最合适的答案. 1:采用句子相似度的方式.根据问题的字面相似度选择相似度最 ...

  10. mysql查询每个id的前10条数据_解决 MySQL 比如我要拉取一个消息表中用户id为1的前10条最新数据...

    我们都知道,各种主流的社交应用或者阅读应用,基本都有列表类视图,并且都有滑到底部加载更多这一功能, 对应后端就是分页拉取数据. 好处不言而喻,一般来说,这些数据项都是按时间倒序排列的,用户只关心最新的 ...

最新文章

  1. 北京驾照到期换证简记
  2. Nginx(一)------简介与安装
  3. dev c++ 最新版本5.0
  4. python 福利彩票_使用Python买福彩,5个数字,20选5,有没买过
  5. [GitHub] 75+的 C# 数据结构和算法实现
  6. array remove java_how to remove array from another array in javascript
  7. java 货币格式 转换_java 货币 转换
  8. 论文 计算机网络技术的功能,计算机网络技术在有线电视网络中的作用论文
  9. Oracle数据库基础入门
  10. python excel 空值,python 删除空值且合并excel的操作
  11. 中国金控盐碱地水稻 国稻种芯-林裕豪:粮食安全两会热点
  12. draco3D轻量化技术在Unity3D中应用
  13. 干货 | 何延哲:App个人信息安全治理的规则、案例与思考
  14. 苹果怎么换行打字_微信新功能上线!安卓苹果都有!网友:再也不怕被刷屏了!!...
  15. 中山マミ - 咲く未来
  16. unity 骨骼物理 头发 布料模拟
  17. 编译镜像(映像).img文件
  18. C# AutoMapper 了解一下
  19. 最新亿级流量电商详情页系统的大型高并发与高可用缓存架构实战第一版附全套资料
  20. Git命令详解及工作实用流程

热门文章

  1. 华为手机像素密度排行_「屏幕像素密度」(全解析)屏幕尺寸,分辨率,像素,PPI之间到底什么关系? - seo实验室...
  2. 如何解决word添加脚注后正文跑到下一页的问题
  3. java源码之 io 流源码解读(一)
  4. word批量调整图片大小:
  5. AI足球预测软件|足球大数据预测分析
  6. RK3399 4.4内核 修改DDR频率
  7. 向量微积分——理解梯度
  8. 人工智能认知技术,在各行业的应用介绍
  9. 【python 走进NLP】hanNLP 简繁拼音转换
  10. Unity 基础数据库操作( Myspl 和 PostgreSQL)