从去年还在北京工作的时候就开始不断的听说,用户画像、用户画像,而且,有个项目,项目领导美其名曰:用户画像,这么长时间,也没有真正的思考过什么叫用户画像。前几天看到一篇关于这方面的文章,决定整理消化,希望通过这种方式可以成为我自己的知识。

一、什么是用户画像(user profile)

用户画像,简而言之就是对用户信息的标签化,如图1所示。

二、为什么需要用户画像

用户画像的核心工作是为用户打标签,一方面,标签化是对用户信息的结构化处理,方便计算机识别和处理,方便进行分类统计(男女比例)、数据挖掘(利用关联规则计算喜欢红酒和喜欢运动品牌的关系)、推荐引擎、广告精准投放等;另一方面,标签本身具有准确性和非二义性,有利于人工整理、统计、分析;

三、如何构建用户画像

标签:人为规定的高度精炼的标识,如年龄段标签:25-35岁,地域标签:北京,标签本身无需进行文本预处理工作;
用户信息一般可以分为两类:静态信息和动态信息。
静态信息:例如:性别、年龄区间、地域、受教育程度、学校、公司……这些信息的收集和建立主要依靠产品本身的引导、调查、第三方提供等。微博本身就有比较完整的用户注册引导、用户信息完善任务、认证用户审核、以及大量的合作对象等,在收集和清洗用户属性的过程中,需要注意的主要是标签的规范化以及不同来源信息的交叉验证。
动态信息:用户不断变化的行为和兴趣信息,首先兴趣受到人群、环境、热点事件、行业……等方面的影响,一旦这些因素发生变化,用户的兴趣容易产生迁移;其次,用户的行为(特指在互联网上的行为)多样且碎片化,不同行为反映出来的兴趣差异较大。
以下从两个行业构建用户的动态标签:
微博用户兴趣标签:
1、标签来源:
用户自标签、达人或认证标签、公司、学校、微群标签、星座、微博关键词……这些来源都可能成为用户的标签。而针对每个特定的用户收集标签除了其自身以外,他关注用户的标签也会传递到该用户身上。如图2所示(蓝色实线代表关注关系,橙色虚线代表兴趣标签来源)。

2、标签权重:

在收集到一个用户可能存在的标签后,还需要给标签赋一定的权重,用来区分不同标签对于该用户的重要程度。不同标签的来源用户质量,标签的传递路径,转发关系,标签的本身,以及标签与用户之间的共现关系都会考虑在内。

不同质量的用户自身产生的标签权重不一样,质量越高,认为该标签的可信度越高,无论是将该标签赋给自己还是传递出去的时候其权重值越高。标签的传递路径主要是针对基于关注关系的标签传递,亲密度比较高的关注用户传递过来的标签权重值会比较高。标签是来自于用户的原创还是其转发的微博,权重值会有区别,一般来说原创的权重会高于转发权重。如果标签本身是一个非常常见的词,那么它用于刻画用户的兴趣的区分性是比较差的,相反如果是一个长尾词,则区分性较强。出于这样的考虑,越是长尾词,标签的权重值会越高。标签与用户的共现关系是指用户和该标签是否经常共同出现,评价的是两者的关联性。关联性越高,则标签的权重值越高。综合上述的因素,一个标签对于特定用户的权重值可以大致表示为:标签权重 = (来源因子 + 亲密度因子 + 转发因子 + 长尾因子) × 共现因子。

3、时效性:(时间衰减函数)

随着时间的变化,用户的兴趣会发生转移,时间越久远,标签的权重应该相应的下降,距离当前时间越近的兴趣标签应该得到适当突出。出于这样的考虑,一般会在标签权重值上叠加一个时间衰减函数,这个时间衰减函数被设计成如图3所示的指数衰减的形式,通过定义衰减幅度和半衰期,调节衰减的程度,体现不同的时效性。

此外,针对用户的兴趣,还会设定一个较小的时间窗口来获取用户的短期兴趣。通过用户在短时间内的原创、转发和关注行为收集兴趣标签,并计算标签的权重。短期兴趣更新周期会较长期兴趣更短,兴趣更集中,但是能够比较及时地反应用户兴趣的变化。

4、从兴趣到能力

然而,用户具有某方面的兴趣,只代表了他愿意接受这方面的信息,并不能代表他具有产生相关内容的能力。因此,在挖掘了用户兴趣标签的基础上,还需要发掘哪些用户能够针对特定的标签具有一定的内容生产能力。

微博中的关注关系可以认为是一种认证,具有相同兴趣的用户之间的关注则有可能是兴趣相投(当然也可能不是,但毕竟有一定的指导性),那么将具有相同兴趣标签的用户提出来,通过关注关系构成一个图,被认证得最多的用户(被关注边指向得最多)被认为在这个兴趣标签上具有最强能力。如图4所示中的带红色边框的用户。

电商用户兴趣标签

1、标签来源

电商网站的用户标签主要来源于用户浏览过的网页内容;比如:用户A,昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。则用户标签为:红酒,长城;

2、标签权重:

电商网站的用户标签主要受以下几方面的因素影响:

(1)时间因素:时间包括两方面信息:时间戳+时间长度,时间戳表征了用户的行为时间点,时间长度表征了用户在某一页面的停留时间。通过时间因素可以确定权重计算的时间衰减因子(时间戳),比如该用户行为发生在昨天则衰减因子为0.95。

(2)地点,即用户接触点(touch point):包含两层信息(网址+内容)。

网址:每一个url链接(页面/屏幕),即定位了一个互联网页面地址,或者某个产品的特定页面,网址决定了网址权重因子。

内容:每个url链接中的内容。可以是单品的相关信息,比如:类别、品牌、描述、属性、网址信息等,通过页面内容可以确定用户的标签,如红酒、长城、干红等。

例如:用户在京东商城浏览红酒信息和在品尚红酒网浏览红酒信息,表现出对红酒的喜好程度不同,所以网址权重因子也不同。

(3)用户行为:对于电商网站用户有以下典型行为:添加购物车、搜索、评论、购买、收藏等,对于不同的用户行为,权重不同。

综合上述分析,用户画像的数据模型,可以概括为下面的公式:用户标识 + 时间 + 行为类型 + 接触点(网址+内容),某用户因为在什么时间、地点、做了什么事。所以会打上**标签。

电商用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式:

标签权重=衰减因子×行为权重×网址子权重

如:用户A,昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。

  • 标签:红酒,长城

  • 时间:因为是昨天的行为,假设衰减因子为:r=0.95

  • 行为类型:浏览行为记为权重1

  • 地点:品尚红酒单品页的网址子权重记为 0.9(相比京东红酒单品页的0.7)

假设用户对红酒出于真的喜欢,才会去专业的红酒网选购,而不再综合商城选购。

则用户偏好标签是:红酒,权重是0.95*0.7 * 1=0.665,即,用户A:红酒 0.665、长城 0.665。

以上并未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。

核心在于对用户接触点的理解,接触点内容直接决定了标签信息。内容地址、行为类型、时间衰减,决定了权重模型是关键,权重值本身的二次建模则是水到渠成的进阶。模型举例偏重电商,但其实,可以根据产品的不同,重新定义接触点。比如影视产品,我看了一部电影《英雄本色》,可能产生的标签是:周润发 0.6、枪战 0.5、港台 0.3。

最后,接触点本身并不一定有内容,也可以泛化理解为某种阈值,某个行为超过多少次,达到多长时间等。比如游戏产品,典型接触点可能会是,关键任务,关键指数(分数)等等。如,积分超过1万分,则标记为钻石级用户。钻石用户 1.0。

参考文章地址:http://blog.csdn.net/youngspy23/article/details/51093498

大数据分析--用户画像相关推荐

  1. 大数据分析-用户画像详解

    转自: 百丽百灵(ID:BL100BL) 转自数据分析公号,来源:数据客 什么是用户画像? 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准.快速 ...

  2. 大数据用户画像之基本概念(一)

    什么是大数据用户画像? 大数据用户画像指的是基于大数据技术和算法,对用户进行多维度的数据分析和挖掘,从而构建用户的详细描述和分析模型. 通过分析用户的 基本信息.消费行为.兴趣爱好.社交行为.地理位置 ...

  3. 网易大数据用户画像实践

    [与数据同行]已开通综合.数据仓库.数据分析.产品经理.数据治理及机器学习六大专业群,加微信号frank61822701 为好友后入群.新开招聘交流群,请关注[与数据同行]公众号,后台回复" ...

  4. 大数据数仓搭建-大数据用户画像推荐系统搭建

    一 确定需求 我把需求主要分为三大类 一 离线数据报表需求 二 实时观查数据走向需求 三 算法需求 二 确定系统架构 根据需求我们目前有几种大数据架构可以供参考 流式架构 流式架构非常激进,直接拔掉了 ...

  5. 看完秒懂大数据用户画像!

    来自:网络 什么是用户画像? 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准.快速地分析用户行为习惯.消费习惯等重要信息,提供了足够的数据基础, ...

  6. python用户画像_大数据-用户画像DMP

    描述 大数据-用户画像DMP --小树老师 更多好课 大数据用户画像系统课程一.项目概述目前推广平台仅在投放端提供了有限的定向能力,广告主没有足够的流量抓手,无法满足大中型广告主的营销目标.画像系统提 ...

  7. 大数据用户画像系统架构设计

    文章目录 一.用户画像数据仓库搭建.数据抽取部分 二.大数据平台.用户画像集市分层设计.处理 三.离线计算部分 四.实时计算部分 五.Solr/ES搜索引擎部分 六.Java Web毫秒级实时用户画像 ...

  8. 大数据用户画像项目实战 ETL数据抽取

    一.课程介绍 一个基于规则的大数据用户画像项目为什么要选这样一个项目:1.典型的批量计算场景2.基于规则.涵盖大数据批量处理的各个典型场景3.可视化.所有控制流程全程可视化4.可扩展.通过集成更多的计 ...

  9. 什么是用户画像?金融行业大数据用户画像实践 [

    什么是用户画像?金融行业大数据用户画像实践 [复制链接]       电梯直达 楼主 发表于 昨天 14:36 | 只看该作者 | 只看大图 大数据系列零基础由入门到实战视频 本帖最后由 丫丫 于 2 ...

最新文章

  1. attention retain_Attention-Aware Compositional Network
  2. 华为宣布了,手机将全面支持鸿蒙!
  3. Chapter4:Using Standard Control(学习)
  4. 爱我或者恨我,我就是我!
  5. 【已解决】SVN设置为中文 最全面
  6. BIOS报警声_文伟_新浪博客
  7. 我们在GDC上公布了一些好消息
  8. 关系数据库(范式判断、函数依赖、无损分解、正则覆盖)
  9. 计算机的所有符号,电脑上怎么打各种符号
  10. 轻量级过程改进之项目计划
  11. ECharts 使用xAxis.boundaryGap使x轴两边不留空白
  12. 每周一喂丨网络黑灰产工具“八大样儿”
  13. 【已解决】双显卡电脑开机启动慢的解决办法
  14. 浅谈移动端Vin码识别技术
  15. 下面代码的输出结果是什么?
  16. linux快捷键和指令记录
  17. 每日新闻:国务院印发“双创”升级版意见;北京城区禁止新建数据中心;亿元融资威客瞄准大数据和人工智能;工信部对信息通信发展四点倡议...
  18. 第九章 动态规划-1261:【例9.5】城市交通路网
  19. 实验二、数据库的建立和维护
  20. Python自动化测试(01)自动化测试环境搭建

热门文章

  1. [网络工程师]-防火墙-入侵防护系统IPS
  2. 根据公开信息 已有15家公司参与央行数字货币
  3. 一文搞懂│王者游戏中荣耀水晶难抽?探索游戏中的抽奖算法
  4. 微博短链接生成 php,新浪微博API生成短链接
  5. Android开发(3):个人信息界面设计
  6. heidisql修改mysql密码_读取HeidiSQL 配置文件中的密码
  7. MS COCO数据集输出数据的结果格式(result format)和如何参加比赛(participate)(来自官网)
  8. cesium创建、添加json数据
  9. 10分钟搞定miniconda-python环境安装
  10. 985复旦大学,软件工程学硕停止招生!