目录

0. 相关文章链接

1. 什么是标签权重计算

2. TF-IDF词空间向量

3. 时间衰减系数

4. 标签权重配置


注:此博文为根据 赵宏田 老师的 用户画像·方法论与工程化解决方案 一书读后笔记而来,仅供学习使用

0. 相关文章链接

用户画像文章汇总

1. 什么是标签权重计算

用户在平台上的不同行为具体到用户标签层面有着不同的行为权 重。在本案例场景中,用户购买某商品的行为权重要比用户添加到购 物车、收藏某商品、浏览某商品的行为权重依次要高。具体到某个产 品层面,需要用户画像建模人员与运营人员密切沟通,结合业务场景 给不同的行为类型定权重(基本思想是复杂程度越高的行为价值越 大),同时需要考虑标签本身在全体标签类型中的权重属性。下面介 绍主观权重打分结合TF-IDF算法的综合权重计算方法。

2. TF-IDF词空间向量

TF-IDF是一种统计方法,用以评估一个字或词相对于一个文件集 或一个语料库中的其他词语的重要程度。字词的重要性随着它在文件 集中出现的次数的增加成正比增加,同时随着它在语料库中出现的频 率成反比下降。在本章介绍的案例中,对于每个用户来说,其身上同 一个标签出现的次数越多,该标签对于这个用户来说越重要,该标签 在全部用户的所有标签产生的标签集中出现的次数越多,该标签的重 要性越低。

使用TF-IDF方法来表示标签(Tag,T)和用户(User,P)之间的 关系:其中w(P,T)表示一个标签T被用于标记某个用户P的次数, TF(P,T)表示这个标记次数在所有标记用户P的标签中所占的比例, TF计算公式如下:

在一定程度上,这个比例反映了用户P被认为与标签T有关联的度 量。这个度量越大说明在更多情况下用户P与标签T之间的关系越紧密。

IDF(P,T)表示标签T的稀缺程度,即这个标签在全体用户的所 有标签中出现的概率。对一个标签T来说,如果它本身出现的概率就比 较小,却被用来标记用户P,这会使得用户P与标签T之间的关系更加紧密。IDF的计算公式如下:

这样,用户P和标签T之间的关系系数为TF(P,T)和IDF(P,T) 的乘积,计算公式为:

举一个简单的例子:如图4-28所示,A〜C代表用户,a〜e代表标 签,数字代表A〜C用户身上该标签的个数。以用户A为例,A身上有a、 b、d、e 4类标签共4+3+0+5+3=15个,a标签对A用户的TF值为4/15。全 体用户共有a标签4+5+0=9个,全体用户的全部标签为 4+5+3+6+5+5+6+3+4=41个,a标签的IDF值为41/9°A用户身上的a标签 TFXIDF值为4/15*41/9=1.21。

至此,通过TF-IDF算法求出了用户与标签之间的权重关系。但是 此时计算用户标签的权重还没有结束,当前的标签权重是未考虑业务 场景,仅考虑用户与标签之间的关系求出来的,这显然是不够的。

3. 时间衰减系数

当用户数据达到足够的密集程度后,用户身上打的标签对应的属 性会表现出较高的稳定性,这种稳定性与用户长期行为形成的个人真 实特征相匹配。但是也存在灵活变化的适应性较弱的问题。

例如,某用户主要从事软件开发,因此其在某图书类电商网站上 的搜索、收藏、购买等行为主要集中在与编程相关的内容上。然而, 如果该用户近期内转为运营类岗位,则其近期的浏览与搜索就会突变 为与运营相关的内容。但是,将用户画像的属性描述从编程转为运营 并不会由此立刻实现,仍需要长时间的用户行为的积累,直至在运营 下积累了比编程更多的子分类标签。但是在转换期间,系统仍对用户 推送编程相关书籍,这显然脱离了用户的真实关注内容。

为解决这个问题,我们引入了时间衰减这个参数,根据发生时间 的先后为用户行为数据分配权重。时间衰减是指随着时间的推移,用 户的历史行为和当前行为的相关性不断减弱,在建立与时间衰减相关 的函数时,我们可套用牛顿冷却定律数学模型。牛顿冷却定律描述的 场景是:一个较热的物体在一个温度比其温度低的环境下,这个较热 的物体的温度是要降低的,而周围物体的温度要上升,最后物体的温 度和周围的温度达到平衡,在这个平衡的过程中,较热物体的温度 F(t)随着时间t的增长而呈现指数型衰减,其温度衰减公式为:

其中,x为衰减常数,可通过回归计算得出。例如:指定45分钟后 物体温度为初始温度的0.5倍,即0.5=1Xexp(-X45),求得 =0.1556。

在用户画像的应用中,用户的某些行为会随时间衰减,而某些行 为不会随时间衰减。一般来说,用户操作的复杂程度越高,其行为随 时间衰减的影响性越小,我们可视该类行为不随时间衰减(如下单、 购买行为)。对于随时间衰减的行为,在计算行为权重时需考虑时间 因素,衰减方式可套用牛顿冷却定律;对于不随时间衰减的行为则不 必考虑时间的影响,如下表所示。

行为名称

是否受时间影响

行为权重值计算

用户搜索图书

1

行为标签权重X时间哀减函数

用户搜索图书对应作者

1

行为标签权重X时间衰减函数

用户搜索作者

1

行为标签权重X时间衰减函数

用户支付成功图书

0

行为标签权重

用户收藏图书

0

行为标签权重

用户支付成功图书对应作者

1

行为标签权重X时间衰减函数

用户收藏图书对应作者

1

行为标签权重X时间衰减函数

4. 标签权重配置

用户标签的权重最终还是需要进一步结合标签所处的业务场景、 距离当前时间、用户行为产生该标签的行为次数等因素,最终得到用 户标签权重的综合打分公式:

用户标签权重 = 行为类型权重 X 时间衰减 X 用户行为次数 X TF-IDF计算标签权重

公式中各参数的释义如下:

  • 行为类型权重:用户浏览、搜索、收藏、下单、购买等不同行 为对用户而言有着不同的重要性。一般而言,操作复杂度越高的行为 权重越大。该权重值一般由运营人员或数据分析人员主观给出。
  • 时间衰减:用户某些行为受时间影响不断减弱,行为时间距现 在越远,该行为对用户当前行为来说意义越小。
  • 行为次数:用户标签权重按天统计,用户某天与该标签产生的 行为次数越多,该标签对用户的影响越大。
  • TF-IDF计算标签权重:由每个标签对用户的重要性与该标签在 全体标签中的重要性的乘积得出每个标签的客观权重值。

结合标签权重的计算公式,可以对用户特征库(dw.cookie_feature_event_append)的行为数据计算标签权重,筛 选出与用户行为相关性最大的标签。


注:再次声明,此博文为根据 赵宏田 老师的 用户画像·方法论与工程化解决方案 一书读后笔记而来,仅供学习使用

注:其他相关文章链接由此进 -> 用户画像文章汇总


用户画像标签数据开发之标签权重计算相关推荐

  1. 用户画像标签数据开发之标签相似度计算

    目录 0. 相关文章链接 1. 什么是标签相似度计算 2. 案例场景 3. 数据开发 注:此博文为根据 赵宏田 老师的 用户画像·方法论与工程化解决方案 一书读后笔记而来,仅供学习使用 0. 相关文章 ...

  2. 基于Flink的个人装扮商城群体用户画像与数据实时统计系统(六)-需求集C实现

    文章目录 一.需求集C有什么? 二.模拟生成用户购买商品的信息 三.需求集C实现 一.需求集C有什么? 所有需求link:基于Flink的个人装扮商城群体用户画像与数据实时统计系统(二)-项目介绍与需 ...

  3. 用户画像大数据解决方案-脑图(电商行业)

    如何想直接下载原文件编辑5分 数据基础平台: 1.用户唯一+ 用户行为ID + 用户画像 + 用户兴趣 2.数据接入系统计算任务调度系统+ 元数 完善产品运营,提升用户体验: 1.业务运营监控 异动智 ...

  4. 用户画像标签数据开发之用户特征库开发

    目录 0. 相关文章链接 1. 什么是用户特征库 2. 特征库规划 3. 数据开发 4. 其他特征库规划 注:此博文为根据 赵宏田 老师的 用户画像·方法论与工程化解决方案 一书读后笔记而来,仅供学习 ...

  5. 用户画像标签数据开发之组合标签计算

    目录 0. 相关文章链接 1. 什么是组合标签计算 2. 应用场景 3. 数据计算 注:此博文为根据 赵宏田 老师的 用户画像·方法论与工程化解决方案 一书读后笔记而来,仅供学习使用 0. 相关文章链 ...

  6. 用户画像系列——推荐相关核心标签(偏好类)

    一.背景 我们经常在逛购物网站或者刷抖音.听网易云音乐的时候,会有猜你喜欢或者为你推荐这样一个功能,而这依赖的就是用户画像的偏好类标签:比如说明星偏好(喜欢某个明星或者歌手的作品).类型偏好(比如说: ...

  7. 用户画像系列第二篇:标签类型

    本文摘自赵宏田老师的:"用户画像:方法论与工程化解决方案". 用户画像建模其实就是给用户"打标签".从给用户打标签的方式来看,一般分为三种类型:1.统计类型标签 ...

  8. 基于用户画像大数据的电商防刷架构

    http://blog.csdn.net/tengxy_cloud/article/details/52576675 一.背景介绍 最近1~2年电商行业飞速发展,各种创业公司犹如雨后春笋大量涌现,商家 ...

  9. 腾讯防刷负责人:基于用户画像大数据的电商防刷架构

    本文由颜国平在高可用架构群所做的分享整理,转载请注明高可用架构公众号ArchNotes. 颜国平,腾讯云-天御系统研发负责人. 一直负责腾讯自有验证码.业务安全.防刷.账号安全等研发工作. 内部支持的 ...

  10. 用户画像:数据指标与表结构设计

    本篇博客介绍一下画像中需要开发的数据指标与开发过程中表结构的设计. 首先介绍画像开发的数据指标,画像开发过程中通用类的指标体系包括用户属性类.用户行为标签类.用户活跃时间段类.用户消费能力类.用户偏好 ...

最新文章

  1. xp职称计算机考试题库,2015年职称计算机考试XP题库.doc
  2. kewail node 短信_nodejs短信验证
  3. Falcon 快速开始
  4. Android内容提供者(群发短信)
  5. Android成长日记-使用ToggleButton实现灯的开关
  6. java之RestTemplate的访问应用
  7. Solaris adsl上网
  8. java五子棋技术路线,一位老码农的编程简史
  9. Android实现简单的计算器
  10. 堆栈指针寄存器-SP详解
  11. 平稳过程与广义平稳过程(WSS)
  12. ONU、ONT、SFU、HGU……有什么区别
  13. 2022 年最新版 68 道 Redis 面试题,20000 字,赶紧收藏起来备用
  14. gridmanager使用于本地数据,使用function来模拟返回后端数据。
  15. 职高计算机工作总结范文,职高学习工作总结范文2000字
  16. 洛谷P1036选数题解--zhengjun
  17. 防火墙(firewall)相关命令
  18. crossover22版Mac跨系统使用Win应用教程
  19. SSM宾馆管理系统(酒店管理系统)
  20. Activiti 6-04.流程设计器

热门文章

  1. PHP小白编程学习——第三方登录功能设计思维
  2. IDEA社区版详细安装2022最新版(保姆式)
  3. 2020年复旦电子信息专硕复试经验分享
  4. sqlplus 执行脚本经验总结
  5. 端午小长假出游,应季的热门玩法和特色住宿了解下
  6. java一天一只顽猴想去从山脚_异乡苦境救顽猴
  7. java 主动模式 port_详解SpringBoot修改启动端口server.port的四种方式
  8. excel合并多个工作表_多个Excel工作表合并到一个工作簿?很简单!
  9. 【NOIP模拟】寻找
  10. 2022年事件驱动策略研究报告