推荐系统笔记(八):推荐系统中的长尾效应
背景
长尾(The Long Tail)这一概念是由“连线”杂志主编克里斯·安德森(Chris Anderson)在2004年十月的“长尾” 一文中最早提出,用来描述诸如亚马逊和Netflix之类网站的商业和经济模式。
事实证明80%以上的点击集中在20%流行内容之中,如上图所示。
在推荐系统中,长尾意味着推荐系统倾向于推荐热门商品,而忽略了非热门的商品,这样热门的越来越热门,冷门的越来越冷门,长期下去,会对总体点击率产生坏的影响。
原因
为什么需要解决长尾效应:
1. 用户不可能多次点击同一个热门商品,用户购买过了商品后再看到这个商品回引起反感。
2. 推荐种类太少,很多用户是感性消费。
3. 每个用户都有自己的癖好,为了提升用户个性化体验。
解决方案
· 解决曝光偏差(曝光偏差是指用户看到的商品是有限的,看不到他喜欢的商品,反而推荐的不喜欢的商品):
1.Heuristic:加权的矩阵分解以及动态MF,未观测到的交互被赋予较低的权重,但挑战性较强,不易于实现。
2.Sampling:采样,经常采用的采样策略有均匀的负采样,对于流行的负样本过采样,但是这些策略却较难捕捉到真实的负样本。
3.Exposure-based model:开发基于曝光的模型,这样可以知道一个商品被曝光到某个用户的可能性等。
· 解决流行度偏差(流行度偏差是指推荐热门商品的频率比数据集中显示的原始受欢迎程度还要高,因为模型通常会给热门项目的评分高于其理想值,简单地将不受欢迎的商品预测为负值):
1.正则:合适的正则可以将模型推向平衡的推荐列表。
2. 对抗训练:通过G和D之间的对抗学习,D学习流行项和利基项之间的隐式关联,G学习捕捉更多与用户历史相关的niche商品,从而为用户推荐更多长尾商品。
3. Causal graph:因果图是反事实推理的有力工具。
4. 其它方法:propensity score也可以被用来做popularity的bias。通过降低流行项对模型训练的影响,可以减轻流行偏差。
总结
目前的推荐系统或者推荐算法,很难发现用户的隐性需求,需要调整长尾效应中商品推荐的比重,以避免或者降低长尾效应对用户体验的影响。
在推荐系统中可以使用自监督学习等方法减轻长尾效应增加鲁棒性。
参考链接:推荐系统的长尾问题 - 知乎
推荐系统笔记(八):推荐系统中的长尾效应相关推荐
- 【C语言入门】笔记八 (数组中)
练习7-8 方阵循环右移.读入两个正整数m和n(1≤n≤6),再读入n阶方阵a,将该方阵中的每个元素循环向右移m个位置,即将第0.1.....n-1列变换位第n-m.n-m+1.....n-1.0.1 ...
- 推荐系统笔记(九):SGL --利用自监督对比学习缓解推荐系统长尾效应
背景 利用图卷积神经网络处理推荐系统的问题任然有很大局限性,即使是LightGCN也存在的问题,关于LightGCN的知识和原理实现可以参考我的另外几篇博客:链接 其局限性主要在于: (1)高度节点对 ...
- 推荐系统中的长尾物品(Tail Items)推荐问题
长尾物品(Tail Items)在推荐系统中是非常常见的,长尾的存在导致了样本的不均衡,对于热门头部物品(Head Items)的样本量多,模型学习这部分的效果越好,而长尾物品的样本量少,导致模型对该 ...
- 读书笔记 |《推荐系统实践》- 个性化推荐系统总结
-- 原创,未经授权,禁止转载 2017.11.15 -- 推荐系统实践 对于推荐系统,本文总结内容,如下图所示: 推荐系统.png 文章很长,你可以跳着看你感兴趣的部分. 一.什么是推荐系统 1. ...
- 推荐算法炼丹笔记:推荐系统采样评估指标及线上线下一致性问题
本文对于推荐系统中的采样评估指标进行了讨论,内容略多, 还有一些数学推导, 有兴趣的可以去阅读文末给出的原始论文链接, 此处直接列出核心观点: 在评估推荐算法的效果时,能不采样就不采样! 除了AUC, ...
- 推荐系统读书笔记(推荐系统实战)
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载的时代.在这个时代,无论是信息消费者还是信息生产者都遇到很大的挑战:对于消费者,从大量信息中找到自己感兴趣的信息是一件非常困难的事情: ...
- 推荐系统lambda架构学习笔记之推荐系统(一)
推荐系统 个性化推荐(推荐系统)经历了多年的发展,已经成为互联网产品的标配,也是AI成功落地的分支之一,在电商(淘宝/京东).资讯(今日头条/微博).音乐(网易云音乐/QQ音乐).短视频(抖音/快手) ...
- 推荐系统笔记(十三):SGL算法的代码实现
前言 本算法是在LightGCN的代码上的基础实现的,LightGCN的代码和原理参考我前面几篇的博客:推荐系统笔记(六):LightGCN代码实现_甘霖那的博客-CSDN博客 由于L ...
- 推荐系统笔记:矩阵分解+基于邻居的模型
由于其启发式性质,基于邻域的方法通常被认为与其他优化模型具有内在的不同. 尽管如此,结果表明基于邻域的方法也可以嵌入在其他优化模型的上下文中. 这是一个相当方便的框架,因为它为邻域模型与其他优化模型( ...
- 推荐系统笔记:基于矩阵分解(总结篇)
推荐系统笔记:基于潜在因子模型的协同过滤(latent factor model)_UQI-LIUWJ的博客-CSDN博客 推荐系统笔记:无任何限制的矩阵分解_UQI-LIUWJ的博客-CSDN博客 ...
最新文章
- 剑指offer5 从尾到头打印链表
- 用时间分类能量再用能量分类时间
- pip升级之后出现no module named pip
- java序列化_夯实Java基础系列22:一文读懂Java序列化和反序列化
- es6 --- 使用proxy对数据进行劫持
- stream流把list转为map
- java 流程控制篇 2021/02/26持续更新中
- MyBatis如何返回自增的ID
- 9个主流影视站手机仿站源码分享 v1.0
- python微信聊天机器人_用python实现微信聊天机器人
- 高数 | 【一元函数微分学】导数部分经典快速例题
- Time-Series Representation Learning via Temporal and Contextual Contrasting
- 秋招 | 携程 | 携程集团2022秋招内推正式启动啦~!
- matlab函数accumarray,matlab函数调用问题
- 计算机电源插座安装,弱电箱里的插座 介绍及安装方法
- 逆向易语言程序执行流程
- 外包公司究竟有没有前途?讲讲我在外包公司的真实经历
- MFC——画笔和画刷
- matlab默认英文字体是什么?我使用console之后出现了乱码
- IIC(I2C)总线设备地址,例如E2PROM、CH455G等器件应用