推荐系统中的bias在推荐业务中无可避免,且会对展示效果和推荐生态都会造成负面影响。推荐广告领域的海量论文大部分都聚焦在数据特征的表达,以及模型对用户行为数据的拟合上。如果不考虑固有的偏差,盲目地对数据进行拟合,会导致很多严重的问题,如线下评价与在线指标的不一致,损害用户对推荐服务的满意度和信任度等。
前一段时间实习的时候接触到一些debias的工作,正好借此机会系统的学习和整理了下这块的一些方法,第一篇作为总览先介绍下推荐系统中bias产生的原因,bias的类型以及bias会造成的影响,至于debias后续会跟几篇文章介绍一些方法(来自于业务总结,paper以及一些比赛方案提供的思路)。

关于bias和debias可以参照2020年的一篇综述《Bias and Debias in Recommender System: A Survey and Future Directions 》。文章从学术界的角度总结的bias的类型有很多,但是业界重点考虑到还是遗下几大类:position bias、exposure bias、selection bias和popularity bias。

position bias

position bias指的是ranking中的每个对象受到的关注会受到展现位置的影响,位置靠前的物品比位置靠后的物品更容易被用户注意到,也更容易获得点击,从而使模型对用户偏好的感知出现偏差。它的成因来自于用户的点击习惯,也是大部分人群的点击习惯:对于展示坑位靠前的,比如最前面展示的一两个位置,人们总是倾向于点击下他去看他,那么这些位置item的后验点击率一定是偏高的。如果再让模型去学就会高估,为此必须把位置偏置去掉,让模型去预估不包含位置信息的点击率。

exposure bias

曝光偏差主要来自用户的隐式反馈,如点击。用户只能看到一部分系统曝光的物品,并作出点击等反应。但是数据中不包含的交互并不一定代表用户不喜欢,还有可能是用户不知道该物品。

selection bias

选择偏差主要来自用户的显式反馈,如对物品的评分。由于用户倾向于对自己感兴趣的物品打分,很少对自己很少对自己不感兴趣的物品打分,造成了数据非随机缺失(Missing Not At Random, MNAR)问题,观察到的评分并不是所有评分的代表性样本,于是产生了选择偏差。

popularity bias

长尾现象在推荐数据中很常见:在大多数情况下,一小部分受欢迎的商品占了大多数用户交互的比例。当对这些长尾数据进行训练时,该模型通常会给热门项目的评分高于其理想值,而只是简单地将不受欢迎的商品预测为负值。因此,推荐热门商品的频率甚至比数据集中显示的原始受欢迎程度还要高。


Himan等人对流行偏见进行了实证检验。如上图所示,项目流行度和推荐频率之间的关系。我们可以发现,大多数推荐的商品都位于高人气区(H)。事实上,他们被推荐的程度甚至超过了他们最初的受欢迎程度.

忽略流行度经常会带来非常多的问题:
(1).降低个性化的程度影响,影响用户的体验;
(2).降低了推荐系统的公平性, 流行的商品却不一定是高质量的, 对流行商品的推荐会降低其它商品的曝光,这是不公平的;
(3).Popular Bias会增加流行商品的曝光率, 使得流行的商品越加流行,而推荐系统中的反馈回路则放大了偏差;

参考
1.https://zhuanlan.zhihu.com/p/293050486
2.https://zhuanlan.zhihu.com/p/380753374

推荐系统中的biasdebias(一):bias的成因、类型和影响相关推荐

  1. 推荐系统中的biasdebias(二):position bias的消偏

    前面提到过position bias,即用户倾向于点击排在前面的结果,这使得"优势位置"的item会获得更高的后验点击率. 这本质上是和用户的注意力,用户对item的情绪有关,而和 ...

  2. 聊聊推荐系统中的偏差

    文 | 成指导 源 | 知乎 背景 推荐系统中大量使用用户行为数据,作为系统学习的标签或者说信号.但用户行为数据天生存在各式各样的偏差(bias),如果直接作为信号的话,学习出的模型参数不能准确表征用 ...

  3. 推荐系统中不得不学的对比学习(Contrastive Learning)方法

    作者 | 对白 出品 | 公众号:对白的算法屋 大家好,我是对白. 今天我们来聊一聊推荐系统中不得不学的Contrastive Learning方法,近年来Contrastive Learning在C ...

  4. 推荐系统中的Bias/Debias大全

    作者:一元 公众号:炼丹笔记 背景 在实践中,做推荐系统的很多朋友思考的问题是如何对数据进行挖掘,大多数论文致力于开发机器学习模型来更好地拟合用户行为数据.然而,用户行为数据是观察性的,而不是实验性的 ...

  5. 推荐系统中的长尾物品(Tail Items)推荐问题

    长尾物品(Tail Items)在推荐系统中是非常常见的,长尾的存在导致了样本的不均衡,对于热门头部物品(Head Items)的样本量多,模型学习这部分的效果越好,而长尾物品的样本量少,导致模型对该 ...

  6. SIGIR 2021 | AutoDebias:推荐系统中通用的自动去偏方法

    ©PaperWeekly 原创 · 作者|董汉德 学校|中国科学技术大学硕士生 研究方向|信息检索 摘要 近些年来,推荐系统的偏差越来越受到研究者的关注.训练推荐模型的数据大多为观测所得,而非实验所得 ...

  7. 何向南教授团队最新综述:对话推荐系统中的进展与未来挑战

    ©作者|高崇铭.雷文强等 来源|社媒派SMP 背景介绍 推荐系统为工业界带来了巨大的收益.大多数推荐系统都是以静态的方式工作,即从用户历史的交互中来推测用户的兴趣爱好从而做出推荐.然而,这样的方式有缺 ...

  8. 浅谈微视推荐系统中的特征工程

    本文作者:hannahguo,腾讯 PCG 推荐算法工程师 在推荐系统中,特征工程扮演着重要的角色.俗话说数据和特征决定了机器学习算法的上限,而模型.算法的选择和优化只是在不断逼近这个上限.特征工程的 ...

  9. [转]矩阵分解在推荐系统中的应用

    矩阵分解是最近几年比较火的算法,经过kddcup和netflix比赛的多人多次检验,矩阵分解可以带来更好的结果,而且可以充分地考虑各种因素的影响,有非常好的扩展性,因为要考虑多种因素的综合作用,往往需 ...

最新文章

  1. nodejs 根据坐标 标记图片上的姓名列
  2. 微信小程序开发中如何实现侧边栏的滑动效果?
  3. 微软必应从.NET Core 2.1获得了性能提升
  4. js高级程序设计笔记——DOM扩展
  5. python基础30个常用代码大全-Python3列表内置方法大全及示例代码小结
  6. 好书推荐——CSDN《新程序员》
  7. 微服务网关路由过滤作用介绍
  8. 【转】Linux将composer的bin目录放到PATH环境变量中
  9. python中三种分支结构的_python 运算符与分支结构
  10. HALCON示例程序obj_diff.hdev算子obj_diff 的使用
  11. C-指针02 2017/11/24
  12. 我的领域驱动设计运用实例 - 领域啊领域
  13. oracle Client 11g静默安装
  14. python建立字典的程序_Python中如何创建字典Dict
  15. 线索二叉树(Binary Thread Tree)
  16. 告别windows,拥抱ubuntu
  17. axios的一封装和二次封装
  18. C++题解:CSP迎国庆热身公益赛T2——猜数游戏(70分)
  19. Windows10家庭版 VMWare15 安装虚拟机启动时出现 蓝屏(而且重启)问题
  20. 互联网中越老越吃香的行业是?

热门文章

  1. 中专毕业生计算机简历模板,中专生简历模板
  2. Vmware安装虚拟机出现attempting to start up from?一文帮你解决
  3. 第二章 第二节课 等效电路 惠斯通电桥 等效变换
  4. python爬虫 ,爬点汉服妹子做福利
  5. macOS 运行 iOS 应用体验:你甚至能在电脑上刷微信朋友圈
  6. en-win7-x64-sp1 + vs2015.3 + Lenovo Z470 装机镜像
  7. 蓝桥杯:旅行家的预算 贪心解法
  8. JavaWeb|浅谈Cookie
  9. 百度网盘:申诉已受理,预计72小时内完成审核与处理
  10. python 仪表驱动_技术文章 | 锐视模块化仪器python驱动使用说明