定义

选择偏差(Selection bias)是指在对个人、群体或数据进行选择分析时引入的偏差,这种选择方式没有达到适当的随机化,从而确保所获得的样本不能代表拟分析的总体。它有时被称为选择效应。

https://zhuanlan.zhihu.com/p/26143968
https://www.zhihu.com/question/29769549
https://zhuanlan.zhihu.com/p/102974409

自选择偏差

自选择偏差是指解释变量不是随机的,而是个体选择的结果,而这个选择的过程会使对主效应的估计产生偏差。
例如研究是否上大学对收入的影响,我们将上大学的和没上大学的人进行简单比较,我们会发现大学生的平均工资比没上过大学的人的平均工资高。事实上,这种简单比较就存在严重的自选择问题,因为在这里比较的两类人在自身特质方面可能存在很大差异,上大学的孩子可能本身就很出色(更聪明、有毅力、能力强…),因而更有可能获得更高的收入。

样本选择偏差

如在给定的召回集中(top50)进行排序,屏幕展示的时候只展示top10,训练的时候就只有top10的正负样本(点击/未点击),因此这个训练集是有偏的

样本选择偏差(sample selection bias,SSB):传统的推荐系统仅用点击样本Xc来训练CVR预估模型,但训练好的模型是在整个样本空间X去做推断的。由于点击事件相对于曝光事件来说要少很多,因此只是样本空间X的一个很小的子集,从Xc上提取的特征相对于从X中提取的特征而言是有偏的,甚至是很不相同。从而,按这种方法构建的训练样本集相当于是从一个与真实分布不一致的分布中采样得到的,这一定程度上违背了机器学习中独立同分布的假设。这种训练样本从整体样本空间的一个较小子集中提取,而训练得到的模型却需要对整个样本空间中的样本做推断预测的现象称之为样本选择偏差。样本选择偏差会伤害学到的模型的泛化性能。

位置偏差

排序位置因素对用户点击行为的影响,如谷歌搜索中很多点击都集中在搜索页面的头部,这一方面是因为谷歌搜索的结果精准,另一方面也是因为用户对谷歌的盲目信任。很多用户会想,既然谷歌把这篇文章放在第一位,那肯定是好文章。

解决办法

自选择偏差:保证AB实验的用户群体一致
样本选择偏差:多目标学习,使用整个样本空间的数据,未曝光

CVR的时候,除了选择点击-转化作为正样本,点击-未转化作为负样本,还选择曝光-未点击的采样作为负样本 All Missing As Negative (AMAN) appliesrandom sampling strategy to select un-clicked impressions as nega-tive examples [6]. It can eliminate theSSBproblem to some degreeby introducing unobserved examples, but results in a consistentlyunderestimated prediction.

位置偏差:

  • skipabove 采样
  • 参考:https://dl.acm.org/doi/10.1145/3298689.3346997

推荐系统中的选择偏差及处理相关推荐

  1. 聊聊推荐系统中的偏差

    文 | 成指导 源 | 知乎 背景 推荐系统中大量使用用户行为数据,作为系统学习的标签或者说信号.但用户行为数据天生存在各式各样的偏差(bias),如果直接作为信号的话,学习出的模型参数不能准确表征用 ...

  2. 推荐系统中的长尾物品(Tail Items)推荐问题

    长尾物品(Tail Items)在推荐系统中是非常常见的,长尾的存在导致了样本的不均衡,对于热门头部物品(Head Items)的样本量多,模型学习这部分的效果越好,而长尾物品的样本量少,导致模型对该 ...

  3. 推荐系统中的Bias/Debias大全

    作者:一元 公众号:炼丹笔记 背景 在实践中,做推荐系统的很多朋友思考的问题是如何对数据进行挖掘,大多数论文致力于开发机器学习模型来更好地拟合用户行为数据.然而,用户行为数据是观察性的,而不是实验性的 ...

  4. ACL 2019开源论文 | 句对匹配任务中的样本选择偏差与去偏方法

    作者丨张冠华 单位丨腾讯实习生 & 哈工大本科生 研究方向丨自然语言处理 导读 句对匹配 (Natural Language Sentence Matching,NLSM) 任务是指给定两个句 ...

  5. 推荐系统中的前沿技术研究与落地:深度学习、AutoML与强化学习 | AI ProCon 2019...

    整理 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 个性化推荐算法滥觞于互联网的急速发展,随着国内外互联网公司,如 Netflix 在电影领域,亚马逊.淘宝.京东等在电商领域,今日头 ...

  6. 在推荐系统中,我还有隐私吗?联邦学习:你可以有

    2020-11-19 15:38:41 机器之心分析师网络 作者:仵冀颖 编辑:H4O 在推荐系统无所不在的网络环境中,用户越来越强烈地意识到自己的数据是需要保密的.因此,能够实现隐私保护的推荐系统的 ...

  7. SIGIR 2021 | AutoDebias:推荐系统中通用的自动去偏方法

    ©PaperWeekly 原创 · 作者|董汉德 学校|中国科学技术大学硕士生 研究方向|信息检索 摘要 近些年来,推荐系统的偏差越来越受到研究者的关注.训练推荐模型的数据大多为观测所得,而非实验所得 ...

  8. 何向南教授团队最新综述:对话推荐系统中的进展与未来挑战

    ©作者|高崇铭.雷文强等 来源|社媒派SMP 背景介绍 推荐系统为工业界带来了巨大的收益.大多数推荐系统都是以静态的方式工作,即从用户历史的交互中来推测用户的兴趣爱好从而做出推荐.然而,这样的方式有缺 ...

  9. 浅谈微视推荐系统中的特征工程

    本文作者:hannahguo,腾讯 PCG 推荐算法工程师 在推荐系统中,特征工程扮演着重要的角色.俗话说数据和特征决定了机器学习算法的上限,而模型.算法的选择和优化只是在不断逼近这个上限.特征工程的 ...

最新文章

  1. 转:Merge into的使用详解
  2. 利用微软类库 Visual Studio International Pack 汉字转拼音
  3. python调参工作都是干啥的_xgboost原理及调参方法-通俗易懂版本
  4. .NET 指南:参数的设计
  5. 5.2 Redis商业版
  6. VS2010皮肤控件介绍
  7. 如何成为一名优秀的高级C/C++程序员
  8. java rsa 验_Java使用RSA加密解密签名及校验
  9. 对比关系生成模型(Comparative Relation Generative Model)
  10. Linq to sql 结合Entity Framework 的连接查询总结
  11. 跟着老板创业3年,团队从4人到40多人
  12. allavsoft mac版:支持从各种视频分享网站下载视频
  13. java程序员选择多个offer时需要看重哪些?_27 道阿里巴巴 Java 面试题,你会几道?...
  14. 河海大学计算机考研资料汇总
  15. MCS-51单片机的外部引脚及片外总线
  16. python基础坑点
  17. 单片机(Arduino)+FLASH+MIC+喇叭自制录音、播放器(二)
  18. Python 小项目 猜数字小游戏
  19. 基于Java毕业设计志愿者管理系统演示录像2020源码+系统+mysql+lw文档+部署软件
  20. MEM/MBA数学强化(07)几何

热门文章

  1. 2的30次方用计算机怎么按,计算机基础试题2
  2. 深度学习·理论篇(2023版)·第001篇快速了解人工智能与Pytorch:机器/表示/深度学习定义+端到端的学习+神经网络在计算机视觉应用+深度学习的技术蓝图
  3. 什么是库存周转率周转天数?
  4. 34岁测试工程师面试美团遭拒:只招30岁以下,能加班但工资要求不高的....
  5. 后网盘时代:百度问鼎、阿里紧追、360们跟进
  6. BigDecimal四舍五入保留两位小数
  7. C语言代码(打印国际象棋棋盘)
  8. 如何制作抖音卡点视频,使用预设制作酷炫转场
  9. 图-介绍(intro-Graph)
  10. 【分享一个动漫拼图项目】