推荐系统去偏（Debiased Recommendation）研究进展概述

©作者 | 张景森

学校 | 中国人民大学信息学院硕士

文章来源 | RUC AI Box

引言

推荐系统作为解决信息过载的一种重要手段，已经在不同的应用场景下取得了不错的效果。近些年来关于推荐系统的研究主要集中在如何设计更好的模型来适应用户行为数据，进而提升推荐质量。然而，由于用户行为数据是观察所得(Observational)而不是实验所得(Experimental)[1]，因此会存在各种偏差，如用户对物品的选择偏差、系统对物品的曝光偏差等，直接拿模型拟合数据而忽视偏差会导致性能欠佳，在一定程度上也损害了用户对推荐系统的体验和信任，因此，去除推荐系统偏差已经成为推荐系统领域研究的一个新方向。

随着近些年因果推断(Causal Inference)的兴起，倾向分数(Propensity Score)、反事实(Counterfactual)思想以及去除混淆因子(Confounder)等手段在此领域也得到广泛应用，为推荐系统去偏提供了一些思路。本文主要介绍推荐系统去偏的研究进展情况，包括各种偏差及解决思路概括和对近几年各大会议录用的部分该领域文章的解读。

推荐系统偏差分类

1. Selection Bias

选择偏差主要来自用户的显式反馈，如对物品的评分。由于用户倾向于对自己感兴趣的物品打分，很少对自己很少对自己不感兴趣的物品打分，造成了数据非随机缺失(Missing Not At Random, MNAR)问题，观察到的评分并不是所有评分的代表性样本，于是产生了选择偏差。

解决：数据填充(Data Imputation)；倾向分数等。

2. Conformity Bias

一致性偏差是说，用户对物品的评分受用户所在的群体影响，与群体里的其他用户的评分趋于一致，即使这个评分与自己的感受不相符。这导致用户的评分并不总是能反应该用户的真实偏好。

解决：对社会群体或流行度效应进行建模等。

3. Exposure Bias

曝光偏差主要来自用户的隐式反馈，如点击。用户只能看到一部分系统曝光的物品，并作出点击等反应。但是数据中不包含的交互并不一定代表用户不喜欢，还有可能是用户不知道该物品。

解决：启发性置信权重；采样(Sampling)等

4. Position Bias

位置偏差是指，用户倾向于与推荐列表顶部的物品产生交互（点击、购买等），尽管这些物品可能是不相关的或不是最符合偏好的。这导致交互的物品可能并没有很高的相关性。

解决：点击模型(Click models)；倾向分数等

5. Popularity Bias

推荐系统数据存在长尾现象，少部分流行度高的物品占据了大多数的交互。推荐模型基于这些数据训练时，通常给流行度高的物品高分，给流行度低的物品低分，这就导致流行度高的物品更频繁地出现在数据中。流行度偏差会降低推荐系统的个性化水平，并导致推荐结果的不公平。

解决：正则化(Regularization)；对抗学习(Adversarial learning)；因果图(Causal graph)等

6. Unfairness

不公平是指系统不公平地对待某些个人或群体，而偏袒其他用户。如在有些岗位推荐系统中，相比于男性而言，女性可能会更少地被推荐高薪或职业指导服务等广告，造成了性别不公平。

解决：再平衡(Rebalancing)；正则化；对抗学习；因果建模(Causal modeling)等

7. Feedback Loop Amplifies Biases

真实的推荐系统通常会形成一个恶性循环，从而扩大各种偏差。以流行度偏差为例，推荐系统的反馈回路会导致流行度高的物品更加流行，而流行度低的物品变得更不受欢迎，这种效应会降低推荐结果的多样性，导致用户的同质化。

解决：通过收集随机数据或强化学习等方式打破循环。

8. Inductive Bias

并不是所有的偏差都是有害的。归纳偏差指通过作出一系列假设，使得模型能更好地学习目标函数进而完成推荐任务。很多假设对推荐模型效果提升都是有帮助的，如MF算法将用户和物品的交互估算成二者向量的内积。

研究进展

1. Recommendations as Treatments: Debiasing Learning and Evaluation (ICML2016)

关键词：Selection bias

较为经典的一篇提出利用逆倾向分数(Inverse Propensity Score, IPS)处理选择偏差的文章。倾向分数可以看作是每个数据被观察到的概率。本文从因果推断的角度看待推荐问题，认为在推荐系统中给用户曝光某个商品类似于在医学中给病人施加某种治疗方式。这两个任务的共同点是，只知道少数病人(用户)对少数治疗方式(物品)的反应，而大多数的病人-治疗(用户-物品)对的结果是观察不到的。

文章首先点明理想的评测方法，即在所有的用户-物品对都可以观察到时的标准评测指标：

其次，提出使用逆倾向分数对观察数据加权，构建一个对理想评测指标的无偏估计器，IPS Estimator：

此外，文章还介绍了预测倾向分数的两种方法(朴素贝叶斯、逻辑回归)，并提出了一个基于倾向分数的矩阵分解模型(MF-IPS)用于推荐任务。分别在半合成的数据集和真实数据集上进行实验证明了IPSEstimator是对理想评测指标的无偏估计和MF-IPS模型效果优于传统的矩阵分解算法，达到了去除选择偏差的目的。

2. Doubly robust joint learning for recommendation on data missing not at random (ICML2019）

关键词：Selection bias

处理选择偏差的两类方法——数据填充和倾向分数都有一定的局限性：基于数据填充的方法由于不能准确预测数据，会导致偏差的产生；由于倾向分数难以被准确地估计，因此基于倾向分数的方法会受较大方差的影响。

为了消除这两点限制，本文提出利用以上两种方法结合的双重鲁棒的方式构建无偏估计器(DR Estimator)，实现只要两种方法之一是准确的，则DR estimator就是无偏的目的。给出数据填充的推断误差

和和学习到的倾向分数

,基于DR estimator的目标函数定义为：

在使用DR estimator进行推荐学习时，需要避免数据填充模型引入的推断误差损害推荐模型的训练，本文设计了一个泛化边界来分析此问题，观察误差是如何影响使用DR estimator的预测模型的准确率的。为了实现效果保证，基于DRestimator，又提出了一种联合学习方式，即在最小化训练损失以提高模型预测准确率的同时也要学习填充模型的参数。四个真实数据集上的实验验证了这种双重鲁棒估计器和联合学习方式的效果。

3. Asymmetric Tri-training for Debiasing Missing-Not-At-Random Explicit Feedback (SIGIR2020)

关键词：Selection bias

基于倾向分数解决推荐系统选择偏差的方法由于不能准确估算倾向分数，因此会引入较大的方差。为解决这一问题，本文受到无监督领域自适应(Domain Adaptation)中的不对称协同训练(Asymmetric Tri-training)框架的启发，提出了一种基于元学习(Meta-learning)的方法去除偏差。

共分为3步：第一预训练，使用观察到的评分数据预训练三个选好的推荐算法

；第二伪标签，随机抽取一系列用户-商品对，用

和

对这些无标签的数据进行评分预测，如果两个模型的预测结果足够相似，可以使用两个结果之一作为这一数据对的伪评分，最终可以得到一个可以信赖的伪标签数据集；第三最终预测，在伪标签数据集上训练模型

，由

给出最后推荐结果。

本文在理论分析部分提出了一个新的与倾向分数无关的理想损失函数的上界，并且证明了所提出的元学习方法可以最小化此上界，因而倾向分数相关的限制问题有希望被解决。在公开数据集上的实验验证了所提出的方法稳定地提升了推荐质量，特别是在倾向分数难以估算的场景下。

4. Unbiased Recommender Learning from Missing-Not-At-Random Implicit Feedback (WSDM2020)

关键词：Exposure bias

尽管推荐系统中观察到的点击行为一定程度上可以反映用户的偏好，但是缺失的点击数据并不意味着一定是用户的负面反馈，还有可能是用户根本没有看到这些商品(Positive-unlabeled problem)，这对从隐式反馈中预测用户的偏好造成了困难。为了应对以上问题并同时解决推荐系统存在的MNAR问题，本文首先做出假设：

，即物品必须曝光给用户且相关才会发生点击。其次，定义了一个理想的损失函数，通过最大化相关度实现推荐任务。

基于倾向分数方法，本文提出了对理想损失函数的一个无偏估计器，公式中的即为倾向分数，表示物品i曝光给用户u的概率：

文章从理论证明了当倾向分数过小时(如部分物品曝光度过低)，无偏估计器会产生很大的方差，因此提出通过裁剪倾向分数的方式

来防止倾向分数过小，改进无偏估计器。在半合成数据集和真实数据集上的实验证明了提出的方法超过了参与比较的模型，特别是提高了对于很少出现在训练集中的商品(曝光度低的商品)的推荐。

5. Unbiased Learning to Rank in Feeds Recommendation (WSDM2021)

关键词：Position bias

不同于网页搜索中用户通常点击位置靠前的页面，在信息流推荐(Feeds Recommendation)中，用户更倾向于不停下滑以查看更多的物品，如在购物网站持续下滑浏览商品。由于物品的展示信息会影响用户的判断，所以基于观察到的隐式反馈数据建立的排序方法是有偏差的。除了位置偏差，本文提出在用户浏览较深时，上下文偏差(Context bias)要比位置偏差更显著，认为此时用户与物品交互的概率是受物品展示的上下文环境影响的，当目标商品四周是相似度不高的商品时，点击率更高。

为同时去除位置偏差和上下文偏差，即Context-awareposition bias，本文提出了一个无偏的排序学习框架，假设用户点击物品的概率是受检查（Examination)、相关性(Relevance)和比较(Comparison)三个因素影响。首先定义了考虑这三个偏差因素的组合的倾向分数，然后使用基于回归的期望最大化算法来估算倾向分数，并通过平衡检查和排序指标对倾向分数进行了直接和间接的评估。在真实电子商务数据集上实验证明了在位置偏差基础上引入上下文偏差的优势。

6. Popularity-Opportunity Bias in Collaborative Filtering (WSDM2021)

关键词：Popularity bias

这篇文章从理论和实验角度证明了流行度-机会偏差(Popularity-Opportunity Bias)的存在，即当存在多个符合用户偏好的物品时，更流行的物品相比于不流行的物品会有更大的机会被推荐(或排名更高)，这种现象在用户端和物品端都是存在的。

本文设计了两种方法来减小这类偏差：一是后处理方法(Post-processing)，即通过对物品进行流行度补偿的方法更新用户-物品偏好矩阵，目的是增大不太流行的物品的分数和排名位置，补偿主要依据的原则的是，物品流行度越低，与用户偏好越相关，得到的补偿越大，且用户间的评分差距也被考虑在内。二是基于正则化的内处理方法(In-processing)，通过降低物品流行度和模型输出分数之间的关联来减小偏差，采用用户-物品对的预测分数和物品对应的流行度之间的皮尔逊相关系数(Pearson correlation coefficient)作为正则项，通过最小化正则项和推荐误差来消除偏差：

在四个数据集上的实验探索了在去偏效果和推荐质量之间的权衡，并且验证了本文方法效果优于处理传统的流行度偏差的方法。

7. CausalIntervention for Leveraging Popularity Bias in Recommendation （SIGIR2021）

关键词：Popularity bias

对于推荐系统普遍存在的流行度偏差，大多数研究都设法消除偏差带来的影响。然而，本文认为不是所有的流行度偏差都是有害的，如某些商品受欢迎是源于该商品的高质量，某些服装受欢迎是因为它符合当前的审美。因此，如果盲目的消除流行度偏差会丢失数据中的一些重要信息。

本文提出了要有效利用流行度偏差的观点，首先从因果推断的角度分析得出物品流行度是曝光物品和交互之间的一个混淆因子(Confounder)，其混淆效应导致了流行度偏差不好的影响，因此要消除流行度对物品曝光度的影响，但是须保留流行度对交互(捕获用户的从众心理)的影响，即利用流行度偏差。

其次，文章利用因果推断中的do-calculus工具提出了名为Popularity-bias Deconfounding and Adjusting(PDA)的方法，在训练阶段消除流行度偏差带来的消极影响，同时在推理阶段嵌入所期望的流行度偏差，达到利用偏差的目的。实验证明了去除混淆因子的训练有助于发现用户真实兴趣，利用流行度偏差的推断调整策略有助于提升推荐准确率。

8.FairRec:Fairness-aware News Recommendation with Decomposed Adversarial Learning（AAAI2021）

关键词：Fairness

现有的新闻推荐模型通常从用户的点击行为中进行学习，有着相同敏感属性(如性别、年龄)的用户行为通常会有相似的模式。新闻推荐系统捕获这种模式可能会在推荐结果中引入与敏感属性相关的偏差，比如大多数男性会点击体育新闻，于是总是推荐体育新闻给男性用户，导致用户不能接收多种新闻信息的不公平现象。

为了消除敏感属性带来的偏差，本文提出考虑公平的新闻推荐算法。首先，将用户兴趣模型分解成两部分，一部分用来学习有偏差的用户向量(Bias-aware user embedding)以此捕获敏感用户属性的偏差信息，利用属性预测任务来增强对偏差建模的能力；另一部分学习无偏差的用户向量(Bias-free user embedding)，只对敏感属性之外的用户信息进行编码，使用属性判别器通过对抗学习的方式移除偏差信息。其次，提出了正交性正则化方法使得无偏差用户向量尽可能正交于有偏差用户向量，达到更好区分二者的目的。最后，基于无偏差的用户向量进行新闻推荐任务，达到了不错的效果。

9.Debiasing Career Recommendations with Neural Fair CollaborativeFiltering（WWW2021）

关键词：Fairness

越来越多的人类互动行为在社交媒体平台被数字化，并受到决策算法的约束，确保这些算法的公平性是非常重要的，本文研究发现基于社交媒体数据训练的协同过滤推荐算法具有一定的性别偏差。文章提出了一个神经公平协同过滤框架(Neural fair collaborative filtering, NFCF)，来消除在推荐与职业相关的敏感事物(如工作岗位、大学专业)时的性别偏差。

首先，在大量涉及非敏感物品的隐式反馈数据上预训练一个深度神经网络解决敏感数据稀疏问题(如用户通常只有一到两个专业或岗位)。然后，采用前人工作中常用的去除词向量偏差的方法减小上一步学习到的用户向量的偏差。最后，使用敏感数据对神经网络进行细调(Fine-tuning)，并在目标函数上添加公平性惩罚项，达到敏感物品推荐的目的。

本文共做了两种偏差纠正，一个是非敏感物品对输入向量带来的偏差，另一个是敏感物品对预测输出带来的偏差。在既包含敏感信息又包含非敏感信息的数据集上实验证明了两种偏差干预对于公平性推荐都是重要的。

10.AutoDebias:Learning to Debias for Recommendation (SIGIR2021)

关键词：Mixed bias

现有的大多数研究推荐系统去偏的工作如倾向分数法、数据填充法都专注于某一种或两种特定的偏差，缺乏考虑数据中混合偏差甚至未知偏差的普适能力。

针对这一问题，本文提出了一种基于元学习的普适的、自适应调整的去偏方法。首先，建立一个通用的去偏框架，该框架先采用重加权(Re-weighting)的方法对每个训练集中的样本加上特定权重，然后进一步采用了数据填充的方法处理训练集未覆盖的部分，即构造伪标签数据，总的框架表示为：

在此框架下，将寻找最优去偏策略的问题转为在框架中设置合适的去偏参数的问题，由于框架中的去偏参数量巨大，直接优化会导致过拟合问题，不具备泛化性能，文章用线性模型实例演示了用模型建模去偏参数的方法。由于训练集中缺少信号表明数据是怎样有偏的和什么数据是无偏的，因此本文提出了基于元学习的名为AutoDebias的参数学习方式，利用另一份少量的无偏数据作为监督信号来优化框架中的去偏参数，解决双层优化(设置框架参数并且在无偏数据上取得最好效果)问题，进而实现自适应的去偏。

参考文献

[1] Chen J, Dong H, Wang X, et al. Bias and Debias in RecommenderSystem: A Survey and Future Directions[J]. arXiv preprint arXiv:2010.03240,2020.

[2] Schnabel T, Swaminathan A, Singh A, et al. Recommendations astreatments: Debiasing learning and evaluation[C]//international conference onmachine learning. PMLR, 2016: 1670-1679.

[3] Wang X,Zhang R, Sun Y, et al. Doubly robust joint learning for recommendation on datamissing not at random[C]//International Conference on Machine Learning. PMLR,2019: 6638-6647.

[4] Saito Y.Asymmetric Tri-training for Debiasing Missing-Not-At-Random ExplicitFeedback[C]//Proceedings of the 43rd International ACM SIGIR Conference onResearch and Development in Information Retrieval. 2020: 309-318.

[5] Saito Y,Yaginuma S, Nishino Y, et al. Unbiased recommender learning frommissing-not-at-random implicit feedback[C]//Proceedings of the 13thInternational Conference on Web Search and Data Mining. 2020: 501-509.

[6] Wu X,Chen H, Zhao J, et al. Unbiased Learning to Rank in Feeds Recommendation[C]//Proceedingsof the 14th ACM International Conference on Web Search and Data Mining. 2021:490-498.

[7] Zhu Z,He Y, Zhao X, et al. Popularity-Opportunity Bias in CollaborativeFiltering[C]//Proceedings of the 14th ACM International Conference on WebSearch and Data Mining. 2021: 85-93.

[8] Zhang Y,Feng F, He X, et al. Causal Intervention for Leveraging Popularity Bias inRecommendation[J]. arXiv preprint arXiv:2105.06067, 2021.

[9] Wu C, WuF, Qi T, et al. FairRec: Fairness-aware News Recommendation with DecomposedAdversarial Learning[C]. AAAI, 2021.

[10] IslamR, Keya K N, Zeng Z, et al. Debiasing Career Recommendations with Neural FairCollaborative Filtering[J]. UMBC Faculty Collection, 2021.

[11] Chen J,Dong H, Qiu Y, et al. AutoDebias: Learning to Debias for Recommendation[J].arXiv preprint arXiv:2105.04170, 2021.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

???? 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

???? 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

推荐系统去偏（Debiased Recommendation）研究进展概述

推荐系统去偏（Debiased Recommendation）研究进展概述相关推荐

最新文章

热门文章