去噪内隐反馈

ABSTRACT

内隐反馈的普遍性使它们成为构建在线推荐系统的默认选择。虽然大量的隐式反馈减轻了数据的稀疏性问题，但缺点是它们在反映用户的实际满意度方面没有那么干净。例如，在电子商务中，很大一部分点击并不能转化为购买，许多购买最终会得到负面评论。因此，解释隐式反馈中不可避免的噪声对推荐人的训练至关重要。然而，很少有关于推荐的工作考虑到内隐反馈的噪声性质。

在这项工作中，我们探讨了推荐训练去隐反馈的中心主题。我们发现了噪声隐式反馈的严重负面影响，即拟合噪声数据阻碍了推荐者学习实际的用户偏好。我们的目标是识别和修剪噪声交互，以提高推荐训练的有效性。通过观察正常推荐训练的过程，我们发现噪声反馈在早期阶段通常有较大的损失值。受此启发，我们提出了一种新的训练策略，即自适应去噪训练（ADT），它可以自适应地减少训练过程中的噪声交互。具体来说，我们设计了自适应损失公式的两种范式：截断损失，在每次迭代中丢弃带有动态阈值的大损失样本；而重加权损失则自适应地降低了大损失样本的权重。我们对广泛使用的二值交叉熵损失实例化了这两种范例，并在三个具有代表性的推荐器上测试了所提出的ADT策略。在三个基准上的大量实验表明，ADT比正常训练显著提高了推荐质量。

1 INTRODUCTION

推荐系统是一种很有前途的解决方案，用于挖掘各种在线服务中的用户偏好，如电子商务[31]、新闻门户[30]和社交媒体[32,38]。作为用户选择的线索，隐式反馈（例如，点击和购买）通常是培训推荐者的默认选择，因为他们的数量很大。然而，之前的工作[19,30,40]指出了隐式反馈和实际用户满意度之间的差距，因为普遍存在的噪声交互(a.k.a.用户不喜欢这个互动的项目。例如，在电子商务中，很大一部分购买最终会收到负面评论或退货。这是因为隐式交互很容易受到用户的第一印象和其他因素，如标题偏差[18]和位置偏差[20]的影响。此外，[40]的现有研究已经证明了这种假阳性互动对在线服务的用户体验的不利影响。然而，很少有关于推荐的研究考虑到内隐反馈的噪声性质。

在这项工作中，我们认为这种假阳性的交互会阻碍推荐者学习实际的用户偏好，从而导致低质量的推荐。表1提供了当我们在两个真实数据集上训练一个竞争推荐器，神经矩阵分解（NeuMF）[17]时，假阳性交互作用的负面影响的经验证据。我们通过消除推荐评估的假阳性交互来构建一个“干净”测试集1。可以看出，用假阳性交互作用（即正常训练）进行NeuMF训练后，两个数据集w.r.t.的平均性能分别下降了15.69%和6.37%回忆@20和NDCG@20，与没有假阳性交互作用的NeuMF训练相比（即，干净的训练）。因此，解释内隐式反馈中不可避免的噪声和执行去噪是至关重要的。

事实上，[9,23,42]已经致力于通过以下一些努力来消除假阳性交互作用的影响： 1)消极经验识别[23]（如图1(b)所示）；以及2)各种反馈[42,44]的合并（如图1(c)所示）。

前者通过预测带有额外用户行为（如停留时间和注视模式）和辅助项目特征（如项目描述的长度）[30]的假阳性反馈，预先处理隐式反馈。后者将额外的反馈（例如，最喜欢的和跳过的）合并到推荐训练中，以减少假阳性交互作用[44]的影响。这些方法的一个关键限制是，它们需要额外的数据来执行去噪，这可能不容易收集。此外，额外的反馈（例如，评级和喜爱）往往是一个较小的规模，这将遭受稀疏性问题的影响。例如，许多用户在看完电影或购买了产品[19]后都不会给出任何反馈。

这项工作探索了去噪隐反馈，在不使用任何额外数据的情况下自动减少假阳性交互的影响（图1(d)）。也就是说，我们只依赖于隐式交互和提取不同用户和项目之间的假阳性交互的信号。先前对鲁棒学习[14,22]和课程学习[2]的研究表明，噪声交互相对较难融入模型，这表明在训练过程中，噪声交互的损失值有不同的模式。在不同推荐者和数据集上的初步实验（如图3）显示了类似的现象：在训练的早期阶段，假阳性交互的损失值大于真阳性交互的损失值。因此，由于较大的损失，假阳性交互作用会在很大程度上误导早期的推荐训练。更糟糕的是，由于其高表示能力，推荐者最终拟合假正交互，这可能会过拟合并损害泛化。因此，去噪的一个潜在想法是减少假阳性交互的影响，例如，用大的损失值修剪交互，其中关键的挑战是同时减少真阳性交互的牺牲。

为此，我们提出了推荐者的自适应去噪训练（ADT）策略，该策略在训练过程中动态地修剪大型交互。为了避免失去一般性，我们只关注制定训练损失，它可应用于任何可微模型。详细地说，我们设计了两种范式来制定训练损失：1)截断损失，它动态地丢弃了大损失的交互作用，2)重加权损失，它自适应地重加权交互作用。对于每一次训练迭代，截断损失通过一个动态阈值去除硬交互（即大损失的交互），该动态阈值在训练期间自动更新。重加权损失动态地分配具有较小权重的硬交互作用，以削弱它们对优化的影响。我们根据广泛使用的二元交叉熵损失，实例化了这两个函数。在三个基准上，我们测试了三个有代表性的推荐者的截断损失和重加权损失：广义矩阵分解（GMF）[17]、NeuMF [17]和协同去噪自动编码器（CDAE）[41]。结果表明，ADT比正常训练有显著的提高。代码和数据都是公开可获得的2。

我们的主要贡献总结如下：

我们制定了内隐反馈去噪任务。我们发现了假正交互作用的负面影响，并确定了它们的大损失特征。

我们提出了自适应去噪训练来动态地修剪大损失的交互作用，并引入了两种范式来表示训练损失：截断损失和重加权损失。

我们实例化了关于二元交叉熵损失的两个范例，并将ADT应用于三个有代表性的推荐者。在三个基准上进行的广泛实验验证了ADT在提高推荐质量方面的有效性。

2 STUDY ON FALSE-POSITIVE FEEDBACK

在传统的机器学习任务中研究了噪声训练样本[3]的影响。然而，很少有人注意到这种对推荐的影响，这与传统任务之间的本质上不同，因为训练样本之间的关系，例如，在同一项目上的交互。我们通过比较所有观察到的推荐者的用户-项目交互的表现，研究假阳性交互对推荐训练的影响；并且没有假阳性的互动（干净的训练）。根据明确的反馈，一个交互作用被确定为假阳性或真阳性的一个。例如，如果获得以下评分（[1,5]）< 3，则购买为假阳性。虽然这种显式反馈的大小在现实场景中通常不足以构建鲁棒的推荐者，但其规模对于一个试点实验来说是足够的。我们在一个只保持真实积极交互的保留的干净测试集上评估推荐性能，也就是说，评估的重点是向用户推荐更令人满意的项目。更多细节请见第5节。结果表1总结了NeuMF在正常训练和清洁训练w.r.t.下的表现回忆一下@20和NDCG@20。在两个有代表性的数据集上，Adressa和亚马逊的书。从表1中，我们可以观察到，与清洁训练相比，正常训练的表现显著下降(例如，21.81%和9.56%的w.r.t.在Adressa和亚马逊图书上回忆@20)。这一结果显示了假阳性互动对向用户推荐令人满意的项目的负面影响。更糟糕的是，在正常训练下的推荐者产生更多的虚假交互的风险更高，这进一步损害了用户体验[30]。尽管在清洁培训的试点研究中取得了成功，但由于存在可靠反馈的稀疏性问题，因此在实际应用中，这并不是一个合理的选择。因此，值得探索去噪内隐反馈，如点击、查看或购买等推荐培训。

3 METHOD

在本节中，我们详细介绍了为推荐者提出的自适应去噪训练策略。在此之前，我们介绍了启发策略设计的任务制定和观察结果。

3.1 Task Formulation

一般来说，推荐训练的目标是从用户反馈中学习用户偏好，即学习评分函数ˆ

论文翻译-Denoising Implicit Feedback for Recommendation相关推荐

论文翻译: Adaptive implicit friends identification over heterogeneous network for social recommendation
论文: Adaptive Implicit Friends Identification over Heterogeneous Network for Social Recommendation (C ...
论文笔记二 Positive, Negative and Neutral: Modeling Implicit Feedback inSession-based News Recommendatio。
目录一论文简介论文名称 :Positive, Negative and Neutral: Modeling Implicit Feedback in 中文名称:积极.消极和中立:在基于会话的新 ...
【论文阅读】 BPR: Bayesian Personalized Ranking from Implicit Feedback
BPR: Bayesian Personalized Ranking from Implicit Feedback 论文链接:https://arxiv.org/abs/1205.2618 Abstr ...
BPR: Bayesian Personalized Ranking from Implicit Feedback 论文笔记
有什么问题欢迎讨论呀! 论文标题:BPR: Bayesian Personalized Ranking from Implicit Feedback BPR 主要采用用户的隐式反馈(如点击.收藏等), ...
论文笔记：BPR-Bayesian Personalized Ranking from Implicit Feedback | 推荐系统BPR算法分析
BPR:Bayesian Personalized Ranking from Implicit Feedback 论文链接:BPR:Bayesian Personalized Ranking from ...
【论文阅读+实现】BPR: Bayesian Personalized Ranking from Implicit Feedback
1.BPR是什么? BPR 的全称是贝叶斯个性化排序(Bayesian Personalized Ranking),它是一种排序算法,做的是TopN任务. 适用于隐性反馈数据,当然显性反馈数据把评分变 ...
【论文阅读】BPR: Bayesian personalized ranking from implicit feedback
Rendle S, Freudenthaler C, Gantner Z, et al. BPR: Bayesian personalized ranking from implicit feedba ...
论文中文翻译——kAFL Hardware-Assisted Feedback Fuzzing for OS Kernels
本论文相关内容论文下载地址--26th USENIX Security Symposium 论文中文翻译--kAFL Hardware-Assisted Feedback Fuzzing for O ...
10/11论文关键词，自动去偏框架论文翻译，发文章思考
作者:袁冬至微信:DataGap 公众号:救命的药研究方向:推荐系统欢迎交流,学习! AutoDebias: Learning to Debias for Recommendation 还是看的 ...

论文翻译-Denoising Implicit Feedback for Recommendation