title:RLNF: Reinforcement Learning based Noise Filtering for Click-Through Rate Prediction

link:https://dl.acm.org/doi/pdf/10.1145/3404835.3463012

from:SIGIR 2021

1. 导读

本文可以看做是负样本筛选方面的一篇文章,主要是考虑到直接采用未点击的样本作为负样本会存在许多的噪声,利用强化学习从原始的负样本中筛选出有效的负样本用于提升ctr模型的性能。

文章主要是在PULNS这篇文章的基础,在推荐场景中使用发方法,该兴趣的小伙伴可以看看这篇文章,在文末有文献名字。并且本文涉及策略梯度方面的相关内容,不熟悉的小伙伴,网上有许多相关内容,也可以通过下方链接简单了解。https://www.bilibili.com/video/BV13W411Y75P?p=22

2. 方法

2.1 问题定义

给定一个样本s=(x,y),其中x是s的特征,y是标签,U和P分别表示负样本和正样本。通常我们直接使用U,P集合来训练模型,而本文是利用RLNF对负样本集合进行去噪后,选择有效的负样本进行训练,将去噪后的负样本集合定义为N。

2.2 方法概览

如图所示为模型的总体流程,该方法以PULNS[1]为基础,以噪声过滤器为agent,ctr模型和正负样本数据集(U,P)为环境。主要分为两步:噪声过滤器增强和ctr模型增强。

  • 第一阶段,噪声过滤器遍历包含噪声的负样本数据集U,对于其中的每个样本,以其特征x为输入,输出为动作(决定是否为有效负样本),然后环境基于动作返回奖励,利用基于策略梯度的方式更新噪声过滤器

  • 第二阶段,得到更新后的噪声过滤器选出有效样本的集合N,然后用N和P来增强ctr模型。

2.3 RLNF核心组件

2.3.1 CTR预估模型

这里的ctr模型可以是常见的任意ctr模型,比如DIN,DIEN,deepFM等等,主要就是用于预估ctr。

2.3.2 噪声过滤器

正如“方法概览”中所述,噪声过滤器是以样本特征为输入,输出为动作,这个动作用于决定是否是有效负样本。其输出为0到1的概率,整个模型为MLP+relu+sigmoid。动作策略函数如下,

2.3.3 奖励

由于最终是希望提升ctr模型的性能(如auc),所以最直接的方法就是将auc作为奖励,因此一种自然而然的想法是,在噪声过滤器选择有效负样本后,将所选择的有效负样本用于增强CTR预测模型,并将增强CTR预测模型的AUC分数作为延迟奖励。但是,这种方式是低效的,因为每遍历一次U,只能更新一次噪声过滤器。

因此,作者将U划分为L组,,每个组中包含一些样本,,噪声过滤器从中选出有效负样本定义为,同时从P中随机选出个作为正样本子集定义为。然后将G'和P'输入到ctr模型微调,在验证集上得到auc作为奖励,定义为z。因为z始终是非负的,因此直接用z作为奖励会使得噪声过滤器难以收敛,因此将奖励改写为r=z-b,其中b是在P和U上训练得到的模型的auc。

除了延迟奖励可以用于优化噪声过滤器,ctr模型的输出也可以增强噪声过滤器。对于G中的第i个样本si,如果ctr模型将其预测为有效负样本(即,预测概率p<0.5),那么当动作ai=1时,噪声过滤器应该得到正向奖励;反之ai=0,则负向奖励。对于ctr模型预测p>=0.5的情况,同理。

总体奖励函数可以设计如下,u是G的大小,当是G中的样本的时候,就采用第一种反馈;当是验证集得到auc时,采用第二种反馈。

2.4 训练

2.4.1 噪声过滤器优化

对于某个G,过滤器遍历G后,对每个样本采取动作a,然后得到奖励r,得到轨迹为和延迟反馈。目标为最大化总奖励的期望,目标函数为下式,其中α控制延迟反馈的重要性。

可以用策略梯度的方式更新,目标函数关于θ的公式如下,

用对未来奖励进行衰减,将上式求和部分改写为,从而改写整个梯度公式为下式,

3. 结果

一起交流

想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定o要备注信息才能通过)

4. 相关文献

[1] Chuan Luo, Pu Zhao, Chen Chen, Bo Qiao, Chao Du, Hongyu Zhang, Wei Wu, Shaowei Cai, Bing He, Saravanakumar Rajmohan, and Qingwei Lin. 2021. PULNS: Positive-Unlabeled Learning with Effective Negative Sample Selector. In Proceedings of AAAI 2021.

END -

一文速览!多模态预训练中的 Prompt 范式

2022-01-26

硬核!一文梳理经典图网络模型

2022-01-25

工作没满一年,我跳槽了!【附面经】

2022-01-24

Green Deep Learning:NLP在大模型之外的另一种思路!

2022-01-22

SIGIR'21「微软」:强化学习过滤负样本噪声提升点击率相关推荐

  1. 「AutoML」强化学习如何用于自动模型设计(NAS)与优化?

    作者&编辑 | 言有三 一直以来,网络结构的设计是一个非常需要经验且具有挑战性的工作,研究人员从设计功能更加强大和更加高效的模型两个方向进行研究,随着各类经典网络设计思想的完善,如今要手工设计 ...

  2. amd米兰服务器芯片,Yes!AMD发布7nm服务器芯片「米兰」:Zen 3架构,IPC提升19%,最高64核...

    AMD 全新发布 Epyc(霄龙)7003 系列处理器,代号「米兰」.该处理器基于 Zen 3 内核和 AMD Infinity 架构打造,每核心最多可达 32 MB 的 L3 缓存,相比二代处理器「 ...

  3. 「对抗深度强化学习」是如何解决自动驾驶汽车系统中的「安全性」问题的?...

    原文来源:arXiv 作者:Aidin Ferdowsi. Ursula Challita.Walid Saad.Narayan B. Mandayam 「雷克世界」编译:嗯~是阿童木呀.KABUDA ...

  4. 谷歌大脑提出对智能体进行「正向-反向」强化学习训练,加速训练过程

    原文来源:arXiv 作者:Ashley D. Edwards.Laura Downs.James C. Davidson 「雷克世界」编译:嗯~是阿童木呀.KABUDA.EVA 在强化学习问题中,关 ...

  5. 关于「无人驾驶」的学习路线...

    来源 | 知乎冰锐 二次排版 | 张巧龙 目前我的研究方向是多传感器融合感知和定位,所以关于这个方向的可能说的多一些. 先上传一张百度Apollo 1.0的全栈工程师的技术图谱吧. 下面进入正题吧! ...

  6. 沈向洋出任董事长李笛任CEO,「微软」小冰变身「中国」小冰

    [导读]微软宣布将旗下人工智能小冰业务分拆为独立公司,并委任沈向洋博士为新公司董事长,李笛为首席执行官,陈湛为日本分部总经理. 小冰终于正式脱离微软的羽翼,开启新征程. 今日,微软宣布将旗下人工智能小 ...

  7. AI寒冬论作者再发文:「深」度学习对数据的理解太「浅」了

    http://blog.itpub.net/29829936/viewspace-2641915/ 2019-04-18 14:29:14 AI 寒冬论作者 Filip Piekniewski 再次发 ...

  8. CIKM'21「eBay」推荐系统--利用超图对商品的多模态信息建模

    Click-Through Rate Prediction with Multi-Modal Hypergraphs https://dl.acm.org/doi/pdf/10.1145/345963 ...

  9. 论文浅尝 - EMNLP | 通过元强化学习实现少样本复杂知识库问答

    笔记整理 | 谭亦鸣,东南大学博士生 来源:EMNLP 2020 链接:https://www.aclweb.org/anthology/2020.emnlp-main.469.pdf 本文关注聚合型 ...

最新文章

  1. 【亲测可用】Xshell可视化配置一个登录服务器后自动进入指定目录的方法
  2. 如何删除一个员工编号及其全部主数据和事务数据?
  3. 共享童车,怎么还没火就凉了
  4. Cpp 对象模型探索 / delete 运算符内部调用过程分析
  5. Java面试准备:15个Java面试问题
  6. 架构的“一小步”,业务的一大步 1
  7. oracle中保留2位小数的写法
  8. android答辩问题,我的设计是安卓微博,答辩时老师会问些什么问题
  9. nginx部署两个php虚拟主机,nginx服务器,fastcgi模式,添加虚拟主机(多站点)配置...
  10. 在Android软件开发教学过程中应当注意的事项总结
  11. 输入输出运算符的重载
  12. Redis常见的面试题
  13. spring相关技术实现的核心原理
  14. 无线传感网MAC协议
  15. android 录屏广播,Android 录屏
  16. aix 下创建vg和lv
  17. Legacy BIOS MBR 安装黑苹果 High sierra
  18. Python网络与并发编程 02 TCP粘包
  19. Scrum立会报告+燃尽图(Beta阶段第七次)
  20. 一开机就是coloros恢复模式_KOL解读ColorOS类DC调光新技术,解决屏幕频闪难题

热门文章

  1. TokenInsight:BTC新增流量小幅下降,链上活跃度平稳
  2. SAP License:SAP FI/CO 基本概念
  3. SAP License:为什么一些现有成熟客户不愿意上S/4
  4. 学习java之利用泛型访问自己定义的类
  5. 饮冰三年-人工智能-Python-16Python基础之迭代器、生成器、装饰器
  6. java实现单链表常见操作
  7. 用自动化构建工具增强你的工作流程——gulp
  8. DB2 SQLSTATE 消息
  9. _blank开新窗口不符合标准?
  10. Harbor 使用 Helm 一键安装