今日头条首次改进DQN网络,解决推荐中的在线广告投放问题
(图片付费下载自视觉中国)
作者 | 深度传送门
来源 | 深度传送门(ID:gh_5faae7b50fc5)
【导读】本文主要介绍今日头条推出的强化学习应用在推荐的最新论文[1],首次改进DQN网络解决推荐中的在线广告投放问题。
- 图a的DQN接受的输入是state,输出是所有可能action对应的Q-value;
- 图b的DQN接受的输入是state以及某一个action,输出是对应的Q-value。
- state包含了使用GRU针对推荐列表和广告进行用户序列偏好建模的p;当前用户请求的上下文信息c;以及当前请求展示的推荐列表item的特征进行拼接转换形成的低维稠密向量rec;
- action则包含两部分:一部分是候选插入广告ad的特征;另一部分则是广告插入的位置;其中这里的前半部分会被当做输入层。
- reward函数。Reward函数也包含两部分:一部分是广告的的收入r^ad;另一部分则是用户是否继续往下刷的奖励。基于下图的reward函数,最优的Q函数策略便可以通过Bellman等式求得。
- (第6行)针对用户请求构建state;
- (第7行)根据标准的off-policy执行action,也就是选取特定ad;
- (第8行)根据设计好的reward函数,计算reward;
- (第10行)将状态转移信息(s_t,a_t,r_t,s_t+1)存储到replay buffer;
- (第11行)从replay buffer中取出mini-batch的状态转移信息,来训练得到最优的Q函数参数。
- W&D。本文稍微针对W&D进行了扩展来预估是否插入广告以及预估插入广告的CTR。
- DFM。DeepFM是在W&D基础上改进而来的一种可以额外学习特征间低阶交互的一种架构。本文的实验也表明DFM的表现好于W&D。
- GRU。GRU4Rec使用GRU来建模用户的历史行为针对用户是否点击进行预估,本文同样也进行了扩展支持实验场景。本文的实验表明GRU4Rec效果好于W&D和DFM。
- HDQN。HQN是一个层级DQN结构,高阶DQN决定插入位置;低阶DQN选择特定ad进行插入。本文的实验表明HDQN效果好于GRU,因为GRU只是最大化当前请求的immediate奖励,而HDQN则是最大化长期收益。
- DEAR。本文提出的DEAR框架效果好于HDQN,因为层级的RL架构在使用off-policy方式进行联合训练时有稳定性问题。详细的效果对比,如下图所示。
- Deep Reinforcement Learning for Online Advertising in Recommender Systems,https://arxiv.org/abs/1909.03602
◆
精彩推荐
◆
推荐阅读
诺贝尔物理学奖出炉,三大天体物理学家获奖
美政府再将8家中国企业列入“黑名单”,海康、科大讯飞、旷视等做出回应
Python入门你要懂哪些?
如何保护你的Python代码(一)——现有加密方案
百度回应李彦宏卸任百度云执行董事;甲骨文拟增聘 2000 员工拓展云服务;PostgreSQL 12 正式发布 | 极客头条
真·上天!NASA招聘区块链"多功能复合型"人才, 欲保护飞行数据安全……
10 月全国程序员工资统计,一半以上的职位 5 个月没招到人!
【光说不练假把式】今天说一说Kubernetes 在有赞的实践
你点的每个“在看”,我都认真当成了喜欢
今日头条首次改进DQN网络,解决推荐中的在线广告投放问题相关推荐
- 另辟蹊径,中科院自动化所等首次用图卷积网络解决语义分割难题
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 本文转载自:机器之心 | 参与:魔王.杜伟 作者:Yi Lu等 使用 C ...
- 分割 标注数据_另辟蹊径,中科院自动化所等首次用图卷积网络解决语义分割难题...
选自arXiv 作者:Yi Lu等 机器之心编译 参与:魔王.杜伟 使用 CNN 处理图像问题已经是常规操作,但此类方法会造成局部位置信息的损失.如何解决这个问题呢?来自中科院自动化所和北京中医药大学 ...
- fcn网络训练代码_另辟蹊径,中科院自动化所等首次用图卷积网络解决语义分割难题...
使用 CNN 处理图像问题已经是常规操作,但此类方法会造成局部位置信息的损失.如何解决这个问题呢?来自中科院自动化所和北京中医药大学的研究者另辟蹊径,提出用图卷积网络解决语义分割问题. 选自arXiv ...
- gcn语义分割_另辟蹊径,中科院自动化所等首次用图卷积网络解决语义分割难题...
选自arXiv 作者:Yi Lu等机器之心编译参与:魔王.杜伟 使用 CNN 处理图像问题已经是常规操作,但此类方法会造成局部位置信息的损失.如何解决这个问题呢?来自中科院自动化所和北京中医药大学的研 ...
- 今日头条这么火,主要解决了用户的哪些基本痛点
国内AI领域崛起的新锐企业今日头条,就为用户做好了三件事,具体如下: 1.完成分发--事实上,是提供用户的个性化需求.没有人类主编选材.提取新闻,而是基于AI主编的群体智慧,让机器学习将各大媒体的头条 ...
- Google | 创造Youtube单次上线最高收益!解决推荐中的信息茧房困境
星标/置顶小屋,带你解锁 最萌最前沿的NLP.搜索与推荐技术 文 | 江城 编 | 夕小瑶 今天分享一下Google在WSDM 2019的一篇将强化学习应用于Youtube推荐的论文,作者宣称是获得 ...
- 头条资深架构师揭秘,今日头条、抖音的推荐算法原理
点击蓝色"架构文摘"关注我哟 加个"星标",每天上午 09:25,干货推送! 一.系统概览 推荐系统,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的 ...
- 今日头条的文章推荐机制是什么?
今日头条的文章推荐机制是什么? 木木博客2015-03-28 11:15:54阅读(3982)评论(3)分享到 众所周知,今日头条是个个性化的新闻推荐引擎,在短短两年多的时间内拥有了2.2亿用户,每天 ...
- 今日头条的排名算法_今日头条核心技术“个性推荐算法”揭秘
[IT168 评论]互联网给用户带来了大量的信息,满足了用户在信息时代对信息的需求,也使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,而通常解决这个问题最常 ...
最新文章
- 9个value_counts()的小技巧,提高Pandas 数据分析效率
- Chrome开发者工具一个有用的快捷键组合:Ctrl+Shift+E
- spark 流式计算_流式传输大数据:Storm,Spark和Samza
- 【TypeScript系列教程06】基础类型
- 鸿蒙系统定位低端市场,明年年初见!鸿蒙系统会先定位中低端,后续全面升级...
- Mysql 零距离-入门(一)
- 蜥蜴与地下室(51Nod-1489)
- 构件与构架,我的理解
- Spark MLib 数据类型
- oracle关于时间的处理,如计算间隔天数、获取本年第一天、上月第一天、上月最后一天
- 2019-12-17 drivers/clocksource/arm_arch_timer.c
- Android APK反编译详解(转)
- 获取单选按钮选中的值
- 实战爬虫:python爬虫学习笔记之爬取搜狗|微信文章——动态网页爬取
- linux gcc编译模式,在Linux中GCC详细模式输出说明
- mysql绿盟扫描的2771_WEB 应用漏洞修复(绿盟科技扫描)与 Http 转 Https 解决方案...
- 股票经典书籍推荐(豪华版)
- oracle Parallel模式-Parallel用法(/*+PARALLEL(n)*/)
- 我的、新的、纯粹的:触摸荣耀长大后的面庞
- 数据库锁与加锁情况介绍(记录锁、间隙锁、next-key锁)