上篇文章主要和大家聊的是广告智能定向技术之lookalike,今天想和大家谈谈强化学习在推荐混排中的应用。

0.什么是强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。<A,S,R,P>就是强化学习中的经典四元组了。其中A代表的是Agent的所有动作;State是Agent所能感知的世界的状态;Reward是一个实数值,代表奖励或惩罚;P则是Agent所交互世界,也被称为model。

1.为什么需要用强化学习

推荐系统中的混排有以下几个难点

(1)数据异构:不同的数据包含不同的特征

(2)目标不同:不同内容(视频和新闻)的各自优化目标不同,很难做到统一的内容排序

(3)运算量大:总的计算量高达业务数*每个业务的精排数量

(4)内容的质量不同:点击率高的优质内容(如热门视频)会挤压低点击率的内容(如冷门新闻)

我们需要引入强化学习来优化系统的长期收益。首先,我们可以利用Markov Progress来对用户在推荐场景的浏览行为进行建模。其中,Agent就是我们的推荐系统本身,Action是我们推荐的内容,Reward是用户给予的反馈信息,包括点击、负反馈以及退出等。每次我们的推荐系统Agent采取某个Action,给用户推荐了一定的内容,用户会给到我们相应的反馈。强化学习的整体效果是会优于监督学习的,一般的监督学习的方式通常给出的是点击率最大的方案,而强化学习给出的最优解是总收益最大的方案。

2.强化学习在推荐混排中的使用姿势

(1)Session based recommendation

我们最优化总奖励即总点击数有:

未来有不确定因素,所以要引入衰减因子

利用DQN梯度下降求解MSE的Loss

(2)Personal DQN

主要框架图如下:

当用户的请求到来时会根据他之前的行为计算隐状态作为此次输入state的一部分,每次选择某个业务作为action,用户点击作为reward

(3)优化后的Session based recommendation

利用RNN来建模session内的信息,将DQN内state用RNN的hidden来描述可以更好地建模session内的特征

3.小结

本文主要给大家介绍了强化学习在推荐混排中的应用,个人认为我们不要将强化学习理解成一种网络,而应将其看成是一种loss。希望能够给大家解决混排问题带来一些不一样的思路哈。

欢迎大家关注计算广告那些事儿哈,除了原创文章之外,也会不定期和大家分享业内大牛的文章哈!

强化学习在推荐混排中的应用相关推荐

  1. 《强化学习周刊》第69期:ICLR2023强化学习论文推荐、MIT实现自动调整内在奖励的强化学习...

    No.69 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...

  2. 强化学习(六) - 连续空间中的强化学习(RL in Continuous Spaces)及相关实例

    强化学习(六) - 连续空间中的强化学习 6.1 连续空间中的强化学习 6.2 离散空间和连续空间 6.3 离散化 实例:小车上山 6.3.1 相关程序 6.3.2 程序注解 (1) 环境测试 (2) ...

  3. 免费公开课 | 强化学习及其在竞速无人机中的应用

    强化学习是机器学习的一个重要的领域.有别于监督学习和非监督学习,强化学习最突出的优势在于可以自主地探索出问题的解决方案. 近几年,深度强化学习把神经网络与强化学习算法进行结合,并且解决了许多人类之前无 ...

  4. Word图文混排中图片的高级处理技巧

    Word图文混排中图片的高级处理技巧 1.插入联机图片 2.图片的处理方式 1.插入联机图片 2.图片的处理方式

  5. WORD(WPS)中把图文混排中的所有图片对齐

    在WORD中,如何把所有图文混排中的所有图片对齐,可以这样: 1.查找-替换,输入^g 然后展开格式-段落:

  6. 【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用

    在新智元上一篇文章中,Jim Fan(范麟熙)介绍了强化学习的概念和目的.今天是<强化学习炼金术>Introduction第三讲. 在这一课里,Jim Fan会跟各位炼金术师们聊一聊游戏中 ...

  7. 浅析微博编辑页面图文混排中遇到的问题

    在表情键盘的图文混排中,会有很多细节问题.有的时候不理解其中的原因是很难改正的.本文主要是整理我遇到的各种问题及解决方案,供大家分享.如果你以前也遇到过类似的问题可以用我的方法修正了,希望能够对博友们 ...

  8. 深度强化学习的人工智能在游戏中的运用:游戏AI入门及AI优化指南

    前言: 现如今,所有电子游戏都离不开AI的运用,对于游戏策划而言AI是什么,AI又是如何运作,可以说是面试时的加分项,本文在这里不探讨理论的AI(采用深度强化学习的智能AI,如腾讯AI Lab.网易伏 ...

  9. 《强化学习周刊》第71期:ICAPS2023强化学习论文推荐、Meta:通过将语言模型与战略推理相结合,在外交游戏中发挥人的水平...

    No.71 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...

最新文章

  1. flex图表数据动态更新效果示例
  2. 飞飞php2.8采集失败_飞飞影视系统火车头采集器采集发布免登录接口
  3. 13.2.2 路由层——URL控制器
  4. spark.yarn.archive 的正确设置方法
  5. 为什么学习Python数据分析,python数据分析有什么用?
  6. dep指定版本 go_Go 包管理工具-dep
  7. spark生成dataframe的几种方式
  8. java爬虫教程01
  9. 易语言静态连接器提取_vc98linker修复静态编译
  10. 16Aspx.com源码2013年10月到2013年12月详细
  11. android烧写固定MAC,小系统SN号和MAC地址快速烧录的方法与流程
  12. 你想成为什么样的人取决于你付出了多少?
  13. 故乡的原风景-宗次郎
  14. WinPE环境下WinNTSetup使用说明(WIM_ESD系统如何安装)
  15. “咱们吃鸡吧”的背后
  16. window——生成ssh密钥
  17. nyoj_42 一笔画问题
  18. thinkphp 添加图片 文字 水印生成带二维码的小程序推广海报
  19. iphone快捷指令蚂蚁森林能量_如何快速偷取蚂蚁森林能量?这有一个捷径……
  20. 颠覆麦肯锡、BCG,这家公司的AI商业决策系统能做到吗?

热门文章

  1. 使用JavaScript将图片保存至本地
  2. 博客园的博客中插入公式
  3. js 金额处理加小数点后两位
  4. JAVA中isEmpty、null、的区别
  5. ESP32 开发之旅② Arduino For ESP32说明
  6. 洛谷 P1306 斐波那契公约数
  7. 【3-16】数据库基本编程语句,存储过程,触发器
  8. LNMP编译安装基于centos7.2
  9. C#获取网页内容的三种方式
  10. 博客园-vb随笔列表