总结

多场景(tb主搜、店铺搜)rank,每个场景1个actor。整体架构:2个communication component(lstm),1个critic,2个actor。用公共的critic来控制协调,用lstm来保证actor可以获取之前的trajectory来学习

细节

L2R:point-wise, pair-wise, list-wise
DDPG,actor-critic:actor:at=μ(st)a_t = \mu(s_t)at​=μ(st​),critic:Q(st,at)Q(s_t, a_t)Q(st​,at​)
DRQN,partially-observable,rnn对前面的obs编码,预测Q(ht−1,ot,at)Q(h_{t - 1}, o_t, a_t)Q(ht−1​,ot​,at​)而不是Q(st,at)Q(s_t, a_t)Q(st​,at​)
MARL:多个agent,同时take action。fully cooperation agents & fully competitive agents

整体架构

公用的critic,单独的actor,单独的communication component(lstm),lstm的xtx_txt​是当前场景下的[ot,at][o_t, a_t][ot​,at​]

actor架构

实验

评估指标:GMV gap,GMV(x)−GMV(y)GMV(y)\frac{GMV(x) - GMV(y)}{GMV(y)}GMV(y)GMV(x)−GMV(y)​

GMV/Gross Merchandise Volume,商品交易总额

Learning to Collaborate: Multi-Scenario Ranking via Multi-Agent Reinforcement Learning相关推荐

  1. 论文笔记(十六):Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning

    Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning 文章概括 摘要 1 介绍 2 大规模并 ...

  2. Learning Synergies between Pushing and Grasping with Self-supervised Deep Reinforcement Learning

    1.解决的问题 先前工作存在的不足 虽然有大量的工作研究推动和抓取规划,但是大多是分开进行的,将两种策略结合进行序列化操作是一个尚未探索的问题. 在基于模型或数据驱动的方法中,推的目标很难被定义或设计 ...

  3. 强化学习 (Reinforcement Learning) 基础及论文资料汇总

    持续更新中... 书籍 1. <Reinforcement Learning: An Introduction>Richard S. Sutton and Andrew G.Barto , ...

  4. 论文记载: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks

    强化学习论文记载 论文名: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks ( 车辆网络交通信号灯 ...

  5. Deep Reinforcement Learning 深度增强学习资源

    http://blog.csdn.net/songrotek/article/details/50572935 1 学习资料 增强学习课程 David Silver (有视频和ppt): http:/ ...

  6. 看DeepMind如何用Reinforcement learning玩游戏

    看DeepMind如何用Reinforcement learning玩游戏 说到机器学习最酷的分支,非Deep learning和Reinforcement learning莫属(以下分别简称DL和R ...

  7. aws课程_AWS DeepRacer,Reinforcement Learning 101和一门关于AI管治的小课程

    aws课程 Dear readers, hope you are all doing well. I recently participated in an AWS DeepRacer tournam ...

  8. 纯干货-5Deep Reinforcement Learning深度强化学习_论文大集合

    本文罗列了最近放出来的关于深度强化学习(Deep Reinforcement Learning,DRL)的一些论文.文章采用人工定义的方式来进行组织,按照时间的先后进行排序,越新的论文,排在越前面.希 ...

  9. 【李宏毅2020 ML/DL】P107-109 Deep Reinforcement Learning | Scratching the surface

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 关于强化学习,我专门花半年时间学习实践过,因此这里笔记只记录李老师的 outline .我的强化学习资源仓库: ...

  10. 【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术

    原文:http://www.jianshu.com/p/d347bb2ca53c 声明:感谢 Tambet Matiisen 的创作,这里只对最为核心的部分进行的翻译 Two years ago, a ...

最新文章

  1. 中国科协(深圳)海外人才离岸创新创业基地源创力中心开业,主打国际创业服务...
  2. 使用Apache自带的ab命令测试网站性能(小强性能测试班学员作品)
  3. linux mmu的实现的讲解_Linux中的物理内存管理 [一]
  4. 用 python print() 函数实现的三个特效
  5. 电脑老是提示虚拟内存不足的原因及解决办法
  6. iis+php解析漏洞修复,服务器解析漏洞分析和漏洞修复方法
  7. Android使用init.rc触发脚本实现隐藏内置应用
  8. laravel--模型中各种属性详解
  9. 2.3 利用FTP服务器下载和上传文件
  10. 如何根据vin码查询_VIN车辆识别代码查询
  11. tplink查看上网记录_Tplink路由器PPPOE拨号不能上网日志查看原因
  12. 【JAVA】金额工具类 金额千分位、中文大写金额、英文金额
  13. 2022年N1叉车司机上岗证题目及模拟考试
  14. 我所理解的闭包是酱紫的
  15. [AHK]为通达信标记文字窗口的按钮增加热键
  16. 转:eclipse failed to create the java virtual machine 问题图文解析
  17. 漫画趣解Flink实时数仓
  18. JavaScript——leetcode算法入门876. 链表的中间结点【双指针专题】
  19. 今日头条/抖音小程序开源商城,附带开源项目地址
  20. 使用JabRef在WORD中自动引用参考文献的方法

热门文章

  1. 某计算机地址总线宽度为32位,这台计算机能够寻址的内存单元是多少?,某计算机地址总线宽度为32位,这台计算机能够寻址的内存单元是多少?...
  2. RewriteRule参数
  3. 多线程环境下HashMap导致CPU100%
  4. absolute导致的高度塌陷问题——解决方法
  5. 响铃:“消费茧房”才是拼多多最像今日头条的地方
  6. ROS之msg文件定义以及自定义发布主题消息类型
  7. 【报名】RT-Thread师资培训,苏州大学王宜怀教授主讲!
  8. DPDK(六):DPDK整体介绍
  9. 学历低,无法胜任工作,大佬告诉你应该怎么做
  10. 在线版音乐播放器APP