总结

多场景（tb主搜、店铺搜）rank，每个场景1个actor。整体架构：2个communication component（lstm），1个critic，2个actor。用公共的critic来控制协调，用lstm来保证actor可以获取之前的trajectory来学习

细节

L2R：point-wise, pair-wise, list-wise
DDPG，actor-critic：actor：at=μ(st)a_t = \mu(s_t)at=μ(st)，critic：Q(st,at)Q(s_t, a_t)Q(st,at)
DRQN，partially-observable，rnn对前面的obs编码，预测Q(ht−1,ot,at)Q(h_{t - 1}, o_t, a_t)Q(ht−1,ot,at)而不是Q(st,at)Q(s_t, a_t)Q(st,at)
MARL：多个agent，同时take action。fully cooperation agents & fully competitive agents

整体架构

公用的critic，单独的actor，单独的communication component（lstm），lstm的xtx_txt是当前场景下的[ot,at][o_t, a_t][ot,at]

actor架构

实验

评估指标：GMV gap，GMV(x)−GMV(y)GMV(y)\frac{GMV(x) - GMV(y)}{GMV(y)}GMV(y)GMV(x)−GMV(y)

GMV/Gross Merchandise Volume，商品交易总额

Learning to Collaborate: Multi-Scenario Ranking via Multi-Agent Reinforcement Learning相关推荐

论文笔记（十六）：Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning
Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning 文章概括摘要 1 介绍 2 大规模并 ...
Learning Synergies between Pushing and Grasping with Self-supervised Deep Reinforcement Learning
1.解决的问题先前工作存在的不足虽然有大量的工作研究推动和抓取规划,但是大多是分开进行的,将两种策略结合进行序列化操作是一个尚未探索的问题. 在基于模型或数据驱动的方法中,推的目标很难被定义或设计 ...
强化学习 (Reinforcement Learning) 基础及论文资料汇总
持续更新中... 书籍 1. <Reinforcement Learning: An Introduction>Richard S. Sutton and Andrew G.Barto , ...
论文记载： Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks
强化学习论文记载论文名: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks ( 车辆网络交通信号灯 ...
Deep Reinforcement Learning 深度增强学习资源
http://blog.csdn.net/songrotek/article/details/50572935 1 学习资料增强学习课程 David Silver (有视频和ppt): http:/ ...
看DeepMind如何用Reinforcement learning玩游戏
看DeepMind如何用Reinforcement learning玩游戏说到机器学习最酷的分支,非Deep learning和Reinforcement learning莫属(以下分别简称DL和R ...
aws课程_AWS DeepRacer，Reinforcement Learning 101和一门关于AI管治的小课程
aws课程 Dear readers, hope you are all doing well. I recently participated in an AWS DeepRacer tournam ...
纯干货-5Deep Reinforcement Learning深度强化学习_论文大集合
本文罗列了最近放出来的关于深度强化学习(Deep Reinforcement Learning,DRL)的一些论文.文章采用人工定义的方式来进行组织,按照时间的先后进行排序,越新的论文,排在越前面.希 ...
【李宏毅2020 ML/DL】P107-109 Deep Reinforcement Learning | Scratching the surface
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 关于强化学习,我专门花半年时间学习实践过,因此这里笔记只记录李老师的 outline .我的强化学习资源仓库: ...
【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术
原文:http://www.jianshu.com/p/d347bb2ca53c 声明:感谢 Tambet Matiisen 的创作,这里只对最为核心的部分进行的翻译 Two years ago, a ...

Learning to Collaborate: Multi-Scenario Ranking via Multi-Agent Reinforcement Learning

总结

细节

实验

Learning to Collaborate: Multi-Scenario Ranking via Multi-Agent Reinforcement Learning相关推荐

最新文章

热门文章