1. Richaed S.Sutton撰写的一本厚厚的书:《强化学习》    我整理的笔记
  2. 如何处理大规模离散动作空间
  3. 增强学习在推荐系统有什么最新进展?
  4. RL在推荐中的综述,用很短的篇幅把强化学习在推荐系统中的工作、问题全理顺了。Reinforcement Learning based Recommender Systems: A Survey
  5. 一个tutorial对理解RL在推荐中的off-policy evaluation非常有帮助,前半小时是精髓。 A Gentle Introduction to Recommendation as Counterfactual Policy Learning youtube链接 对应的slide pdf
  6. 离线强化学习。这是Sergey Levine(伯克利大学的强化学习巨佬)亲自一作写的综述和tutorial,2020年新出的,也是目前强化学习的一个重点研究方向。tutorial首页 综述:Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems;综述链接
  7. 强化学习算法实现的库, 清华本科生写的一个代码量很短的库,对比目前主流的库,效果和效率都好得多,非常强
  8. 强化学习在推荐中的交互环境:RecoGym 2018, PyRecGym 2019年,Recsim 2019年,Virtual-Taobao 2019年
  9. 如何选择深度强化学习算法?MuZero/SAC/PPO/TD3/DDPG/DQN/等(已完成)
  10. 深度强化学习调参技巧:以D3QN、TD3、PPO、SAC算法为例

2021.11.10更新

强化学习:兵分三路,挺进产业

前沿强化学习问题

(2 条消息) 强化学习的训练只用历史数据可行么? - 知乎

Offline RL 教程 - 知乎

真离线强化 An Optimistic Perspective on Offline RL - 知乎

(2 条消息) 强化学习中A3C/DDPG/DPPO哪个效果更好? - 知乎

2005.01643.pdf

离线强化学习综述 - 知乎

Top-K Off-Policy Correction for a REINFORCE Recommender System on Youtube | 王鸣辉的博客

(2 条消息) 增强学习在推荐系统有什么最新进展? - 知乎

CS 285

CS 285: Lecture 12, Part 1

RL — Model-based Reinforcement Learning | by Jonathan Hui | Medium

反向强化学习 | Way To Machine Learning

(3 条消息) 目前最好用的大规模强化学习算法训练库是什么? - 知乎

rllib-zh.pdf

​​test

[D] Reinforcement Learning with multiple simultaneous actions? : MachineLearning

[D] Reinforcement learning with combined continuous and discrete action space? : MachineLearning

[D] Reinforcement learning with combined continuous and discrete action space? : MachineLearning

如何选择深度强化学习算法?MuZero/SAC/PPO/TD3/DDPG/DQN/等(已完成) - 知乎

(3 条消息) 施靖 - 知乎

跨年推荐书:Feedback Systems and Reinforcement Learning - 知乎

谁说RL智能体只能在线训练?谷歌发布离线强化学习新范式,训练集相当于200多个ImageNet - 知乎

真离线强化 An Optimistic Perspective on Offline RL - 知乎

Bayesian Reinforcement Learning

强化学习基础 Ⅳ: State-of-the-art 强化学习经典算法汇总 - 知乎

Rainbow:整合DQN六种改进的深度强化学习方法! - 简书

[阅读笔记]Background and Decision-time Planning - 知乎

(6 条消息) 张楚珩 - 知乎

【强化学习 141】Off-Policy Evaluation - 知乎

如何评价DeepMind新提出的MuZero算法? - 知乎

(1 条消息) 有人总结下reinforcement learning里面planning和learning两部分嘛? - 知乎

强化学习论文笔记1——Reward Shaping重要理论基础 - 知乎

推特爆款:谷歌大脑工程师的深度强化学习劝退文-虎嗅网

【论文笔记 5】Conservative Q-Learning - 知乎

Reinforcement Learning in Recommender Systems: Some Challenges

Model-Based RL Ⅰ: Dyna, MVE & STEVE - 知乎

Decisions from Data: How Offline Reinforcement Learning Will Change How We Use Machine Learning | by Sergey Levine | Medium

【强化学习】PPO(Proximal Policy Optimization)近端策略优化算法_shura的技术空间-CSDN博客_强化学习ppo

一文带你理清DDPG算法(附代码及代码解释) - 知乎

Proximal Policy Optimization(PPO)算法原理及实现! - 简书

强化学习进阶 第七讲 TRPO - 知乎

(4 封私信) 在强化学习中,为什么TRPO和PPO算法属于On-Policy的算法? - 知乎

machine learning - What is the difference between value iteration and policy iteration? - Stack Overflow

(5 封私信 / 7 条消息) 强化学习领域目前遇到的瓶颈是什么? - 知乎

(5 封私信 / 2 条消息) Williams的REINFORCE算法和一般的policy gradient算法有什么区别吗? - 知乎

Actor-Critic算法小结 - 知乎

什么是 Deep Deterministic Policy Gradient (DDPG) - 强化学习 Reinforcement Learning | 莫烦Python

强化学习用于推荐系统 相关资料相关推荐

  1. ICML 2019 | 强化学习用于推荐系统,蚂蚁金服提出生成对抗用户模型(附论文下载链接)...

    选自arXiv 作者:Xinshi Chen.Shuang Li.Hui Li.Shaohua Jiang.Yuan Qi.Le Song 机器之心编译 参与:李诗萌.shooting 将强化学习用于 ...

  2. CS224n研究热点11 深度强化学习用于对话生成

    为什么80%的码农都做不了架构师?>>>    本文由码农场同步,最新版本请查看原文:http://www.hankcs.com/nlp/cs224n-deep-reinforcem ...

  3. 强化学习在推荐系统中的环境模拟器构建

    文章目录 1.背景 2.<Toward Simulating Environments in Reinforcement Learning Based Recommendations> 2 ...

  4. 一种将 Tree-LSTM 的强化学习用于连接顺序选择的方法

    [导读] 本篇博客讲解的是 2020 年由清华大学李国良教授团队发表在 ICDE 上的论文,介绍它所提出的算法与实验结果,并结合实际情况给出一些思考. 原文链接: http://dbgroup.cs. ...

  5. DRN——强化学习与推荐系统结合

    强化学习是近年来机器学习领域非常热门的研究话题,它的研究起源于机器人领域,针对智能体在不断变化的环境 中决策和学习的过程进行建模.在智能体的学习过程中,会完成收集外部反馈,改变自身状态,再根据自身状态 ...

  6. Tensroflow练习,包括强化学习、推荐系统、nlp等

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx 代码和数据集  获取: 关注微信公众号 datayx  然后回复  tf  即可获取. AI项 ...

  7. 强化学习用于金融时序问题(Q,DQN,AC)

    前一篇博文所整理的模型中,主要有ARMA.RL.SVM.LSTM方法,本篇主要以强化学习方法来解决相关问题.强化学习是关于Agent与环境之间进行的互动,通过不断与环境状况的交互来进行"学习 ...

  8. 三篇强化学习用于多智能体路径规划的论文

    Multi-Robot Path Planning Method Using Reinforcement Learning 期刊:applied science MDPI 总结:使用VGG进行特征提取 ...

  9. 深度强化学习用于对话生成(论文笔记)

    一.如何定义一个好的对话 尽管SEQ2SEQ模式在对话生成方面取得了成功,但仍出现了两个问题(图1): 通过使用最大似然估计(MLE)目标函数预测给定会话上下文中的下一个对话转角来训练SEQ2SEQ模 ...

最新文章

  1. 有效用例模式阅读笔记三
  2. 在webpack中使用eslint配置(详细教程)-js教程-PHP中文网
  3. 交换机发生网络通信故障问题时该怎么办?
  4. 科技强,必须应用数学强
  5. c++byte数组和文件的相互转换_终于!word、excel、ppt文件相互转换技巧来了!
  6. 总结一下优化算法关系【压缩传感】【图像逆问题】
  7. Wireshark抓包工具使用
  8. CentOS 7 安装OpenOffice并实现WordToPDF(Java调用)
  9. 如何利用大数据技术构建用户画像
  10. 解决办法:eclipse查看安卓8.0及以上设备的LOG
  11. 《数字信号处理》——(一).DTFT、DFT(python实现)
  12. java局域网视频传输,java局域网传输
  13. STM32神舟III号 驱动直流电机学习(四 )
  14. 讯飞输入法pad版x86_讯飞输入法Pad版下载
  15. 【HAVENT原创】Spring Boot + Kafka 消息日志开发
  16. 聊聊Hadoop DistCp的数据切分处理方式
  17. PMI-ACP敏捷项目认证练习题(四)
  18. 【LabVIEW】基于LabVIEW的2048游戏设计
  19. Silvaco TCAD仿真学习Lesson2——Athena仿真
  20. 【计算视觉】理解图像中基本概念:色调、色相、饱和度、对比度、亮度

热门文章

  1. vue结合饿了么_vue高仿饿了么APP(一)
  2. MPEG标准的音频部分
  3. Cadence Allegro快捷键设置教程——随心应手,画图神速!秒变高手
  4. pdf压缩文件怎么压缩最小
  5. UVALive 4126 (LA 4126) Password Suspects AC自动机 + DP + 剪枝dfs
  6. XP能升级Win10吗?XP升级Win10教程
  7. 使用PolySpace进行代码检查
  8. Python脚本 抓取/翻译动漫角色名字的罗马音或外文名(用于搜索图片)
  9. 计算机程序暑假班,贵阳小孩学编程暑假
  10. 23级应届硕士招聘-给北京户口