1、 论文名称:Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a First-person Simulated 3D Environment.
论文链接:https://www.aminer.cn/pub/5f9bd99491e011dcf482d815?f=cs

2、 论文名称:BACKDOORL - Backdoor Attack against Competitive Reinforcement Learning.
论文链接: https://www.aminer.cn/pub/60912d2191e01105f877fba7?f=cs

3、 论文名称:Boosting Offline Reinforcement Learning with Residual Generative Modeling.
论文链接:https://www.aminer.cn/pub/60d3d23e91e0112ca5d1856e?f=cs

4、 论文名称:Mean Field Games Flock! The Reinforcement Learning Way.
论文链接:https://www.aminer.cn/pub/60a3bb7b91e01115219ffbd4?f=cs

5、论文名称:Ordering-Based Causal Discovery with Reinforcement Learning.
论文链接: https://www.aminer.cn/pub/6051c3aa9e795eb49a3cb228?f=cs

6论文名称:Efficient PAC Reinforcement Learning in Regular Decision Processes.
论文链接:https://www.aminer.cn/pub/60a2447991e0115ec77b9d24?f=cs

7论文名称:Average-Reward Reinforcement Learning with Trust Region Methods.
论文链接: https://www.aminer.cn/pub/60c1a40391e0112cf43c2176?f=cs

8论文名称:Data-Efficient Reinforcement Learning for Malaria Control.
论文链接: https://www.aminer.cn/pub/60da8fc20abde95dc965f767?f=cs

9论文名称:Reinforcement Learning for Route Optimization with Robustness Guarantees.
论文链接: https://www.aminer.cn/pub/60da8fc20abde95dc965f74a?f=cs

10论文名称:Dynamic Lane Traffic Signal Control with Group Attention and Multi-Timescale Reinforcement Learning.
论文链接: https://www.aminer.cn/pub/60da8fc20abde95dc965f7b3?f=cs

11论文名称:Verifying Reinforcement Learning up to Infinity.
论文链接: https://www.aminer.cn/pub/60da8fc20abde95dc965f8ba?f=cs

12论文名称:Non-decreasing Quantile Function Network with Efficient Exploration for Distributional Reinforcement Learning.
论文链接: https://www.aminer.cn/pub/60a23f8791e0115ec77b9ccc?f=cs

13论文名称:Multi-Objective Reinforcement Learning for Designing Ethical Environments.
论文链接: https://www.aminer.cn/pub/60da8fc20abde95dc965f79e?f=cs

强化学习的概念:
1、policy
策略决定了agent在特定时间的行为,将当前环境的状态state映射为行动action,对应于心理学中所谓的一套刺激-反应规则。

2、reward
每一步动作,环境都会给予agent一个奖励reward,agent唯一的目标是最大化长期获得的总奖励。奖励的大小反应了事件的好坏。奖励信号是改变策略的主要依据,如果策略选择的行动是低回报的,那么在将来,可能会更改策略来选择其他的行动。

3、value function
reward只给出了在某个状态下的即时奖励,而价值函数给出的是长期的奖励。价值函数表示的是当前的奖励和后续奖励累计的总和。

4、model
模仿环境的行为,如给定状态和行为,模型可以预测下一个状态和下一个奖励。在现实中,model可能存在,也有可能不存在。在强化学习中, model存在时称为基于模型的学习model-based,不存在时称为无模型学习model-free。

IJCAI2021会议已于2021年11月7日到2021年11月9日在中国成都举召开,目前会议的论文都已经放出, AMiner对会议论文进行整理,查看全部论文:https://www.aminer.cn/conf/ijcai2021?f=cs

AMiner是一个科技情报分析与挖掘平台,利用AI为用户高效获取和理解科研情报,拥有推荐引擎、搜索引擎、关注订阅和内容运营等多种分发方式,内容囊括论文、学者、专利、报告、会议、专题集等多种形式,涵盖计算机科学、医学、通信、地学、物理等40个学科。
不用再一个人在茫茫网络中找论文了,找论文,就上AMiner。
AMiner:https://www.aminer.cn/

IJCAI2021强化学习相关论文集合推荐相关推荐

  1. 强化学习相关论文阅读笔记之稀疏奖励解决方法

    注:该系列文章为强化学习相关论文的阅读笔记,欢迎指正! 论文题目:<深度强化学习中稀疏奖励问题研究综述> 文章目录 1. 论文介绍 2. 论文结构 3. 研究背景 3.1 解决稀疏奖励的必 ...

  2. 多智能体强化学习——相关论文

    多智能体深度强化学习研究综述 作者:孙 彧,曹 雷,陈希亮,徐志雄,赖 俊 摘 要:多智能体深度强化学习是机器学习领域的一个新兴的研究热点和应用方向,涵盖众多算法.规则.框架,并广泛应用于自动驾驶.能 ...

  3. ICCV2021 语义分割相关论文集合推荐

    1. 论文名称:Re-distributing Biased Pseudo Labels for Semi-supervised Semantic Segmentation: A Baseline I ...

  4. 纯干货-5Deep Reinforcement Learning深度强化学习_论文大集合

    本文罗列了最近放出来的关于深度强化学习(Deep Reinforcement Learning,DRL)的一些论文.文章采用人工定义的方式来进行组织,按照时间的先后进行排序,越新的论文,排在越前面.希 ...

  5. 【干货】AI顶会NeurlPS-2019强化学习方向论文速递(附链接):Github持续更新中...

    点击上方蓝色字体,关注:决策智能与机器学习,每天学点AI干货 前言 AI自媒体深度强化学习实验室对NeurIPS(前称NIPS)2019年深度强化学习方向的论文做了较为全面的整理和解读,并发布于Git ...

  6. 你该知道的深度强化学习相关知识

    如今,机器学习(Machine Learning,ML)和人工智能(Artificial Intelligence,AI)的相关算法越来越深度地融合到了我们的社会与生活中,并且在金融科技.医疗保健.以 ...

  7. 【论文相关】强化学习:提前看287篇ICLR-2021 深度强化学习领域论文得分汇总列表...

    深度强化学习实验室 来源:ICLR2021 编辑:DeepRL [1]. What Matters for On-Policy Deep Actor-Critic Methods? A Large-S ...

  8. 必看!52篇深度强化学习收录论文汇总 | AAAI 2020

    所有参与投票的 CSDN 用户都参加抽奖活动 群内公布奖项,还有更多福利赠送 来源 | 深度强化学习实验室(ID:Deep-RL) 作者 | DeepRL AAAI 2020 共收到的有效论文投稿超过 ...

  9. 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning

    A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述 作者: Kai Arulkumaran, Marc Peter Deisenroth ...

  10. 计算机视觉领域多任务学习相关论文、数据集、网络结构等资源整理分享

    MTL 是机器学习中一个很有前景的领域,其目标是利用多个学习任务中所包含的有用信息来帮助为每个任务学习得到更为准确的学习器.我们假设所有任务(至少其中一部分任务)是相关的,在此基础上,我们在实验和理论 ...

最新文章

  1. 微信小程序发红包功能实现,附效果图加讲解。
  2. 隔空测量电压:电场强度测试仪-FMX-004
  3. 为什么恋舞显示连接服务器失败,恋舞模式全攻略与技巧
  4. 3dmax镜像后模型线条乱了_3dMax入门教程来啦!小白赶紧收藏!
  5. Linux 删除权限 umask,linux中的umask控制文件或目录的默认权限
  6. 用elemet-ui组件实现弹窗里的树形结构和拖拽功能
  7. python父亲节礼物_父亲节程序员硬核示爱:你能看懂几条
  8. vue 多页面应用例子_【微服务】137:Vue之生命周期钩子
  9. java oracle 触发器_Oracle 触发器
  10. java double 存储_可以存储在double中的最大整数
  11. IOCP中多次投递WSASend
  12. MySQL 千万级 数据库或大表优化
  13. 在Nutz中给Druid配置数据库加密
  14. 怎样把音频文件转换成mp3格式?
  15. 如何在Word2010中查找指定文字
  16. 佳能2900打印机与win10不兼容_佳能LBP2900 64位驱动下载|佳能LBP2900打印机64位驱动支持Win10/Win7 下载_当游网...
  17. Greenplum 分布键 distribute hash分布和随机分布
  18. 我的世界(9)-服务器地图创建、管理(Multiverse插件)
  19. 3D打印切片软件cura的使用方法
  20. 【数字电路抢救】3 逻辑函数的卡诺图化简

热门文章

  1. logstash 导入数据,查看每秒导入的数据量及已导入数量和已导入时间
  2. stm32cubemx hal学习记录:SPI W25Q64
  3. 根据关键词采集文章(按关键词采集数据)
  4. java 解析GZIP 和 Deflate 网页源文件
  5. 30天自制操作系统——第三天
  6. python-多态_new魔法方法_单态模式_连贯操作
  7. The application server could not be contacted
  8. 「深度」视觉的层次化处理过时了吗?
  9. mysql打字竖线_如何打出竖线,教你怎样键盘打出竖线?
  10. OSG开发笔记(二十五):OSG漫游之CS移动、碰撞检测与跳跃