深度强化学习实验室

官网:http://www.neurondance.com/

论坛http://deeprl.neurondance.com/

编辑:DeepRL

《强化学习与控制》是一门由清华大学智能驾驶课题组李升波教授亲自讲授的强化学习课程,该课程总共包含11讲,以理论基础与算法设计融合的方式介绍了RL的框架体系,从优化角度梳理了直接法与间接法,带模型与免模型等类别,并对典型算法原理和特性进行了分析和总结,是一门兼顾基础入门、进阶提升的强化学习课程。

一、关于课题组

智能驾驶课题组(iDLab, Intelligent Driving Lab)

面向下一代机器学习和自动控制的交叉理论探索,聚焦智能网联汽车和驾驶辅助系统的核心技术研发,进一步提升汽车的智能性、安全性和节能性。

http://www.idlab-tsinghua.com/thulab/labweb/index.html

二、关于主讲老师:李升波教授

李升波,清华大学长聘教授,博导,车辆学院副院长。留学于斯坦福大学,密歇根大学和加州伯克利大学。从事自动驾驶、智能汽车、强化学习、最优控制等研究。发表论文110余篇,引用>8500次,H因子45。入选IEEE高关注度及封面论文3篇,ESI高引10篇(学科前1%),学术会议最佳论文奖8次。获中国汽车工业科技进步特等奖、国家科技进步二等奖、国家技术发明二等奖等。入选国家高层次科技创新领军人才、交通运输行业中青年科技创新领军人才、中国汽车行业优秀青年科技人才奖、首届北京市基金委杰青、清华大学教师学术新人奖等。担任AI国际评测MLPerf自动驾驶咨询委员会委员、IEEE智能交通系统学会的全球理事会委员、IEEE Trans on ITS副主编等。

三、关于《强化学习与控制》课程

目前,人工智能的快速崛起正重塑人类社会的各个领域,有望引导工业文明进入新一轮革命浪潮。以道路交通为例,汽车的智能化变革促使整个行业发生了翻天覆地的变化,包括驾驶辅助、自动驾驶、云控协同等一系列新技术如雨后春笋般涌现,它们在提升地面车辆行驶性能的同时,也为解决交通事故、排放污染、城市拥堵等问题提供了一条可行的途径。

以模仿人类大脑学习机制为原理的强化学习(RL,Reinforcement Learning)正迅速进入人们的视野,它为大规模复杂系统的学习及动态系统的高实时在线控制提供了一套极具前景的解决方案。一个引人注目的成功案例是以Alpha Go为代表的围棋智能:它利用深度强化学习算法实现围棋智能的自我进化,自我超越,打败人类最好的专业棋手。尽管强化学习具有优异的潜在优势,但是该方法的工程应用尚属于起步阶段。

《强化学习与控制》这一门课程包括11节。

第1讲介绍RL概况,包括发展历史、知名学者、典型应用以及主要挑战等。

第2讲介绍RL的基础知识,包括定义概念、自洽条件、最优性原理问题架构等。

第3讲介绍免模型学习的蒙特卡洛法,包括Monte Carlo估计,On-policy/off-policy,重要性采样等。

第4讲介绍免模型学习的时序差分法,包括它衍生的Sarsa,Q-learning,Expected Sarsa等算法。

第5讲介绍带模型学习的动态规划法,包括策略迭代、值迭代、收敛性原理等。

第6讲介绍间接型RL的函数近似方法,包括常用近似函数,值函数近似,策略函数近似以及所衍生的Actor-critic架构等。

第7讲介绍直接型RL的策略梯度法,包括各类Policy Gradient, 以及如何从优化的观点看待RL等。

第8讲介绍深度强化学习,即以神经网络为载体的RL,包括深度化典型挑战、经验性处理技巧等。

第9讲介绍带模型的强化学习,即近似动态规划,包括离散时间系统的ADP,ADP与MPC的关联分析等。

第10讲介绍有限时域的近似动态规划,同时介绍了状态约束的处理手段以及它与可行性之间的关系

第11讲介绍RL的各类拾遗,包括POMDP、鲁棒性、多智能体、元学习、逆强化学习以及训练平台等。

---------------------------------------------------

pdf合集下载地址

https://pan.baidu.com/s/1Z5pWdckre1pQYmgB5IaXHg

提取码: ycqv

或直接登录论坛(阅读原文)下载

http://deeprl.neurondance.com/d/287

---------------------------------------------------

四、部分PPT展示

---------------------------------------------------

所有pdf下载地址

https://pan.baidu.com/s/1Z5pWdckre1pQYmgB5IaXHg

提取码: ycqv

或直接登录论坛(阅读原文)下载

http://deeprl.neurondance.com/

---------------------------------------------------

总结1:周志华 || AI领域如何做研究-写高水平论文

总结2:全网首发最全深度强化学习资料(永更)

总结3:  《强化学习导论》代码/习题答案大全

总结4:30+个必知的《人工智能》会议清单

总结52019年-57篇深度强化学习文章汇总

总结6:   万字总结 || 强化学习之路

总结7:万字总结 || 多智能体强化学习(MARL)大总结

总结8:深度强化学习理论、模型及编码调参技巧

第106篇:奖励机制不合理:内卷,如何解决?

第105篇:FinRL: 一个量化金融自动交易RL库

第104篇:RPG: 通过奖励发现多智能体多样性策略

第103篇:解决MAPPO(Multi-Agent PPO)技巧

第102篇:82篇AAAI2021强化学习论文接收列表

第101篇:OpenAI科学家提出全新强化学习算法

第100篇:Alchemy: 元强化学习(meta-RL)基准环境

第99篇:NeoRL:接近真实世界的离线强化学习基准

第98篇:全面总结(值函数与优势函数)的估计方法

第97篇:MuZero算法过程详细解读

第96篇:  值分布强化学习(Distributional RL)总结

第95篇:如何提高"强化学习算法模型"的泛化能力?

第94篇:多智能体强化学习《星际争霸II》研究

第93篇:MuZero在Atari基准上取得了新SOTA效果

第92篇:谷歌AI掌门人Jeff Dean获冯诺依曼奖

第91篇:详解用TD3算法通关BipedalWalker环境

第90篇:Top-K Off-Policy  RL论文复现

第89篇:腾讯开源分布式多智能TLeague框架

第88篇:分层强化学习(HRL)全面总结

第87篇:165篇CoRL2020 accept论文汇总

第86篇:287篇ICLR2021深度强化学习论文汇总

第85篇:279页总结"基于模型的强化学习方法"

第84篇:阿里强化学习领域研究助理/实习生招聘

第83篇:180篇NIPS2020顶会强化学习论文

第82篇:强化学习需要批归一化(Batch Norm)吗?

第81篇:《综述》多智能体强化学习算法理论研究

第80篇:强化学习《奖励函数设计》详细解读

第79篇: 诺亚方舟开源高性能强化学习库“刑天”

第78篇:强化学习如何tradeoff"探索"和"利用"?

第77篇:深度强化学习工程师/研究员面试指南

第76篇:DAI2020 自动驾驶挑战赛(强化学习)

第75篇:Distributional Soft Actor-Critic算法

第74篇:【中文公益公开课】RLChina2020

第73篇:Tensorflow2.0实现29种深度强化学习算法

第72篇:【万字长文】解决强化学习"稀疏奖励"

第71篇:【公开课】高级强化学习专题

第70篇:DeepMind发布"离线强化学习基准“

第69篇:深度强化学习【Seaborn】绘图方法

第68篇:【DeepMind】多智能体学习231页PPT

第67篇:126篇ICML2020会议"强化学习"论文汇总

第66篇:分布式强化学习框架Acme,并行性加强

第65篇:DQN系列(3): 优先级经验回放(PER)

第64篇:UC Berkeley开源RAD来改进强化学习算法

第63篇:华为诺亚方舟招聘 || 强化学习研究实习生

第62篇:ICLR2020- 106篇深度强化学习顶会论文

第61篇:David Sliver 亲自讲解AlphaGo、Zero

第60篇:滴滴主办强化学习挑战赛:KDD Cup-2020

第59篇:Agent57在所有经典Atari 游戏中吊打人类

第58篇:清华开源「天授」强化学习平台

第57篇:Google发布"强化学习"框架"SEED RL"

第56篇:RL教父Sutton实现强人工智能算法的难易

第55篇:内推 ||  阿里2020年强化学习实习生招聘

第54篇:顶会 || 65篇"IJCAI"深度强化学习论文

第53篇:TRPO/PPO提出者John Schulman谈科研

第52篇:《强化学习》可复现性和稳健性,如何解决?

第51篇:强化学习和最优控制的《十个关键点》

第50篇:微软全球深度强化学习开源项目开放申请

第49篇:DeepMind发布强化学习库 RLax

第48篇:AlphaStar过程详解笔记

第47篇:Exploration-Exploitation难题解决方法

第46篇:DQN系列(2): Double DQN 算法

第45篇:DQN系列(1): Double Q-learning

第44篇:科研界最全工具汇总

第43篇:起死回生|| 如何rebuttal顶会学术论文?

第42篇:深度强化学习入门到精通资料综述

第41篇:顶会征稿 ||  ICAPS2020: DeepRL

第40篇:实习生招聘 || 华为诺亚方舟实验室

第39篇:滴滴实习生|| 深度强化学习方向

第38篇:AAAI-2020 || 52篇深度强化学习论文

第37篇:Call For Papers# IJCNN2020-DeepRL

第36篇:复现"深度强化学习"论文的经验之谈

第35篇:α-Rank算法之DeepMind及Huawei改进

第34篇:从Paper到Coding, DRL挑战34类游戏

第33篇:DeepMind-102页深度强化学习PPT

第32篇:腾讯AI Lab强化学习招聘(正式/实习)

第31篇:强化学习,路在何方?

第30篇:强化学习的三种范例

第29篇:框架ES-MAML:进化策略的元学习方法

第28篇:138页“策略优化”PPT--Pieter Abbeel

第27篇:迁移学习在强化学习中的应用及最新进展

第26篇:深入理解Hindsight Experience Replay

第25篇:10项【深度强化学习】赛事汇总

第24篇:DRL实验中到底需要多少个随机种子?

第23篇:142页"ICML会议"强化学习笔记

第22篇:通过深度强化学习实现通用量子控制

第21篇:《深度强化学习》面试题汇总

第20篇:《深度强化学习》招聘汇总(13家企业)

第19篇:解决反馈稀疏问题之HER原理与代码实现

第18篇:"DeepRacer" —顶级深度强化学习挑战赛

第17篇:AI Paper | 几个实用工具推荐

第16篇:AI领域:如何做优秀研究并写高水平论文?

第15篇:DeepMind开源三大新框架!

第14篇:61篇NIPS2019DeepRL论文及部分解读

第13篇:OpenSpiel(28种DRL环境+24种DRL算法)

第12篇:模块化和快速原型设计Huskarl DRL框架

第11篇:DRL在Unity自行车环境中配置与实践

第10篇:解读72篇DeepMind深度强化学习论文

第9篇:《AutoML》:一份自动化调参的指导

第8篇:ReinforceJS库(动态展示DP、TD、DQN)

第7篇:10年NIPS顶会DRL论文(100多篇)汇总

第6篇:ICML2019-深度强化学习文章汇总

第5篇:深度强化学习在阿里巴巴的技术演进

第4篇:深度强化学习十大原则

第3篇:“超参数”自动化设置方法---DeepHyper

第2篇:深度强化学习的加速方法

第1篇:深入浅出解读"多巴胺(Dopamine)论文"、环境配置和实例分析

【重磅推荐: 强化学习课程】清华大学李升波老师《强化学习与控制》相关推荐

  1. 清华大学车辆学院李升波|强化学习,让自动驾驶汽车自我进化,越开越好

    2022年北京智源大会自动驾驶论坛,清华大学车辆与运载学院李升波教授分享了题为<混合型强化学习及其高级别自动驾驶应用>的主题报告.该报告主要探讨了如何将强化学习应用于自动驾驶汽车的问题,目 ...

  2. 斯坦福CS231n 2017最新课程:李飞飞详解深度学习的框架实现与对比

     斯坦福CS231n 2017最新课程:李飞飞详解深度学习的框架实现与对比 By ZhuZhiboSmith2017年6月19日 13:37 斯坦福大学的课程 CS231n (Convolutio ...

  3. 2009 11月21日李兴华老师JAVA学习技术讲座

    为推动JAVA发展,让广大JAVA爱好者了解掌握JAVA/J2EE体系并确立学习方向,在周六特别为大家准备<JAVA开发者之路>技术讲座. 主讲介绍: 李兴华:MLDN魔乐科技 -- JA ...

  4. 尚硅谷TypeScript教程(李立超老师)学习笔记

    一.TypeScript简介 1.TypeScript是以JavaScript为基础构造的语言,是JavaScript的超集 2.扩展了JavaScript,并添加了类型. 3.TS代码需要通过编译器 ...

  5. 历时3年,清华大学iDLab实验室打造《强化学习和控制》课程及讲义!

    来源:深度强化学习实验室 本文约1000字,建议阅读6分钟 最新版本的前五章已经上传iDLab课题组网站,欢迎大家下载分享. iDLab实验室 The Intelligent Driving Labo ...

  6. 伯克利2019深度学习课程—李沐及其亚马逊同事一起讲述(内附视频链接及PDF下载)

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 伯克利2019深度学习课程是李沐老师大致按照李沐老师的开源新书<动手学深度学习>来安排的(和去年放出的同 ...

  7. 深度学习课程资源整理

    转自:http://blog.coursegraph.com/tag/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86 这里整理一批深度学习 ...

  8. 吴恩达 深度学习课程2018开放 (Stanford CS230)

    欢迎点击参观我的 --> 个人学习网站 Stanford 2018 春季 CS230 (深度学习)课程资料开放,授课老师是吴恩达. 课程介绍 从官网课程介绍,这次课程和去年的课程差别不算太大,仍 ...

  9. 转:深度学习课程及深度学习公开课资源整理

    http://www.52nlp.cn/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E8%AF%BE%E7%A8%8B%E6%B7%B1%E5%BA%A6%E5%AD%A ...

最新文章

  1. 初探莫比乌斯反演及欧拉反演
  2. bigdecimal正确用法_深入理解 BigDecimal 的使用
  3. opencv+python读写视频流
  4. linux查看python pip 安装包列表和安装路径
  5. Spotlight监控工具使用
  6. jQuery-DOM操作之属性、class
  7. C#和NewSQL更配 —— CockroachDB入门
  8. 使用C#和Excel进行报表开发(四)-复制单元格 【转】
  9. cad里面f命令用不了_CAD出现命令无效、失灵等问题?不用慌,两招帮你快速解决...
  10. tiny4412移植tslib库
  11. CSDN上下标输入方法
  12. 精美Java 图书管理系统
  13. word文档如何设置多级标题
  14. 日记侠:如何提高朋友圈活跃度,给你5种实用方法
  15. 反函数的概念及函数性质
  16. 基于python使用CV裁剪图片
  17. Android动态图文混排,Android控件TextView实现静态图与动态GIF图文混排
  18. 计算机硬盘一直正在处理,win7电脑快速退出移动硬盘时一直提示设备正在使用中怎么办?...
  19. 【2017秋季校园招聘笔经面经专题汇总】
  20. 解读 2s-AGCN 代码

热门文章

  1. HaaS AI 应用实践“老板来了”系列之二 :WiFi摄像头人像采集
  2. 为什么很多人辛劳一生,仍然生活在社会底层?
  3. 林仕鼎:大数据需要三类人才
  4. 稳、准、狠:京东开放平台的“速度与激情”
  5. 一键识别行驶证:vue基于百度云智能实现轻松上手
  6. C++语言编写windows服务
  7. 对付手机短信骗子的方法(够恶搞)
  8. Netty LengthFieldBasedFrameDecoder
  9. 基于CNN中文文本分类实战
  10. pymongo 的增删改查