强化学习入门教程(附学习大纲)
零基础,想要入门或从事强化学习研究的同学有福了!
CSDN学院特邀资深讲师为大家分享《强化学习深入浅出完全教程》从零基础开始入门强化学习,在教学的过程中,配合 具体案例、代码演示 ,
让大家可以 一目了然,快速上手 。
主讲老师
郭宪 南开大学计算机与控制工程学院博士后,AI 教研室团队成员
2009年毕业于华中科技大学机械设计制造及自动化专业,同年保送到中国科学院沈阳自动化研究所进行硕博连读,主攻机器人动力学建模与控制,于2016年1月获得工学博士学位,期间在国内外知名杂志和会议发表论文数10篇。2016年以来, 郭博士主攻方向为机器人智能感知和智能决策,目前主持两项国家级课题,内容涉及深度学习,深度强化学习等智能算法在机器人领域中的应用。
课程简介
深入浅出地介绍强化学习的概念,算法发展历史,分类,及发展趋势。
在教学的过程中,配合具体案例、代码演示,让学员可以一目了然,快速上手。
学习收益
通过本课程的学习,学员将会收获:
1. 帮助学员系统性的掌握强化学习知识,并运用到具体工作中。
2. 实践与理论结合,培养学员在强化学习领域深入思考及实践能力
开课时间
2月6日起,每周二、四20:00 - 22:00在线直播
直播后提供录制回放视频,可在线反复观看,有效期2年
课程大纲
第一课: 强化学习概述
1. 强化学习要解决的问题
2. 强化学习的发展历史
3. 强化学习方法的分类
4. 强化学习方法的发展趋势
第二课: 马尔科夫决策过程
1. 基本概念,马尔科夫性、马尔科夫过程、马尔科夫决策过程
2. MDP基本元素:策略、回报、值函数、状态行为值函数
3. 贝尔曼方程、最优策略。
4. 强化学习的数学形式化
5. Python介绍,及简单的代码演示。
第三课: 基于模型的动态规划方法
1. 动态规划概念介绍
2. 策略评估过程介绍
3. 策略改进方法介绍
4. 策略迭代和值迭代
5. 值迭代与最优控制介绍
6. 基于 python 的动态规划方法演示
第四课: 蒙特卡罗方法
1. 蒙特卡罗策略评估方法
2. 蒙特卡罗策略改进方法
3. 基于蒙特卡罗的强化学习方法
4. 同策略和异策略强化学习
5. 重要性采样
6. 基于 python 的蒙特卡罗强化学习方法演示
第五课: 时间差分方法
1. DP,MC 和 TD 方法比较
2. MC 和 TD 方法偏差与方差平衡
3. 同策略 TD 方法:Sarsa 方法
4. 异策略 TD 方法:Qlearning 方法
5. N 步预测及 的前向和后向观点
6. 基于 python 的 TD 方法实现
第六课: Gym环境构建及强化学习算 法实现
1. Gym环境的安装和测试
2. Gym环境创建的关键函数讲解
3. 创建自己的Gym环境讲解
4. 基于自己创建的Gym环境实现 MC,TD等算法
第七课: 值函数逼近方法
1. 值函数的参数化表示
2. 值函数的估计过程
3. 值函数的优化方法,随机梯度下降和半梯度下降法
4. 值函数的线性逼近
第八课: DQN方法及其变种
1. DQN 方法介绍
2. DQN 变种 Double DQN, Prioritized Replay, Dueling Network
第九课: 策略梯度方法
1. 策略梯度方法介绍
2. 似然率策略梯度推导及重要性采样视角推导
3. 似然率策略梯度的直观理解
4. 常见的策略表示
5. 常见的减小方差的方法:引入基函数法,修改估计值函数法
加入课程群
点击“阅读全文”立即查看课程详情
强化学习入门教程(附学习大纲)相关推荐
- 深度学习入门教程UFLDL学习实验笔记三:主成分分析PCA与白化whitening
深度学习入门教程UFLDL学习实验笔记三:主成分分析PCA与白化whitening 主成分分析与白化是在做深度学习训练时最常见的两种预处理的方法,主成分分析是一种我们用的很多的降维的一种手段,通 ...
- 深度学习入门教程UFLDL学习实验笔记一:稀疏自编码器
深度学习入门教程UFLDL学习实验笔记一:稀疏自编码器 UFLDL即(unsupervised feature learning & deep learning).这是斯坦福网站上的一篇 ...
- ps如何修改图片大小尺寸_PS新手入门教程:学习如何修改画布的大小
PS新手入门教程:学习如何修改画布的大小.在photoshop中,可以把画布理解为一张白纸,而我们要处理的图像可以理解为这张白纸表面上的画.我们修改画布的大小时,图像并不会随着画布的大小而整体变大或缩 ...
- caffe linux 教程,Caffe 深度学习入门教程 - 安装配置Ubuntu14.04+CUDA7.5+Caffe+cuDNN_Linux教程_Linux公社-Linux系统门户网站...
安装配置Ubuntu14.04+CUDA7.5+Caffe+cuDNN 一.版本 Linux系统:Ubuntu 14.04 (64位) 显卡:Nvidia K20c cuda: cuda_7.5.18 ...
- jsx 调用php,JavaScript_JavaScript的React框架中的JSX语法学习入门教程,什么是JSX?
在用React写组件的 - phpStudy...
JavaScript的React框架中的JSX语法学习入门教程 什么是JSX? 在用React写组件的时候,通常会用到JSX语法,粗看上去,像是在Javascript代码里直接写起了XML标签,实质上 ...
- 转g代码教程_图深度学习入门教程(九)——图滤波神经网络模型
本教程是一个系列免费教程,争取每月更新2到4篇.(由于精力有限,近期停止了一段时间,在此向大家道个歉). 主要是基于图深度学习的入门内容.讲述最基本的基础知识,其中包括深度学习.数学.图神经网络等相关 ...
- MongoDB 入门教程实战学习笔记-31-mongo 聚合查询管道 Aggregation Pipieline
aggregation 聚合操作处理数据记录并返回计算结果. 聚合操作将多个文档中的值组合在一起, 并且可以对分组数据执行各种操作以返回单个结果. mongodb 提供了三种执行聚合的方法: 聚合管道 ...
- Michael Nielsen的神经网络与深度学习入门教程
Michael Nielsen的神经网络与深度学习入门教程 作者:Michael Nielsen 这是我个人以为目前最好的神经网络与机器学习入门资料.作者以MNIST为例详细介绍了神经网络中的基本 ...
- ps怎么一下选中多个图层_ps怎么一下选中多个图层_PS入门教程:学习怎么新建图层,创意图层的相关技巧知识......
PS入门教程:学习怎么新建图层,创意图层的相关技巧知识.下面我们就一起来学习一下吧,单击"图层"面板底部的"创建新图层"按钮或者按ps新建图层快捷键:Ctrl+ ...
- 深度学习入门之PyTorch学习笔记:卷积神经网络
深度学习入门之PyTorch学习笔记 绪论 1 深度学习介绍 2 深度学习框架 3 多层全连接网络 4 卷积神经网络 4.1 主要任务及起源 4.2 卷积神经网络的原理和结构 4.2.1 卷积层 1. ...
最新文章
- javascript遍历DOM结构和对象结构
- 插值MATLAB实现(牛顿差商、插值误差、龙格现象、切比雪夫插值)
- java import自定义类_Java实现的自定义类加载器示例
- mysql导入表格,txt操作(以及常见问题解决方法)
- node随笔-数据流Stream
- Django(part22)--创建数据对象
- 冯提莫在B站的受欢迎度
- 台达伺服电机选型手册_机械加工工艺师手册_打包下载
- python tcp服务器_python-tcp服务器为多个客户端服务
- Zend AMF 相关文章
- python基础系列教程——python基础语法全解
- puppet详解(九)——puppet项目实战
- UT(XCAP) 参数说明
- Matlab 和 Simulink 教程学习基础入门
- 计算机上无开根号功能 怎么计算机,攻略:2019年中级会计师无纸化考试 计算器怎么开根号?...
- ZeroC ICE之Hello World java客户端
- Gdevops峰会北京站归来
- 【Gym 100015A】Another Rock-Paper-Scissors Problem
- COLLATE LOCALIZED ASC 按本地语言进行排序
- HTC 8X电信版连接WIN7电脑的真正解决办法