强化学习与深度强化学习提纲(强化学习讲师培训)

第一天 强化学习

 

第一课 强化学习综述

1.强化学习要解决的问题

2.强化学习方法的分类

3.强化学习方法的发展趋势

4.环境搭建实验(Gym,TensorFlow等)

5.Gym环境的基本使用方法

第二课 马尔科夫决策过程

1.基本概念:马尔科夫性、马尔科夫过程、马尔科夫决策过程

2.MDP基本元素:策略、回报、值函数、状态行为值函数

3.贝尔曼方程

4.最优策略

案例:构建机器人找金币和迷宫的环境

第三课 基于模型的动态规划方法

1.动态规划概念介绍

2.策略评估过程介绍

3.策略改进方法介绍

4.策略迭代和值迭代

案例:实现基于模型的强化学习算法

第四课 蒙特卡罗方法

1.蒙特卡罗策略评估

2.蒙特卡罗策略改进

3.基于蒙特卡罗的强化学习

4.同策略和异策略

案例:利用蒙特卡罗方法实现机器人找金币和迷宫

第五课 时序差分方法

1.DP,MC和TD方法比较

2.MC和TD方法偏差与方差平衡

3.同策略TD方法:Sarsa 方法

4.异策略TD方法:Q-learning 方法

案例:Q-learning和Sarsa的实现

第二天 从强化学习到深度强化学习

 

第一课 基于值函数逼近方法(强化学习)

1.维数灾难与表格型强化学习

2.值函数的参数化表示

3.值函数的估计过程

4.常用的基函数

 

第二课 基于值函数逼近方法(深度学习与强化学习的结合)

1.简单提一下深度学习

2.深度学习与强化学习的结合

3.DQN 方法介绍

4.DQN变种:Double DQN, Prioritized Replay, Dueling Network

案例:用DQN玩游戏——flappy bird

第三课 策略梯度方法(强化学习)

1.策略梯度方法介绍

2.常见的策略表示

3.常见的减小方差的方法:引入基函数法,修改估计值函数法

案例:利用gym和tensorflow实现小车倒立摆系统等

第四课Alpha Go(深度学习与强化学习的结合)

1.MCTS

2.策略网络与价值网络

3.Alpha Go的完整架构

第五课GAN(深度学习)

1.VAE与基本GAN

2.DCGAN

3.WGAN

案例:生成手写数字的GAN

第三天 深度强化学习进阶

 

第一课 AC类方法-1

1. PG的问题与AC的思路

2. AC类方法的发展历程

3. Actor-Critic基本原理

 

第二课 AC类方法-2

1. DPG方法

2. DDPG方法

3. A3C方法

案例:AC类方法的案例

 

第三课 信赖域系方法-1

1.信赖域系方法背景

2.信赖域系方法发展路线图

3.TRPO方法

案例:TRPO方法的案例

第四课 信赖域系方法-2

1.PPO方法

2.DPPO方法简介

3.ACER方法

案例:PPO方法的案例

 

第五课 多Agent强化学习

1.矩阵博弈

2.纳什均衡

3.多人随机博弈学习

4.完全合作、完全竞争与混合任务

5.MADDPG

案例:MADDPG的案例等

叶梓老师人工智能培训之强化学习与深度强化学习提纲(强化学习讲师培训)相关推荐

  1. 叶梓老师 人工智能兼职讲师之深度学习《计算机视觉的深度学习实践》

    点击博客个人主页查看叶梓老师的更多详情,个人助理QQ526346584 人工智能的时代,深度学习这个热点是每个程序员必须了解的内容.近年来深度学习研究得到了充分的发展,但系统的课程少之又少,能够理论联 ...

  2. 新一代AI人工智能机器学习研讨会即将在杭州举办,特聘叶梓老师主讲!

    新一代AI人工智能机器学习研讨会即将在杭州举办,特聘叶梓老师为本次研讨会的主讲!本次研讨会,叶梓老师将会就最前沿的人工智能技术与各位与会嘉宾进行探讨. 叶老师最新的人工智能机器学习技术培训提纲如下: ...

  3. 叶梓老师 数据分析与数据挖掘-培训提纲

    点击博客个人主页查看叶梓老师的更多详情 第一天上午:统计分析原理 1.  统计基础 2.  R语言基础知识 3.  R语言数据类型 4.  描述性统计 5.  随机变量与概率密度分布 6.  定性相关 ...

  4. 人工智能讲师AI讲师叶梓谈人工智能的应用人工智能项目咨询应用案例-8

    接上一篇,系列博文:人工智能讲师叶梓关于人工智能项目的咨询案例,人工智能视觉影像在工业中的应用,为系列博客,更多课程,及老师资料可点击 个人主页 图像的中值滤波 图像中值滤波是对图像连续的一定数目(一 ...

  5. ai专家人工智能讲师老师叶梓老师《人工智能概念入门》培训人工智能项目咨询-8

    课件为人工智能讲师叶梓人工智能基础课程之一,接上一篇,更多课程,及老师资料可点击 个人主页 朴素贝叶斯分类奏效的前提 l第一个的前提: lP(X|H)一定得比P(H|X)方便计算! l第二个的前提: ...

  6. 大数据人工智能培训讲师老师:叶梓简介 人工智能讲师ai讲师大数据讲师人工智能老师

    上海交通大学计算机专业博士毕业,在校期间的主研方向为数据挖掘.机器学习.人工智能.毕业后即进入某大型软件上市公司从事大数据.人工智能等技术相关工作,曾先后作为技术经理或总工程师,负责大型信息平台.市级 ...

  7. 人工智能专家讲师培训老师叶梓:人工智能之最新NLP自然语言处理技术与实战-28

    接上一篇 培训合作扣扣526346584 P60-P61 Viterbi算法-示例 • 3. 求第二天( 感觉冷 )的身体状况: 有四种情况,由于第一天的感冒或者健康转换到第二天的感冒或者健康. • ...

  8. ai人工智能培训老师讲师NLP自然语言处理讲师叶梓:人工智能之最新NLP自然语言处理技术与实战-12

    接上一页 个人助理QQ526346584 P27-P28 句法解析 •句法解析是NLP中的关键技术之一,其任务是确定句子的句法结构或者句子中词汇之间的依存关系. 好巴适抄手真的好巴适哦! ü 句法结构 ...

  9. ai人工智能培训老师讲师NLP自然语言处理讲师叶梓:人工智能之最新NLP自然语言处理技术与实战-10

    接上一页 P23-P24 多义字:"由"字的释义 <动>经过.<论语-雍也>:"谁能出不由户?" <动>捱到.<茅屋为 ...

最新文章

  1. 大咖来信|浪潮刘军:AI计算将成为“新基建”核心支撑之一
  2. python3安装pip3-python3及pip3安装
  3. java swing列表数据加监听,【Java Swing公开课|Java监听列表项选择事件怎么用,看完这篇文章你一定就会了】- 环球网校...
  4. 如果给你一个亿,你想去干嘛?各专业的科研狗是这样回答的……
  5. CF1028F. Make Symmetrical
  6. 给后辈的一点建议,分享PDF高清版
  7. ETL异构数据源Datax_datax-web简述_09
  8. 有关Navigation的研究——Silverlight学习笔记[29]
  9. 构建Docker镜像指南,含实战案例
  10. 怎样调整服务器C盘空间
  11. 狭义相对论推导过程中的数学悖论--有没有人能解释下?
  12. word只在第一页插入页眉
  13. 京东评价系统海量数据存储设计
  14. “黑产“识别算法(社区检测,相似度,关联关系)
  15. 【夜读】有些人注定不会失败
  16. 十二条最经典摄影技巧
  17. 【个人吐槽】:你为什么写
  18. 【数据压缩】WAV文件和AVI文件格式分析
  19. 微信如何通过ip访问服务器项目,vue2.0 在微信端如何使用本地IP访问项目
  20. Sqlserver分页查询语句

热门文章

  1. Python修改docx文档格式
  2. 计算机网络实验总结评价教师,实验报告评语大全.docx
  3. 毕业答辩计算机科学与技术问题,计算机科学与技术专业论文答辩范例
  4. 算法分析与基础 第三版 潘彦译
  5. python中point什么意思_在Python中创建Point类
  6. android平板8英寸,荣耀平板5 8英寸版评测:家庭娱乐实力派!
  7. Android TV下LeanbackLauncher的反编译,AS重新打包修改
  8. EReg 1.0: SPSS中的扩展回归分析插件
  9. C++在循环内和循环外定义变量的差异(如何写出高效的for循环)
  10. Largebin Attack原理详解