AI内训讲师叶梓-强化学习与深度强化学习提纲（强化学习讲师培训）

叶梓老师更多教程资料可点击个人主业查看

第一天强化学习

第一课强化学习综述

1.强化学习要解决的问题

2.强化学习方法的分类

3.强化学习方法的发展趋势

4.环境搭建实验（Gym，TensorFlow等）

5.Gym环境的基本使用方法

第二课马尔科夫决策过程

1.基本概念：马尔科夫性、马尔科夫过程、马尔科夫决策过程

2.MDP基本元素:策略、回报、值函数、状态行为值函数

3.贝尔曼方程

4.最优策略

案例：构建机器人找金币和迷宫的环境

第三课基于模型的动态规划方法

1.动态规划概念介绍

2.策略评估过程介绍

3.策略改进方法介绍

4.策略迭代和值迭代

案例：实现基于模型的强化学习算法

第四课蒙特卡罗方法

1.蒙特卡罗策略评估

2.蒙特卡罗策略改进

3.基于蒙特卡罗的强化学习

4.同策略和异策略

案例：利用蒙特卡罗方法实现机器人找金币和迷宫

第五课时序差分方法

1.DP，MC和TD方法比较

2.MC和TD方法偏差与方差平衡

3.同策略TD方法：Sarsa 方法

4.异策略TD方法：Q-learning 方法

案例：Q-learning和Sarsa的实现

第二天从强化学习到深度强化学习

第一课基于值函数逼近方法（强化学习）

1.维数灾难与表格型强化学习

2.值函数的参数化表示

3.值函数的估计过程

4.常用的基函数

第二课基于值函数逼近方法（深度学习与强化学习的结合）

1.简单提一下深度学习

2.深度学习与强化学习的结合

3.DQN 方法介绍

4.DQN变种：Double DQN, Prioritized Replay, Dueling Network

案例：用DQN玩游戏——flappy bird

第三课策略梯度方法（强化学习）

1.策略梯度方法介绍

2.常见的策略表示

3.常见的减小方差的方法:引入基函数法，修改估计值函数法

案例：利用gym和tensorflow实现小车倒立摆系统等

第四课Alpha Go（深度学习与强化学习的结合）

1.MCTS

2.策略网络与价值网络

3.Alpha Go的完整架构

第五课GAN（深度学习）

1.VAE与基本GAN

2.DCGAN

3.WGAN

案例：生成手写数字的GAN

第三天深度强化学习进阶

第一课 AC类方法-1

1. PG的问题与AC的思路

2. AC类方法的发展历程

3. Actor-Critic基本原理

第二课 AC类方法-2

1. DPG方法

2. DDPG方法

3. A3C方法

案例：AC类方法的案例

第三课信赖域系方法-1

1.信赖域系方法背景

2.信赖域系方法发展路线图

3.TRPO方法

案例：TRPO方法的案例

第四课信赖域系方法-2

1.PPO方法

2.DPPO方法简介

3.ACER方法

案例：PPO方法的案例

第五课多Agent强化学习

1.矩阵博弈

2.纳什均衡

3.多人随机博弈学习

4.完全合作、完全竞争与混合任务

5.MADDPG

案例：MADDPG的案例等

AI内训讲师叶梓-强化学习与深度强化学习提纲（强化学习讲师培训）相关推荐

AI讲师人工智能讲师机器学习讲师深度学习讲师叶梓简历（机器学习深度学习强化学习人工智能老师）
上海交通大学计算机专业博士毕业,在校期间的主研方向为数据挖掘.机器学习.AI人工智能.毕业后即进入某大型软件上市公司从事大数据.人工智能等技术相关工作.在大数据应用.人工智能等方面都有着丰富的经验. ...
人工智能讲师叶梓人工智能之深度学习在医学影像领域中的应用》医学AI人工智能讲师医疗人工智能人工智能AI医疗讲师
课件为人工智能讲师叶梓人工智能系列课程之一,更多课程,及老师资料可点击个人主页助力QQ526346584 人工智能之深度学习在医学影像领域应用技术实战课程介绍近年来,随着人工智能领域异军突起,深 ...
人工智能讲师AI讲师叶梓谈人工智能的应用人工智能项目咨询应用案例-8
接上一篇,系列博文:人工智能讲师叶梓关于人工智能项目的咨询案例,人工智能视觉影像在工业中的应用,为系列博客,更多课程,及老师资料可点击个人主页图像的中值滤波图像中值滤波是对图像连续的一定数目(一 ...
10月28日人工智能讲师叶梓为各工科院校老师进行了为期三天的人工智能培训
10月28日人工智能讲师叶梓为各工科院校老师进行了为期三天的人工智能培训,培训过程中人工智能讲师叶梓与各高校老师就人工智能前沿热点进行热烈的讨论. 根据人力资源和社会保障部办公厅<关于印发专业技 ...
ai讲师人工智能讲师计算机视觉讲师叶梓：计算机视觉领域的自监督学习模型——MAE-14
接上一篇 P31P32 CV大神--何恺明 n 2003 年 5 月,何恺明拿到保送清华的资格,高考获得满分 900 分的成绩,成为当年广东省 9 位满分状元之一. n 本科就读于清华大学,博士毕业于 ...
大数据人工智能ai培训师专家讲师叶梓介绍及ChatGPT提纲
叶梓,长期负责城市信息化智能平台的建设工作,牵头多个省级.市级智能化信息系统的建设,主持设计并搭建多个行业省级.市级大数据平台.参与国家级行业人工智能课题研究,牵头市级行业人工智能课题研究. 带领团队 ...
人工智能培训老师讲师叶梓：计算机视觉领域的自监督学习模型——MAE-1
计算机视觉领域的自监督学习模型--MAE 主讲: 叶梓 P1-P2 AutoEncoder n 自动编码器是一种无监督的神经网络模型,它可以学习到输入数据的隐含特征,这称为编码 (coding) ...
人工智能AI讲师NLP培训讲师叶梓：人工智能之最新NLP自然语言处理技术与实战-23
接上一篇 P50-P51 三个问题 •令 λ = {A,B,π} 为给定HMM的参数,令 σ = O1,...,OT 为观察值序列: •隐马尔可夫模型(HMM)的三个基本问题: •评估问题:对于给定模 ...
ai讲师人工智能讲师计算机视觉讲师叶梓：计算机视觉领域的自监督学习模型——MAE-15
接上一篇 P32P33 故事还没完-- n2021年12月中旬,Facebook AI Research和约翰霍普金斯大学的研究人员提出了MaskFeat,也是采用「Mask-and-Predict」 ...

AI内训讲师叶梓-强化学习与深度强化学习提纲（强化学习讲师培训）

AI内训讲师叶梓-强化学习与深度强化学习提纲（强化学习讲师培训）相关推荐

最新文章

热门文章