AI内训讲师叶梓-强化学习与深度强化学习提纲(强化学习讲师培训)
叶梓老师更多教程资料可点击个人主业查看
第一天 强化学习
第一课 强化学习综述
1.强化学习要解决的问题
2.强化学习方法的分类
3.强化学习方法的发展趋势
4.环境搭建实验(Gym,TensorFlow等)
5.Gym环境的基本使用方法
第二课 马尔科夫决策过程
1.基本概念:马尔科夫性、马尔科夫过程、马尔科夫决策过程
2.MDP基本元素:策略、回报、值函数、状态行为值函数
3.贝尔曼方程
4.最优策略
案例:构建机器人找金币和迷宫的环境
第三课 基于模型的动态规划方法
1.动态规划概念介绍
2.策略评估过程介绍
3.策略改进方法介绍
4.策略迭代和值迭代
案例:实现基于模型的强化学习算法
第四课 蒙特卡罗方法
1.蒙特卡罗策略评估
2.蒙特卡罗策略改进
3.基于蒙特卡罗的强化学习
4.同策略和异策略
案例:利用蒙特卡罗方法实现机器人找金币和迷宫
第五课 时序差分方法
1.DP,MC和TD方法比较
2.MC和TD方法偏差与方差平衡
3.同策略TD方法:Sarsa 方法
4.异策略TD方法:Q-learning 方法
案例:Q-learning和Sarsa的实现
第二天 从强化学习到深度强化学习
第一课 基于值函数逼近方法(强化学习)
1.维数灾难与表格型强化学习
2.值函数的参数化表示
3.值函数的估计过程
4.常用的基函数
第二课 基于值函数逼近方法(深度学习与强化学习的结合)
1.简单提一下深度学习
2.深度学习与强化学习的结合
3.DQN 方法介绍
4.DQN变种:Double DQN, Prioritized Replay, Dueling Network
案例:用DQN玩游戏——flappy bird
第三课 策略梯度方法(强化学习)
1.策略梯度方法介绍
2.常见的策略表示
3.常见的减小方差的方法:引入基函数法,修改估计值函数法
案例:利用gym和tensorflow实现小车倒立摆系统等
第四课Alpha Go(深度学习与强化学习的结合)
1.MCTS
2.策略网络与价值网络
3.Alpha Go的完整架构
第五课GAN(深度学习)
1.VAE与基本GAN
2.DCGAN
3.WGAN
案例:生成手写数字的GAN
第三天 深度强化学习进阶
第一课 AC类方法-1
1. PG的问题与AC的思路
2. AC类方法的发展历程
3. Actor-Critic基本原理
第二课 AC类方法-2
1. DPG方法
2. DDPG方法
3. A3C方法
案例:AC类方法的案例
第三课 信赖域系方法-1
1.信赖域系方法背景
2.信赖域系方法发展路线图
3.TRPO方法
案例:TRPO方法的案例
第四课 信赖域系方法-2
1.PPO方法
2.DPPO方法简介
3.ACER方法
案例:PPO方法的案例
第五课 多Agent强化学习
1.矩阵博弈
2.纳什均衡
3.多人随机博弈学习
4.完全合作、完全竞争与混合任务
5.MADDPG
案例:MADDPG的案例等
AI内训讲师叶梓-强化学习与深度强化学习提纲(强化学习讲师培训)相关推荐
- AI讲师人工智能讲师机器学习讲师深度学习讲师叶梓简历(机器学习深度学习强化学习人工智能老师)
上海交通大学计算机专业博士毕业,在校期间的主研方向为数据挖掘.机器学习.AI人工智能.毕业后即进入某大型软件上市公司从事大数据.人工智能等技术相关工作.在大数据应用.人工智能等方面都有着丰富的经验. ...
- 人工智能讲师叶梓人工智能之深度学习在医学影像领域中的应用》医学AI人工智能讲师医疗人工智能人工智能AI医疗讲师
课件为人工智能讲师叶梓人工智能系列课程之一,更多课程,及老师资料可点击 个人主页 助力QQ526346584 人工智能之深度学习在医学影像领域应用技术实战课程介绍 近年来,随着人工智能领域异军突起,深 ...
- 人工智能讲师AI讲师叶梓谈人工智能的应用人工智能项目咨询应用案例-8
接上一篇,系列博文:人工智能讲师叶梓关于人工智能项目的咨询案例,人工智能视觉影像在工业中的应用,为系列博客,更多课程,及老师资料可点击 个人主页 图像的中值滤波 图像中值滤波是对图像连续的一定数目(一 ...
- 10月28日人工智能讲师叶梓为各工科院校老师进行了为期三天的人工智能培训
10月28日人工智能讲师叶梓为各工科院校老师进行了为期三天的人工智能培训,培训过程中人工智能讲师叶梓与各高校老师就人工智能前沿热点进行热烈的讨论. 根据人力资源和社会保障部办公厅<关于印发专业技 ...
- ai讲师人工智能讲师计算机视觉讲师叶梓:计算机视觉领域的自监督学习模型——MAE-14
接上一篇 P31P32 CV大神--何恺明 n 2003 年 5 月,何恺明拿到保送清华的资格,高考获得满分 900 分的成绩,成为当年广东省 9 位满分状元之一. n 本科就读于清华大学,博士毕业于 ...
- 大数据人工智能ai培训师专家讲师叶梓介绍及ChatGPT提纲
叶梓,长期负责城市信息化智能平台的建设工作,牵头多个省级.市级智能化信息系统的建设,主持设计并搭建多个行业省级.市级大数据平台.参与国家级行业人工智能课题研究,牵头市级行业人工智能课题研究. 带领团队 ...
- 人工智能培训老师讲师叶梓:计算机视觉领域的自监督学习模型——MAE-1
计算机视觉领域的自监督学习模型--MAE 主讲: 叶梓 P1-P2 AutoEncoder n 自动编码器是一种无监督的神经网络模型,它可以学习到输入数据的隐含特征,这称为编码 (coding) ...
- 人工智能AI讲师NLP培训讲师叶梓:人工智能之最新NLP自然语言处理技术与实战-23
接上一篇 P50-P51 三个问题 •令 λ = {A,B,π} 为给定HMM的参数,令 σ = O1,...,OT 为观察值序列: •隐马尔可夫模型(HMM)的三个基本问题: •评估问题:对于给定模 ...
- ai讲师人工智能讲师计算机视觉讲师叶梓:计算机视觉领域的自监督学习模型——MAE-15
接上一篇 P32P33 故事还没完-- n2021年12月中旬,Facebook AI Research和约翰霍普金斯大学的研究人员提出了MaskFeat,也是采用「Mask-and-Predict」 ...
最新文章
- JavaScript的数据类型---最全,最详细的数据类型,高级的工程师从数据类型开始
- php随机数字总和固定,php 随机生成固定长度整数、各种服务器请求方法
- Linux make menuconfig查找并快速跳转指定驱动选项
- 开启事物_《原神》全新角色甘雨登场 「浮生孰来」活动祈愿开启_新闻资讯_最新手游时评_原创手游资讯...
- python函数复用_【python学习-4】可复用函数与模块
- java中render用法_如何在React中不在render函数中使用setState
- 2019 6.30学习笔记
- 有房贷的房子怎么卖?
- Advanced Object Creation(JS,翻译MSDN文章)
- 分布式锁没那么难,手把手教你实现 Redis 分布锁!|保姆级教程
- pix4d操作流程_pix4d处理流程
- 软件工程(需求分析)
- 腾讯会议中用PPT放视频,视频没有声音
- Android 改变View的中心点
- 如何设计一个项目的数据库?
- 博图14软件安装顺序_博图v14安装顺序和教程
- 什么SEO内容可以吸引外部链接
- 繁荣国家数学教育,坚持“知识共享”许可原则
- 2021-08-02网关http或tcp收发等极简物联网通用json协议设计
- 易语言 超简单的可视化窗口编程语言